首页 简介 服务 声明 投稿 推广
首页 微商 货源 代理 营销 广告
鞋服 箱包 美妆 减肥 个护 珠宝 饰品 母婴 食品 烟酒 保健 餐饮 家电 数码 建材 家居 橱具 金融 培训 环保

互联网和金融,在数据挖掘上究竟存在什么样的区别

发布时间:2023-10-02 12:05:15

来源:微商品牌网  作者:佚名

1. 数据挖掘的层次

我一直想整理一下自己对不同层次的数据挖掘的理解。 这也是这两年和很多金融领域、互联网做数据相关工作的朋友的聊天和交流的总结。 大致可以分为四类。

(1)纯数据处理

专注于变量处理和预处理,从源系统或数据仓库中提取、处理、导出相关数据,生成各种业务表。 然后以客户号为主键,对这些业务表进行整合汇总,最后就可以拉出一张大宽表。 这张宽大的桌子堪称“顾客画像”。 也就是说,有关客户的许多变量和特征的集合。

现阶段主要的数据处理工具是SQL和SAS库。

(二)傻瓜式挖矿工具

比较典型的是SAS EM,它嵌入了很多比较传统和成熟的算法、模块和节点(如逻辑回归、决策树、SVM、神经网络、KNN、聚类等)。 通过鼠标拖拽处理式节点,基本可以实现你的数据挖掘需求。

傻瓜式操作的优点是使得数据挖掘非常快速且相对简单。 然而,有一些缺点使得这个挖矿过程有点单调和无趣。 没有办法批量计算模型,也没有办法开发一些个性化的算法和应用。 当你使用比较熟练,想要进一步完善的时候,建议放弃这两个。

(3)更自由的挖掘工具

比较典型的有R语言和。 这两种挖掘工具都是开源的,前者由统计学家开发,后者由计算机科学家开发。

一方面,有很多成熟、前沿的算法包可以调用。 另一方面,你也可以根据自己的需要对现有的算法包进行修改和调整,以适应自己的分析需求,更加灵活。 此外,它在处理文本、非结构化数据、社交网络等方面也有比较强大的功能。

(四)算法拆解及自主开发

一般我会用C、C++自己重写算法代码。 例如,通过自己的代码实现逻辑回归运算流程。 您甚至可以根据自己的业务需求和数据特点改变一些假设和条件,以提高模型运行的拟合效果。 特别是在生产系统上,用C编写的代码运行速度更快,更容易部署,并且可以满足实时计算需求。

一般来说,从互联网招聘和技能需求的角度来看,JD一般需要前三种类型。 此类职位将被称为“建模分析师”。 但如果加上最后一项,这样的职位可能会更名为“算法工程师”。

2.对款式的理解:传统与时尚

据了解,该模型应包括两种类型。 一类是传统的、比较成熟的模式,另一类是比较时尚、有趣的模式。 对于后者银行数据挖掘,大家会表现出更多的兴趣,这一般代表着新技术、新方法、新理念。

(1)传统模式

传统模型主要解决分类(如决策树、神经网络、逻辑回归等)、预测(如回归分析、时间序列等)、聚类(谱系学、密度聚类等)、关联(无序关联等)和有序相关)这四类问题。 这些都是比较传统和经典的。

(二)时尚有趣的款式

比较有趣、前沿的模型大概包括以下几种,即社交网络分析、文本分析、基于位置的服务(-Based,LBS)、数据可视化等。

它们更时尚的可能原因是它们使用了相对较新和前沿的分析技术(社交网络、文本分析),非常接近实际应用(LBS),或者可以带来更好的客户体验(数据可视化)。

银行数据挖掘的数据_挖掘银行数据的意义_银行数据挖掘

(1)社交网络的应用

传统模型将客户视为单个个体,忽略客户之间的关系,根据客户特征构建模型。 社交网络以群体为基础,重点研究客户之间的关系。 通过网络、中心性、连接强度和密度,得到了一些非常有趣的结果。 典型应用包括关键客户识别、新产品渗透和扩散、微博传播、风险传染、保险或信用卡网络团伙诈骗、基于社交网络的推荐引擎开发等。

(2)文本挖掘的应用

文本作为非结构化数据,难以处理和分析,包括如何切词、如何判断一词多义、如何判断词性、如何判断情绪的强度等。 典型应用包括搜索引擎智能匹配、通过投诉文本判断客户情绪、通过舆情监控品牌声誉、通过诉讼相关文本判断企业经营风险、通过网络爬虫抓取产品评论、词云展示等。

文字和湿人。 关于文本分析,我最近在朋友圈分享了一篇有趣的文章,声称它可以让你瞬间变成一个湿人。 原理很简单,就是先把《全宋词》分词,然后统计出现频率最高的前100个词。 然后你可以随机组成6个数字(1-100),这样你就可以拼凑出两首诗。 例如,随机写出两组数字,(2,37,66)和(57,88,33),对应的单词是(东风,无人,黄花)和(憔悴,今晚,风月)。 由“东风无人黄花落,今夜风月明”两句诗组成。 确实是这样,有兴趣的话可以玩一下。

(3)LBS应用

也就是基于位置的服务,也就是如何将服务与用户的地理位置结合起来。 目前的APP应用如果不能与地理位置很好的结合,往往很难有强大的生命力。 典型的APP包括大众点评(餐饮位置)、百度地图(位置和路线)、滴滴打车、微信位置分享、时光网(电影院位置)等服务。 此外,银行其实也在研究如何将线上客户推送到离自己最近的网点,完成完美的O2O连接,从而带来更好的客户体验。

(4)视觉应用

一些基于地图的可视化分析比较流行,如春节人口迁徙图、微信活跃图、人流热力图、拥堵数据可视化、社交网络扩散可视化等。

如果你想让你的分析和挖掘更加引人注目,请尽量围绕以上四个方面进行。

3.互联网与金融数据挖掘的区别

经过两年的博士后,我对银行领域的数据挖掘有了一些基本的了解,但面对浩瀚的数据领域,我只能算一个初学者。 很多时候,我们很好奇数据挖掘在互联网领域是什么样子的。

很早之前,我在知乎上问过一个问题,“金融领域的数据挖掘和互联网的数据挖掘有什么区别和区别?” 这个问题已经挂了好几个月了,虽然已经有了一些答案,但还没有得到我想要的答案。

既然没人能提供你想要的答案,我就根据自己的理解、一些场合的遭遇、以及和一些互联网数据朋友的接触,尝试总结和解答。 应该有以下几个方面的差异。

(1)“分析”与“算法”

在互联网中,“分析”和“算法”是非常分离的,对应着“数据分析师”和“算法工程师”两个角色。 前者更侧重于数据的提取、处理、处理,使用成熟的算法包,开发模型,探索数据中的模式和规律。 后者更多的是自己编写算法代码,使用C或者部署到生产系统中进行实时计算和应用。

在银行领域,基本上只能看到第一类角色。 数据基本上来自于仓库系统,然后使用SQL、SAS、R进行提取、处理、建模和分析。

(2) 数据类型

数据类型主要包括“结构化”和“非结构化”数据。 前者是传统的二维表结构。 每行一条记录,每列一个变量。 后者包括文字、图像、音频、视频等。

银行数据挖掘_银行数据挖掘的数据_挖掘银行数据的意义

银行中的数据大部分是结构化数据,也有少量非结构化数据(投诉文本、贷款审批文本等)。 业务部门对非结构化数据的分析需求较少。 因此,在非结构化数据的分析和建模方面稍显不足。

互联网多是网络日志数据,主要是文本等非结构化数据,然后利用一定的工具将非结构化数据转化为结构化数据,进行进一步的处理和分析。

(3) 工具、存储和架构

互联网基本上是免费的,所以经常选择开源工具,比如MySql、R等,往往是基于分布式的数据采集、处理、存储和分析。

商业银行一般都是基于成熟的数据仓库,比如TD,以及一些成熟的数据挖掘工具,SAS EG和EM。

(四)应用场景

在应用场景方面,两者也存在非常大的差异。

(1)金融领域

金融领域和不同子行业(如银行、证券)的数据挖掘也存在差异。

银行领域的统计建模。 银行的数据挖掘更侧重于统计建模,数据分析对象主要是横截面数据,一般包括客户情报(CI)、运营情报(OI)和风险情报(RI)。 开发的模型以离线为主,少数模型如反欺诈、应用评分等实时性要求较高。

证券领域的定量分析。 证券行业的挖掘工作更注重定量分析,分析对象更多是时间序列数据,旨在从市场指数、波动特征、历史数据中发现趋势和机会,进行短期套利操作。 定量分析的实时性要求也比较高。 可能是离线计算模型,但交易系统部署后,会实时计算,捕捉交易事件和交易机会。

(2)互联网

互联网实时计算。 互联网应用场景银行数据挖掘,如推荐引擎、搜索引擎、广告优化、文本挖掘(NLP)、反欺诈分析等,往往需要在生产系统中部署模型,对实时响应要求较高,保证更好的客户体验经验。 。

4、数据挖掘在金融领域的典型应用

人们经常问数据挖掘在银行到底做了什么。 我经常思考如何站在对方的角度来回答这个问题。 举一些常见的例子来说明。

(1)信用评分

申请评分。 当您申请信用卡、消费贷款或商业贷款时,银行会批准吗?会发放多少金额? 这个判断很可能是应用评分模型计算的结果。 利用模型计算您的还款能力和还款意愿,综合评估贷款金额和利率水平。

行为评分。 当您使用信用卡一段时间后,银行会根据您的信用卡刷卡行为和还款记录,采用行为评分模型来决定是否为您调整固定限额。

(2)个性化产品推荐

很多时候,您可能会收到银行发来的短信,或者接到银行代理的外拨电话,例如向您推荐某种金融产品。 这背后,很可能是产品响应模型运行的结果。 银行会使用该模型来计算您购买某种金融产品的概率。 如果概率比价格高,它就会把这个金融产品推给你。

另外,很多时候,银行会针对不同的客户进行个性化的推荐不同的产品,这很可能是产品相关性分析模型运算的结果。

(3)个性化广告展示

当您登录商业银行网站时,通常会显示一个广告和多个广告。 很多时候,不同的客户登录网站时,会接触到不同的广告,即个性化的广告推送。 一般来说,后台经过计算后,会确定您对哪些广告和产品感兴趣,最终推送您最感兴趣的3-5个产品,可以有效吸引您的注意力,促进点击、转化和交易。

【编辑精选】

数据挖掘工作搜索 | 想进BAT? 先试试这些问题吧! 秒懂数据统计、数据挖掘、大数据、OLAP之间的区别。 数据挖掘为何如此难成功?数据挖掘在再营销中的应用:日志、报警数据挖掘经验谈重要信息丨互联网数据挖掘入门

本站对作者上传的所有内容将尽可能审核来源及出处,但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知,本站将及时予以修改或删除。

返回首页
相关新闻
内容声明: 品牌世界网为第三方加盟信息平台及互联网信息服务提供者, 展示的信息内容可能存在所发布的信息未获得品牌所有人授权的情形、 企业不开展加盟业务。本平台虽严把审核关,但无法完全避免差错或疏漏。 本平台特此声明对免费注册用户发布信息的真实性、准确性不承担任何法律责任。
电脑版 广告说明 联系我们