大数据在互联网金融风控中的应用研究(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇大数据在互联网金融风控中的应用研究范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

【摘要】本文首先针对大数据在互联网金融中的应用提出了几个创新的方向，然后介绍了在互联网金融的大环境下风险控制的原则和核心方法，并重点分析了大数据在这些规则下数据积累、加工和应用的场景，最后根据应用的现状提出了需要注意的问题和后续的展望。

【关键词】大数据;互联网金融;风险控制

1.引言

互联网金融是指以依托于支付、云计算、社交网络以及搜索引擎等互联网工具，实现资金融通、支付和信息中介等业务的一种新兴金融。互联网金融不是互联网和金融业的简单结合，而是在实现安全、移动等网络技术水平上，被用户熟悉接受后（尤其是对电子商务的接受），自然而然为适应新的需求而产生的新模式及新业务。是传统金融行业与互联网精神相结合的新兴领域。

论起互联网金融首先想到的是马云的“三步走战略”――平台、数据、金融。未来的互联网金融无疑有着巨大的发展空间，可目前看来三步走已经不符合市场预期，因为市场到今天已经不只是平台之争，特别随着这两年互联网金融爆发式的发展，已经形成了平台、数据、金融相互影响的格局。在这种形势下破局的点在哪里？就在于连接平台、用户、金融等方面的工具――大数据上，谁能对大数据合理利用，谁就能掌握这场数据之争的未来市场。

2.大数据在互联网金融的应用方向

从大数据的应用场景来看尽管达不到人们所预期的精确性，但确实已经有了不少比较成功的商业案例。如Decide利用超过80亿条的已知价格信息预测价格走势，给出购买建议;DataSift通过分析社交网络数据，制定针对性营销方案;Zestfinance则利用大数据进行信用评估，并已累积获得近一亿美元的融资等等。

随着平台的发展和数据的积累，互联网金融也越来越多参与到其中，所以三步走已经转变成交叉并行的三个方面。国内对互联网金融的应用比较多的还是在理财上，这是受了阿里余额宝、百度百发、微信理财通等的影响，可实际上贷款才是金融服务中最具刚性需求的服务。而且随着大众时间和需求上的碎片化程度提升，一方面是银行等金融机构的产品自然而然的落地，二是互联网信贷围绕大数据分析等方式进行了很好的改造。因此大数据已经促进了高频交易、社交情绪分析和信贷风险分析三大金融创新。

2.1 高频交易和算法交易

以高频交易为例，交易者为获得利润，利用硬件设备和交易程序的优势，快速获取、分析、生成和发送交易指令，在短时间内多次买入卖出，且一般不持有大量未对冲的头寸过夜。现在的高频交易主要采取“战略顺序交易”，即通过分析金融大数据，以识别出特定市场参与者留下的足迹。例如，如果一只共同基金通常在收盘前一分钟的第一秒执行大额订单，能够识别出这一模式的算法将预判出该基金在其余交易时段的动向，并执行相同的交易。该基金继续执行交易时将付出更高的价格，使用算法的交易商可趁机获利。

2.2 通过收集、分析社交媒体上的内容进行市场情绪分析

金融市场的投资者将对情绪分析的研究与应用结合起来。大约两年前，对冲基金开始从Twitter、Facebook、聊天室和博客等社交媒体中提取市场情绪信息开发交易算法。例如一旦从中发现有自然灾害或恐怖袭击等意外信息公布，便立即抛出订单。2008年，精神病专家理查德・彼得森筹集了100万美元在美国加州圣莫尼卡建立了名为MarketPsy Capital的对冲基金，通过追踪聊天室、博客、网站和微博，以确定市场对不同企业的情绪，再据此确定基金的交易策略，到2010年该基金回报率达40%。位于伦敦的小型对冲基金DCM资本从Facebook和Twitter等社交媒体收集信息，将人们对某个金融工具的情绪进行打分，并向零售客户预测，辅助投资者作出投资决定。

2.3 加强风险的可审性和管理力度，支持精细化管理

金融机构希望能够收集和分析大量小微企业用户日常交易行为的数据，判断其业务范畴、经营状况、信用状况、用户定位、资金需求和行业发展趋势，解决由于小微企业财务制度的不健全无法真正了解其真实的经营状况的难题。

阿里小贷首创了从风险审核到放贷的全程线上模式，将贷前、贷中以及贷后三个环节形成有效联结，向通常无法在传统金融渠道获得贷款的弱势群体批量发放“金额小、期限短、随借随还”的小额贷款。

3.风险控制的原则和方法

有效的控制风险方法最简单的说法就是不要把鸡蛋放在一个篮子里，所以要求客户必须是“小额、分散”，避免客户过度集中在某一个或几个行业或客户。

先说一下“分散”在风险控制方面的好处，即借款的客户分散在不同的地域、行业、年龄和学历等，这些分散独立的个体之间违约的概率能够相互保持独立性，那么同时违约的概率就会非常小。比如100个独立个人的违约概率都是20%，那么随机挑选出其中2人同时违约的概率为4%（20%^2），3个人同时违约的概率为0.8%（20%^3），四个人都发生违约的概率为0.016%（20%^4）。如果这100个人的违约存在相关性，比如在A违约的时候B 也会违约的概率是50%，那么随机挑出来这两个人的同时违约概率就会上升到10%（20%×50%=10%，而不是4%）。因此保持不同借款主体之间的独立性非常重要。

“小额”在风险控制上的重要性则是避免统计学上的“小样本偏差”。例如，平台一共做10亿的借款，如果借款人平均每个借3万，就是3.3万个借款客户，如果借款单笔是1000万的话，就是100个客户。在统计学有“大数定律”法则，即需要在样本个数数量够大的情况下（超过几万个以后），才能越来越符合正态分布定律，统计学上才有意义。因此，如果借款人坏账率都是2%，则放款给3.3万个客户，其坏账率为2%的可能性要远高于仅放款给100个客户的可能性，并且这100个人坏账比较集中可能达到10%甚至更高，这就是统计学意义上的“小样本偏差”的风险。

除了坚持小额分散借款原则，用数据分析方式建立风控模型和决策引擎同样重要。小额分散最直接的体现就是借款客户数量众多，如果采用银行传统的信审模式，在还款能力、还款意愿等难以统一量度的违约风险判断中，风控成本会高至业务模式难以承受的水平，可以借鉴的是国外成熟的P2P比如LendingClub等都是采用信贷工厂的模式，利用风险模型的指引建立审批的决策引擎和评分卡体系，根据客户的行为特征等各方面数据来判断借款客户的违约风险。简单点说，建立数据化风控模型并固化到决策引擎和评分卡系统，对于小额信用无抵押借款类业务的好处包括两个方面：一是决策自动化程度的提高，降低依靠人工审核造成的高成本;二是解决人工实地审核和判断所带来审核标准的不一致性问题。

因此除了小额分散的风控原则，风控的核心方法在于通过研究分析不同个人特征数据（即大数据分析）相对应的违约率，通过非线性逻辑回归、决策树分析、神经网络建模等方法来建立数据风控模型和评分卡体系，来掌握不同个人特征对应影响到违约率的程度，并将其固化到风控审批的决策引擎和业务流程中来指导风控审批业务的开展。

4.大数据在风险控制中的应用

国内运用大数据方式涉及互联网金融的产品还相对较少，一是由于国内的金融体系还不完善，二是国内的用户数据存在“大而不准，大而不精”。数据存在获取困难和不精准的问题，因而给大数据互联网金融带来了很多难题，但尝试者也并不少特别是在风险控制方面。

在不依赖央行征信系统的情况下，国内金融市场自发形成了各具特色的风险控制生态系统。大公司通过大数据挖掘，自建信用评级系统;小公司通过信息分享，借助第三方获得信用评级咨询服务。互联网金融企业的风控大致分为两种模式，一种是类似于阿里的风控模式，他们通过自身系统大量的电商交易以及支付信息数据建立了封闭系统的信用评级和风控模型。另外一种则是众多中小互联网金融公司通过贡献数据给一个中间征信机构，再分享征信信息。

图1 风控相关大数据及代表企业或产品

央行的征信系统是通过商业银行、其它社会机构上报的数据，结合身份认证中心的身份审核，提供给银行系统信用查询和个人信用报告。但对于其它征信机构和互联金融公司目前不提供直接查询服务，同时大量的个人在此系统里面没有信贷记录，而这些人却有可能在央行征信系统外的其它机构、互联网金融公司自己的数据系统中存有相应的信贷记录。从网贷公司和一些线下小贷公司采集动态大数据，为互联网金融企业提供重复借贷查询、不良用户信息查询、信用等级查询等多样化服务是目前市场上征信公司正在推进的工作。而随着加入这个游戏规则的企业越来越多，这个由大量动态数据勾勒的信用图谱也将越来越清晰。

但是互联网大数据海量且庞杂，充满噪音，哪些大数据是互联网金融企业风险控制官钟爱的有价值的数据类型？下图揭示了互联网海量大数据中与风控相关的数据，以及哪些企业或产品拥有这些数据。

利用电商大数据进行风控，阿里金融对于大数据的谋划已久。在很多行业人士还在云里雾里的时候，阿里已经建立了相对完善的大数据挖掘系统。通过电商平台阿里巴巴、淘宝、天猫、支付宝等积累的大量交易支付数据作为最基本的数据原料，再加上卖家自己提供的销售数据、银行流水、水电缴纳甚至结婚证等情况作为辅助数据原料。所有信息汇总后，将数值输入网络行为评分模型进行信用评级。

信用卡类网站的大数据同样对互联网金融的风险控制非常有价值。申请信用卡的年份、是否通过、授信额度、卡片种类;信用卡还款数额、对优惠信息的关注等都可以作为信用评级的参考数据。

2013年阿里巴巴以5.86亿美元购入新浪微博18%的股份来获得社交大数据，阿里完善了大数据类型。加上淘宝的水电煤缴费信息、信用卡还款信息、支付和交易信息，已然成为了数据全能选手。

小贷类网站积累的信贷大数据包括信贷额度、违约记录等。但单一企业缺陷在于数据的数量级别低和地域性太强。还有部分小贷网站平台通过线下采集数据转移到线上的方式来完善信用数据，这些特点决定了如果单兵作战他们必定付出巨大成本。因此贡献数据、共享数据的模式正逐步被认可，抱团取暖胜过单打独斗。

第三方支付类平台未来的机遇在于未来有可能基于用户的消费数据做信用分析。支付的方向、每月支付的额度、购买产品品牌都可以作为信用评级的重要参考数据。

生活服务类网站的大数据如水、电、煤气、有线电视、电话、网络费、物业费交纳平台则客观真实地反映了个人的基本信息，是信用评级中一类重要的数据类型。

图2 大数据加工过程图解析

拥有了这些数据后，大数据加工的过程如图2所示。同时阿里的加工过程也极具代表性，具体流程如下所示：

首先，通过阿里巴巴B2B、淘宝、天猫、支付宝等电子商务平台，收集客户积累的信用数据，利用在线视频全方位定性调查客户资信，再加上交易平台上的客户信息（客户评价度数据、货运数据、口碑评价等），并对后两类信息进行量化处理;同时引入海关、税务、电力等外部数据加以匹配，建立数据库模型。

其次，通过交叉检验技术辅以第三方验证确认客户信息的真实性，将客户在电子商务网络平台上的行为数据映射为企业和个人的信用评价，通过沙盘推演技术对地区客户进行评级分层，研发评分卡体系、微贷通用规则决策引擎、风险定量化分析等技术。

第三，在风险监管方面，开发了网络人际爬虫系统，突破地理距离的限制，捕捉和整合相关人际关系信息，并通过逐条规则的设立及其关联性分析得到风险评估结论，结合结论与贷前评级系统进行交叉验证，构成风险控制的双保险。阿里小贷还凭借互联网技术监控贷款的流向：如果该客户是贷款用于扩展经营，阿里小贷将会对其广告投放、店铺装修和销售进行评估和监控。

5.结论

金融服务将进一步从粗放式管理向精细化管理转型，由抵押文化向信用文化转变，更全面的信用体制和风险管理体制将会建立。风险控制作为金融的本质将是其中最重要的一环，而大数据毫无疑问将在此过程中发挥重大的作用，但大部分的互联网金融企业目前体量尚小，用户规模和交易额都不大，因此在数据积累基础上能够及时结合实际情况进行互动，及时修正模型，相互促进从而达到风险控制模型的逐步优化。

参考文献

[1]李耀东，李钧.互联网金融框架与实践[M].北京：电子工业出版社，2014.

[2]罗明雄，唐颖，刘勇.互联网金融[M].北京：中国财政经济出版社，2013.

[3]张海泉.大数据时代下的信贷风险防控研究[J].中国集体经济.2014（14）：75-77.

[4]吴昭华.大数据时代的互联网金融发展研究[J].电子世界.2014（05）：192-193.

[5]井华，王南海.大数据时代下的互联网金融[J].国际融资.2013（11）：24-25.

[6]王召.“大数据”：传统金融与互联网金融争夺的焦点[J].中国农村金融.2014（02）：44-45.

作者简介：杨秀萍（1978―），广东龙川人，硕士，广东农工商职业技术学院计算机系讲师，主要研究方向：智能信息处理。

大数据在互联网金融风控中的应用研究

常用范文

优秀范文

精选范文