谷歌资深数据科学家讲述AI在消费金融的应用
来源:中国网
作者:佚名 2017-11-01 15:08:50
中金在线微博
关注
——量化派王倪在汤森路透演讲实录
汤森路透成立于2008年4月17日,是由加拿大汤姆森公司与英国路透集团合并组成的商务和专业智能信息提供商,主要为专业企业、金融机构和消费者提供财经信息服务。近日,国内领先的科技公司——量化派的联合创始人王倪先生受邀出席汤森路透论坛,作为前谷歌的资深数据科学家,王倪在论坛上做了关于人工智能(AI)发展简史以及AI是如何更好的服务金融客户的分享。
以下为现场实录:
尊敬的领导和同学们,今天非常有幸受汤森路透的邀请我能来到中关村软件园和大家做一些分享。
作为机器学习行业里从业多年的老兵和创业者,我今天想和大家分享一下自己对人工智能发展历程以及和产业结合的一些看法,希望大家能够从其中看到更多未来的趋势以及更好的商业机会。
人工智能发展简史
人工智能这个概念其实提出的是非常早的, AI这个名词是在五几年的时候就被提出了,研究和探讨用机器模拟人类智能的有关问题。 如果机器能够通过图灵测试,让常人已经辨识不出来它是一个真人还是一个机器了,这是最开始关于人工智能最简单的概念。当时的技术方法和现在是完全不一样的,像符号系统,lisp语言,专家系统等等,其中也包括逻辑回归;而到80年代,一个很有标识性的神经网络的迅速发展,其实神经网络从结构上就是多层逻辑回归。在学术界,神经网络是独立在AI之外,成为一门新的独立学科。1996年我在中科大上大学读的是电子工程系, 当时在学术界经常会喊一句“AI is dead, long live neural networks神经网络万岁”。90年代后,以统计方法为基础,计算机科学家和统计学家提出了很多新的方法,例如随机森林,boosting tree等快速的推动了机器学习的发展,这些方法在当时已经能够比当时浅层的神经网络能更快速的运算,做更好更准确的预测和判断;到了2010年之后, 以“深度学习”为代表的技术突破,让人工智能概念大爆发,带来的是在各行各业的在技术上从量变到质变的跳跃。
我2007年到2014年的时候是在纽约的谷歌研究院,最开始的时候,当时的语音识别团队也是在研究院, 当时和我们统计组一起也有合作项目。在2012年左右的时候, 开始使用深度学习来处理语音识别,之前大家都用的是隐马尔科夫模型,引入了深度学习之后,大大的提高了成功率,这在当时是非常惊人的提高。后来的话整个团队就被安卓团队全部并过去了,调到加州硅谷那边,开发了android语音助手,成为android系统的一个和苹果ios比较的亮点。当时语音识别的发展的,属于是跳跃式的,是非常激动人心的事情。
AI技术的发展一直是和产业的结合起来的,因为在产业里面,你有一个新技术出来,如果能够立马的运用和结合上,更优化更高效。比如在最开始的50年代,当时的逻辑回归,也是迅速的应用到金融领域。FICO公司把几大征信局的数据,用逻辑回归的方法进行提炼、总结、形成FICO评分,后续成为个人征信体系的一个基矗从那时起,这样的方法也被各大银行,作为评分卡的底层技术被引用一直延续到现在。在80年代的神经网络开始快速发展, Yann Lecun提出的卷积神经网络CNN,最开始是用来识别这种手写字母的。那时候大家还是普遍用手写邮件来交流,自动识别邮政编码能够快速的对邮件来进行分类传递。神经网络被提出来之后, 在消费金融领域里头主要运用在反欺诈里,美国圣地亚哥那边一个公司用神经网络开发了一个系统叫 Falcon 猎鹰,这个反欺诈系统后来在美国银行的信用卡里已经是一个标准配置,各家都会用这套系统,公司后来也被FICO收购了。 在2000年这些之后的话,像随机森林,adaboost这些新的方法出来之后对于整个行业所带来的影响和改变是非常大的,而且现在中国Fintech公司用的主流的技术也是那个时期的。记得2006年的时候,那时候在美国的Capital One,他们那边的话也是在试点,用 TreeNet 也就是 boosting tree来构建授信模型,反欺诈模型,然后替代传统的SAS逻辑回归。但是其实在美国,最重要的是金融监管的原因,需要模型的可解释性,所以导致整个推进是非常缓慢的。但是在中国,Fintech领域是一个阶跃性的发展,相比美国的同行已经进步的是非常快了,并且中国已经比美国的同行业在Fintech要领先,没有太多历史包袱。
在2016年深度学习被大家广泛认知之后,对于国内的Fintech公司的影响是非常大的,现在深度学习技术对人脸识别的大幅优化提高,就单从产品流程上来说,大家能直观感受到的就比如像支付宝、刷脸支付或者是在网贷平台上,需要你手持身份证进行人脸识别匹配,保证申请人是本人。 这个在授信以及风控的时候它是一个首先和必要的环节。
人工智能正悄然改变所有行业
人工智能现在已经涵盖的范围非常多了,其实它是计算机制,听、说、读、写、预测这些方面它做的要比人好很多。现在在金融科技行业里,人工智能更像是一个工具类的阶段,就是把它当做一个工具使用,我告诉它我想要它怎样,它就给我一个结果。在人脸识别和语音识别上面,它这个效果非常明显是有原因的。人脸的构成是有多层次的结构组成的, 眼睛两个点,还有眉毛,嘴是一道弧线,其实就是这些细小的结构就能被感知出来;卷积网络其实就是用一个滤波,对图片逐行的进行扫描。就相当于用美图秀秀的小刷子,一行一行的点过去,来把相关的图像特征提取出来成为一个新的特征。语音识别也是,语音的句子有单词构成,单词有音节组成,又有元音、辅音等,层层叠加起来的结构。通过深度学习,把这些结构进行自动化的挖掘,目前已经达到了上百层的深度学习,是非常惊人的。
目前,整个AI+是什么情况呢?AI的爆发点是在语音和图像上面,从语音图像延伸到AI+机器人、AI+医疗、AI+VR、AR,AI+无人驾驶,这些已经是AI运用到一个非常高级的阶段的内容了,像Facebook、谷歌,它们也是从以前的mobile first到后来的 AI first。现在AI+金融,AI+Fintech的影响其实也是越来越显著的。AI+金融它不是一个很陌生的东西,其实之前机器学习加金融就已经是非常普遍的,就像我们经常听到的一个词---量化交易,它就是用数据挖掘的东西来分析股票交易等。之前在量化交易领域,一家非常成功的企业是文艺复兴基金,创始人是世界级数学家James Simons,之前基金的CTO是贝尔实验室科学家,和我在谷歌的上司之前是同事。和他们交流,也知道一些行业大咖的一些事情,以及这些科学家是如何用科技来改变金融交易行业。大家如果知道一些股票知识,知道里头的技术流派是通过交易的过去走势来判断未来走势。很重要的一个环节是把这些无序和混乱的信号,噪音去掉。小波分析对于这种时间序列数据去噪比较有用,当时斯坦福大学的教授,David Donoho也是小波分析行业顶级专家,他也一段时间离开斯坦福,去这个基金做了一年,几位大神级科学家通过技术手段在股票市场上头呼风唤雨。当然,AI的重要性不是为这些超级富豪服务,更多的是普惠的,很多的技术创新已经影响了整个行业,渗透到社会当中。
金融科技目前我们应用的还是很小一块,主要还是在消费金融里头的应用,其实在这个整体金融领域,这么大的一个盘子里面是其实一个小的板块。 除去房贷之外,这种小的消费金融的市场可能是现在是一个几万亿的这样一个市场的规模。 中国的消费金融市场每年增长20%以上,占GDP的占比也越来越高,后续会趋近于美国的规模,也就是gdp占比在20%左右。美国的消费市场规模非常大,大家消费透支经济消费驱动,除了给你发信用卡,你如果还清房贷,他又给你开一个home equity loan,你的房子就相当于一个ATM机,你可以随时去你的房子里面借钱,美国就是这样的不断的循环来刺激消费。中国虽然现在只是差不多6万亿的市场规模,每年20%增速,未来几年内就会到12万亿这样一个规模。当前,行业的巨头比如说像BAT这样的,像花呗借呗微粒贷,或者是京东白条、京东商城等等,他们都是每年几千亿的规模;而巨头往下一层的Fintech公司里面的领头企业,这里面也包括量化派,每年会有几百亿的规模。
消费金融应用场景,不仅能够提供用户交易,同时还能带来用户数据,我们需要把这些用户数据结合起来,更好的去帮助我们做一个事情----定价,包括我给不给这个用户通过?我给这个用户通过多少?我给他的额度是多少?我给他的费率是多少?这些其实是一个最重要的东西,就是这个定价体系。这个应用场景规模非常大,每个场景都能撑起一批规模比较大的创业公司是非常有机会的。所以这些场景怎样去和科技相结合,怎样找新的增长爆发点是我们需要思考的问题,像过去的医美、3C、旅游等,它们都有非常垂直行业的消费金融消费分期公司,也给用户带来了非常多的便捷,但如果风控做的不完善,也会发生一些不好的现象,比如说线下医美行业,我们虽没有做线下医美,但我们也从行业中了解到,线下医美是比较容易发生群体勾结骗贷的,中介会带着一群虚假整容的客人和门店勾结去做套现。
消费金融的核心是风险管理和风险定价,它需要通过用户数据和场景数据的汇总,让机器能够更好的对用户做整体的画像和判定。现在大概的流程和思路是这个样子的:上端对接数据员,每个用户以前是上万条数据几百条特征,现在慢慢的都演变成几千条特征,或者是上万条特征,然后通过多个维度的AI数据的挖掘,形成一些评分,这些评分便于做风控策略、做风控政策等。现在为什么特征可以这么多?第一个是数据的多样化,包括现在很多的交易数据、明细数据、文本数据等等。而且最重要的是,现在有了深度学习之后,特征提取是自动的,例如通过卷积网络,一个用户进来可能就是几千上万甚至更多的特征。
现在做消费金融,最少需要有三个板块的信息,每个版块它都需要人工智能更优化的去做一些事情,比如最开始你需要是做用户验真系统,证明你是本人,里头用到人脸识别和身份证比对,包括还有设备指纹,你用的手机是不是你自己常用的手机,以及它的这个手机的这些设备号,这些设备信息和它的这种关联性,是否能够保证这个手机也是你本人使用,而不是说经常被刷机,或者是去做一些其他类的东西。另外一类是有关系网络。中国的欺诈案例相对多些,但魔高一尺,道高一丈,这是双方的一个博弈。现在有些金融科技公司把这个过程做成了自动化,当用户以及它周围的关联人形成一个关系网络,比如说如果这人的周围很多都是申请用户或者是骗贷用户的话,可能这人就是一个中介,而这个中介是能够帮助别人包装,包装用户资料,去各个平台骗贷、撸钱的角色。现在机器学习对于这种关系图谱也有更好的表达,类似于以前word2vec,现在有node2vec来对网络结构进行降维处理。另外还有一块,就是信用评分,预测模型从逻辑回归,到单层神经网络,到多层神经网络到机器学习方法,在技术上演变的更复杂了已经变得更准了;如何用好这个分数以及你如何制定政策去做精准定价和获利,如何从这些复杂的节点中找出来用户之间的信息,去对于用户本身的这种信用和风险进行一个判断,这都是很需要花时间研究的,很多细节的学问。
关系图谱和信用评分,这些体系整合起来就能够对用户有一个非常真实和准确的画像,而这是消费金融公司、金融科技公司一个非常核心的能力,它能够保证你的风险是可控的,保证你对用户的识别是精准的,保证你的定价体系是完备的。在这些每一个小的细节上,AI都是在不断的在渗透,默默的改变,我觉得它的这个改变到一定程度上,又将是一个量变到质变的过程。就像当年AI改变人脸识别和语音识别一样, AI也正在润物细无声改变金融行业,金融科技领域想要发展的更好,是离不开AI、离不开数据的。数据是源头和基础,在数据基础上,这些人工智能的技术才能够把它更好的整合起来以及优化到位,接下来消费金融行业接下来将会是一个阶段性的提高,我们拭目以待,也希望在座的各位领导和专家多多指导和多多支持,希望各位同行、同事、同学们我们一起来共同推动这个行业的良性、快速发展。
- 名博
-
指南针:七连阳又有何妨 少爷:首战告捷有重大启示
彬哥:六连阳后防止回调 李君壮:连续上攻高抛低吸
- 推荐
-
牛熊:周四的热点直播
指南针:周四操作参考