氪信联合创始人杨玢玢：AI应用在金融领域，如何能够在商业上有所突破？

氪信杨玢玢 AI 金融

原创杨玢玢 | 2017-05-04 08:30

【数据猿导读】 AI应用在金融领域，想要有所突破，需要几个必要因素，一个是要有数据，毕竟AI归根究底还是数据的技术；另外要有处理数据的能力，其次还要有商业变现的场景。技术单独存在不能产生价值，一定要放在一个对技术有需求的场景里面

来源：数据猿作者：杨玢玢

如今，随着社会不断发展，技术不断进步，国内外各大金融机构已经在大数据、人工智能、区块链等新技术上有很多尝试，智能客服、智能投顾等新金融形式也早已不新鲜。那么，这些前沿新科技遇到严肃谨慎的金融业，究竟是“黑科技”般的存在，还是技术宅们的另一场狂欢呢？

4月25日，由数据猿主办的《当金融遇上黑科技》线下主题沙龙活动在上海腾讯众创空间顺利举行。活动上，来自传统金融机构、金融科技领域新秀、大数据与人工智能专家等一众大咖汇聚一堂，畅聊了大数据、人工智能、区块链等“黑科技”与金融业的那些事！

以下是由数据猿精编整理发布的氪信联合创始人杨玢玢的精彩分享：

大家好！我是氪信杨玢玢，负责氪信产品研发。氪信的全称是氪信信息技术有限公司(CreditX)，最近刚刚完成了B轮融资。团队的核心人员均来自于雅虎、微软、携程、eBay、央行等世界知名公司和机构，在人工智能领域有超过10年的积累。

在氪信创立之初，我们主要思考这样一个问题：AI应用在金融领域里，如何能够在商业上有所突破？李开复老师也针对这个问题说过他的观点：想要有所突破，需要几个必要因素，一个是要有数据，毕竟AI归根究底还是数据的技术；另外要有处理数据的能力，其次还要有商业变现的场景。技术单独存在不能产生价值，一定要放在一个对技术有需求的场景里面。

我们认为，把AI技术应用于金融领域是一个突破点，而且金融本身是数据化非常完善的场景。同时，金融领域还具备以下几个要素：

第一，市场本身快速发展。在国内目前征信体系不是很完善的情况下，很多有金融需求的人得不到相应的金融服务。氪信通过对数据的搜集和加工，为符合要求的用户提供金融服务。

第二，数据端非常成熟。如今，大家花在手机上的时间特别多，互联网行为就是一个非常好的数据。关键在于如何把它和金融、信用相结合，怎么去拟合他们之间的关系。而这种信任评估是氪信比较擅长的。

从我们决定把AI的技术应用于金融风控，至今已有一年半的时间，在这段实践过程中，我们看到在技术层面、业务层面和战略层面都存在很多痛点，概括来说，就是业务本身对技术提出了需求。比如2016年蓬勃发展的小额现金贷业务，本身就是一个欺诈频发的行业，且没有强数据做支撑，因此，很多从业十几年的金融风控专家在面对新业务形态时，显得有些束手无策。

没有强数据不代表没有数据，事实上，企业还是能够拿到一些所谓的“弱数据”，比如手机上的数据，设备类的数据，或者一些消费类的数据。拿到数据之后去想怎么把这些数据用好，最后再决定要不要给这个人授信。至于授信多少，就需要用到AI技术了。

接下来分享一下氪信的做法和取得的成果。简单来讲风控分为两个部分：一个是反欺诈，一个是授信。

在实践过程中，我们发现区别于传统征信，互联网征信存在几个核心的点：

第一，在反欺诈的阶段，传统征信很难捕捉到一些不是很明显的、由于社交关系和其它关系对自己产生的潜在风险，例如一些团贷、群体欺诈的问题。但是这些问题通过挖掘网络数据价值就可以得到很好的解决。

第二，了解AI的人都清楚，我们在做数据加工的时候，主要还是做特征和建模。在加工的过程中，除了运用专家的方法之外，深度学习也被验证效果突出。建模阶段相比较传统的浅层模型，比如说逻辑回归等等模式，我们采用的是复杂的集成模型方式，因为不同维度的数据具有不同的特点，需要使用不同的建模方法，集成学习框架可以支持不同类型模型算法作为子模型，高效、准确的处理稀疏、超高维、非线性数据建模。

接下来我会分别讲一下我们公司的做法：

第一是底层，我们需要把能够拿到的数据定义为网络需要的关系，底层做一个数据的整合；第二层我们会到一些复杂的网络构建基础，里面有一些信息挖掘和算法；再往上我们会有一些模型，从网络里面拿到隐含的特征，去进行模型的构建；最终来识别比如说一些虚假的申请，或者是一些特殊地域的团贷等。

在网络的算法里面，我们的主要核心是复杂网络构建和团挖掘技术两块。首先在原始的点和边构建好以后，我们如何通过合理算法解决实际的问题，通过团的距离计算，达到比较良好的分团的结果。

另外一个是特征，这个也是非常关键的。我们如何从网络里面提取对一个人的欺诈识别比较有用的信号特征。在这方面，传统的做法是会有一些个人的风险特征，或者关联人，大概多少坏人，这些是我们人能想到的特征。

另外在我们的实践应用过程中，我们发现在突破单个风险点来临的时候，整个网络会出现一些局部风险，并形成连接，比如说形成一些三角或者四角的关系等。从长远的时间上看，这样的关系可能未必不正常，但是一定时间内，你的申请人形成了非常紧密的联系，这件事情是值得注意的。

除了个人局部的风险特征以外，还有全局的。我们用到了一些优化后的算法，每一个人在整个网络中，都会出现一些高的风险点，对和他有社交关系的人也会存在辐射效应。对于个人来说，可能在一度二度三度关系上，会和一个或是几个坏人有一些联系，现在社交比较发达，如果出现大片这样子的人，可以通过辐射算法捕捉到这样的信号。

另外在网络这块，很重要的一点就是整个系统的回转和流程优化。因为网络欺诈有一个特性，对于实时性甄别以及实时修改性上限要求特别高，同时我们学习的目标，不是一个纯事实，很多都是学习专家认定为欺诈的经验，这样的结果对本身的优化是很有价值的，从整个产品来看，形成了数据加工、数据计算和反馈的闭环。

我们也有专家的界面，网络捕捉风险之后，我们的专家都可以看到。

下面分享一下我们氪信在特征加工上的实践。可能了解AI的人特别清楚，我们最后做模型结果的时候，如果是优秀的话，这个优秀的绝大部分来自于我们非常辛苦的加工过程。

我们会看到个人的加工方法，很多时候会有一些不局限性，比如说文本的特征，通过一些方法或者通过不同时间维度的方法，可以描绘出几百个维度的特征，但是不可能达到完备的状态，我们确实需要借助技术本身的能力达到提升。

氪信在小额信用贷的场景里面，尝试用深度学习像循环神经网络处理时序的数据一样处理文本，效果还是非常不错的，我们整个的特征过程是包含了专家的部分以及深度学习自动生成的特征共同传递给模型，并且进行了最终的预测和识别。

这边举一个具体的例子，刚才我提到时序的特征。比如我在不同的时间窗口，是不是要穷尽所有的特征？有可能我们花费了大量的时间，只可以覆盖80%的部分，但是我们用循环神经网络利用长短时记忆的特征，可以捕捉数据在不同窗口趋势类、统计类等不同的特征，从而衍生出来上万种特征，最后我们把这些交给模型，让它来识别哪些是有效的。

建模部分。我们曾做过很多相关的实践，像浅层的偏现金的模式，有它的优势，比较稳定，人也好理解。也尝试过中间阶段端到端的深度学习的方法，通过反神经网络的方法捕捉之间的关联。

最后通过实践结果，我们认为集成模型在金融风控场景里，是一个判断好坏既稳定又有效的手段。集成模型的思想是用不同的子分类器，处理不同的数据。我会选择最好的分类器处理面临的数据，在上面去做一个集成，优势就出来了，就是好而不同，说的直白一点就是三个臭皮匠顶个诸葛亮。从模型性能来看，集成方法无论是拟合能力、模型的预测能力，以及换一个场景它的稳定能力都是非常好的。同时，集成模型在各个场景里也可以实现迁移。现在在氪信的产品体系里面，也融合了这个方法。

在信用贷场景里面，我们和传统模型相比性能提升了1倍，稳定在KS值0.3以上，坏账率直接下降46%。这使得我们很兴奋，是技术给业务直接带来了效果。

氪信要做的就是把AI技术加到金融风控里面，而这个领域里面还是有很多事情可以做的。我们在实践的过程中，同时把方法形成一套产品体系，帮助金融机构解决问题。我们氪信有相应的云数据的服务，有机器学习建模平台，有在线风控引擎，可以帮助完成企业互联网+的升级。

数据核心是我们沉淀的这条金融图谱的知识体系，从原始的需要用什么数据，到加工挖掘数据，再到上层怎么连接管理它，形成精准完备的画像。

另外在系统的整个过程和AI的运营中，从设备接入到数据的加工处理，到得出结果等等，整个都是自动化的过程。现在现金贷的量非常大，解放人力已经成为重要需求，因此我们确确实实需要这样一套数据智能一体化的产品。

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。