܄

消费金融大数据分析方法与金融大数据分析师养成

【数据猿导读】 在“消费金融大数据分析方法与金融大数据分析师养成”讲座中,杨博士从“小消费大金融”VS“小金融大消费”的区别入手,对金融的本质、风险量化、数据价值的衡量等进行深入阐述,引申出金融大数据分析师的定义问题的基本素质,作为金融数据分析师不仅要知其然还要知其所以然,为大家做出...

消费金融大数据分析方法与金融大数据分析师养成

2016年10月25日晚,清华大数据“应用·创新”系列讲座——“消费金融大数据分析方法与金融大数据分析师养成”在清华大学FIT楼多功能厅成功举办,本期讲座邀请到瑞天欣实数据科技公司创立人之一杨子君博士。杨子君博士持有美国南加大(USC)电子与计算机工程博士学位,以及清华大学电子工程系学士和硕士学位,之前为全球征信Experian公司首席科学家,以及FICO的高级数据科学家,她是信用风控体系、金融产品和数据分析建模专家,拥有16年数据挖掘和分析行业经验。

杨博士从“小消费大金融”VS“小金融大消费”的区别入手,对金融的本质、风险量化、数据价值的衡量等进行深入阐述,引申出金融大数据分析师的定义问题的基本素质,作为金融数据分析师不仅要知其然还要知其所以然,为大家做出了精彩的分享。

信贷和消费的发展

美国的信贷发展史上,最早有真正消费透支意义的信用卡是70年代的VISA卡。他们通过测试发现信用卡易于赚钱,就在这个实验的基础上发了大量的卡。卡直接寄到家门口,打开就可以刷。但不到几个月的时间就产生了很多坏账。在那之前的美国信用卡法案没有强制信用调查,基本上卡寄到马上可以刷。这次出现大量坏账后美国出台了一些信用卡的法案,规定使用信用卡的人一定要申请,并且一定要调查信用。这是消费金融的真正起步。

美国刚刚走出了2008年底的金融危机,这是由次贷危机引起的。我们有一个衡量美国人信用风险指数的数据,是通过美国三亿消费者在这十年间每一笔的信用贷款综合而成的。每个债务是微观性的,从这个微观怎样整合到经济的指数,它的基础就是金融大数据

这次金融危机可以说对于美国这种纯信用式的消费金融冲击并不大。这次规律跟以往完全不一样,以前的金融危机在房贷上并没有造成什么影响,而是失业率带来了其他的债务。但美国这次金融危机房贷风险非常高,纯信用类消费的风险反而不是特别高。

美国这次金融危机导致了房地产非常大的风险。因为大家没有失业的风险,手里比较有钱,而杠杆率成倍的放大使之成为一个很好的投资手段。但这次杠杆率的放大比以前每一次都高,造成了比较严重的金融危机。美国的房贷危机可以说化解了,也可以说没有完全化解,因为当时银行收回的房产非常多,如果一下子都推向市场的话会引起房价断崖式的下降,因此这些房产处置的非常慢,有些现在还存在于市场中。这些房产基本要通过10年的时间去消化,这样才有可能化解风险,这一决策的背后有很多金融大数据支撑。

反观中国,我们进入了一个增速相对放缓的时期,我们的消费也是大家非常关注的。这种情况下如果你成为一个数据工程师,你给中国人民银行或者银监会、证监会工作,让你分析某一个区域的风险你会怎么入手,真正的数据在哪里,如何设计,这就是我们金融大数据工程师要做的。

RetailFinance vs. Consumer Finance

消费金融有两个概念,一个是“小消费大金融”,一个是“大消费小金融”。“大消费小金融”的模式叫做RetailFinance,零售金融。什么叫零售金融?它是来促进零售的。它完全绑定消费产品和消费场景,先消费后买单。也就是说大消费、小金融的金融属性是为了促进消费。

而“小消费大金融”的金融属性是非常强的,一定要收益覆盖风险才能达到这个盈利目标。而在金融领域,执行这种模式的机构侧重点也不一样,比如说ConsumerFinance,这种产品的风险很高,收益率也很高。

消费金融的风险及盈利

消费金融,顾名思义,金融还是我们的本质,消费只不过是一个形容词。那么我们一定要了解金融的本质,金融的本质就是风险和盈利。如果不能基础地分析这种金融的盈利模式和风险,那么这种产品就有可能是庞氏骗局。

金融产品的设计许多事以大量的数据为基础的。金融产品的收入就是利息加费用,定价如果只是基础定价、最简单的定价,产品是不会有竞争力的,因为可以用低价竞争去打垮你。而金融方面最最重要的就是基于风险和其他一些因素做综合、区别定价,这个定价比较复杂,但这样收入才会更加有持续性、竞争力。

定价和成本是分不开的。如果是基于成本定价,那么对金融产品来说很关键的就是风险成本。如果价格不能覆盖成本肯定是不能盈利的,尤其是在大量的消费者产生批量效应的时候。这时要保证风险的设计不仅对一个人管用,并且对一千万个人管用。因此成本计算中最难的还是在风险上,因为风险会根据市场、宏观经济以及其它各种各样的情况和环境改变。

但通常来说这种定价不是简单的基于成本的,尽管风险是很核心的因素。另一个在金融定价中也很重要的要素是渠道,也就是我们通常所说的场景。渠道的管理非常重要,对于不同的渠道可能有不同的达到最优化定价的目的和手段。

消费金融离不开风险的精准评估以及自动化审批。很多消费金融公司也都是愿意提倡这些的,现在我们可以秒贷了,甚至可以凭一张身份证放贷,这都是基于高度的自动化。但最难的还是风险评估,有很多时候风险评估是没有办法做到自动化的。比如说风险投资公司,如果它能够自动识别这些风险何必要人呢?所以金融大数据工程师最需要知道的第一点是大数据的边界在哪里,什么情况下我们要通过大数据分析、分析风险精准到什么程度、怎么应用,不要把大数据夸大化;第二点是数据是什么,我们知道数据是不断在变的,大数据在不断地积累迭代,能否形成体系架构来迭代提高,这是关键。

消费金融大数据与数据工程师

我们认为跟消费金融相关的数据包括消费人群信用数据、经营人群信用数据、收入数据、资产数据、抵押数据。

消费行为的深入带来的是一代人消费观念的转变。这些年货币发行量还是很高,物价上升也比较可观,新一代年轻人如果还没有转变理念去银行借款的话,可能他未来的资产永远也赶不上。而这个理念已经开始转变,中国逐步走向消费金融为主的社会,消费金融大数据未来应用的场景和领域是非常宽广的,需要更多的金融领域的数据工程师,可是现在的储备还是非常少的,因为它的特殊性。

金融机构其实看不到数据,他们关注的是盈利,是如何选客户和营销。因此数据产品一定要返回到生产的流程里面,这样才能产生价值。

这样的大数据应用有防范欺诈风险的,防范不同的欺诈所要求的数据都是不同的,如果我们不能在数据采集、分析的过程中把它区分开来,数据产品是没有办法使用的。

另外一个风险也是金融机构很关注的,叫做宏观市场的风险。每个人都离不开社会离不开这种大的经济环境,我们现在最关注的可能是未来得房价会不会跌、跌多少,我们的金融资产受到的冲击是多少,这就是经济环境的风险。通常我们认为经济环境的风险从金融大数据的角度来说更加注重从微观的数据整合到宏观的维度,它的准确度会非常高。在宏观经济领域,像穆迪、标普这种征信公司和很多其它金融机构都会联手做很多事情,比如说金融危机的时候美国经济机构做了很多宏观经济指数,这能够有指导性的作用,这也是金融大数据领域一个非常重要的应用。

大数据中二八原则是无处不在的,20%的数据能够提供80%的价值。数据工程师主要的工作不是到处采集数据,而是要知道怎么样去找20%的有价值的数据。数据具有动态性,我们在不同应用里面发现这20%的数据是随之而变的,它在不同的场景有不同的价值。

同样的数据在不同的应用是不一样的,在同一个应用里面在不同的情况下它也不一样。最后数据工程师可能会产生统计模型,用以描述不同随机变量之间如何关联,例如行为的不同随机变量。但只有关联性并不够。

举一个非常经典的啤酒和尿布的例子。

Super bowl举行的时候,一些人把尿布和啤酒放在一起卖,会发现尿布和啤酒的销售量都提高了。统计模型发现了这两者的关联性,但这并不意味着这样的搭配销售具有普适性。因为这一现象的本质是这个区域里正好有一些20多岁到30多岁、爱看球类比赛的年轻人,并且他们都有孩子,出来买啤酒时可以正好买尿布。因此数据工程师不能满足于表面现象,而要发掘本质原因。数据工程师要能在玩儿数据的过程中增长自己的知识,知其然知其所以然,这样你做的产品才可能会更有效。因此大数据并不是盲目地告诉你这个东西是什么,而是要从这个数据里找到规律,这是知识,是颠扑不破的真理,这是一个合格优秀的数据工程师需要做到的。

总结来说,金融大数据工程师,只是一个工程师还是远远不够的。他首先要对金融有所了解,其次要分析数据背后的本质,哪里风险高,哪里风控做的不好,最后形成决策。举例来说,中等风险的人群实际上是很能盈利的人群,因为他有一点风险,但又不是太高。那么这些人的风险如何管理,如何定价就是金融大数据工程师要做的。数据清理、分析你发现了什么、总结出什么规律、这个规律怎么提升、怎么样迭代,这是数据工程师最重要的五个核心。此外数据工程师还需要艺术思维和匠人精神,要科学性和艺术性相结合。

Q&A

提问1:第一个问题是,我发现数据要预测时面临的最大的困难是未来变化特别快,数据无法描述未来,比如英国脱欧和负利率等,场景非常难以描述。我是做推特分析的,语言变化特别快,怎么样去处理这样的问题。第二个是,在具体使用技术的时候,刚开始我们就是做大数据加加减减而已,然后我们可能再去做模型,甚至做知识图谱,您怎么来评价这些技术本身对整个金融大数据的推动也好,它的局限性。

杨子君:大数据领域最重要的不是寻找正确的答案,而是寻找正确的问题,就是大数据到底能帮我们做什么。像你说的推特,第一个问题是,是不是大数据能解决的,也许肯定是,你是最有权利有答案的。如果确实是大数据能解决的,现在的大数据是不是足够我解决这个问题,如果不能足够解决这个问题,很可能的情况下是我的认知不够,也可能是我的数据不够。所以我觉得,在大数据领域,对于数据工程师或者设计师来说特别重要的是,要会问正确的问题。

第二个问题是,是不是现在大数据的环境能解决。我现在觉得这是最重要的,我们的数据分析师、数据工程师和产品方向,都是想解决“正确的问题”。金融有一个好处,就是提供一种服务时,有数据不对称或者有道岔的情况,我可以通过提供这个服务去采集,这个过程是比较有意义的。就是说我可能不知道,但是我可以通过这种金融服务去采集。所以我觉得消费金融公司也好,银行也好,它一定要把这个理念灌输出去才能不断提升。

提问2:未来哪一种社交数据会起到越来越大的作用呢?

杨子君:从信用风险的角度上来说,社交数据的权重不高。也就是说这个人去拿贷款,还不还钱,其实受周围的影响是蛮弱的,这是他核心的本质的问题。如果这个人的信用受周围影响很大的话,可以说这种信用是很不稳定的。实际上他并不是因为社交数据,他信用才不稳定的,而是因为实际上他本身与社交圈子里有一种共性他才会去社交。而我不想找这种共性,因为这种共性不是核心的,我要找的是核心规律,核心的这些人可能才会有帮助。但是在市场营销上,同样是社交数据,体现的价值不一样。一个人的购买行为,比较受圈子人的影响,因此这时社交数据很重要。回到信用风险这块,社交数据不是完全没有用,如果对你来说获取的非常容易,你可以做一些筛选。但是如果你说,我拿社交数据去放贷,那这个风险谁来承担?如果这个数据全都是非量化的,这就造成了很多操作风险,因为说不清楚是谁的风险、由谁来负责。

提问3:中国的征信基本上是空白,而且是比较乱。你认为中国的征信什么时候能赶上美国的成熟征信体系的水平?

杨子君:其实现在中国的征信不是一个空白,中国人民银行征信中心是2004年就开始建的。现在中国有征信报告的,而且信息挺丰富的,差不多有3亿多人。我们发现这3亿多人,债务已经很高了,而且信用卡都有很多张。这些人更多是集中在北上广深,还有一些沿海城市,以及一些内陆城市。因此我国的征信有构架、有很多数据,只是在金融领域的应用还不是特别充分。这个征信中心每年新增的有征信的人,差不多是1个亿。可能征信在对公众的推广和教育还是不够。


来源:数据派

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

大数据投融资周报(4月5日——4月7日,共9起)
大数据投融资周报(4月5日——4月7日,共9起)
大数据周周看:今日头条近10亿美元融资入账,Adobe推出体验云平台Experience Cloud
大数据周周看:今日头条近10亿美元融资入账,Adobe推出体验云...
【独家首发】数之联完成A轮数千万元融资,大数据分析挖掘领跑者获资本青睐
【独家首发】数之联完成A轮数千万元融资,大数据分析挖掘领跑...

我要评论

精品栏目

[2016/10/10]

大数据24小时

More>

[2016/09/26-7]

大数据周周看

More>

[2016/09/01-30]

大数据投融资

More>

[2016/11/28-2]

大咖周语录

More>

[2016/11/29-6]

大数据周聘汇

More>

[2016/12/06-13]

每周一本书

More>

返回顶部