܄

远离“E租宝”们 大数据团队教你一分钟识别跑路P2P

【数据猿导读】 2011年,整个中国的P2P公司才几十家,截至2016年1月底,累计平台已达到3917家,行业发展可谓迅猛异常。但众所周知,P2P行业在高速发展的同时,问题平台层出不穷,根据网贷之家的数据,截至2016年1月底,累计问题平台已达1351家。随着触目惊心的“E租宝”事件,周围的小伙们一度“谈P2P色...

远离“E租宝”们  大数据团队教你一分钟识别跑路P2P

作者一直关注P2P行业发展,积累了2000多家平台的数据,通过数据挖掘和机器学习的方法,对这些平台进行了建模,在对整个P2P行业发展趋势预测分析基础上,还通过聚类和机器学习的方法预测了一批潜在跑路和倒闭的平台。

在这里,作者结合当时做的分析和预测,给大家简要说几个考察P2P平台的关键维度,让你1分钟识别跑路平台!

1.平台待收金额

平台待收金额代表了平台上放贷人未收回欠款的总额。一般而言,运营良好的正规平台待收余额波动较小,相对平稳,而年底较容易出现集中提现的情况,待收余额会有下降的趋势。如图1,是当时我们对国内300家主流P2P平台待收余额走势的预测。

待收金额1.jpg

图1:对国内300家主流P2P平台待收余额走势的预测

待收金额1+.jpg

图2:问题平台待收余额走势预测

如果待收余额大幅度下降,只减不增,则可能是平台遇到了瓶颈,交易量下降。如果平台只借不还或者拿新借款还旧借款,自然会出现待收余额只增不减的情况,如果这一数据在短时间内迅速提升,则平台很有可能是预备跑路的欺诈平台,如图2是当时对问题平台待收余额走势的预测,波动较大。

举例来说,当我们在分析样本平台中盛金服的数据时,发现其数据与图2预测的趋势基本吻合。后来,事实证明,该平台在2015年末出现提现困难,随后人去楼空。

2.平台新增借款

新增借款在很大程度上反应了一段时间内平台的发展情况,稳中有升比较正常,新增借款骤然增加,资金链断裂、跑路风险较大;骤然减少,自融、非法集资的几率较大。

2015年12月,好借好贷被爆出存在自融嫌疑,且平台76%借款来自同一借款人,其平台新增借款趋势与我们当时预测的结果基本一致。

新增借款2.jpg

图3:对国内300家主流P2P平台新增借款走势的预测

新增借款2+.jpg

图4:问题平台新增借款走势

3.平台投资金额

投资金额是平台当天的投资总额,一般而言,投资金额也是稳中有升,如图5所示。如果投资金额连续下降,则平台倒闭的风险很大,如图6所示。包括中盛金服、好借好贷在内,以及2015年9月被爆提现困难的平台沃资本,预测的数据维度走势都与问题平台走势相符。

投资金额3.jpg

图5:对国内300家主流P2P平台投资金额走势的预测

投资金额3+.jpg

图6:问题平台投资金额走势

4.平台投资人数

投资人数指的是平台的活跃投资人,平台投资人数如果如图8的走势一样,出现连续下降的情况,那么平台的资金链容易断裂,倒闭风险很大。不少问题平台都符合这一趋势,结果也均是大同小异,符合问题平台趋势的基本最后以跑路、倒闭出现提现困难等告终。

投资人数4.jpg

图7:对国内300家主流P2P平台投资人数走势的预测

投资人数4+.jpg

图8:问题平台投资人数走势

上面提到的四个指标是辨识平台风险比较关键的几个,当然,在分析模型评价体系中,我们参考的维度不止这4个,在引入公司背景、股东信息/高管信息、经营信息等信息的基础上,我们还引入了平台多个动态数据特征:

第一,建立评价指标体系。

对平台评价指标的分析分为以下7个维度:

(1)借款指数:过去90天借款总额/过去90天借款总人数;

(2)流动指数:未来90天待收总额/注册资本金*100;

(3)待收余额:代表了平台上放贷人未收回欠款的总额,如果这一数据在短时间内迅速提升,则平台很有可能是预备跑路的欺诈平台。

(4)风险准备金

当借款人无力还款或干脆跑路时,平台会用自己的风险准备金对投资者做一定程度的赔付。因此,投资者需要注意风险准备金数额,考察其是否能有效减少自己的投资风险。

可以用风险准备金与待收余额的比值与平台的历史还款逾期率相比较,如果比值大于逾期率,说明平台的准备金能够起到风险覆盖的作用,反之则说明平台无力真正意义上承担坏账风险。

(5)地域指数:当季度平台所在地区问题平台数/该季度问题平台总数*100(按省级行政单位)。

说明:地域负面指数越大,平台所在地区问题平台数量越大,地域性影响较大,投资人受舆论波及撤资可能越高。

(6)对于平台上的活跃人数和平台的待收金额,通过信息熵的方法分析平台的确定性

(7)对于问题平台的地域分析,按照地理位置的分布,建立起平台的地理图,利用图的算法,分析区域的影响及问题平台的集中程度。

因此,地域指标衡量:地域指数=平台所在地区问题平台数/问题平台总数×100(按省级行政单位)。

另外一些特征是这些特征的综合,如均值、方差、特征之比、特征信息增益等。

第二,模型的整体预测情况及维度分析。

在建立了模型的评价指标体系后,我们利用机器学习的方法进行预测。

1.首先,我们要选择使用的模型。

我们选择四种模型对我们的数据集分别进行训练:

(1)逻辑回归(logit)

(2)分类回归树(CART)

(3)随机森林(Random Forest)

(4)梯度提升树(GBDT)

在一般的二分类中,由于逻辑回归方法比较简单易用,因此我们首先选择它;由于分类回归树可以自动忽略对目标变量没贡献的属性,并且对存在缺损值的情况比较稳健,因此作为第二个模型;随机森林由于它的训练速度快,并且模型可以给出哪些特征比较重要,因此作为第三个模型;GBDT模型目前在工业界中是运用很多的一种算法,由于采用了提升的思想,其方法具有很好的泛化能力和准确度,因此我们将其作为第四种模型。

2.对四种模型的预测结果进行比较分析。

(1)首先我们采用将准确率和召回率结合起来的评估标准即F---measure

其中如下图所示:横坐标代表准确率,纵坐标代表召回率

用TP(真正例),FP(假正例),FN(假负例)

准确率:percision=TP/(TP+FP),也就是说预测出来的正例中有多少是真正的正例

召回率:recall=TP/(TP+FN),真正的正例有多少被正确的预测出来了

11.png

F—measure = 2*准确率*召回率/(准确率+召回率)

一般来说我们希望准确率和召回率都越大越好,可以知道F1值越大,则模型越好。

(2)我们用AUC曲线对模型进行比较。

如下图:横坐标代表FP, 纵坐标代表TP

AUC是用FP与TP比例曲线下面的图形面积衡量,曲线下面的面积越大,则模型越好。

22.png

33.png

通过以上比较分析可以看出:无论是采用F---measure还是采用AUC度量,GBDT模型的效果最佳,而最简单的逻辑回归效果较差,之所以GBDT的效果最佳是因为采用了boosting。

总结:作为一个纯技术宅男,写这么多已不易。总结来说,作者通过积累的2000多家P2P平台的数据,通过数据挖掘和机器学习等方法,对部分平台进行了建模分析预测,从而得出能帮助投资者做出判断的单维度指标和风险分析预测模型。上文提到的单个维度指标应足以帮助普通投资者做出判断,综合多维度的分析和预测将更有效,当然,如果能综合运用我所描述的分析模型,预测和判断将更为精准。


来源:财经时报

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数据”智慧丨数据猿新冠战“疫”公益策划
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数...
张涵诚:大数据招商平台可推动地方供给侧改革
张涵诚:大数据招商平台可推动地方供给侧改革

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部