大数据时代，看机器学习是如何预测《权利的游戏》中的叛徒？

大数据机器学习权利的游戏

Jeo Gershenson | 2016-04-14 13:01

【数据猿导读】几个月之前，Airbnb发布了一篇博文，在这篇文章中作者向读者介绍了他们的数据科学家建立一个机器学习模型来保护自己的用户免遭来自恶意行为的欺诈危害。如果我们将具备这种功能的机器学习算法用到热播美剧《权利的游戏》当中，我们需要这种算法具备更加细致的模型才能分辨出剧中的人物到...

使用预测模型进行市场营销

在我们的团队为市场营销开发的预测模型当中，最为关键的挑战就是需要在某一个特定时间段进行预测。我们正在试图需找藏在这些数据背后的决定消费者何时会有购买意愿的精准时间点。我们从Airbnb那里得到了启发，我们为《权力的游戏》中虚构的人物形象开发了一个机器学习模型，并在其中添加了可以反映现实世界中销售难度的系数，这样就可以掌握消费者有购物需求的精准时间并做出及时的反应。如果假设一位潜在的买家实际上是来自维斯特洛的居民，然后你把“善”与“恶”的界限弄得含混不清，那么你不得不深思熟虑——每个人都有可能成为在任何时间潜伏在你周围的叛徒(你也可以理解为购买你的产品)。

因此，你怎样才能预测出他们什么时候才能叛变(或者采购)呢?我们的第一个挑战就是把我们培训所需数据——不同性格特征的人物所具有的各种行为活动列表，转变成可以被模型进行处理的人物性格特征数据。随后，我们用这些可以代表他们的个人性格特征的活动数据对他们进行预测。

行为评分方法

有一种方法可以用来计算和人物有关的行为数量，这种方式可以用来训练我们的预测模型(这种方法和营销自动化系统评分线索有些类似)。但不幸的是，这种方式还是无法帮助我们辨别活动是发生在过去还是发生在现在。如果想要预测发生在不久的将来的活动，这种分辨能力显得尤为关键。

从另一个角度而言，我们可能仅仅是关注那些刚发生不久的活动。这确实可以帮助我们不断保持数据的更新，并且可以解决那些古老的数据给评估带来的负面影响。但是如果一个人物在近期没有发生任何举动的话，我们该怎么办呢?我们仍然会通过他之前发生的行为对他进行评估。而且我们仍将会保留他最近的一些历史活动数据，因为发生在过去的某些貌似一次性的行为活动会转变成一种显著的模式(pattern)，并对未来的决策制定产生影响。

我们可以从混合方法中获得好处。比如我们可以将这个模型中的人物发生在过去的活动与发生在近期的活动相结合。除此之外我们可以使用一系列不同的界面窗口对刚发生不久的活动进行有区别的处理。用这种方式可以让我们记住三周以前发生的行为，但是我们可以用不同的标准来衡量发生在昨天的行为。

追踪移动中的行为目标

请一定要记住，隐藏在人物背后的情感状态会随着时间发生改变。通过下面这张反映性格历史变化的图表，来看看人物性格特征背后隐藏的情感是如何影响我们的预测目标的：

你会发现在八月份的时候，根据他最近的行为模式，我们的模型认为他会在在这个期间叛变(购买产品)。尽管此事在我们的意料之中，但是他的忠诚度依然保持了数月之久。当然，他的背叛行为的确在潜移默化当中发生。既然人们的内心情感状态(他是否准备做出背叛行为)会随着时间发生改变，那么我们的模型也需要知道是否某些人将会发生背叛行为，这样的话我们就可以知道准确的反击时间。

模型评价思考：在一个时间序列内的评分与再评分

为了了解我们的模型是否能够准确的反映出人物的动机，每一个人物都应该被附加上可供参考的评分——我们需要评估他们到底有多高的信任度，并且这种供参考的评分要随着时间不断进行调整。但这样做会让我们的评价系统变得非常复杂，因为我们对于一个人物的“善”或者“恶”的看法会时过境迁，就像这些人物自己的行为动机也会不断发生改变一样。

当评分恢复水平状态之前，停留在峰值状态的时候，另一个问题将会浮出水面。误导性的预言的铺展可能会让我们对一些忠诚度极高的人物产生暂时的怀疑态度，因此我们要确保模型的评价功能一定要以整个时期的所有分数为着眼点。当我们对模型再次进行培训的时候，我们一定要对这些错误的评分进行惩处，并通过比较来发现哪一种模型相对更好。

为了评价一个模型的性能是否优良，我们仅仅需要考虑我们每次(每天或者每周)评价一个人物时所得出的分数，并观测这个模型在下一周将如何很好的推测出他们的行为。如果在某一周开始的时候，我们断言一个人物极有可能叛变，并且他正好在这一周的周四背叛了我们，那么这足以证明我们的模型运行良好，模型给出了积极正确的建议。但是如果这个人物仍旧没有在预测的那一周叛变，却直到下周的周四才发生背叛行为，那么我们的模型给出的建议就是错误的。在这种案例下，我们不得不考虑在下一周如何对这个人物进行评分。

结论：我们从这个启发当中有何收获?

从这个虚拟的案例当中，我们可以看到，如果想建立一个准确的行为评估模型，需要很多充分的思考和经验，并且需要借助正确的衡量方式才能决定出评分的准确性。当机器学习的时间跨度很长时，模型的监测工作就会变得尤为重要，并且要留心他可能会出现偏差。要时刻铭记，如果你的模型对同一个人物周而复始地做出的错误的判断，那么你的模型将要面临终结，，同时，这也在向你预示着你的模型需要更新。

如果你采用上文提到的每一点建议的话，那么你的行为评分模型会为你的各种商业需求带来机器有价值的帮助。你可以知道人们在什么时间做出什么事情是预测成功的关键所在。

来源：Jeo Gershenson

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。