第四范式创始人兼CEO戴文渊：人工智能=大数据+机器学习

戴文渊人工智能大数据机器学习

戴文渊 | 2016-03-23 15:47

【数据猿导读】戴文渊，迁移学习全球领军学者，近日在智能化研讨大会中，他向大家分享了人工智能的发展历史，以及，未来人工智能会朝着哪方面发展。戴文渊表示，人工智能的发展离不开大数据和机器学习

3月19日，创新工场联合中泰证券举办了智能化研讨大会第一期：人工智能(AI)，邀请了行业内最顶尖的专家人才，从产业逻辑，一二级市场投资逻辑深入浅出分享行业内的发展趋势及关键节点，并探讨一二级市场庞大的投资机会。第四范式创始人兼CEO戴文渊分享了他的观点。

戴文渊(第四范式创始人兼CEO，第四范式已获得创新工场投资)

戴文渊，迁移学习全球领军学者。2009-2013年就职于百度，是百度广告变现算法的核心负责人，百度凤巢的总架构师，是最年轻的百度高级科学家。曾指导百度凤巢在线营销系统、百度大脑等多个重量级核心产品, 使百度变现能力4年提升8倍，他的技术团队是百度2010年至2012年变现能力持续超华尔街预期的核心驱动力。2012年获得百度最高奖(百万美元奖)。2013-2014年就职华为，任华为诺亚方舟实验室主任科学家。2005年曾获得ACM国际大学生程序设计竞赛世界总冠军。

内容预告

1，AI技术能提供三种能力：一是预测未来、二是数据集成、三是终生学习;

2，对于评价预测未来的能力，我认为最重要的有三点，一个细(细分人群)，一个叫快(快速决策)，一个叫变(动态变化);

3，人的智能和机器的智能的差别在处理细节信息能力;

4，AI有待改善的地方在于它还不能指导人的工作。

以下为演讲原文：

谢谢大家，今天下午和大家分享一下这个领域最近比较热点的，甚至是更早，早到几十年前这么一路走过来的经历。实际上最近的两周对我们来说有一个很大的利好，就是我们终于不用再去跟别人解释我们是什么样的大数据公司。刚才汪华也介绍了说我们公司是个大数据公司，其实这件事情对我们来说是很头疼的事情，假如我们去跟客户说我们是一家大数据的公司，他们会问你们和百分点什么区别，然后我们要去解释百分点是卖给你数据的，我们是在数据中为你带来业务机制，然后他又会问你们和星环的差别是什么，我们又要去解决新环是给你储存数据的一家公司，我们是给你从数据里面挖掘价值。然后我们现在终于可以解释他们都是大数据公司，我们是人工智能公司。

今天主要会介绍这么几个部分。第一部分是历史，可以看到人工智能一路是怎么走过来的。第二部分看看我们现在做到的，以及不能做到的相关部分。第三部分是人工智能未来会往哪方面发展。

1、以史为鉴，人工智能的科学发展

其实智能是什么东西，人类一直在探索。这个挺有意思，比如说智能手机很有智能吗?iwatch是智能吗?现在又说无人驾驶汽车是智能。在科学领域智能这个概念探索了很多年，因为科学家特别喜欢定义这些东西。最早定义智能的是这位科学家，图灵，图灵最重要的成就是发明了图灵机。他特别感兴趣图灵机将来能体现怎样的智能，所以他提出一个概念叫图灵测试。图灵测试是什么概念?他认为计算机智能发展到最高境界时，如果设置一道墙，让一个人和一台计算机在墙后面，另一个人在墙的前面问问题，墙后的人和计算机分别回答，如果无法区分回答问题的哪个是人哪个是计算机的话，那么计算机就通过了图灵测试。当时图灵认为人工智能最高境界就是让人区分不出来哪个是计算机，哪个是人。当然图灵测试到今天来看，已经是个伪命题了。比方说我们不是区分不出来AlphaGo和李世石，而是看谁下得好，谁是AlphaGo。

图灵之后又有一些别的科学家提出AI相关的概念，比方说Marvin Minsky，他其实是真正的深度学习的鼻祖，只不过他当时提出来的概念叫做神经网络，不叫深度学习。1970年，他提出三到八年内我们将会得到一台具有人的平均智商的机器。并且他也践行了这个工作，但最后失败了。他做出来的那个神经网络远没有达到人的平均智能。

为什么失败?我们回过头去看。人的大脑其实也是个由神经元组成的网络，如果我们把计算机的神经元接起来做一个神经网络。那么是不是我们做到神经元数量超过大脑时，机器智能就能超过人了?最后发现一个问题，即便拥有一个和人脑一样的神经网络，当你没有能力去训练这个网络的时候，其实仍然无法获得智能。就好象我们自己的小孩，刚出生的时候，他的脑细胞数量就和成人差不多了，但是那时他没有学过东西，所以他的智力水平是达不到成人水平的。这是回过头去看这个事情为什么失败，但是这个事情过程造成的影响就是“神经网络”这个概念臭了。到2005年的时候，给神经网络平反的时候，没有人再敢说它叫神经网络了，于是又给它起了一个新的名字叫深度学习。

另外更激进H. A. Simon，他认为二十年内，机器将能完成人能做的一切工作。这都是建立在当时的判断。这些失败的结果就是我们把神经网络打入冷宫至少三十年。

在这之后，七八十年代提出了一个方向叫做智能来自专家，即专家系统。就是要设计一个系统，这个系统的前端服务于客户，后端有一个知识库。这个知识库是怎么来的?从专家的脑子里来。假设这是一个医学的知识库，那我们应该去找世界上最好的医学专家，把他大脑里的知识写到知识库里面，写成一系列的规则。然后这个系统将来就能更好的服务于人。当时设想挺好，比如一个人类的医学专家可以看病，那我找一百个专家把他的知识都写到这个机器里面，是不是应该比一个人更好。按理这个逻辑是对的，但最后这个方向也失败了。为什么失败了?因为发现专家自己都不知道自己会什么。我们发现一个专家可能掌握的知识有一百分，他能总结的知识是十分，问题在于他表达不出来。很多时候医生要看到这个病人才知道应该如何去医。

其实既是人的缺点，也是人工智能的缺点。现在神经网络有一个缺陷，我们发现比如说AlphaGo会下围棋，但是它不能复盘，它下的每一步都说不出为什么这么下。人和机器的神经网络都有这个问题，我们拥有的技能，很多时候是没有办法表达出来的。专家系统基本上到90年代的时候就被死刑，认为它永远都达不到人的智能水平。

再后来，也提出一些新的方向，Rodney Brooks他提出智能来自于本能，他认为智能不是一个集中式地集中在大脑，每个细胞都有智能，所以他去制造这种机器人，这个机器人完全没有大脑，身体的每个部分在控制这个机器往哪里走。他制造了大量的机器人，这些机器人被应用到了美军的作战或者说一些危机，例如厂房失火时把重要的东西拿出来。但毕竟来说，他们还是离人的智能水平差很远。

第一次让人们感觉到人的智力可能玩不过机器是深蓝。深蓝现在来看其实是一个暴力搜索的方法，在国际象棋领域打败了国际象棋的第一卡斯帕罗夫。深蓝为什么能做到?是因为国际象棋棋盘比较局限，所以我们通过暴力搜索的方式，我们可以让深蓝往前推25步，而卡斯帕罗夫据分析能推22步。

深蓝虽然说在国际象棋比赛中打败了世界冠军，但是人们还是不相信计算机能够打败人类。最简单的方式就是围棋，甚至不要说打败世界冠军了，在95年的时候他们甚至还下过我。

其实一个决定性的时刻是在2005年的时候，有位学者提出神经网络是有用的，甚至神经网络可以训练很多层，当我们把层数增加到十层、十一层的时候，他能够达到一个过去做不到的效果。比方说过去机器视觉被认为几乎是不可行的，当我们把神经网络做的很深很深的时候，确实会发现神经网络能表现出一些人的视觉认知过程，刚才汪华也展示了一张图。图中我们发现神经网络可以学出人的眼睛、鼻子这些器官，这和人认知图像的过程非常像。

那么为什么会在这个时候把这个技术拿出来?其实最重要的原因并不是说又发明了一个新的技术，而是说这个时代到这个时候，一方面是我们的计算能力提升，我们把神经网络做大做深需要很强的计算能力。到了这个05年、06年，我们的计算机计算成本下降到一个临界点。另外一方面随着互联网公司的兴起，我们积累了大量的数据，过去我们用来训练人脸的数据只有几百上千张图片，不足以把神经网络训练好，现在我们在网上可以轻而易举的获得到至少百万级甚至千万级的人脸图片，所以基于这些图片我们训练一个很深的神经网络模型，能够远远好于过去的人脸识别效果。

就整个框架来说，重点有两个：一个是技术，机器学习，另外一个是大数据。机器学习技术，说实话早就已经出来了。其实是各个领域的发展，包括互联网的发展带来了大数据出现，包括计算代价的降低，方方面面的条件都成熟了，造成了我们现在能够看到的IBM沃森能够在智能问答领域战胜人类最强的选手，像谷歌的机器人能够在围棋战胜人类最强的选手。这是一个时代带来的结果，并非黑科技的出现。

围棋只是一个特定的领域，如果考虑商业应用，还需要积累大量的商业领域的数据。所以很重要的是，我们需要积累大量有意义的数据，如果没有大数据的支撑，无法把人工智能给训练出来。我们需要各行各业的服务，在服务里面去产生数据。这个事情对于中国来说是巨大的机会。因为在中国人口基数是最大的，中国做一个活动能够获得的数据量是海外很多地方不具备的。

我自己有一个深刻的感受，我在香港服务过PCCW，这是香港最大的运营商，他们能给我们提供的数据量是两百万用户所产生的数据，而在中国我们服务于一个福建的运营商就能够获得两千万用户的数据。可能在很多人看来，福建移动影响力远远小于PCCW，但是放在大数据人工智能的时代，哪怕是中国一个省所能提供的有意义的数据也是巨量的，这些数据能够在商业领域为我们创造价值。

2、人工智能可以/不可以做什么?对经营与生活的实际影响?

第二部分是关于AI技术提供什么样的价值。首先是预测未来的能力。我们基于过去积累大量有意义的大数据，可以自动分析总结，去预测未来会发生的事情。当你知道未来有三条路可以走，你就预测走每条路的结果，选择最好的路去走。未来两个方向，一个是数据集成的能力，怎么能够让各行各业产生的数据融合起来，共同去发挥价值。最后一个是最终能够达到最高的境界，叫做终生学习。

首先是预测未来，我们发现很多领域的应用，背后的原理都是预测。比方说搜索引擎，当你在搜索引擎输入一个关键词，现在假设有一千一万个候选网页，我需要去预测，把每个网页推荐给你，满意的概率是多少，然后推荐给你最满意的网页。这个满意度可以用一些指标来度量，比如点击率、浏览时长等。

同样的道理，风险管控做的是什么?当你过来申请一笔贷款的时候，我要去预测你还不上的概率是多少。然后选择最大概率能还上钱的人，我把钱借给他。

至于推荐引擎，就是预测我推荐给你的东西，你采纳的概率是多少。

以上种种的应用看上去业务方向是差别很大，但是背后所有的能力都可以归结到预测的能力。

如果我们要去衡量什么叫好的预测能力，我认为最重要的有三点：一个叫细，一个叫快，一个叫变。先解释细。比如说我现在要精准的找到目标客户，这个图中有一个大的客群。其中橘黄色是我想要找到的客户。我过去有些专家的经验，用一两条规则去筛选，最后选择这样的客群作为目标客户，我们会发现这里面错误其实是很多的。如果说我们对人群划分的更细，就可以更精准的找到目标人群。精细，这是预测能力的第一个方面。

第二个方面，我们会发现AI跟时代有关系。随着科技的发展，信息的传递速度越来越快，比如古代传一封书信要十天半个月以上，到后来书信通过邮局数天可以送到，IT信息化以后，办理业务的时效性基本缩短到T+1的时间，到了互联网时代，我们对信息的时效性要求提升到分钟级、秒级。信息传递速度的加快，对于做预测能力或者说决策能力的时效性要求也会大幅度提升。所以我们也会要求我们的AI系统要随着信息的变化，过去我们是T+1，现在是T加几分钟，T加几秒的变化。

我们知道随着时间的变化，无论是时代的变迁，还是政策的变化，我们的环境是一直在改变。如果我们用一个过去的模型去预测未来，当你的环境变了，决策就会有问题。我们在实践过程中曾发现这样一个问题，在百度凤巢广告，如果有两个星期我们不更新AI模型，最后带来的收入下降是14%，基本上平均每天下降1%。于是，我们需要尽可能做到至少每天更新一次AI模型，甚至做到每小时、半小时以内更新一次。

我们可以对比一下，人的智能和机器的智能，差别在哪里?人受限于精力，不可能把所有的信息都能够覆盖到。通常我们认为什么是好的决策者?好的决策者应该特别能抓主干，能够抓大放小，这都是人的优点。有个领域叫做BI，Business Intelligence。BI就是一个典型的基于数据的抓大放小的思路，我们拿到大量数据统计结果，分析数据抽出最主要的结论交给团队去执行，这里面会丢失掉大量的细枝末节的信息。

过去认为这种细枝末节的信息是没有价值的，但是放在机器上，因为没有精力的限制，不需要抓大放小。比方说一家大银行一年有几百亿交易，过去我们主要看一些城市的交易分布，或者行业的交易分布，但是我们不会去分析一家店或者一个pos机的交易情况。但是当数据量大到一定的程度，我们发现哪怕你看一个pos机，一年数据量也是成千上万的，你完全可以分析细到一个pos机的情况，针对一个pos机的行为，甚至一个pos在某一个时间段，比如七点到八点之间的行为，给设计不一样的决策，这是AI能够做到。人在目前来说做这个事情不是智商不够，而是精力不够，AI能在精力上补充人很大的一部分能力。所以现在这个阶段我们要做一个AI系统，去作为人的补充。很重要的是我们要开发人覆盖不到的细枝末节的部分。而这部分我们认为是大数据里面80%以上的信息，过去人做分析的时候只看到了20%的头部信息。

我可以分享一下我们现在能做到的一些case，首先是消费金融领域。这是一个招商银行信用卡交易分期的case，信用卡的交易有一段时间免息期，如果在账单前你把钱还上，对于一家信用卡公司来说是亏本的，那信用卡公司怎么盈利呢?我们发现有30%的客户会做分期，分期就会产生利息，信用卡公司其实是用这部分利息来盈利的。所以一家信用卡公司如果要做营销，增加它的盈利，最重要的是增加它的分期交易。有一种方式是主动营销来获得更多的分期交易。我们做的是，基于每天数十万的信用卡的交易，更精准的定位哪些客户是更有概率去做分期的，然后选择更有概率做分期的客户做营销，最后在同等情况下提升60%的收益。

我们与招商银行一起设计了一个新的思路。过去他们怎么使用数据?他们会从系统里面去收集一些数据。收集数据的时候，一个最头疼的问题是不知道要收集哪些的数据，这时候往往需要做规划，什么数据要收，什么数据不要收，然后再把收的数据拿来看看能分析出什么结果，最后再看发挥什么作用。由于层层衰减，到最后产生价值的时候，往往已经衰减得很厉害了。我们提出，不应该先讨论要收什么数据，应该先讨论的是要完成什么目标。你的目标是什么?交易分期业务的目标是希望能够提升交易分期的收入。然后我们把这个收入目标去做分解，交易分期我们是用短信主动营销，我们把它拆解成：短信的发送量*短信的响应率*分期费率。然后，目标被确定为提升短信的响应率。在这个基础上我们认为我们需要去预测给它发送短信的成功率，我们需要有一个短信成功率预测的模型。这个模型确定以后，我们基于这个模型去分析需要什么数据。

即便确定下来需要的数据，这个时候我们仍然不知道这些数据到底有还是没有，但是我们先把这个数据需求规划出来，然后再反过来从各个系统里面去找哪些系统里面有这些数据，最后把这些数据找出来。我们找到了2 TB数据，在里面设计出了超过五千万特征。最后我们建立了这个模型，它能够在一个短信还没发出去之前，更精准的预测，这个短信发出去的成功概率。我会选择成功概率最大的一些短信进行发送，最后与过去的专家模型相比，我们的模型能够多定位68.6%的分期交易，提升61.7%的手续费。

所以从整个思路来说，首先是从目标出发，到需要去建立什么模型，再到需要什么样的数据，再到各个系统里面去寻找数据——这样的一个过程。基于类似的思路我们还做了很多其他的case，比如说信用卡的账单分期模型，信用卡的汽车贷款精准营销模型，例如账单分期我们提升28%的收入，汽车分期能够提升百分之二三百的收入。

第二个case不是我们做的，是我们公司一个联合创始人在加入我们公司之前做的一个案子。相信大家都很熟悉，叫做今日头条。今日头条要干什么事?要给每个人推荐不一样的阅读，每个人看到的都是自己想看到的内容。同样是从目标出发，我们要定义的是，你看到的新闻，什么叫好，什么叫不好。当时定义了很多指标，比方说点击率、阅读时长、收藏率、转化率、用户抱怨量。然后我们那个联合创始人做的是什么事情呢?他建立各种各样的模型，当你过来今日头条访问的时候，就可以预测给你推这个新闻的点击率是多少，阅读时长是多少，收藏率是多少，转发率是多少，用户抱怨量是多少。基于这些预测指标，可以得到一个综合的打分，基于这个分数推荐阅读。个性化是怎么做到的?个性化的背后的原理其实也是预测能力。就是说我要基于不同的人的情况去预测，给不同人推荐新闻、商品、或者其他对象，你喜欢的概率是多少。

来源：创新工场

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。