【视频&PPT】《数据猿巅峰思享会》之TalkingData首席数据科学家张夏天：硅谷Al/ML技术公司掠影

talkingdata 数据科学家张夏天硅谷公司

Kate | 2016-05-12 19:02

【数据猿导读】张夏天在《数据猿巅峰思享会》上坦言，此次美国之行，除了参加Strata+Hadoop大会以外，还有一个目的是去大数据技术的发源地——硅谷学习。本次思享会中，张夏天分享的主题是“硅谷Al/ML技术公司掠影”

【视频&PPT】《数据猿巅峰思享会》之TalkingData首席数据科学家张夏天：硅谷Al/ML技术公司掠影

今天我们为大家带来的是《数据猿巅峰思享会》第三位分享嘉宾TalkingData首席数据科学家张夏天的精彩内容。（第四位嘉宾为刘贺锋，前两位分别为谢军、王涛）

张夏天，TalkingData首席数据科学家，曾在IBM研究院、腾讯数据平台部、华为诺亚方舟实验室任职，其对大数据环境下的机器学习、数据挖掘有深入的研究和实践经验。

TalkingData是国内领先的独立第三方移动数据服务平台。张夏天在会上坦言，TalkingData发展到现在积累了很多数据，同时，在做数据整理、加工、挖掘时技术上遇到很多挑战，所以此次美国之行，除了参加Strata+Hadoop大会以外，还有一个目的是去大数据技术的发源地——硅谷学习。本次思享会中，张夏天分享的主题是“硅谷Al/ML技术公司掠影”。

（张夏天50分钟完整分享视频）

索取张夏天完整PPT的正确姿势：关注数据猿官方微信(datayuancn)并在后台回复关键词“张夏天”即可

Spark演进方向：由1.6版本升级到2.0版本，计算性能提升10倍

此次美国前行，我们拜访的不只是一些大公司，还去了很多小公司，并做了技术方面的交流，其中与Databricks公司交流最多。Databricks公司的一个中国人给我们介绍了整个Spark未来演进的方向：未来几个月内，Spark会由1.6版本升级到2.0版本，计算性能也会提升10倍。

交流中得知，Spark进步如此大的原因是，他们把Spark当做一种思想，通过对代码编译层级优化执行，获得高度的提升。未来粗密度的IDD模型会逐渐淡化，处理结构时不需要处理IDD大模块，而是处理一列即可。

我们对此很感兴趣，因为TalkingData接触Spark非常早，当Spark在国内受到质疑，还没有形成大规模应用时，TalkingData的数据平台就已经从Hadoop迁到了Spark。同时，我们做的机器学习和数据挖掘工作，都是基于Spark做的。

两三年前，公司的硬件资源非常有限，当我们发现使用Spark比使用Hadoop节省很多计算资源的时候，就坚持使用Spark。现在知道了Spark的发展路线后，更让我们坚定了信心。

大数据平台发展趋势

今年参加Strata大会的公司可谓百花齐放，我发现一个很大的特点是，有很多公司在做别人看起来比较低档的数据整合。另外，也有很多公司做分析，例如HTO公司就是一个例子，HTO整个核心产品全都是开源的，但是它提供商业化的支持和服务，算是开源软件商业化模式。还有很多其他的闭源平台公司出现，他们主要提供机器学习和数据挖掘工具。

我认为从本质上来说，开源软件商业化的工具以前并非完全没有，很经典的商业化分析软件其实有很多年了，目前市场上新的分析软件基本上都是创业公司在做，产品有很多亮点，这同时也预示了未来很多更细分领域的发展趋势。

首先，提供的软件及平台能够整合多种工具。会上的很多公司也都基本上都不再是从轮子造起了，所有模型都是去整合不同的开源工具，甚至可以整合商业软件，包括SAAS都有能力整合。这样就突破了局限性，让大家可以使用的工具变得非常多样，这是我看到的发展趋势。

另外是高效的分析建模能力。以DataRobot公司为代表，其做数据科学和机器学习时，强调自动化过程。只要选定一个数据和一列，再按一个键，机器就会自动挑选出最好的模型。具体来说，每个模型有不同的参数组合，组合出来后会是上千种模型，包括几种不同的算法，甚至深度学习模型都集成在里面。然后后台会通过分布式架构去训练，接着会对所有模型进行排序，还可以查看到每个模型的状态，这样就会变得非常的高效和自动化。

其实对于机器学习，里面很多问题纯粹依靠人去调参会很浪费时间，但DataRobot强调依靠机器，完全自动化。现在机器计算比人的成本更低，降低了工具使用门槛，同时，极大的提高了建模分析效率，这对专业人士来说很有帮助。因为机器不只是能给出结果，包括模型分析，模型可视化都会有。如果还想用手工调，便可以站在很高的机械调整基础之上再做人工调整，而不是从一开始很低的水平去调，这样便极大的加快了人工的工作。

还有很多公司提高高效建模能力可视化，它不仅展示精美，而且可以支持各种各样的图表，甚至可以在图表上做交互式数据分析。比如这里边展示出来的几种不同的点，可以被鼠标圈选，然后再做进一步分析。这样就变得不只是看结果的工具了，而是可以作为真正分析互动的工具提供给客户。

另外，很多企业基本上都是每家只做一个分析工具或者服务，通过几个模型处理就形成这种完整的服务流程。

还有一块，对模型和实验结果的管理，每家的支持确实做的比较好。这个平台做任何实验，做任何模型都会把结果记录下来，模型本身是什么样的，模型测试的结果都会全部记录下来，可以很好的做归档。我觉得这也是一个非常好的功能。

简化模型部署领域也是，具体来说，一个模型出来后，需要对其进行部署，然后在应用环境下使用。原来的Saas、Strata都有部署的功能，但不是很方便，因为很多遵循了Pmmll（预测模型标准），这样训练一个模型后变成一个Slm，再解析Slm时，有些商业会支持，但很多公司不一定会使用这种商用模型。所以，对模型进行部署成了一个难题。

现在这些平台基本都支持一个功能，可以直接粘贴到部署的工程里边去，大大简化了工作内容。不但支持代码导出，而且按一两个键就可以在平台上直接使用，部署完后可以在多科环节下运行，非常棒。

再从美国数据平台发展的趋势来看，其思想和产品让人印象深刻。我在Strata大会看到的Anaconda公司，也是做数据科学平台，但与其他公司有很大不同。他们完全固守在Python上面，用Python与其他所有的东西分庭抗礼。但因为Python安装很麻烦，所以他们把很多与数据分析、机器学习相关的包集合在一起，做成了一个集成安装。

另外，因为原来Python有很多包是支持单机运行，并不支持其他算法，所以他们公司的资深操作人员把很多关键库改写了，能够完全支持并行化的执行，这样就突破了Python单机只能处理小规模的问题。这也是我看到可视化做的最好，并且很有意思的一家公司。

人工智能Novumnd公司：计算能力和应用广度做到极致

我们还去拜访过专业做人工智能的公司——Novumnd，这家公司是由百度出来的吴韧老师创立，现在公司有二十多人，吴韧老师说，他从百度出来以后，华尔街有很多金融公司请他用深度学习技术做量化投资，虽然那样会很挣钱，可他并不只想做挣钱的事情。

我发现硅谷有很多技术公司很有理想，他们不只是想挣钱，更希望能够去改变世界。

在交流中得知，Novumnd公司现在有两个发展方向：

一，做深度学习一体机。因为他们在算法上有很深的积累，所以想要把算法与硬件结合，而不只是做硬件产品。现在深度学习的计算能力要求非常高，而且随着数据量的增加以及网络结构的构造越来越复杂，其对计算量的要求也会越来越多。这种情况下每一点计算资源都很珍贵，所以把每一点计算资源利用起来就非常关键。

吴韧老师认为，人使用的门槛都可以克服，做出来的东西好用与否并不是最重要的，能够把算法和硬件很好的结合在一起，让硬件的计算能力发挥到极致，并最大限度的提升效率，达到最好的效果才是关键。这也是他想做这件事情的方向。

二，嵌入式做法。深度学习一体机的做法确实比以前有了很大进步，比如图像识别、语音识别，但其并不能把人工智能的问题完全解决。若想变得无所不能，不能只关注服务器，而且如果把所有数据都放在服务器处理，带宽等各方面的压力会使终端计算压力非常大，所以就需要往前延伸，前置到各个终端，包括智能手机和智能设备，也可以提高计算效率。同时，实验结果证明，有些决策确实可以在终端做，不是必须要用服务器才能做最后的决策。所以，Novumnd公司其次是要以嵌入式方向去做。

吴韧老师还在业余时间做了一个NovuGO，我们也在现场感受了一下。TalkingData的崔晓波先生在国内的围棋水平是业余五段，当他看到NovuGO时就想与其对战，当时与崔总对战的仅是一台笔记本，没有任何其他GPU集群的计算，若与AlphaGo和李世石对战时相比，计算能力只有其三万分之一，但对战结果下来，崔总认为NovuGO已有业余三四段的水平了。

吴老师说，这毕竟不是他们的主业，他们只是把之前做图样识别的经验简单的移植到围棋框架中，就取得了这种效果，而且在某些层面上比AlphaGo一些参数还要高。AlphaGo的精度是52%，而NovuGO精度达到了56%，高了几个点，当时蛮震惊的。

Numenta公司：突破智能临界点

我们在Strata大会上还与Numenta公司做了交流，这个公司也很有意思。创始人是杰弗瑞.霍德斯（Jeff Hawkins），公司是做神经网络的，因为背离了人工智能的原理，霍德斯认为接下去的路走不通了。于是，他尽可能参照人脑的皮质去做，因为皮质能产生人智力结构的设计和学习框架。霍德斯把这套东西叫做皮质学习，我看了一下，确实与传统的神经网络区别很大，里面很多是基于神经元运行的简单规则，基本没有数学算法类的东西，这样就对计算力的要求降低很多。

这家公司在2005年成立，目前应用主要集中在异常检测方面，包括证券市场走势的异常检测、IT系统运行的检测，还有用户在网络上流氓行为的检测，甚至人出行轨迹的日常检测等。我看了一个视频，一个程序训练很短的时间以后，不需要任何监督信息，就可以判断出哪些行为正常，哪些行为不正常。

我认为上面这两家公司代表了两个不同的发展路径。Novumnd公司走的是主流方向，其想在计算能力和应用广度方面做到极致。而Numenta公司另辟蹊径，想要突破智能的临界点。

最后讲下TalkingData在数据科学方面所做的工作。首先是Product Applications方面的工作，我们作为一个数据平台，不仅会提供数据，还会提供很多数据服务，比如数据挖掘、数据技术、数据算法，包括定位算法的研究我们都在做。

其次是应用层。应用层是支撑公司内部产品的应用，比如DMP的产品，会解决内部自动分层、自动人群扩大的需求。另外，房地产领域、金融领域、零售领域都有这种应用案例，有些是帮人选址，有些是做人群筛选、人群扩大等各种问题。这是目前TalkingData所做的几个方面。

其中做的比较好的是我们的自研算法。虽然，我们当时转移到了Spark平台，但并不能满足我们的需求。比如，做人群扩大算法时，训练模型在10亿级别，三百万的维度训练，现在甚至是一千万的维度训练，当时用五六个小时都不能做出一个模型，所以我们很用心的去做算法，算法层面便优化了很多，不仅速度快，而且比最新版本内置的算法的速度和精度都要好很多。比如，现在的Logisic Regression十分钟就可以完成集散。

Spark并不是非常适合的平台，但如果要改造它，投入会很大。同时我们希望做人群扩大计算能够实时，几分钟之内就会有反馈。所以，我们基于Spark做了一套引擎，又开发了新的算法实践，使其能够做到一百秒以内完成大规模的计算，速度非常快。其实我们用到的资源非常有限，基本是用十台服务器去做，且是基于Spark去做的，而Spark在调度方面浪费了很多时间，如果我们自己能够写一套好的框架，那么，计算时间有望压缩到十秒以内。

算法做出来以后，可以应用于广告预测，比如在房地产领域可以帮助客户优化户外广告牌的布局、线下的推广方案，在零售行业的宏观选址等方面，我们也都有实际应用案例。

延伸阅读

【视频&PPT】《数据猿巅峰思享会》之雅捷股份CTO谢军：Hadoop的企业应用以及GPU数据库

【视频&PPT】《数据猿巅峰思享会》之巨杉数据库CTO王涛：大数据和数据库的未来趋势

【总回顾】《数据猿巅峰思享会》之2016 Strata+Hadoop World

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。