܄

【精彩回顾】《数据猿巅峰思享会》之2016 Strata+Hadoop World

【数据猿导读】 数据猿在上海举办的《巅峰思享会》上邀请了参与过Strata+Hadoop World(SHW)大会的4位中国大数据顶级专家,为大家分享了自己在大会上的所见、所感,为大数据行业同仁带来一场大佬级的思想碰撞盛宴

【精彩回顾】《数据猿巅峰思享会》之2016 Strata+Hadoop World

全球顶尖的大数据领域技术峰会2016 Strata+Hadoop World(SHW)刚刚在美国加利福尼亚圣何塞召开,众多优秀的数据科学家、分析师和创新企业高管在大会分享了大数据、机器学习、人工智能相关领域的最新研究成果和实践案例。

4月28日,数据猿在上海举办的《巅峰思享会》上邀请了参与过SHW 大会的4位大数据顶级专家,为大家分享了自己在大会的所见、所感。

【完整视频回放请点击这里(http://www.datayuan.cn/zhibo.htm)】

雅捷股份CTO谢军:Hadoop的企业应用及GPU数据库

雅捷股份CTO及首席数据科学家谢军于2016年参加了Strata+Hadoop World和英伟达GTC两个世界级顶尖大数据盛会,本次思享会中,他以Hadoop企业应用以及GPU数据库为主题分享了自己的观点,以下为数据猿节选整理的现场精彩观点:

SHW大会每天大概有200场汇报,整个会场上老牌的帝国主义几乎悉数退场。今年的IBM也只是其某个部门参会,而不是以整个公司的名义出现。另外,互联网巨头 Facebook、eBay也有做现场报告,但没有参加展览。

今年的大会,推广大数据基础软件以及存储的力度也不是很大了,大数据的基础技术体系已建立,这个阶段的架构工作基本已结束。即使是一家大银行也仅用6个月的时间就可以从原来的平台移到新的Hadoop平台,所以在未来,更多的机会是在应用端。

未来,有两个领域的应用可能会出现参天大树级企业,拥有巨大的机会,一是HPC(高性能计算),第二个是人工智能。我建议大家不要再信哪个技术体系了,那不是本质,不是根本,目前的行业状态是要走到应用中,提高应用水平是很多业务的核心。

在第二个GTC大会上,也给了我很多启发跟思考,我认为未来GPU领域将会非常热门,需要咱们行业内的CTO特别关注。

GPU是在一块板卡上有几千个核,一个普通商业机的板卡上大概有4900个核并行,内部走线非常宽,最新的卡内部走线带宽是4.96,非常快。所以我认为,这个技术不光给人耳目一新的感觉,还有可能引起一次爆发。

从这次大会来看,GPU的应用主要集中在自动驾驶、VR和人工智能等领域,由一小块GPU带动一个大集群,特别高效。

同时我也关注到,英伟达做了类似于服务器的DGX—1,里面配了8块最好的卡,这样一个服务器的计算能力相当于250台最先进的传统服务器,粗略估计,至少比Hadoop的能力强200倍,网络技术是NVLINK技术,也比P100快8倍,搭载了7个TBDSSD,特别强大。

SequoiaDB巨杉数据库创始人兼CTO王涛:大数据和数据库的未来趋势

王涛曾在北美IBM 工作多年且为DB2核心研发团队成员。此次思享会中,王涛分享的主题是“大数据和数据库的未来趋势”,以下为数据猿节选整理的现场精彩观点:

现在大部分基础软件都已开源,大部分公司的文化也都是开源文化。从整体来说,开源的做法已经不单单是为了跟大家分享,现在基本所有的基础软件公司都已不再免费。2005年以后所有做开源软件的公司基本都是VC投资的,这是行业内一个比较明显的现象。

开源软件的发展可以分成两大类:一是开源软件的商业化;二是商业软件的开源化。

开元软件的商业化,开源技术一出生就在市场上站住了脚跟,但紧接着就会有一些人想要提供更好的服务,打造更牛的产品,进而成立公司深耕产品,这一类产品叫做开源软件商业化。

纯开源软件设计初衷和商业软件完全不一样,正常商业软件要的是平衡,尤其是广泛适用性、兼容性等方面。通常,一上来就开源的软件目的只是为了解决某个特定情况下的棘手问题,其设计理念是千招会不如一招灵。

商业软件开源化,对基于开源软件的底子打造出来的商业软件而言,除非把整个产品理念完全改变,否则思路还是会沿着以前的方向走,这是很多人面临的一个大问题。这种类型的软件本质还是一个传统的商业软件,只是用开源的模式运作,扩大自己的品牌影响力,其类型特点会保持传统企业的特点,比如:高品质、高度平衡、通用性较强等方面,但不会聚焦于特定某一方面。

这样的开源情况,厂商会永远主导发展方向,也会提供比较优秀的售后服务,这跟开源软件商业化运营有本质区别。

从数据库领域来看,在未来一段时间,从开源、闭源角度来说两者其实是并存的,因为它带给客户的利益不一样。但是它不会一统市场,会有一些开源的玩家进入。

从整个大数据基础软件的发展来看,未来会殊途同归,会从传统的关系型数据产生分支,通过操作系统方式进行。其实所谓的文件系统加分布式调度就是Hadoop,Hadoop自己不做上层建筑,核心是分布式调度和分布式操作系统。数据库在这个层面走的方向就是NPP数据库,第三个是重建分布式架构,专注于存储引擎的建议。三者目标都是为了企业做成熟的管理软件,未来都会统一,将会变成分布式数据管理系统。

很多人问,分布式数据库的未来将会是什么样的?会不会消亡?我认为十年内不会,至少与IBM的主机一样,在很多全球500强企业里还会再用,比如说DB2,现在很多银行还再用它。关系型的数据库的Oracle不会死亡,会成为存量市场,但会逐渐萎缩。

新型数据库的NoSQL和NewSQL,两者会在接下来短短几年时间内产生较大融合,SQL和Hadoop会成为另一个分支,主要是做分析为主,分布式数据库将会是更加通用化的场景,包括OLTP和一些分布式的事务、高性能的读取、高并发都是数据库支持的。SQL—on—Hadoop将会局限在低并发企业内部的分析。

TalkingData首席数据科学家张夏天:硅谷Al/ML技术公司掠影

张夏天曾在IBM研究院、腾讯数据平台部、华为诺亚方舟实验室任职,其对大数据环境下的机器学习、数据挖掘有深入的研究和实践经验。本次思享会中,张夏天分享的主题是“硅谷Al/ML技术公司掠影”,以下为数据猿节选整理的现场精彩观点:

今年参加Strata大会的公司可谓百花齐放,我发现一个很大的特点,就是有很多公司在做别人看起来比较低档的数据整合。另外,也有很多公司做分析,例如HTO公司就是一个例子,HTO整个核心产品全都是开源的,但是它提供商业化的支持和服务,算是开源软件商业化模式。还有很多其他的闭源平台公司出现,他们主要提供机器学习和数据挖掘工具。

我认为从本质上来说,开源软件商业化的工具以前并非完全没有,很经典的商业化分析软件其实有很多年了,目前市场上新的分析软件基本上都是创业公司在做,产品有很多亮点,这同时也预示了未来很多更细分领域的发展趋势。

首先,提供的软件及平台能够整合多种工具。会上的很多公司也都基本上都不再是从轮子造起了,所有模型都是去整合不同的开源工具,甚至可以整合商业软件,包括SAAS都有能力整合。这样就突破了局限性,让大家可以使用的工具变得非常多样,这是我看到的发展趋势。

还有很多公司提高高效建模能力可视化,它不仅展示精美,而且可以支持各种各样的图表,甚至可以在图表上做交互式数据分析。这样就变得不只是看结果的工具了,而是可以作为真正分析互动的工具提供给客户。

另外,很多企业基本上都是每家只做一个分析工具或者服务,通过几个模型处理就形成这种完整的服务流程。

还有一块,每家的支持确实做的比较好,模型和实验结果的管理。这个平台跑任何实验,做任何模型都会把结果记录下来,模型本身是什么样的,模型测试的结果都会全部记录下来,可以很好的做归档。我觉得这也是一个非常好的功能。

还有简化模型部署这一领域。现在这些平台基本都支持一个功能,可以直接粘贴到部署的工程里边去,大大简化了工作内容。不但支持代码导出,而且按一两个键就可以在平台上直接使用,部署完后可以在多科环节下运行,非常棒。

Cloudera刘贺锋:大数据生态环境

刘贺锋曾在英特尔工作10多年,对数据研究和提供数据解决方案有丰富的经验,他在本次思享会中分享了大数据生态环境相关内容。以下为数据猿节选整理的现场精彩观点:

我认为,在开源社区里面保持互动非常重要,如果走错了就会出现碎片化,自己去做的话,跟主流的脱节会越来越远,差的越来越多,导致最后想回来都不能回来,所以开源社区里边跟主流保持同步非常重要。

在开源社区里混,有两个指标可以作为衡量标准,首先你要有一些代码,另外,你写的代码其实是会说话的,而不是你付了钱,成为其中的会员就完事,以为能混的很好。

如果从种类的角度去看生态环境,那就是上面有硬件,中间有数据库,周围还有SI,这是全球生态的版图。但这个情况在国内却不一样,95%的厂商或者软件都在做系统集成,因为在国内做软件产品几乎赚不到钱,厂商首先要解决的就是生存问题,如果没法生存就更谈不上发展。以前闭源是这样,现在开源更是如此。

现在的生态圈可能还处于同仁同宗的阶段。如果有一天大数据已经无处不在,渗透到生活的点点滴滴时,就需要大家共同努力。有底层做平台的,有做应用的,也有做实施的,并不是说哪个比哪个更重要,而是需要大家一起为客户提供解决方案,同时也把国内的生态环境打造的更完善更健康。

现场交流互动——大咖答题

四位专家各自分享完后,现场进入了提问环节,四位专家在现场做了深度交流和沟通。

现场嘉宾:我想问问GPU计算哪种应用比较合适?因为相对于Hadoop集群来说,CPU会少一些,某些应用会不会更适合?

谢军:

目前来看,原来的服务器级别都转向卡级别了,没有任何人还会用原来的16核做工作,也不会用250台的集群做,电量都受不了,著名的AlphaGo就是英伟达的K80。其次用的比较多的是自动驾驶,现在英伟达的产品比较多,出了一款大概只有70瓦公司的M40,性能非常好,功率要降到1/4了。另外我们也在做系列产品,是在阿姆系列上做的,整个功率只有10瓦左右,我们现在在机载上用的很多,发出一个炮弹都是智能的。

张夏天:我想问王总,我去年看了6个数据库的存储、开源和闭源的公司,今天我看到这里边至少有4家都是通用型这一层的公司,依你们来看,你们在这一层中想把通用层工具做到性能的极致化,还是往上走一点,还是往下跟其他层的资源调度相关?

王涛:

这是企业的商业模式问题。我认为两者的趋势是,如果要往上做,除非能做出很牛的数据模型,所有人都要遵照这个模型。可以产品化,不然到最后就会变成项目公司,这对投资者来说也没有任何兴趣。如果往下做,维持在平台的这层肯定离应用比较远。

这一方面,我们真正在做业务时肯定要选取几个平衡点。首先,要从大数据里面找到最适合你,并且用户最有兴趣的产品下手。另外,努力说服用户,让用户找开发商一起合作。从一个产品公司的角度来说这是比较好的做法。如果要想从上到下都自己做,那肯定来自于定制化的东西,然后就会变成主页,到最后会成为外包公司。具体如何选择很重要,上面不能什么都碰,也不能什么都不碰。

现场提问:刚才提到很多计算要往端走,端有一个好处是计算字眼比较多,但是怎么解决这个矛盾呢?

张夏天:

我们公司目前有一些东西会往这个方向走,比如情景识别、行为识别,做一些基于手机传感器数据方面的尝试。这样就需要把一些能力往前置,因为传感器流太大,全部传到服务器上,不管电量还是带宽都是完全不可接受的,只能说把模型直接部署在前端。我们最终想知道的是这个设备处于什么状态,如何来的并不是最关心的。所以这个事情可以在端完成。

现场提问:我们在整个云的架构上不再用传统的数据库吗?

刘贺锋:

我们公司创始人说原来他们推出这个公司的产品最早不打算专注大数据,而是专注于云。今年公司的发展方向是云,我们是所有发行厂商里唯一全支持的,就是微软、Google的东西等等,我们有专门的组件帮助你在各种各样的云环境里部署。

谢军:虚拟化的东西也支持?

刘贺锋:

我们不做虚拟化,我们全球的售前去客户那里做演示,不带机器,全部是用AWS的机器,然后有自己的虚拟机环节给大家演示。

注:以上就是数据猿节选整理的2016Strata+Hadoop World巅峰思享会中四位大数据专家分享的行业干货,在接下来的几天中,小编会陆续为大家放送各个专家详细精彩的视频回放与全程文字实录,敬请期待吧!

晒晒更健康,欢迎勾搭数据猿一起玩活动


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

#榜样的力量#寻找新冠战“疫”,中国数据智能产业先锋力量丨数据猿公益策划
#榜样的力量#寻找新冠战“疫”,中国数据智能产业先锋力量丨数...
#榜样的力量#天玑数据大脑疫情风险感知预警平台“智疫通”丨数据猿新冠战“疫”公益策划
#榜样的力量#天玑数据大脑疫情风险感知预警平台“智疫通”丨数...
#榜样的力量#内蒙古自治区互联网医疗服务系统丨数据猿新冠战“疫”公益策划
#榜样的力量#内蒙古自治区互联网医疗服务系统丨数据猿新冠战“...

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部