܄

【视频&PPT】《数据猿巅峰思享会》之雅捷股份CTO谢军:Hadoop的企业应用以及GPU数据库

【数据猿导读】 谢军先生于2016年参加了Strata+Hadoop World和英伟达GTC两场世界顶尖级大数据盛会,本次《数据猿巅峰思享会》中,他以“Hadoop企业应用和GPU数据库”为主题分享了自己在大会上的见闻

【视频&PPT】《数据猿巅峰思享会》之雅捷股份CTO谢军:Hadoop的企业应用以及GPU数据库

上周,在《数据猿巅峰思享会》的精彩节选内容后报道后,得到了大数据圈内朋友的广泛关注与支持,很多朋友也私信我们想要四位(谢军、王涛、张夏天、刘贺锋)专家更具体、丰富的分享内容。今天,我们数据猿就为大家首先放送雅捷股份CTO谢军的精彩内容。

谢军,现任雅捷股份CTO兼首席数据科学家,历任中科院西安分院助理研究员、IBM咨询业务部大中华区CRM签约首席咨询师等职务。

谢军先生于2016年参加了Strata+Hadoop World和英伟达GTC两场世界顶尖级大数据盛会,本次思享会中,他以“Hadoop企业应用和GPU数据库”为主题分享了自己在大会上的见闻。今年的HadoopWorld大会和GTC大会都在圣何塞召开,两个会前后相差了两三天。

 

(谢军50分钟完整分享视频)

索取谢军完整PPT的正确姿势:关注数据猿官方微信(datayuancn)并在后台回复关键词“谢军”即可

Strata+Hadoop World大会:大数据基本技术体系已建立,应用时代到来

Strata+Hadoop大会每天大概有200场汇报,展位很轻松愉快,感觉特别不一样。会场里面有玩魔术的,照相的,还有敲锣打鼓放鞭炮的,像一个商业帝国。

今年会场上老牌的帝国主义几乎稀疏退场,IBM只是其某个部门参会,而不是以整个公司的名义出现。互联网巨头Facebook、eBay也有做现场报告,但没有参加展览。

今年的大会,推广大数据基础软件以及存储的力度也不是很大了,大数据的基础体系已建立,这个阶段的架构工作基本已结束。即使像三菱这样的大银行也仅用6个月的时间就可以从原来的平台移到新的Hadoop平台,所以在未来,更多的机会是在应用端而非基于软件领域。

还有,未来有两个领域的应用可能会出现参天大树级企业,拥有巨大的机会。一是HPC(高性能计算);第二个是人工智能。

另外,拿我们自己的企业案例来说。从原来的小型系统到现在的大系统,最关键的问题也发生了变化,成了系统优化。首先取数据时会发生网络风暴,速度提不快。其次会发生数据偏科,有些节点快,有些节点慢,这都是当下遇到的大问题。

大数据应用端未来有很多价值有待挖掘,建议大家不要再盲目相信哪个技术体系,那不是本质,目前最重要的工作是要让大数据走到应用中,提高应用水平才是业务核心。

GTC大会:用GPU解决问题

GTC大会上的几百场报告,给了我很多启发和思考。我认为未来GPU领域将会非常热门,从今年的整个大会的现场情况来看,GPU的应用主要集中在自动驾驶、VR和人工智能领域。

GPU是在一块板卡上有几千个核,一个普通商业机的板卡上大概有4900个核并行,内部走线很宽,最新的卡内部走线宽带是4.96,非常快,如果程序写的好,作为应用会非常厉害。

比如对于做金融、电信和CRM的客户来说,当新账单来了以后,若想知道其是否正常,就要知道它短期、中期、长期的斜率是否是平的,因为突然高了或者低了都是不正常。我曾经拿出2000万个客户做了短期、中期、长期的时间序列,用每个时间序列算斜率,也就是用了6000万次时间序列求斜率只花了0.5秒。这个命题在集群上不能做出来,但因板卡有带宽,所以在板卡上非常快。

另外,我也关注到,英伟达做了类似于服务器的DGX—1,里面配了8块最好的卡,这样一个服务器的计算能力相当于250台最先进的传统服务器,粗略估计,至少比Hadoop的能力强200倍,网络技术是NVLINK,比PCIEX快8倍,搭载了7个TBDSSD,特别强大。

本次GTC大会最热闹的就是香车美女,还有自动驾驶汽车。现场展出的沃尔沃汽车配了两块K80,大概有8000个核,每秒钟扫描100万个点,有很多雷达,从长距到超短距的都有,超短距雷达是毫米级的。所以这种车不会撞车,相比司机驾驶要安全很多。但驾驶技术不行,会比较颠簸。

这次大会上,雅捷也举办了展览。我们是做高性能数据库的,做了很多年的系统集成。以前我们是IBM的搭档,永远跟在IBM后面做,但现在我们的速度是IBM的1000倍。

以前我们做数据仓库时,每天要用20个小时做数据,即使是做在线分析,通常用10分钟也算不出来。然后我们就把整个数据库重新写一遍,把执行引擎和计划引擎都在GPU上部署,用大规模的GPU集群,花了88块K80,每个K80是4000多个核,总核数是40万,用新技术后就调快了很多。

这种应用有很多,典型的例子就是银行。中国有很多银行,每个银行大概有5000万客户,9000万帐户。银行的运营数据非常宽,客户属性和产品属性也非常多,我们面临的问题是5700万行5000列大矩阵的分析。做数据库的人都知道,商业数据库的列数达到1000万列以上时,查询效率就会非常差,但是用GPU就能解决一切问题。

还有两个关于K40的案例。第一个案例:大数据有一种很长的表,常年的时间序列很长。举个例子,假如我想找到晚上在西单地区消费大于2000元的年轻女性,其实也就不过四五个条件,在这种大表里几十毫秒就能查出来。第二个案例:大数据还有一种特别宽的表,在信贷领域应用比较多,信贷领域一套财务报表一百多项,三年财务状态三四百项,用宽表查能提高1000倍。

今天的演讲,一方面是关于Hadoop的进展;另一方面是GPU的应用,用大规模并行的方式去做,给人耳目一新的感觉。成本只有原来的1/10,速度还提高了400—500倍,大数据真的颠覆了原来的体系。最后一个感悟就是,今年的两个大会中,有越来越多的中国公司参与进来。特别是在GTC大会,有很多做人工智能的中国公司,除了美国展团外,就是中国展团,这种公司大概有20多家。


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

数据猿创始人兼CEO牟蕾:数据积累、成本可控、应用场景落地是AI规模化三要素
数据猿创始人兼CEO牟蕾:数据积累、成本可控、应用场景落地是A...
年终主题策划与评选活动——“大数据的2019,我的2020”
年终主题策划与评选活动——“大数据的2019,我的2020”...
郑重声明:有人冒充数据猿工作人员“非法募资”,请勿上当受骗!
郑重声明:有人冒充数据猿工作人员“非法募资”,请勿上当受骗!...

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部