܄

Sensors Data CEO桑文锋:深度解读大数据及数据分析方案

【数据猿导读】 在第七届中国数据库技术大会上,Sensors Data CEO(前百度大数据部技术经理)桑文锋,作为一名资深大数据牛人,站在从创业公司服务角度,与大家深度解读了大数据,技术应用以及数据分析方法

Sensors Data CEO桑文锋:深度解读大数据及数据分析方案

大数据概念

大数据”的概念是什么?在桑文锋的演讲中,首先将这个问题提了出来。简单来说,大数据的概念可以用四个字来概括。即:“大”、“全”、“细”、“时”。

所谓“大”是什么含义?可以理解为Large,而不是Big。举个例子,比如说:百度每天采集的用户行为数据有 1.5PB 以上;全国各地级市今天的苹果价格数据有 2MB;1998 年 Google 抓取的互联网页面共有 47GB(压缩后);一台风力发电机每天产生的振动数据有 50GB。

“全”是全量而不是抽样。打比方来说,1936 年《文学文摘》收集了 240 万份调查问卷,预测错误;新闻学教授盖洛普只收集了 5 万人的意见,预测罗斯福连任正确;2012 年 Nate Silver 通过互联网采集社交、新闻数据,预测大选结果。

“细”是多维度。“时”就是实时收集数据、实时分析数据。

大数据思维

自“大数据”一词被提出,就被炒得沸沸扬扬。几乎所有的企业都认为大数据是一种趋势,是一种资源,也都想把自家的业务往大数据方向靠一靠,即大数据思维。

桑文锋举出例子,比如,去年流行一个词叫“然并卵”,这样的一个词如果用传统的方式,因为它是一个重新构造的词,在输入法是没办法通过拼音“ran bing luan”直接把它找出来的。然而,在大数据思维下那就不一样了,换句话说,我们先不知道有这么一个词汇,但是我们发现有许多人在输入了这个词汇,于是,我们可以通过统计发现最近新出现的一个高频词汇,把它加到司库里面并更新给所有人,大家在使用的时候可以直接找到这个词了。再比如说百度地图,它根据每日的路况数据,完全可以告诉你哪条路不堵?半个小时以后,这条路是不是堵车。这里出现一个一个词汇,就是数据驱动,也就是说能否完全运用新的数据。

现有常用方案

在桑文锋的演讲中,提到现有常用方案有三种,分别是第三方统计服务,业务数据库写SQL以及基于日志写统计脚本。而这三种方案有一定的好处的同时,也都存在一些不足。

第三方统计服务这种方案好处在于使用起来比较简单,且服务免费。不足的地方只要体现有三处:数据源:只能覆盖前端 JS/APP SDK 记录的数据,无法覆盖服务端和业务数据库的数据。分析能力:只能覆盖宏观通用分析,使用后还需要数据团队满足运营/产品的各类定制化的需求;安全性:规模稍大一点的公司,不想把核心数据放在第三方平台。

而业务数据库写SQL方案,对比业务数据库与数据仓库两个概念,业务数据库只能记录当前状态,而数据仓库却能提供历史记录。故而不足的地方是计算能力有限,无法水平扩展,且业务人员不易理解和影响业务分析逻辑。

基于日志写统计脚本这种方案的好处在于与业务数据库解耦。不足的地方表现为开发效率低( 2 天/个,重复开发)且准确性无法保证。另外,技术性较强,数据流难以管理。

理想状态方案

那么,如何建立理想的数据分析方法呢?桑文锋给出了一套理想状态方案。首先是数据采集,要求全量且精细,经过数据传输,有了数据之后,就要对数据进行加工,不能把原始的数据直接报告给上面的业务分析人员,它可能本身是杂乱的,需要完善的数据源。再到数据建模(要求多维度),数据模型就是对现实世界的一个抽象化的数据的表示。在数据分析方,特别是针对用户行为分析方面,目前比较有效的一个模型就是多维数据模型,在线分析处理这个模型,它里面有这个关键的概念,一个是维度,另一个是指标,最后再到数据查询。


来源:it168网站

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

在VUCA时代, 数据分析起家的蓝灯数据如何利用云原生微应用将“颠覆式革新”进行到底?
在VUCA时代, 数据分析起家的蓝灯数据如何利用云原生微应用将...
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数据”智慧丨数据猿新冠战“疫”公益策划
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数...
张涵诚:大数据招商平台可推动地方供给侧改革
张涵诚:大数据招商平台可推动地方供给侧改革

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部