GrowingIO 联合创始人张溪梦:如何提高数据分析效率?

【数据猿导读】 企业大数据分析闭环至少要具备两个组成部分,第一部分:业务端的参与度,第二部分:技术端的实施。在GrowingIO 联合创始人张溪梦看来,业务端外部参与越多,技术端内部实施越少越快,效率就会越高

GrowingIO 联合创始人张溪梦:如何提高数据分析效率?

大家好,非常感谢能够参加2015年的CIO峰会,感谢IT经理人世界组织这么好的一个活动,能够听到各位CIO,CTO,CEO以及各个行业内的专家的分享,很多的亮点,收益良多!

简单介绍一下,我是张溪梦,过去的12年间一直在美国工作,我之前一直在美国负责数据分析分析的工作。包括之前负责LinkedIn美国所有和营收相关的数据分析团队,八年前我在eBay负责整个电子商务的网站分析,之前也有很多的零售分析,市场营销分析的经验。早年我是脑外科医生,在肿瘤医院工作。之所以今天能够站在这里和大家分享,有两个重要原因,第一是,我很幸运,在做自己喜欢做的事情,年轻的时候我喜欢玩游戏、电脑、互联网,觉得很有意思,所以那时候选择离开医院,专注做计算机和互联网有关的行业。第二,我非常幸运,是因为在过去12年里,我在美国受到MBA的教育之后,一直在从事和数据分析,数据库, 市场营销、销售和网站手机端的数据分析等相关各个领域,一直从事和数据有关系的工作。大家可以看到,在过去8年间大数据和数据科学的概念悄然兴起,但在当时我工作的时候没有想到今天数据分析会变成热门的一个行业。这里我要感谢我以前工作过的公司,其中包括LinkedIn,eBay,Petco, Epson等等公司对我的培养。我在美国最大的职业社交网站LinkedIn工作过五年,eBay做过三年, 还有其它的互联网营销各个行业的公司,参与了用数据做很多决策的很多环节。我非常感谢过去遇到这么多优秀的人,没有他们的帮助,我是不可能有机会站在这里跟大家分享这些个人的经验。

言归正传:首先我们来讲讲什么是数据?

其实我对数据的理解很简单,数据就是一种链接。它连接4个最基本的象限,时间,地点,任务,事件。我们为什么要说数据会是下一次技术革命浪潮的最重要的指针?大家来看一下,根据美国几家顶级研究机构的报告,(Gartner,IDC等等),在未来的5年,我们会有40亿人通过互联网产生各种数据,将成就一个4万亿美元的市场,将有两千五百万种软件接入,250亿台各种各样的设备接入各种数据系统,五百万亿GB的数据产生。这些数字看上去非常庞大,可能在做的各位行业领袖会觉得和您的产业可能没有太直接的关系。那我们来看一看和数据有关的美国企业软件服务市场的格局是什么样子的?

2015年一月份,美国统计出将近两千家B2B的企业,在过去一年前多少家?900家左右。我们看到一个数量上几乎翻倍的市场。大家看到的是一个井喷的企业软件市场。特别是在过去的一年,大量的新兴企业应用都是以云端软件服务形式出现的。欧美国家的企业在销售,运营,市场,产品等等部门已经进入下一个几何量级飞跃的数据驱动时代。这个趋势可以从过去12个月入场的与云服务,SaaS(软件即服务),以及数据科技有关的B2B创业公司的数量增长中可见一斑。美国是一个商业机制非常发达,以各种数据分析为基础,供求关系相对平衡的国家。特别是在硅谷,各种企业需求或者行业痛点会被各种新兴创新公司的产品迅速填充解决。多种多样数据驱动的需求催生了大量的企业服务提供者和对传统企业软件行业的颠覆者。其中各种企业软件最核心的通用性就是对商业各种流程的具有规模的,大范围的,大幅度的分析和优化。

然后我们在来看看什么是分析?

实际上分析很简单,分析就是了解历史,预测未来,然后对全局进行优化。李世民讲过的人以铜为镜,可以正衣冠,以古为镜,可以见兴替,以人为镜,可以知得失,讲的就是这个道理。大家可以看看这张图,它展示了美国人沉淀出来的数据分析的5大步骤,这五大步骤的复杂度是以几何倍数递增的。即第一:了解历史上发生了什么,第二:为什么会发生。第三现在正在发生什么。第四:未来会发生什么。第五:如何做到最优。第六点,是我新近加上去的,就是在新的时代要尽全力做到全数据分析大量自动化。

收集分析的框架和方法论:

下面,让我们来看看,数据分析到底有什么作用,他具体有哪些细节和框架。 首先,美国若干企业精耕细作多年,美国的数据分析驱动精益运营在管理学,科学,方法论,经验,软件工具,特别是内部员工的经验以及企业内部基于数据信息协作等各个方面都已经相当成熟。比如说,美国在传统企业零售、保险、物流、银行、风控、能源、服务等各个领域都有已经沉淀几十年的数据分析解决方案。商业数据分析已经深深植入到企业的各个组织,特别是各种运营部门的日常运行之中。以销售部门,产品部门以及市场部门为例,很多公司的销售部门都能够熟练使用云端服务软件和各种数据分析工具做到非常有效率的管理销售漏斗和预算的方法。数据分析已经深入到企业的每个员工每日运营和业务经验中。更重要的一点,几十年的管理学经验, 各种方法论和经典运营以及管理经验已经融合在他们使用的软件之中。这种沉淀进一步在新兴的SaaS软件里面得到了极致的体现。比如说人力资源软件Workday,销售管理软件Salesforce,企业猎头软件LinkedIn,SaaS支付软件Zuora等等。 在数据分析领域,美国企业应用数据仓库,ERP以及BI(商业智能)很多年,经验非常成熟,可以在各个领域看到诸多成果。

我们仍然可以将之分解成几个细节的步骤,大家仍然可以看到,这里各个环节从先到后是以价值不断提高为条件的。第一,也是最重要的一点,正确的数据采集,数据标签方法的实施,对未来的数据分析迅速产生结果有几何倍数的促进作用。这也是若干企业缺失或者非常忽略的部分。第二:大数据的工程架构,数据仓库,分布式计算层面。现在的分布式计算系统,和以往的数据仓库的整体构架有了很大的分别,这要求我们的IT部门能够跟上节奏,实施部署新的基于开源的分布式数据技术、例如已经比较成熟的Hadoop,这个技术已经在美国应用了将近10年,渐渐在互联网公司变成了主流。第三:响应性分析,这就是大部分企业也许做的最多的事情,就是不断地用数据回答业务方提出的各种问题,制作简单的报表,商业智能,BI等等。第四:诊断性分析,比如说多维度的归因,积分卡的实施等等。第五:战略型分析:竞争趋势,价格弹性,企业财务营收的判断等等。第六:预测性分析即对未来的业务进行基于统计模型,机器学习,以及各种大规模模拟和优化的分析。第七:即达到回到我们刚才说的全数据自动分析和决策。

下面我给大家看一看大多数的企业都是如何完成这些工作的

您们在座的各位行业领袖,特别是CTO专注技术的,是不是对这个图比较熟悉。这不就是企业内部的数据流程图吗?如果我告诉您,这张图是美国汉密尔顿河污水处理的流程图您会怎么想?这张图是把美国一条污染的河变成清水的过程,也非常类似于现在今天数据分析的流程。很多企业内部做数据分析的一个基本的流程正如:很多脏水流了进来,我们需要人力对它们进行各种监控,把他放到一个池子里进行沉淀。然后我们做各种清洗、聚合、再清洗、再消毒,再传输,一步一步,美国做过一个研究,真正从数据收集到最后数据的产生有用的商业价值的过程,需要三个星期到五个星期。大家想想,每做一个很简单的决策,需要三到五个星期的流程,这是多么痛苦的过程。未来的企业如果要在数据战略上成功,必须能够有能力迅速的把污水变成清水的能力。

大家再来看一看,真正产生的价值的部分都在这个金字塔的上端。而根据美国白宫的首席数据科学家DJ Patil的一份研究报告,90%的数据工程和分析师的时间是放在数据收集和清理部分,只有10%左右的资源放在能够产生大量商业价值的工作上。在传统意义上来说,整个的数据分析是由若干的部门按照顺序处理,这样效能是非常缓慢的。大家讲大数据,数据是从数据标签的采集开始的,一般都由前端工程人员实施,然后数据传输的工作由IT来管理,ETL一般由企业内部的数据仓库或者数据平台的团队负责,BI(商业智能)部门在分析部或者存在于业务部门之中,然后我们还有各种商业分析师,统计学家参与其中,这个运行框架体系因为各个部门参与的人非常多,流程很长, 大量降低了效率。特别是站在技术先头部队的互联网企业,做过各种尝试,比如想打破这个僵局就要对各个功能性部门进行整合,但是因为功能性的部门要求人员的能力和经验有千差万别的需求,造成了懂业务的部门很难真正理解技术,懂技术的部门又没有没有足够的精力完全理解业务部门五花八门的需求,这样就产生了若干决策环节的缓慢与低效。为了解决不断增加的需求, 企业内部需要内建和定制化各种IT系统,这种定制化造成了企业内部各个部门形成了若干数据微型小岛,若干企业数据孤岛进一步增加IT部门的工作负荷、即对各种内部定制化的系统进行数据整合从而进行各种统一的数据决策。短期之内这种定制化的数据整合貌似解决了企业的信息决策的问题,但是在长远上看会甚至进一步拖慢企业决策速度。请看这张数据分析金字塔图,在过去若干年里面,我们发现大数据分析真正产生价值就是上面10%的投入时间,会产生超过90%甚至超过90%的价值。但是他如果没有时间和没有资源做下面90%的工作,就不可能产生任何的价值。包括销售的管理也是一个数字驱动运营化。

大家再来看看最新的Hadoop分布式计算的流程图,其复杂程度和运营难度还是有很高的门槛的。同时再看看企业里面有这么多的数据系统。想把这些若干小环节连在一起,是需要一个很大的工程实施和管控能力的。中国今天飞速发展状态下,我们要问问自己,我们的企业是否每一家都有需要内建一个“污水处理厂”,或者重复开发和部署那么多种软件来为实现企业分析服务。今天我们面前的一个机会,就是如何用非常有效地采用先进的方法越过各种技术和管理鸿沟,让我们企业变得更有效率。而且人口红利的减少,企业增加效率就是我们要做的最重要一件事。

图片来自: Tera Data

如何提高数据分析,以及运营决策的规模和效率?

主要的手段,就是要对现有的业务的数据分析流程进行大规模的简化,从而达到端对端的整合,让决策分析系统趋于闭环。这种数据分析闭环的速度基本上等同于企业决策速度。企业大数据分析闭环至少要具备两个组成部分,第一部分:业务端的参与度,第二部分:技术端的实施。这个决策环业务端外部参与越多,技术端内部实施越少越快,那么效能就越高。如何理解呢,在美国最新的权威机构的研究资料中提到了下一代数据革命中的影子CTO的概念,即IT部门应该成为企业软件的外部管理者,而不是内部执行者。而且美国的云端SaaS软件,也就是把信息决策的功能放在云端从而跨越过若干IT的冗长流程和技术鸿沟。这已经在硅谷若干引领潮流的公司中有了很好的诠释,比如Salesforce,LinkedIn(领英),Facebook(脸书),Uber(优步)以及Airbnb等一流公司的各个部门都越来越多的采用采购基于SaaS的各种解决方案,而不是全部自建得到了充分验证。

另外,我们的企业要仔细考虑是否多利用云的平台和基于云的技术。大家都知道水循环吧,因为有一种伟大的力量能够自然把数据像水一样抽入天空,然后行程降雨来浇灌植物,这就是云的概念。云能够帮我们解决什么问题?1. 人力资源的匮乏,让企业无法够用到足够多的专家来建立整套数据分析体系。2. 云端服务一般都是基于开源的框架技术,在成本层面上可以得到控制。而且它特有的弹性机制能够做到弹性扩展弹性收缩,能够帮助企业减低成本。3.云软件服务都是沉淀了高级的企业管理的方法论的,优秀的SaaS服务不是一个软件,而是一个管理体系。这样我们就跨过了这个冗长的污水处理场建造的阶段。人口红利下降之后,提升效率是非常重要一种能力。在我们这个百花齐放的市场,最重要一点就是时间,我们想帮助企业提高效率,争取更多的时间用数据创造额外价值,而不是增加成本。

我们从美国回国创建GrowingIO.com,我们关注如何利用企业的移动互联网数据,希望我们做的数据分析产品能帮助企业把90%的数据分析工作完全自动化,弥补分析师的不足,能够帮助帮助企业把几个星期的信息决策变成几分钟内可以做的决策,变成很多员工能够利用数据驱动来做决策。从而大幅度的增加运营和决策的效率。让互联网企业能够有更多的时间优化他们的业务,更好的服务于他们的客户。

谢谢大家!


来源:软件定义世界

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

相关精彩内容推荐

我要评论