܄

资深数据科学家教你如何从数据中获得洞见

【数据猿导读】 Salesforce高级副总裁,资深数据科学家Rama Ramakrishnan给新入门的数据科学家提供了一种新的从数据中发现洞见的方式:就像一名科学家一样,从理论出发进行预测,检查数据,修正理论,再进行预测,如此循环。

资深数据科学家教你如何从数据中获得洞见

Salesforce高级副总裁,资深数据科学家Rama Ramakrishnan给新入门的数据科学家提供了一种新的从数据中发现洞见的方式:就像一名科学家一样,从理论出发进行预测,检查数据,修正理论,再进行预测,如此循环。

这个问题经常被提到。

典型的提问者是刚入门的数据科学家,分析师以及对数据科学很陌生的经理。

他们的上司正经受着压力,得展示收集、存储和组织数据的系统费用的投资回报率,更别提那些花费到数据科学家身上的钱了。

有的时候他们很幸运。他们也许被要求解决一个非常具体而且已经被很好地解决了的问题(例如,预测哪些顾客倾向于取消他们的手机合同https://blog.kissmetrics.com/improve-by-predicting-churn/)。在这种情况下,有许多种方式可以解决问题,这简直就是数据科学的天堂。

但是通常来说,他们只被简单地要求去“挖掘数据,并且告诉我一些有趣的事情”。

从哪里开始呢 

这是一个很复杂的问题,而且不存在一个完美的答案。我作为一名有经验的实战者,已经发展出许多方式去做这件事。这里是其中一种我觉得非常有效的方式。

它基于两个观念:

1. 每家企业都可以被视作拥有许多活动的复杂系统。没有人可以100%理解它。即使是最有经验的雇员,他们对企业的理解和企业真正的运作状况之间也仍然存在着鸿沟。而且由于企业一直都在变化,这条鸿沟会不断变宽。

2. 任何你所拥有的有关企业的数据都描述了这个复杂系统的行为的某些方面。

考虑到这个,你可以将“洞见”看作是任何可以提升你对这个系统的真实运作的理解信息。它填补了你所认为这个系统的运作方式以及它真实的运作方式之间的鸿沟。

或者借用安迪·葛洛夫(Andy Grove)(https://en.wikipedia.org/wiki/Andrew_Grove)的著作《格鲁夫给经理人的第一课》(High Output Management)中的类比,复杂的系统就像黑箱,而洞见就像是从黑箱的一侧所开的一扇窗,光可以透过窗照到箱子里正在发生什么。

所以对洞见的追寻也可以被认为是通过分析数据来理解复杂的事物是怎么运作的。

这正是科学家所做的事情!这个世界是不可思议地复杂,但是科学家们却有一本已经被尝试和测试过的指南来逐渐提升我们对它的认识,这就是科学方法(https://en.wikipedia.org/wiki/Scientific_method)。

以下是不正式的总结:

使用他们现在对系统运转的理解(“理论”),他们可以做出确定的预测。

然后他们检查数据(有的时候开展精心设计的实验来收集数据https://www.nasa.gov/feature/goddard/2016/nsf-s-ligo-has-detected-gravitational-waves)来确定数据是否与他们的预测相匹配。

如果并不匹配的话,他们就会深入研究到底发生了什么,并且更新他们的理解(“修正理论”)。

他们做出新的预测,并且重复循环。

数据科学家和分析师可以做同样的事情。在你开始探索数据的时候,写下有关你所期望从数据中所见的一个短的清单:主要变量的分布,重要变量间的关系,等等。这样的清单本质上是基于你目前对企业的理解的预测。然后分析数据,画图,总结,做任何需要做的事情来看它是否和你的期望相符。如果有事物并不匹配呢 如果有任何事物,让你觉得“这很奇怪”或者“这不符合情理”呢 

放大来看,并且尝试理解你的企业中哪个部分产生了这个奇怪的事物。这是非常重要的步骤。

你也许就会找到对企业的洞见并且增进你的理解(又或者,你会发现在你的数据被收集或计算的过程中出错了http://www.exp-platform.com/Documents/TwymansLaw.pdf)。

这里是一个真实的例子。数年以前,我们正在研究一个大型B2C零售商的交易数据,数据集中包含一列“交易数量”(“transaction amount”)的数据。

我们期望看到什么 我们期望大部分的数量都在平均值左右,部分数据会更小一些,另一部分会更大一些。所以这一列数据的曲线图看起来应该像这样:

数据_科学家_洞见-1

但是当我们检查数据的时候,我们看到的是:

数据_科学家_洞见-2

我们探索了让我们觉得奇怪的,也就是“Hmm”这个部分。

最后发现这些交易并非是他们的典型客户——为孩子而购物的年轻母亲——所做出的。而是由那些一年一次从国外到美国来,走进商店,购买大量商品并且带回自己的国家,在自己的商店中销售的客户所做出的。他们是和我们的零售商没有特定关系的转销商。

这家零售商这时候在北美之外并没有任何实体,他们的网站也没有往这些地方派送货物。但是在他们的版图之外有充足的需求,以至于当地的企业迅速地发展起来,来填补这个空缺。

这个极小的发现导致了一串有趣的连锁问题:这些转销商都购买了哪些产品,怎样的促销活动对他们最适用,甚至是这些数据可以怎样被用作全球扩张的计划。

所有的这些都来自于一个简单的曲线图。

艾萨克·阿西莫夫(Isaac Asimov)(https://en.wikipedia.org/wiki/Isaac_Asimov)漂亮地抓住了其中的精髓:

在科学中最令人激动的话语,预示着新发现的话语,并非“找到了!“而是”这很有趣……

——艾萨克·阿西莫夫

注意:从数据回溯到企业中最根本的原因需要时间、精力和耐心。如果你在企业中有很好的联络网可以回答你的问题的话,你会变得更加有生产力。同样地,对你来说非常奇怪的事情,也许对他们来说是习以为常的(因为他们对于企业的理解也许比你的理解要深入),那样,你就可以节省时间。

通常来说,你越了解企业的细微之处,你的预测就会越有针对性,并且最终能够找到更为深入的洞见。所以,尽全力去深入企业的细节。找出了解企业的同事,从他们那里学习,可能的话,让他们成为你的“同谋“。

显而易见,拥有数据科学领域的知识是很有必要的,但是有关企业的知识会对你的工作质量造成更大的影响。

除了数据科学工作以外,我发现“预测并检查“的观念模式也适用于其他类型的分析工作。

在“翻页“之前,暂停一会儿,想一下你期望看见什么样的东西。你会发现,这会形成对照,并且你能够更容易地在海量的数字当中发现有趣的事情。


来源:数据派THU

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

#榜样的力量#寻找新冠战“疫”,中国数据智能产业先锋力量丨数据猿公益策划
#榜样的力量#寻找新冠战“疫”,中国数据智能产业先锋力量丨数...
数据智能 无限未来—2020世界人工智能大会云端峰会数据智能主题论坛顺利举办
数据智能 无限未来—2020世界人工智能大会云端峰会数据智能主题...
#榜样的力量#天玑数据大脑疫情风险感知预警平台“智疫通”丨数据猿新冠战“疫”公益策划
#榜样的力量#天玑数据大脑疫情风险感知预警平台“智疫通”丨数...

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部