油价太低怕裁员？也许大数据能救你一命

油价裁员大数据石油工程师

知乎 | 2016-02-24 10:55

【数据猿导读】新年伊始，油价跌到了2014年最高点的不到三成。仅休斯敦有十几万相关人员从业人员被裁。如果2016年低石油价格不回升到60美元/桶以上，还将有更多的油工失业。然而这最困难的时刻，大数据，这个似乎和石油行业完全不搭的新潮概念，也开始得到了石油企业的关注

新年伊始，康菲把整个深海勘探部门裁掉;BP裁掉其全球8分之一的员工;斯伦贝谢已经成了“三轮贝谢”。如果2016年低石油价格不回升到60美元/桶以上，还将有更多的油工失业。这些接踵而至的坏消息让我们意识到了资本主义世界的残酷——尤其是在这个深受政治影响的行业里，技术从来不是铁饭碗。然而这个时候，Big Data，却开始得到了某些大大小小的石油企业的关注。大数据究竟会用怎样的方式给石油工程带来新的效率?它的出现，对传统工程师到底是好消息还是坏消息?作为一个担心未来被裁员的石油工程师，是否可以学习这方面的知识，让自己跟上时代?

1. 首先，咱们简单谈谈什么是大数据。

很久很久以前，当人们还没有很好的技术收集数据的时候，人们在概率论的基础上发明了统计学，试图用精密的数学方法从有限的数据中提炼出有价值的结论。随机采样是统计学的基础，曾经取得过巨大的成功，但这种方式本身也存在着很多的缺陷——它的成功依赖于采样的绝对随机性，而这在很多case by case的工程领域是没办法实现的;同时，数据量的限制会让人不得不限制变量的数量，而偏偏化工和石油这种过程工程领域的变量又出奇得多。这大大阻碍了石油工业从统计学中获得收益的进程。

如今，计算和存贮数据不再像过去那样受限。网站被动收集大量数据，计算机可以轻易进行处理。过去通过采样而得到最大信息的时代已经过去，我们进入样本=总体的时代。与之相对应的，人们发明出了更灵活的machine learning的诸多算法。通过unsupervised learning，人们更多的是detect problem, but not ask why.

对于大数据的基本特征，有个“3V”的说法：

Volume: big data doesn't sample; it just observes and tracks what happens

Velocity: big data is often available in real-time

Variety: big data draws from text, images, audio, video; plus it completes missing pieces through data fusion

在大数据时代，人们发现。针对大数据的简单算法要比针对小数据的复杂算法更有效。所以人们把精力逐渐放在如何收集更多数据而不是提高算法上。人们也开始研究新的数据储存方式，来应对大数据的三个特征。

最能代表这个转变的，就是Hadoop的流行。Hadoop是与谷歌的MapReduce系统对应的开源式分布系统的基础架构，它非常善于处理超大量的数据。通过并行计算，把大数据分布到小数据，然后发放到不同的节点进行运算。通过map, shuffle, reduce的方式，极大地缩短运行速度。信用卡公司VISA通过Hadoop，能把处理时间从一个月缩短到13分钟。

这一定会改变石油行业的操作规则。

2. 油气行业数据分析举例

上百年的操作与研究经验，让油气公司储存了大量数据。然而，由于工程师惯有的物理建模思维，这些数据被偏颇和不充分地利用，因此巨量的数据并没有提供等价的可供未来操作参考的信息。此外，很多具有潜在意义的数据往往因为得不到分析的要领而被无视和放弃。由于石油工程的对象本身的复杂性，过去的石油公司往往过分看重工程师的经验，却没有意识到这些“经验”本身就是大量数据在个体脑中积累和分析的结果。

在这种垄断行业，人们对行业外新技术的敏感性总是慢半拍。然而，当页岩气热潮催生了大批中小石油公司，并紧接着受到了低油价的打击之后，新技术的优势就突然变得瞩目起来。油气公司们也普遍意识到了数据分析对于提高作业效率的重要意义以及大数据在油气行业的机遇。如今，一些大公司如BP已经开始雇佣contractors为公司做数据分析;另一些企业，如Chevron和Schlumberger,建立了自己的数据分析团队。一些灵活的中小石油公司亦是纷纷试水。以本公司为例，不但businese analysts看到了数据分析在油气的应有前景，很多石油工程师也开始试图自学掌握这方面的基本技能。

数据分析已经在石油行业促成了许多成功案例。在BP某炼油厂里，无线感应器遍布于整个工厂，形成了全流程无死角的网络，能够产生大量实时数据，监测管道的承压并和历史数据进行比对分析。这个新的数据网络使BP能够了解到，有些种类的原油比其他种类更具有缓慢而长期腐蚀性。这是此前数十年的经验也没办法发现和防止的;而现在，工程师们则可以根据这些数据对来料和操作流程进行优化。

How to improve production is kind of the biggest business question in oil company。即使是在同一区域打的不同水平井，油气水的产量也大不相同。到底是那些变量造成的产量差异?虽然学界和工程界已经提出了海量的经验和半经验的公式对油藏进行描述，然而现场条件的复杂性和井下数据在开采前的未知性让这些公式的可靠性仅仅略好于，if any，瞎猜。而如今，石油工程师们只要收集各种地质，化学，区域，操作人员等数据以及过去的操作数据，数据科学家们就能够通过回归模型分析数百个可能变量，找到对油气产量影响最大的十几个变量，最终建立数值模型。这些模型尽管在物理上很难给出完美的解释，然而却能够在特定区块产生远好于各色理论模型的精度。

下面举一些The Society of Petroleum Engineers(SPE)的数据库中有关deta science 和 big data的会议文章，有兴趣的同志们可以去看看~~

通过上图可以看出，数据分析在artificial lift, drilling, completion, production, reservoir, 甚至是economy，都曾建立成功模型。我们把模型放到app里。工程师们可以实时看到数据和预测。通过对比历史数据和科学模型预测分析，做出决策。

(编者按：你们真的是来帮忙的么?我怎么感觉是在抢我们的饭碗....)

3. 大数据和数据分析常用工具

大数据和数据分析常用工具分为三个种类。可视工具，分析工具和Hadoop工具。

在石油公司，可视工具用的最多的是Excel和Spotfire. Excel就不介绍了。Spotfire是一个data visualization and analysis software.

工程师们最喜欢这种可视化软件。Spotfire可以连接数据库，直接生成各种图表，加标签，自带线性回归等基本统计模型。它最大的优点有两个。

1 TIBCO Enterprise Runtime for R (TERR)。平台自带R server。可以自己编写平台不具备的算法。

2 TIBCO Web Map Service(WMS)。这个对石油公司太有帮助了。可以多层map layer重叠。显示经纬度，油井分布，油井参数各种。工程师们最爱。

分析工具常用的有R, Python, Matlab。这三种软件各有优点。R的算法包最全。Python速度较快，而且最近也有一大堆好使的算法包。Matlab是工程师们用的。所以在石油公司工作，这三种最好都要会。时不时就需要帮助工程师翻译他们的Matlab算法到Python。

Hadoop工具最近也被陆续引进了石油行业这种传统公司。对real time analysis和mass data analysis有很大的帮助。常见的平台有Cloudera, Amazon AWS和MapR.

Cloudera开发的比较好，用的公司多，培训很完善。Udacity上还有课。为本人学习Hadoop立下汗马功劳。可惜俺们公司没用。

AWS 是Amazon产品。以前实习的小公司用过。便宜。功能也挺多的。但是当时感觉不稳定呢还。不知道现在怎么样了。MapR目前也颇有一些公司在用。开源，功能完善，并便宜。我自己的感觉是其实这些平台architecture都类似。并且大家都在努力搭建新的东西进来。

4. 自学指南：我们是否可以自学大数据和数据科学的相关知识?

作为一名统计计算机背景的石油工人(编者按：不要套近乎，我要戳穿你是从生物系转过来的老底!)，我真诚的建议石油工程师们也自学一些数据分析模型和软件。优势是大大的。好基友在BP是reservoir engineer, 他现在负责的项目就是用Perl 做一些模型预测分析并开始自学python。

目前Massive Online Learning Website最著名的是Udacity, Coursera和edX。现在大部分课，尤其是Specilization的课，都是付费模式。不过如果你还是学生，可以申请finiancial aid。这三大网站都可以免学费。上面的好课是无穷的。Coursera上面的课非常多且全。除了统计计算机，还有一大堆人文，数学，科技，历史，法律课。通过上课，做作业，可以得到证书。证书可以导进Linkedin. Udacity上主要是编程课和大数据课。Udacity和企业联系广泛。如上文所说，Cloudera就在上面有课。经常老师会带着你去各个公司转转，听听大牛的建议，非常有意思。另外Udacity上有mini degree，还有配TA。不满意的话一段时间内可以退学费。业界良心呀。edX也经常和企业联系。上面的好课非常多。从界面来看，我个人比较喜欢Coursera和Udacity，所以edX上的课不多。

下面推荐三个我觉得最好的machine learning入门课。并且分别用到了R, Python和Matlab。

Stanford Online。讲解如何用R做Statistics Learning. 大牛讲的超级清晰!用的教材是所有用R的machine learning里讲的最清楚的。讲解了R的data structure, regression, model selection, cross validation, 还有许多其他的常用算法。每章后面都配code。供你练习。

这是Coursera上华大的一个specialization.五门课加capstone。五门课分别为 Machine Learning Foundations: A Case Study Approach， Machine Learning: Regression， Machine Learning: Classification，Machine Learning: Clustering & Retrieval，Machine Learning: Recommender Systems & Dimensionality Reduction。讲解如何用python 做machine learning。每课配课后练习。所有讲解的算法都是目前最常用的。

最后一个良心推荐来自Coursera Stanford Machine Learning。老师是机器学习领域最大牛吴恩达。网上有网友笔记。还有课件。这门课用Matlab作为工具。讲解超级清楚，浅显易懂。有人上完这课就去Kaggle比赛拿到了好成绩。吴大牛讲解了机器学习的原理，步骤，常用算法，数据结构。绝对从0开始。每门课有project。提供数据和coding结构。我都把讲义打印下来，平时工作记不清了就时时查阅。

5. 总结

现在石油价格这个样子，各大公司裁员血流成河。如何才能更有竞争力?我觉得是需要更diverse 的skillset。学数据分析和编程是一条好路。作为传统行业，油气公司需要更多的数据分析专家来提高产量，降低成本。身边已经有朋友在被裁员后通过data science 的技能快速找到新工作。希望你找到工作。希望你不会被裁。更希望你拥有更全面的技术，才能立于不败之地。

来源：知乎

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。