数据囤积问题愈发严重，你能得到的价值有多少？

数据囤积大数据大数据湖营销

数据分析网 | 2016-06-20 14:29

【数据猿导读】 20年前，内部数据是大部分数据仓库举措的数据来源。但现在，大数据囤积者却往往拼命收集现成的外部数据，尤其是社交媒体数据，它们经常被储存在数据湖中，因为它们能够与其他数据结合，产生有用的信息。但社交媒体数据常常“充满噪音”，商业价值令人存疑。让人们对数据囤积问题有所认识...

虽然数据囤积的危害可能不像实物囤积那么严重，但背后的心态都是相同的。收藏过去25年里每一期《纽约时报》的实物囤积者之所以这么做，是因为他们错误地认为，在未来的某个时候，他们将需要参考这份报纸上的内容。

20年前，内部数据是大部分数据仓库举措的数据来源。但现在，大数据囤积者却往往拼命收集现成的外部数据，尤其是社交媒体数据，它们经常被储存在数据湖中，因为它们能够与其他数据结合，产生有用的信息。但社交媒体数据常常“充满噪音”，商业价值令人存疑。

让人们对数据囤积问题有所认识乃是当务之急。“必须让人们明白他们应该如何处理他们的数据，尤其是在评估数据架构方面，特别是在云端。”他说，“人们不知道该如何在云端建立数据架构。

在包含大量数据的环境中生活工作，有一个不好的地方：总想把每一个Byte、每一个字节都储存起来，以备未来使用。多亏了亚马逊简易存储服务(Amazon S3)和Hadoop等价格低廉的存储系统，让我们在技术上能够把收集到的所有数据都储存起来。但如果做过了头，也会导致数据囤积的危险局面。

虽然数据囤积的危害可能不像实物囤积那么严重，但背后的心态都是相同的。收藏过去25年里每一期《纽约时报》的实物囤积者之所以这么做，是因为他们错误地认为，在未来的某个时候，他们将需要参考这份报纸上的内容。同样，数据囤积者之所以收藏谷歌的每一份关键词报告，是因为他们错误地认为这将有助于开展营销工作。

数据囤积现象愈演愈烈，这不足为奇。毕竟，由于大数据热潮，我们拥有了大量且便宜的存储空间，其中很多都是云存储空间。EMC的数据传道者比尔·斯克马佐(Bill Schmarzo)说，用同样的钱，你在Hadoop数据湖里储存的数据量可以达到传统数据仓库的50倍。这是项巨大的优势。

数据囤积问题正在恶化，因为一些大数据方案提供商一直在告诉客户不要扔掉任何数据。再加上以为能从数据废气中轻松发掘出竞争优势的心理认知，以及囤积行为本身所带来的惯性，你会发现，数据囤积很容易变成一个严重的问题。

从一个极端到另一个极端

在过去20年里，我们从数据存储的一个极端跳到了另一个极端。以前(1995年)，存储成本比现在高得多，企业只会储存对业务至关重要的数据。通常来说，当时的数据均来自操作数据存储系统，并且会严格按照预设模式进行转换，然后从中提取有用信息，基于这些严密控制的数据仓库生成数据报告。

但大数据湖却可说整个颠覆了数据存储的“剧本”。如今，企业不是只储存那些已证实具备商业价值的数据，而是把所有的数据都储存起来，哪怕在未来提供商业价值的可能性相当渺茫。其中有很多数据都属于原始数据或者“数据废气”。而数据废气以前都会被丢弃，因为它不具备直接可用的商业价值。

数据整合初创公司Xplenty的联合创始人兼首席执行官扬里夫·莫尔(Yaniv Mor)说，我们已经从一个极端走到了另一个极端。他认为，数据囤积问题正在逐年恶化。

“现在，企业出于保险起见，往往会把所有数据都储存起来，以防以后有人想要使用。”莫尔说，“如今，存储成本很低，所以他们把所有数据都塞进亚马逊S3或者谷歌云端硬盘。但当分析师需要从中提取某些信息时，却会变得很困难。这种情况一直都在不断出现。”

莫尔说，Apache Hadoop和云存储为数据囤积创造了条件。虽然这些平台降低了存储成本，但也暴露出从数据中提取有用信息的专业能力不足的问题。

“这是个巨大的挑战。”莫尔说，“梳理数据并从中获得有用信息不是件易事。你必须依靠那些具备数据分析能力的数据科学家和专业分析师。”

ROT数据越来越多

大公司和其他机构，比如政府机构，已经开始向数据囤积问题屈服。维尔软件(Veritas)美国国防部和美国情报部门业务主管乔迪·霍克(Jody Houck)说，联邦机构发现，增加更多的存储空间比直面他们的数据囤积问题更加简单。

“有很多错误的看法。”霍克在今年4月接受联邦新闻电台(Federal News Radio)的采访时说，“他们认为存储很便宜，所有数据都有价值，所有数据都有相等的价值，于是他们把数据全都储存到云端。既然存储是免费的，干嘛不用?”

霍克说，实际上并非所有的数据都有用。维尔软件的《2016年数据基因指数》(Data Genomics Index)报告显示，普通机构储存的数据中，有40%到60%都属于冗余、过时或琐碎(ROT)的数据。

而且，维尔软件发现，在各个机构的数据中，40%以上都属于过期数据(也就是在三年时间里都没人用过)。各机构都在花费大量金钱储存无数不再使用的文件。“每千万亿字节要花费他们500万美元，但储存的却都是些ROT数据。”霍克说。

瞄准营销

虽然数据囤积问题无处不在，但Xplenty的莫尔说，有一个企业部门格外容易遇到这个问题，那就是营销部门。

“营销人员只是收集所有的数据，却未必知道该如何处理这些数据。”莫尔说，“营销人员必须明白，不是所有的数据都同等重要。他们不必收集营销服务提供给他们的每一项数据。营销人员堪称创造数据沼泽的突出代表。”

对于囤积者来说，追踪事物情况(或曰“治理”)也变成了一个大问题。就像实物囤积者在塞满东西的房间里很难找到某件物品一样，数据囤积者也被大量数据弄得晕头转向。如果严密的模式控制失灵，“随便怎样”的心态占领了数据湖，那么那里很快就会退化成浑浊的数据沼泽。

数据囤积没有明确的定义，这个问题在很多机构都存在，只是程度各有不同。数据囤积也应该与法律强制保存的档案区分开来。例如，按照法律规定，银行必须将数据保存很多年，而一些医疗机构则必须将医疗数据保存几十年。

数据囤积解决方案

解决数据囤积问题的第一步是承认问题的存在，然后可以采取几个策略。

维尔软件的霍克建议采取自上而下的数据治理方案，首先从认清数据及其价值开始。先建立一套更好的数据分类模型，然后让一位数据专家或者首席数据官全面掌管，实施更好的数据治理政策。

“我们相信，如果我们现在就实施信息治理策略，并且先从ROT和过期数据入手，然后制定解决方案，将没有价值的数据从我们的系统中移除，将能更好地帮助我们完成使命，压缩成本。”她在接受联邦新闻电台的采访时说，“这是企业文化上的改变。这是技术上的改变。手动检查每一项数据显然不可行，但我们有能力实现数据的自动盘查，记录下我们有什么，然后采取行动。”

Xplenty的莫尔说，让人们对数据囤积问题有所认识乃是当务之急。“必须让人们明白他们应该如何处理他们的数据，尤其是在评估数据架构方面，特别是在云端。”他说，“人们不知道该如何在云端建立数据架构。”

最终，数据囤积问题必须得到自下而上的解决，这意味着要让具体的人员改变他们对数据的看法。“重要的不是你最后收集到了多少数据，而是你从数据中获得了多少价值。”他说，“这是所有分析师和所有数据专家每天都应该问问自己的问题。”

来源：数据分析网

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。