܄

深度长文:出版业有“大数据”吗?

【数据猿导读】 人们对“大数据”的膜拜,再早可以追溯到《大数据时代》这本风靡一时的书,随着美国影视作品《纸牌屋》的播出和热评,使“大数据”又有了形象化的宣传效果。当人们热议“大数据”的时候,我一直想了解:出版业有“大数据”吗?具体到某一家出版单位,也会有“大数据”吗

深度长文:出版业有“大数据”吗?

2015年9月,国务院印发《促进大数据发展行动纲要》,明确提出要发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。

在国务院的部署与推动下,各行各业都在谋划自己的大数据中心和大数据产业,出版业也不例外。

其实,人们对“大数据”的膜拜,再早可以追溯到《大数据时代》这本风靡一时的书,随着美国影视作品《纸牌屋》的播出和热评,使“大数据”又有了形象化的宣传效果。

当人们热议“大数据”的时候,我一直想了解:出版业有“大数据”吗?具体到某一家出版单位,也会有“大数据”吗?

互联网上的讹传

一种在互联网上广泛流传的说法是:互联网上一天所产生的数据可以刻满1.68亿张 DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达 200万个(相当于《时代》杂志770年的文字量);卖出的手机为 37.8万台,高于全球每天出生的婴儿数量37.1万。截止到2014年,数据量已经从TB级别跃升到 PB、EB乃至ZB级别。

这一组数据的潜台词似乎在告诉我们:传统出版业的数据量其实是非常有限的。那么传统出版业的数据量究竟有多大?是否够得上“大数据”?

2013年3月20日在“中国IDC圈”网站上发表了这样一篇文章:《印象:人类生产的印刷材料数据量达200PB》。文中是这样表述的:“随着信息技术的发展,互联网已进入到人类生活的方方面面,随之而产生的数据也呈现爆发性增长,有数据显示,到2012年为止,人类生产的所有印刷材料的数据量是200PB,而过去两年产生的数据占人类历史数据总量的90%,并且预计到2020年,人类所产生的数据量当达到今天的44倍。”。

这篇文章告诉我们,人类从印刷术发明以来,全部印刷品的内容数据量是PB级别,至于传统出版业的内容数据量,肯定少于这个数字,因为印刷品不一定都是出版物。但遗憾的是,这篇文章在提到“200PB”时,并未说明计算方法,亦未注明数据来源。

另一篇提到“200PB”的文章是2015年4月21日发表于“36大数据”网站上的《报告:数据大爆炸,“互联网+”基础设施数据中心大发展(上)》。该文写道:“国际数据公司 IDC的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为 0.8ZB, 2010 年增长为 1.2ZB, 2011 年的数量更是高达 1.82ZB,相当于全球每人每年产生 200GB 以上的数据。而到 2012 年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是 5EB。”该文提到了国际数据公司IDC,且明确说明“200PB”数据是摘自中信证券分析师陈剑、李伟和王浩冰的《云计算/IDC行业专题研究报告——数据大爆炸,数据中心大发展—“互联网+”基础设施之二》一文。

为此,笔者购买了中信证券的报告。

中信证券的报告是这样表述的:“国际数据公司(IDC)的研究结果表明,2008 年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人每年产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。”

从中信报告的表述中,明显让人感觉所谓的“200PB”应该是从IDC报告中引用的。但仔细推敲,又会疑惑,因为中信报告中的“而到2012年为止,人类生产的所有印刷材料的数据量是200PB……”与前面一句话同在一个段落,虽用句号断开,但整段未标引号。因此,究竟“200PB”是不是IDC说的看不出来。好像怎么理解都对。

从网上的文献也可以看出,目前多数关于“大数据”的中文文章,常默认“200PB”为IDC的数据,且将其当成论文的背景予以介绍,也就是说,该数据已被当成公认正确的结论予以引用,甚至它已经成为绝大多数论文立意谋篇的基本依据了。几乎无人质疑过其真实性和出处。多数论文在引用时通常冠以“有数据显示”或“国际数据公司(IDC)的研究结果表明”,以此来指明出处,并暗示其权威性。

为进一步了解情况,笔者又查阅了英文网站上的一些相关文章。

一篇发表在highscalability.com网站的“How Big Is A Petabyte, Exabyte, Zettabyte, Or AYottabyte?”文章。文中是这样表述的:“200 Petabytes: All printed material OR Production of digital magnetic tape in 1995.”。显然,该文中“200PB”指的是1995年当年全部印刷品或数字磁带的数据量,而非截至2012年为止的人类全部印刷品的内容数据量。

另一篇发表于2011年2月14日IBM网站上的“what’s in that 1TB?”一文,该文作者是Tony Pearson,IBM系统存储产品首席发明家和高级IT专家,就职于IBM Executive Briefing Center。文中关于“200PB”是这样表述的:“A Petabyte is thousand TB, or a quadrillion bytes. It is estimated that all printed materials on Earth would represent approximately 200 PB of information.”。

从查到的两篇英文文献看,所谓“200PB”均为其各自独立提到,并未明确指出或含混暗示该数据与IDC有任何关系,且从上下文看,第二篇文章中的“200PB”似乎是为了说明PB的数据量级而举的例子,作者举例时还特地使用了“estimated”一词,说明不是严谨的科学统计。

与此同时,笔者又查阅了IDC历年公开发布的报告,也未发现有此说法。

根据以上简单的查询,虽未找到“200PB”的统计方法,但至少证明了一点,它肯定不是IDC的数据。

但不管“200PB”具体出自何处,也不管它是如何被统计出来的,此数据被广泛引用至今,至少说明了一点:传统出版业的数据量不大,这种判断与人们的感觉似乎也颇为一致,因此几乎所有人都愿意相信其真实性。如果结合“过去两年产生的数据占人类历史数据总量的90%”的说法,传统出版业的整体数据量在比较中显得更小;如果再减去非出版物印刷品的数据量,传统出版业的数据量则微乎其微,至于单独一家出版单位,其数据量就微不足道了。

这是互联网上关于传统出版业的数据给我的初步印象,这种印象的结果似乎在暗示,“大数据”与传统出版业关系不大。

出版物的内容数据

“200PB”也罢,“5EB”也罢,“1.82ZB”也罢,对绝大多数人来讲这些可能都是概念或者一个词汇,很难产生实际的联想。所以笔者突然有一种想把比特或字节这种东西用全数字串的方式表示出来的冲动,想看看不同级别的比特或字节到底有多长?到底相当于多少汉字?以下是笔者的计算:

1.比特之间的数字串长度是多少?相当于多少汉字?

我们知道,二进制数据的最小单位是Bit(比特),用b表示,比特和字节的关系是8 比特等于1字节,即8b = 1B(byte,字节)。其中,1字节又等于0.5个汉字,即1B=0.5个汉字。B,KB,MB……EB之间,以1024的倍数增长。笔者直接采用Windows计算器进行计算如下:

1KB=1B*1024=1024字节=512个汉字;

1MB=1KB*1024=1048576字节=524288个汉字;

1GB=1MB*1024=1073741824字节=536870912个汉字;

1TB=1GB*1024=1099511627776字节=549755813888个汉字;

1PB=1TB*1024=1125899906842624字节=562949953421312个汉字;

1EB=1PB*1024=1152921504606846976 字节=576460752303423488个汉字;

1ZB=1EB*1024= 1180591620717411303424字节=590295810358705651712个汉字;

至于1YB=1ZB*1024=??字节=??个汉字,我已没有耐心计算了。

通过这种计算,我们大致知道了EB级别的水平:即18位数字串汉字,也就是57亿亿以上汉字。

2.传统印刷媒体或纸质书刊报的整体内容数据量是多少?

为了方便计算,笔者分别以中国新闻出版研究院所属中国书籍出版社出版的图书、出版发行研究杂志社出版的期刊为例,报纸则以手边的中国知识产权报为例,拟了一个每面大约排字量的近似标准如下:

图书:以目前较为流行的大32开、每面约800汉字计算,1印张汉字数为:800汉字× 32开 = 25600汉字 = 51200字节。

期刊:以目前较为流行的大16开、每面约1800汉字计算,1印张汉字数为:1800汉字×16开 = 28800汉字 = 57600字节。

报纸:以对开4版、每版约6660汉字计算,1印张汉字数为:6660汉字×4版 = 26640汉字 = 53280字节。

以《2014年全国新闻出版产业分析报告》中的印张数为依据进行计算,得出:

图书:2014年总印张数为704.25亿印张,2014年图书全部内容的汉字量为:800字×32开×704.25亿印张 = 1802.88万亿汉字 ,转换成数据量为:1802.88万亿汉字×2 = 2605.76 万亿字节。

期刊:2014年总印张数为183.58亿印张,2014年期刊全部内容的汉字量为:1800字×16开×183.58亿印张 = 528.71万亿汉字,转换成数据量为:528.71万亿汉字×2 = 1057.42万亿字节。

报纸:2014年总印张数为1922.30亿印张,2014年报纸全部内容的汉字量为:6660×4版×1922.30亿印张 = 5121.00万亿汉字,转换成数据量为:5121.01万亿汉字×2 = 10242.02万亿字节。

也就是说,仅2014年一年,仅我国范围内,传统出版业(主要指书刊报,含复本数)的内容数据量约为:图书1802.88万亿多汉字,期刊528.71万亿多汉字,报纸5121.01万亿多汉字;合计约7452.6万亿多汉字,14905.2万亿多字节,13.24 PB。

3. 2014年当年出版书刊报内容平均每册(份)的数据量是多少?

图书:2014年全国共出版图书总印数81.85亿册(张),总印张704.25亿印张,用总印张除以总印数可以得出每本图书平均印张数,即:704.25亿印张÷81.85亿册(张)=8.60印张。平均每本图书内容数据量为:8.60印张×25600汉字/印张 = 22.02万汉字 = 44.04万字节。

期刊:2014年全国共出版期刊总印数30.95亿册,总印张183.58亿印张,用总印张除以总印数可以得出每册期刊平均印张数,即:183.58亿印张 ÷ 30.95亿册 = 5.93印张。平均每册期刊内容数据量为:5.93印张×28800汉字/印张 = 17.08万汉字 = 34.16万字节。

报纸:2014年全国共出版报纸总印数463.90亿份,总印张1922.30亿印张,用总印张除以总印数可以得出每份报纸的平均印张数,即:1922.30亿印张÷463.90亿份=4.14印张。平均每份报纸内容数量为:4.14印张×26640汉字/印张 = 11.03万 汉字=22.06万字节。

4.如果不计算复本数,2014年当年出版书刊报内容数据量是多少?

图书:2014年全国共出版图书448431种,平均每种图书为22.02万汉字,2014年当年出版图书数据量为:448431种×22.02万汉字 = 987.45亿汉字 = 1974.9亿字节(多卷本未计算在内,再版书按新书计算)。

期刊:2014年全国共出版期刊9966种,平均期印数15661万册,总印数30.95亿册;通过用总印数除以平均期印数,可以得知实际出版期数约每年19.76期,2014年当年出版期刊内容数据量为:9966种×19.76期×17.08万汉字 =336.35亿汉字= 672.7亿字节。

报纸:2014年全国共出版报纸1912种,平均期印数22265万份,总印数463.90亿份;用总印数除以平均期印数,可以得知实际出版期数约每年208.35期,2014年报纸当年出版内容数据量为:1912种×208.35期×11.03万汉字 = 439.40亿汉字= 878.8 亿字节。

通过以上计算,大致结论如下:

2014年当年出版书刊报(不含复本数)数据量约为:图书987.45亿汉字,期刊336.35亿汉字,报纸439.40亿汉字;合计约1763.2亿汉字,换算成字节约为3526.4亿字节,即约0.32 TB。

5.2014年平均每个出版社当年出版图书内容数据量大约是多少?

截至2014年底,全国共有出版社583家(包括副牌社33家);平均每个出版社当年出版图书数据量为:987.45亿汉字 ÷ 583家 = 1.69亿汉字=3.38 亿字节(由于《2015中国新闻出版统计资料汇编》中,仅有出版社数量,无杂志社和报社数量,且由于实际情况复杂,统计困难,故此处不计算平均每家杂志社和报社新出报刊内容数据量)。

6.全国最大出版集团(前三),2014年当年出版图书内容数据量是多少?

根据2014年新闻出版产业分析报告,选取总体经济规模综合排名前三的出版集团进行图书(不含集团中的报刊出版数据量)内容数据量的统计,具体如下:

江苏凤凰出版传媒集团:总数据量 = 27.46111亿印张×25600字/印张= 703千亿汉字×2字节 = 1406千亿字节 = 127.9TB

湖南出版投资控股集团:总数据量 = 21.77402亿印张×25600字/印张 = 557.41千亿汉字×2字节= 1114.82千亿字节 = 101.4TB

中国教育出版传媒集团:总数据量 = 50.56242亿印张×25600字/印张 = 1294.40千亿汉字×2字节= 2588.80千亿字节 = 235.45TB

三大出版集团2014年新出图书(不含复本数)数据量为:

江苏凤凰出版传媒集团:2014年总印数39499万册(张),总印张2746111千印张,用总印张除以总印数可以得出每本图书平均印张数,即:2746111千印张 ÷ 39499万册(张)= 6.95印张,每本图书内容数据量为:6.95印张×25600汉字/印张 = 17.80万汉字;2014年共出版图书16534种,平均每种图书为17.80万汉字,得出2014年当年出版图书数据量为:16534种×17.80万汉字 = 29.4亿汉字 = 58.8亿字节 = 5.48GB(不含复本数)。

湖南出版投资控股集团:2014年总印数30051万册(张),总印张2177402千印张,用总印张除以总印数可以得出每本图书平均印张数,即:2177402千印张÷30051万册(张)= 7.25印张,每本图书内容数据量为:7.25印张×25600汉字/印张 = 18.55万 汉字;2014年共出版图书9095种,平均每种图书为18.55万汉字,得出2014年当年出版图书数据量为:9095种×18.55万汉字 = 16.87亿汉字 = 33.74亿字节 = 3.069GB(不含复本数)。

中国教育出版传媒集团:2014年总印数45035万册(张),总印张5056242千印张,用总印张除以总印数可以得出每本图书平均印张数,即:5056242千印张÷45035万册(张)= 11.23印张,每本图书内容数据量为:11.23印张×25600汉字/印张 = 28.75 万 汉字;2014年共出版图书14483种,平均每种图书为28.75万汉字,得出2014年当年出版图书数据量为:14483种×28.75万汉字 = 41.64亿汉字 = 83.27亿字节 = 7.754GB(不含复本数)。

7.全国出版业近10年累计出版书刊报内容数据量是多少?

① 2005—2014十年中,全国平均每种(份)书刊报数据量统计:

平均每本图书数据量:2005—2014十年全国共出版图书总印数累计724.36亿册(张),总印张数累计5942.65亿印张,用总印张除以总印数可以得出每本图书平均印张数,即:5942.65亿印张 ÷ 724.36亿册(张)=8.20印张,每本图书内容数据量为:8.20印张×25600字/印张 = 20.99万 汉字 = 41.98万字节。

平均每册期刊数据量:2005—2014十年全国共出版期刊总印数累计311.25亿册,总印张数累计1692.43亿印张,用总印张除以总印数可以得出每册期刊平均印张数,即:1692.43亿印张 ÷ 311.25亿册 = 5.44印张,每册期刊内容数据量为:5.44印张×28800字/印张 = 15.67万 汉字= 31.34万字节。

平均每份报纸数据量:2005—2014十年全国共出版报纸总印数累计4505.28亿份,总印张数累计19523.95亿印张,用总印张除以总印数可以得出每份报纸的平均印张数,即:19523.95亿印张÷4505.28亿份 = 4.33印张,每份报纸内容数量为:4.33印张×26640字/印张 = 11.54万 汉字=23.08万字节。

即2005—2014十年中,全国平均每种(份)书刊报数据量为:图书20.99万 汉字,41.98万字节;期刊15.67万 汉字,31.34万字节;报纸11.54万 汉字,23.08万字节。

② 2005—2014十年中,全国累计书刊报数据量(不算复本数)统计:

十年累计图书数据量:2005—2014十年全国共累计出版图书3286887种,平均每种图书为20.99万汉字,得出十年出版图书累计数据量为:3286887种×20.99万汉字 = 6899.17亿汉字= 13798.34亿字节(多卷本未计算在内,再版书算新出图书)。

十年累计期刊数据量:从2005—2014十年全国共出版期刊97247种,平均期印数164752万册,总印数311.25亿册;通过用总印数除以平均期印数,可以得知实际出版期数约每年18.89期,得出:十年期刊出版内容数据量为:97247种×18.89期×15.67万汉字 =2878.57亿汉字= 5757.14亿字节 。

十年累计报纸数据量:2005—2014十年全国共累计出版报纸19299种,平均期印数213467.02万份,总印数4505.28亿份;用总印数除以平均期印数,可以得知实际出版期数约每年211.05期,得出十年报纸出版内容数据量为:19299种×211.05期×11.54万汉字 = 4700.30亿汉字= 9400.60亿字节 。

即,2005—2014十年全国书报刊累计内容数据量(不算复本数)约为:图书6899.17亿汉字,期刊2878.57亿汉字,报纸4700.30亿汉字,十年合计约为: 14478.04亿汉字,换算成字节约为28956.08亿字节,即约2.63 TB。

③ 2005—2014十年全国累计书报刊数据量(含复本数)统计:

图书十年总印张数:5942.65亿印张,总数据量 = 总印张×每印张汉字数 = 5942.65亿印张×25600 汉字/印张 = 1.52 亿亿 汉字=3.04亿亿字节。

期刊十年总印张数:1692.43亿印张,总数据量 = 总印张×每印张字数 = 1692.43亿印张×28800汉字/印张 = 0.49亿亿 汉字=0.98亿亿字节。

报纸十年总印张数:19523.95亿印张,总数据量 = 总印张×每印张字数 =19523.95亿印张×26640汉字/印张 = 5.20亿亿 汉字=10.40亿亿字节。

即,2005—2014十年书报刊累计出版内容数据量(含复本数)约为:图书1.52亿亿汉字,期刊0.49亿亿汉字,报纸5.20亿亿汉字;十年合计约为:7.21亿亿汉字,换算成字节约为14.42亿亿字节,即约128.08 PB。

以上计算说明,我国传统出版业中正式出版的书刊报,近十年的累计内容数据量整体也就在TB级别,就某个单一出版单位或出版物来说,其数据规模看起来真的不是很大。

出版物其他相关数据

1.出版物发行数据

2014年,全国新华书店系统、出版社自办发行单位出版物总销售199.05亿册(张、份、盒),总销售金额2415.5亿元,纯销售量69.86亿册(张、份、盒),销售额777.99亿元。

2014年全国出版物零售情况如下:

①图书零售量63.93亿册(张、份、盒),零售额684.5亿元;

②期刊零售量0.18亿册(张、份、盒),零售额10.07亿元;

③报纸零售量0.21亿册(张、份、盒),零售额2.15亿元;

④音像制品零售量0.55亿册(张、份、盒),零售额9.15亿元;

⑤电子出版物零售量0.11亿册(张、份、盒),零售额8.36亿元;

⑥数字出版物零售额178.72亿元。

2014年全国出版物总购进量199.86亿册(张、份、盒),总销售金额2415.5亿元;库存数量66.39亿册(张、份、盒),库存金额1010.11亿元;非出版物商品销售金额178.72亿元(不含在销售总额之内);发行网点169619处;从业人员71.93万人。

2005—2014十年间,全国新华书店系统、出版社自办发行单位出版物数量及金额合计为:总销售1737.87亿册(张、份、盒),总销售金额17530亿元;纯销售量658.08亿册(张、份、盒),销售额6110.5亿元。

2005—2014十年间,出版物零售情况如下:

①图书零售量594.37亿册(张、份、盒),零售额5973亿元;

②期刊零售量14.79亿册(张、份、盒),零售额160.5亿元;

③报纸零售量7.21亿册(张、份、盒),零售额19.77亿元;

④音像制品零售量14.98亿册(张、份、盒),零售额183.2亿元;

⑤电子出版物零售量2.49亿册(张、份、盒),零售额68.79亿元;

⑥数字出版物零售额182.13亿元;

2005—2014十年间,出版物总购进量1765.39亿册(张、份、盒),总销售金额17989.8亿元;库存数量530.01亿册(张、份、盒),库存金额7263.02亿元;非出版物商品销售金额545.41亿元(不含在销售总额之内);发行网点合计1659298处;从业人员合计665.71万人。

2.印刷复制数据

2014年,印刷复制(包括出版物印刷、包装装潢印刷、专项印刷、打字复印、复制和印刷物资供销)总体实现营业收入11740.16亿元,利润总额814.66亿元;

全国出版物印刷企业(含专项印刷)9079家,工业销售产值1504.72亿元;图书、报纸、其他出版物黑白印刷产量31936.28万令;彩色印刷产量252658.6万对开色令;装订产量31965.32万令;印刷用纸量65406.06万令。

2005—2014十年间,印刷复制(包括出版物印刷、包装装潢印刷、专项印刷、打字复印、复制和印刷物资供销)总体实现营业收入55061.01亿元,利润总额3760.04亿元;

全国出版物印刷企业(含专项印刷)82531家,工业销售产值11302.26亿元;图书、报纸、其他出版物黑白印刷产量272667.73万令;彩色印刷产量1523209.22万对开色令;装订产量282529.76万令;印刷用纸量510573.37万令。

说明:2005-2009年的印刷复制营业收入仅包括出版物印刷厂的营业收入金额,2010-2014年的印刷复制营业收入包括出版物印刷、包装装潢印刷、专项印刷、打字复印、复制和印刷物资供销。

3.出版物进出口数据

2014年,全国累计出口图书、报纸、期刊1689.42万册(份),5649.66万美元;累计进口2538.85万册(份),28381.57万美元;累计出口音像制品、电子出版物与数字出版物9.58万盒(张),2214.41万美元;累计进口13.44万盒(张),21000.13万美元。

2005—2014年十年间,全国累计出口图书、报纸、期刊13076.3万册(份),48283.88万美元;累计进口26357.86万册(份),245117.66万美元;累计出口音像制品、电子出版物与数字出版物439.42万盒(张),9141.39万美元;累计进口243.96万盒(张),103662.3万美元。

4.版权管理与版权贸易数据

2014年,全国版权合同登记17376份;作品自愿登记997350份;全国共引进版权16695种,全国共引进图书、音像制品和电子出版物版权16321种;共输出版权10293种,共输出图书、音像制品和电子出版物版权8733种。

2005—2014十年间,全国版权合同登记152679份;作品自愿登记4914108份;全国共引进版权150835种,全国共引进图书、音像制品和电子出版物版权142854种;共输出版权56360种,共输出图书、音像制品和电子出版物版权47143种。

在出版物发行、印刷复制、进出口和版权交易等分领域的统计数据背后,出版业也存在与之对应的庞大的实时交易数据。除此之外,出版业还有大量的图书在版编目(CIP)数据,国家标准《图书在版编目数据》于1990年7月31日发布,要求自1991年3月1日起实施,经过几年的实施和准备,于1999年4月1日开始在全国强制性推广实施,截至目前共登记了340万条左右的数据。CIP数据需向中国版本图书馆申请,包括著录数据(书名、著作责任者项、版本项、出版项、丛书项、附注项、标准书号项等)和检索数据(图书识别特征的检索点和内容主题的检索点)两个部分,这为图书的分类标引、著录、检索等提供了很大的方便。

什么是“大数据”

关于“大数据”有太多有识之士给它下过定义了,有些定义大同小异,有些则表达角度不同。本文采用麦肯锡的定义,即一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,它具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)、价值密度低(Value)、数据真实性(Veracity)五大特征(5V)。本质上,它为我们观察世界提供了一种全新思维。

下面我们拿5V来说说吧!

1.什么叫Volume?

笔者想了想,大数据的“大”是否可以理解为是名词,而非形容词,它代表一个数据级别,而非简单形容数据之多。也就是说只有到一定级别的数据才能称之为“大数据”,如PB、EB等?

另外,从上述统计看,出版业虽然每年都在生产一定量的数据,但这些数据是完全按印刷品上的内容量来统计的,首先它不是基于互联网上的实时交易数据,其次它也不是实时的用户行为数据,它与今天我们多数人认知的基于互联网上的大数据截然不同,出版业的内容数据更多是文本类数据,这类数据是否适合运用目前流行的大数据工具来处理,值得讨论。

2.什么叫Velocity?

它是指数据的实时快速生成、更新与累积,如互联网公司服务器上的实时生成的日志 、社交网站上实时生成的用户信息、传感器数据和监视数据等。所以有人提出1秒定律,来形容其数据更新的快速性。

也就是说它指的不是出版物上的静态数据,而是基于联机交互、实时更新的动态数据,大数据是活水,不断的会有新的数据注入进来。

3.什么叫Variety?

它是指数据类型非常多,包括结构化数据、非结构化数据、富媒体数据、不连贯语法语义数据等,以及这些数据的超大规模激增。

而出版物内容数据类型相对简单、内容表现形式相对统一,迥异于互联网上繁杂的数据。

4.什么叫Value?

即价值密度的高低与数据总量大小成反比,数据量越大,有价值的数据越难荟萃,越需要通过强大的机器算法和工具软件来实现,因此有人认为价值“提纯”是大数据的特点之一。

换句话说,完全面对需求的严谨的、干净的结构化数据,还需要挖掘吗?挖掘的本意不就是沙里淘金吗?

5. 什么叫Veracity?

即数据的真实性。数据的重要性就在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。获取真实可靠的数据是保证分析结果准确、有效的前提。只有真实而准确的数据才能获取有意义的结果。

除了以上5V外,“大数据”还有一些特点,比如分布式,即Distributed,也就是说这么大规模的数据量,只能通过分布式存储、分布式读取、分布式利用来实现;复杂性,即Complexity,是说数据量巨大,数据来源多渠道,包括传统数据、交易事务型数据,而互联网和物联网的发展,则带来了微博、社交网络、传感器等多种数据来源。

下面我们来看看出版业的数据特征:

如果按上述标准来看,出版业的内容数据虽具有Veracity属性,但离Volume尚有差距,按照目前的数据生成和利用模式看,短期内也不大可能向其他3个V转型。这是因为,出版业是精英生产内容的模式,与互联网上的草根生产内容或用户生产内容模式不同。精英生产内容有以下特点:

1.严格的内容评价与筛选机制,如“三审制”等,非经过“三审”的稿件是无法得以出版的,而互联网上则通常都是通过敏感词过滤软件来实现内容的筛选,显然在内容质量上不是一个量级。

2.正是这种精英式的内容生产机制,使内容产出物是按一定标准制定出来的,即其数据结构完整统一,内容表达符合语法规范,基本不存在异构和混乱的数据。

3.也正是这种严格的内容审查与编辑机制,使传统出版物具有较高的价值含量,具有较集中的知识属性,这与互联网上的口水性内容不可同日而语。

4.同时,传统出版的内容生产流程复杂、周期过长,属于非实时性数据,所以不具有高速生成性,高速更新的特点。

5.传统出版在内容形成产品发布之前,基本也不是分布式存储、读取和利用的过程。

6.传统出版物的数据是内容数据,而非实时交易数据或用户行为数据。什么叫用户行为数据?它是指对用户访问网站的有关数据进行统计、分析,从中发现用户访问网站的规律,包括:用户来源地区、来路域名和页面;在网站停留时间、跳出率、回访次数;使用搜索引擎、关键词、关联关键词和站内关键字;在不同时段的访问量情况等。

相比较而言,传统出版中的报刊,除自办发行的报刊外,绝大多数发行量大的报刊都是通过邮局订阅发行的,通过邮局订阅的用户,其信息内容过于简单,而且即使如此简单的用户数据,报刊社也不掌握,更谈不上进行用户行为分析了。另外,即使是报刊社自办发行的用户数据,由于其用户数量相对有限,所有信息都是非常明确、非实时产生的,因此是否需要用“大数据”工具进行挖掘分析值得研究。

图书则主要是通过新华书店和二渠道书商发行,其终端用户的行为数据也无法掌握。

当然,如果出版单位想要进行选题策划,以“大数据”的方式分析市场需求和潜在用户,那到不妨用“大数据”工具试试;或者出版单位转型互联网平台,真正产生规模庞大的用户行为数据,“大数据”工具也可能是一种不错的选择。

“大数据”软件都有哪些典型应用

从百度上简单搜一搜,我们就会发现,“大数据”软件非常多,既有站点管理系统,也有数据仓库,还有挖掘与分析工具。在所有软件中,目前名声最大的当属Hadoop了。

登陆Apache(http://hadoop.apache.org),首先是下面这几句英文:

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.

It is designed to scale up from single servers to thousands of machines, each offering local computation and storage.

英文中的scalable, distributed computing,large data sets,clusters of computers,thousands of machines等,指的是可扩展、集群、分布式,这正是大数据软件的特点之一,也是大数据软件所擅长的部分。换句话说,单机、数据规模较小的情况下,部署Hadoop这类软件可能就未必合适了。

当然,“大数据”软件并没有一个明确的定义,在实际应用中,它有一个承前启后的过程。早期可以追溯到IBM、Oracle、HP等老牌IT公司的数据仓库解决方案。

随着Google、Amazon、百度、阿里等互联网公司的崛起,以及这些公司基于互联网上的实时的、分布式的、庞大的数据业务,Hadoop等大数据软件应运而生。Hadoop是一款开源软件,它包括大数据的存储(HDFS)、计算(MapReduce)、数据仓库(Hive)等组件。

从大数据平台的数据处理过程来看,我们可以将大数据相关技术分为数据采集、数据传输、数据清洗、数据建模、数据存储、数据查询、数据挖掘/统计分析、数据展示几个常见组件。下面简单予以介绍。

1. 数据采集/数据传输。常用软件有Kafka、Sqoop等。Kafka可以将分布式环境中的数据进行收集和传输到数据平台,用于后续的处理。Sqoop可以将关系型数据库中的数据收集至HDFS、Hive中。

2. 数据清洗。常用软件有Kettle等。Kettle是ETL工具集,可以管理来自不同数据库的数据,提供图形化界面配置实现ETL过程。

3. 数据建模/数据存储。常用软件有HDFS、Hbase等。HDFS是Hadoop的最底层的文件系统。Hbase是一个非结构化数据存储方案。

4. 数据查询。常用软件有Impala、Hive等。Hive提供SQL接口,是现在的最常用数据仓库组件之一,Impala可以查询HDFS、Hbase的数据,相比Hive查询性能更好,但对计算机的硬件也有较高要求。

5. 数据挖掘/统计分析。常用软件有R、Mahout等。R是用于统计分析、绘图的语言和操作环境。Mahout提供一些可扩展的机器学习领域经典算法的实现,包括聚类、分类、推荐过滤、频繁子项挖掘。使用 Apache Hadoop 库,数据挖掘工程师可以快速实现在大数据方案中的应用。

6. 数据展示。常用软件有Tableau等。Tableau是目前公认的在数据可视化方面最优秀的厂商,提供了丰富的商业智能数据所需的可视化组件。

目前,大数据软件最擅长处理的是以下类型的数据,这些数据多产生于互联网:

1. 用户行为数据。企业可以通过对这些数据的处理,进行精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等。如当用户在进入网站后的所有操作,都会被网站记录下来,会分析用户是从哪些入口(如搜索引擎、微信等)进入该网站的哪个网页?他们在各个网页的行为路径,最后在哪个网页离开去了哪里等,最终实现产品优化,降低用户跳出率,提高用户转化率。

2.用户消费数据。企业可以通过对这些数据的处理,进行精准营销、信用记录分析、活动促销、理财等。如用户在电子商务网站上有了购买行为之后,就从潜在客户变成了网站的价值客户。电子商务网站一般会将用户的交易信息,包括购买时间、购买商品、购买量、支付金额等信息保存在数据库中,所以对于这些用户,可以基于网站的运营数据对他们的交易行为进行分析,以估计每位用户的价值,并针对每位用户进行精准营销。

3.用户地理位置数据。企业可以通过对这些数据的处理,进行O2O推广,商家推荐,交友推荐等方面的服务。如手机用户在实用短信业务、通话业务、正常位置更新、周期位置更新和切入呼叫、应用APP时均会产生定位数据。用户在购物和吃饭时,通过透露自己的位置信息,以便了解周围的商家优惠信息。

4.互联网金融数据。企业可以通过对这些数据的处理,开展P2P、小额贷款、支付、信用、供应链金融等方面业务。如当用户需要小额短期资金周转,不必再劳时费力去银行或小贷公司申请了,只需靠自己常年累月积攒的信用,凭借第三方征信公司提供的信用分,就可以在金融平台上贷款了。目前,最快的贷款速度可以达到10分钟审批、24小时放款。

5.用户社交等UGC数据。企业可以通过对这些数据的处理,进行趋势、流行元素、受欢迎程度、舆论监控、生活行为、社会问题等分析,从中挖掘出政治、社会、文化、商业、健康等有用信息。

从上述类型的数据看,多不属于内容数据,而内容数据的分析涉及到的是自然语言处理、文本挖掘、自动标注、知识图谱等。由于大数据软件目前尚无统一界定,自然语言处理技术算不算大数据软件也不好说,但从功能上看,至少可以分为擅长数据分析的软件和擅长内容挖掘的软件。擅长数据分析的软件多用于金融服务、天气预报监测等领域。擅长内容挖掘的软件多用于智能机器人问答、语音识别等领域。目前,我们的出版业除出版单位自建或合建的基于互联网或移动互联网的业务平台所产生的数据外,更多的是传统出版物的内容数据,这些内容数据基本不适用于流行的数据分析类软件处理,而擅长内容挖掘的软件在出版物内容的智能化处理,特别是知识检索和知识服务方面,更多还处于探索阶段,尚未形成普遍成熟的应用。

同时,即使是内容数据,也还可以再细分为出版物内容数据和基于互联网的实时原创内容数据。今年大获成功的基于个性化推荐的新闻资讯类内容数据便是基于互联网实时原创的内容数据。关于内容数据的挖掘与利用,或许是另一篇文章所要探讨的问题了。

“大数据”平台建设需要多少成本

关于大数据平台建设的成本,笔者查找和咨询了相关公司,归纳整理如下:

对一个企业来说,建设大数据平台有两种方案可供选择:一种是自建,一种是采购第三方成熟产品。自建的成本,主要包括三部分:硬件投入,即服务器、网络设备等的采购;软件投入,即建设大数据平台所需要的各种商业软件的采购;人力投入,即软件工程师和数据分析师的雇佣。采购第三方成熟产品,可从满足企业实际数据量和满足企业业务需求处理的大数据组件等进行成本核定,如采用亚马逊 AWS 的大数据解决方案,常见的可能需要核定存储成本、数据预处理成本、数据查询系统成本等。

总而言之,大数据平台建设的成本与企业实际数据量和业务复杂度强相关。举例说,如果某企业一年积累3T数据量,该企业计划自建大数据平台,同时常用的查询数据集中在最近一年内,更早的数据可以作为冷数据进行廉价存储备份。如果选用目前主流的云计算平台的 IaaS,可选的主流高配机型(16核32G内存,1TSSD 磁盘)租金约3万元/年 ,约需要10台同样配置的机器,即硬件成本约30万元。如果采用开源的 Hadoop组件进行开发,则主要成本基本就是技术人员的投入。要达到企业主要业务数据入库、可查、具有基础的大数据应用的要求,一般需要24-36人/月,以市场主流的具备这类开发能力的两个软件工程师(成本30万元/年/人)、数据分析师(成本20万元/年)计算,这部分的费用约在80 -110万元之间。一个基础的大数据应用平台的建设约需130万元左右的初期投入,后续的日常维护主要是硬件租赁成本和基本的技术人员投入,预计会在60万元/年左右。在实际实施过程中,各企业的投入主要与企业的应用场景和业务复杂程度密切相关,其差距可能会相当大。

而企业如果采用第三方成熟产品,这部分成本核算将比较复杂,需要根据业务情况具体分析来定。比如,如果选择传统老牌厂商的解决方案,大多数软件系统也需要百万级别,如果是软硬件一体的方案,可能达到数百万元。而如果采用新兴的互联网云计算、大数据厂商的方案,成本可能相对低一些。比如,一些 SaaS 厂商的报价,以上述3T/年的用户行为数据为例的话,每年的成本可能只有30-50万元左右。

上述估价只是针对一般中小型企业而言,大型企业或国家级工程项目,其价格标准不在本文讨论的范围内。其实,一个大数据平台建设需要考虑的因素是多方面的,企业发展所处的阶段,企业的数据规模、数据类型、数据应用场景,企业的IT人员情况,企业内使用数据的情况等,更重要的是企业的战略目标,如果企业根本性的转型,上述费用标准可能相差很远。因此,企业的实际需求和目标,才是费用评估的最重要的依据。就目前工业界可选的方案来看,没有标品,更没有明确、统一的预算评估办法可供选择。

同时,大数据平台的建设往往难以一步到位,通常是一个迭代开发的过程。真正能够使用起来的系统也多是进化而来的。从资金投入角度看,大数据平台建设的花费很可能是一个持续的过程。这一点企业应有清醒的认识。

明确需求,量体裁衣

举个例子吧。一个只有10名员工的公司,要统计每个人中午吃什么,直接向每个人问一下,脑子就记住了;一个有100名员工的公司,要统计每个人中午吃什么,可能就得借助纸和笔这样的工具了;一个有1000名员工的公司,要统计每个人中午吃什么,说不定得拿EXCEL表汇总一下了;假如要想实时了解互联网上的用户中午用餐行为,EXCEL表恐怕也未必管用了。此时,“大数据”粉墨登场。

再举一例子。如果求一个正方形面积,长乘宽就够了,何必非要使用微积分呢?是说我们进入了一个“极限时代”吗?极限思想肯定是人类认识史上的巨大飞跃,其伟大之处是面对复杂问题有了特殊的解法。但如果问题简单到像求正方形面积一样,使用微积分就未必合适了。

上述两个例子是想说明,“大数据”既意味着一种数据的量级,也意味着数据的复杂程度,这正是“大数据”的两大主要特点。

英国剑桥大学微软研究院在2013年的一份技术报告中指出,Hadoop适合处理TB或PB级数据,而大多数计算任务处理的输入数据在100GB以下。对如此规模的数据量,纵向扩展的解决方案在性能上往往优于横向扩展。也就是说,微软在2013年就已认识到,100G左右的数据基本无需考虑大数据。根据摩尔定律(运算能力18个月翻一番),到2016年,现在的服务器不需要大数据系统可处理的数据量就应该是400G(100G*2*2),这意味着企业只有在数据量接近400G时才值得考虑大数据平台的建立。

再来说说财政资金的申请与使用吧!

经常看到出版单位在申请财政资金支持时,动辄就是“大数据”、“云出版”、“知识库”,冠上这些名称是挺时髦的,也挺高大上的,但问题是出版单位现有的数据规模和数据特点是否算得上“大数据”?是否需要建设“大数据”平台来进行数据分析,并通过数据分析指导出版单位的运营?另一方面,即使出版单位没有存量的大数据,只是希望通过建设“大数据”平台来探索新的内容生产与内容服务模式。如果是这一种情况,应该说这样的想法本身是非常值得肯定的,在数字化的今天也是非常必要的。但这里也有一个问题,就是出版单位建设大数据平台是从人云亦云的概念出发,还是从企业转型和业务实际出发。这里至少涉及到“大数据”平台建设的业务模型、技术细节、应用过程、人员结构、投入产出、用户需求、体制风险等。只有这些都进行了认真的论证,才能降低“大数据”平台建设的风险。

不过,从我接触到的一些实际情况来看,出版单位的大数据平台建设,似乎概念大于具体应用,其立项申请也常常缺乏操作层面的描述和以用户为导向的需求调研。某些出版单位的申报书就是一批新词的堆砌,看不到思想的变化和服务模式的探索,看不到为此准备在体制、机制、结构和商业模式上进行的改变。甚至有时候,某些出版单位的申报书干脆就是技术公司帮助起草的,技术公司也不一定了解出版单位的业务需求,出版单位也不一定懂得那些专有名词的真正含义。最后,开发完成的项目,很可能既不是“大数据”平台,也无法与出版单位已有系统对接,成为新的信息孤岛。这与中央提出媒体融合的精神,与总局转型升级的初衷,都相去甚远。

大数据平台的建设本身不是目的,其目的是要建立数字化时代的新的商业运营模式,通过直接或间接的方法为企业创造利润,同时增加企业的影响力和话语权。大数据平台的使用,一定要与实际需求挂钩。离开了实际需求,空谈大数据没有意义。就像一定要让线装书局转型去出版电子书一样,有点儿为转型而转型了。同时,如果不考虑大数据的特点,一味从概念出发强行上马,最后很可能就是一场筷子夹汤的愿望,永远也走不到真正的应用。

坚守和变革都是一种情怀

通过以上研究,初步结论如下:

1.“大数据”是信息技术和信息产业发展到一定阶段的产物,它的前身与数据挖掘息息相关,如果用宽泛的概念进行界定,目前相当多的数据分析工作都可能归属其中。也就是说,“大数据”本身,代表着一个承上启下的过程,它无法割断历史,但又有新的含义。

2.这些新含义表现在:它的数据规模应该足够大,它具有分布式、异构性、实时性、低价值密度等特点。也就是说,不是简单做点数据分析就可以归为“大数据”了。

3.传统出版业作为内容产业的一部分,其整体内容的数据量也仅TB级别,由于生产方式的限制,目前尚不具备“大数据”的全部特点。至于单个出版单位,也许离“大数据”还相当遥远。

4.“大数据”不仅是概念,还是具体的应用。出版单位在提“大数据”时,应首先想清楚是否会真正用到这些系统去改变现有的内容生产模式。如果有一天,出版业移师互联网,我相信“大数据”工具一定能很好地派上用场。因为“大数据”工具在对实时产生的数据分析时,会有相当不错的表现,而这些实时产生的数据往往是基于互联网的在线交易数据或用户行为数据。传统出版业基本上是一个埋头于内容加工的行业,它不太关心或者也无法关心用户的行为,即使内容本身的数据也静态得可怕。如果依然是这种内容生产模式,“大数据”也基本与出版业无关了。

5.“大数据”在研发、部署、应用、维护过程中,需要一定的成本(硬件、软件、人力等),有些成本甚至需要持续投入。因此,出版单位在上马“大数据”系统时,最好能进行投入产出的测算,因为一旦进入应用,它就不再是一个简单的概念了,它是需要花很多钱的。因此,实事求是,量体裁衣可能是最佳选择。

6.同时,还要相信,人脑进化了几千年甚至上万年,我们每天往嘴里塞口馒头、喝口菜汤,就能输出无与伦比的智慧,人脑的创新绝不是简单的数据分析就能替代的。目前的数据分析工具,至少在出版界,更多的还是辅助人脑判断的手段。当然,人工智能也在不断挑战人类智慧的极限,这也是事实。

7.无论如何,“大数据”已经成为我们这个时代的背景了,即使不使用“大数据”工具,也会被裹胁其下,无法“独善其身”。坚守与变革都是一种情怀,就看我们出版单位的掌门人怎么理解了。


来源:环球网

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
【金猿人物展】张涵诚: 2020年大数据产业发展将进入深水区,产业价值必须量化
【金猿人物展】张涵诚: 2020年大数据产业发展将进入深水区,产...
【金猿案例展】国网上海市电力:智能配用电大数据应用平台建设
【金猿案例展】国网上海市电力:智能配用电大数据应用平台建设

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部