大数据辞典：吃瓜群众也该知道的75个大数据术语！

大数据辞典吃瓜群众

安在信息安全新媒体 | 2017-08-10 15:05

【数据猿导读】就知道你的反应会是这样!每天说800遍的词偏偏在被问什么意思的时候懵逼，你这个吃瓜群众大大的不合格哦!毕竟，想要装逼，肚子里还是要有点真材实料的。今天小编就要为你介绍75个大数据装逼必备词汇的含义，让它们成为你聊天装逼的利器吧!

开始文章前，小编不禁想卖弄地问问各位：算法、分析、描述性分析、预测性分析、规范性分析、批处理、云计算、集群计算、暗数据……这些大数据专业词汇你知道是什么意思吗

大数据_辞典_吃瓜群众-1

就知道你的反应会是这样!每天说800遍的词偏偏在被问什么意思的时候懵逼，你这个吃瓜群众大大的不合格哦!毕竟，想要装逼，肚子里还是要有点真材实料的。今天小编就要为你介绍75个大数据装逼必备词汇的含义，让它们成为你聊天装逼的利器吧!

1. 算法(Algorithm)

算法是指解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制。也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。

2. 分析(Analytics)

举个常见的例子，你的信用卡公司每年会将记录着你全年资金转账情况的年终报表发给你。如果你想具体看看自己在食品、衣物、娱乐等方面消费情况的百分比是怎样这个过程就叫“分析”，你正尝试从原始数据中挖掘有用的信息，来帮助自己决定来年的支出。

那么，如果你以类似的方法对朋友、网络或者自己的公司发的推文以及 facebook 帖子进行同样的操作，我们就将其称之为“大数据分析”了。所谓大数据分析，就是对大量数据进行推理并得出结论的过程。它有三种不同类型的分析方法，下面我们就对其分别进行梳理。

3. 描述性分析(Descriptive Analytics)

如果你告诉我，去年你自己的信用卡消费情况为：食品消费 25%、衣物消费 35%、娱乐消费 20%、剩下 20% 为杂项开支，这种分析方法就称之为“描述性分析”。

4. 预测性分析(Predictive Analytics)

如果你分析了过去 5 年的信用卡消费记录，并在其中发现一定的一致性、关联性，那么在这种情况下，你就可以较有把握地预测出——来年的消费情况应该和过去几年是类似的。值得注意的是，我们并非在“预测未来”，而是在“预测事情发生的概率和可能性”。

在大数据预测分析中，数据科学家可能会使用机器学习、数据挖掘以及高级统计过程等先进技术来预测天气情况、经济变化等。

5. 规范性分析(Prescriptive Analytics)

这里我们还是用信用卡的例子来解释。你可能会很想知道自己的哪类消费(例如食品、娱乐、衣物等)会对整体消费产生巨大影响，而“规范性分析”就是通过引入“动态指标(action)”(如减少食品或衣物或娱乐)以及对由此产生的结果进行分析，从而规定一个可以降低你总开销的最佳消费项。

如果将其延伸到大数据领域，你可以想象一个管理人员是如何通过研究他面前多种“动态指标”的影响，进而做出“数据驱动”的决策。

6. 批量处理(Batch processing)

尽管从大型计算机(mainframe)时代开始，批量处理就已经存在了。但是在处理大量数据的大数据时代，批量处理又被重新赋予了更重要的意义。批量数据处理是一种处理大量数据(如在一段时间内收集到的一堆交易数据)的有效方法。稍后我会介绍的分布式计算(hadoop)就是一种专门处理批量数据的方法。

7. Cassandra

Cassandra是由 Apache 软件基金会(下文有介绍)开发并运营的一款流行的开源数据管理系统。Apache 掌握了很多大数据处理技术，Cassandra 就是他们专门设计用来处理跨分布式服务器中大量数据的系统。

8. 云计算(Cloud computing)

虽然云计算这一词现在已经家喻户晓，在此大可不必重述，但为了全篇内容的完整性，小编还是将其归纳在内。本质上来说，软件及数据在远程服务器上进行托管和运行，且这些资源可以从互联网的任何地方进行访问，那么它就可被称为“云计算”。

9. 集群计算(Cluster computing)

集群计算指的是计算机集群将一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作。在某种意义上，他们可以被看作是一台计算机。

集群系统中的单个计算机通常称为节点，通常通过局域网连接，但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机，比如工作站或超级计算机性价比要高得多。

10. 暗数据(Dark data)

这是一个生造词，在小编看来，它是用来吓唬那些高级管理人员的。简而言之，暗数据就是一个企业收集、处理和存储起来的，最后并没有投入任何特定用途的信息。这些数据可以是社交网络中的信息、电话中心的记录、会议记录等。很多估计认为所有公司的数据中有 60% - 90% 可能是“暗数据”，但实际上没人知道。

11. 数据湖(Data lake)

Data lake这个术语由Pentaho公司的创始人兼首席技术官James Dixon发明的，维基百科对其的解释为：数据湖是一种在系统或存储库中以自然格式存储数据的方法，它有助于以各种模式和结构形式配置数据，通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储，从原始数据(这意味着源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。

12. 数据挖掘(Data mining)

Data mining，又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases，简称KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

13. 数据科学家(Data Scientist)

数据科学家是时下非常热门的一个职位。它指那些通过提取原始数据(就是我们前面提到的数据湖)进而理解、处理并得出自己的见解的人。数据科学家需要具备超人般的技能：分析能力、统计学、计算机科学、创造力、故事叙述以及理解商业背景的能力。难怪这帮家伙的工资这么高。

14. 分布式文件系统(Distributed File System，简称DFS)

由于大数据量太大，不能存储在单个系统中，分布式文件系统就是一个能把大量数据存储在多个存储设备上的文件系统，它能够帮助降低存储大量数据的成本和复杂性。

15. ETL

ETL是Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗(下文有释义)，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

16. Hadoop

当想到大数据时，人们会立即想到 Hadoop。Hadoop (logo 是一头可爱的大象)是一个开源软件架构，由 Hadoop 分布式文件系统(HDFS)构成，并允许使用分布式硬件对大数据进行存储、检索和分析。

如果你真的想让某人对这个东西印象深刻，你可以跟他说 YARN(Yet Another Resource Scheduler)，顾名思义，就是一种资源调度程序。不得不说，取名字的人太有才了。推出 Hadoop 的 Apache 软件基金会，还推出过 Pig、Hive 以及 Spark(这都是一些软件的名字)。没有被这些名字惊艳到

17. 内存计算(In-memory computing)

“内存计算”的概念由Intel提出，它是指将传统上位于硬盘里的资料数据(比如电商的整个产品数据库)全部转移到内存中，直接在里边进行运算分析(in-memory analytics)。此项技术是对传统数据处理方式的一种加速，是实现商务智能中海量数据分析和实施数据分析的关键应用技术。

18. 物联网(IoT)

最新的流行语就是物联网(IoT)。IoT 是通过互联网将嵌入式对象(如传感器、可穿戴设备、汽车、冰箱等)中的计算设备进行互联，它们能够发送和接收数据。物联网生成了海量的数据，提供了大量大数据分析的机会。

19. 机器学习(Machine Learning)

机器学习(Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能(下文有释义)的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。

20. MapReduce

MapReduce 可能有点难以理解，我试着解释一下吧。MapReduce 是一种编程模型，用于大规模数据集(大于1TB)的并行运算。最好的理解就是要注意到 Map 和 Reduce 是两个独立的、不同的过程。

在 MapReduce 中，程序模型首先将大数据集分割成一些小块(这些小块拿技术术语来讲叫做“元组”，但是我描述的时候会尽量避免晦涩的技术术语)，然后这些小块会被分发给不同位置上的不同计算机(也就是说之前描述过的“集群计算”)，这基本上就是 Map 部分。然后，模型会收集每个计算结果，并将它们“reduce”成一个部分。MapReduce 的数据处理模型和 Hadoop 分布式文件系统紧密相关。

21. 非关系型数据库(NoSQL)

字面看起来，这个词好像是“SQL”(结构化查询语言)的反义词，SQL 是传统关系型数据管理系统(RDBMS)的主要内容。但 NOSQL 实际上指的是“不止 SQL”(Not ONLY SQL)。

NoSQL 实际上指的是那些用于处理没有结构(或专业称为 “schema”)的大量数据的数据库管理系统。NoSQL 数据库通常适合大型数据系统，因为它们具备大型非结构化数据库所需的灵活性和分布式的优先体系结构。

22. R 语言

看到“R”，你能想到这是一个编程语言吗然而它就是这样一种语言。可以这么说，R 语言是一个在统计工作中工作得很出色的语言。如果你不知道 R 语言，你就称不上是数据科学家，因为R是数据科学中最受欢迎的语言之一。

23. Spark(Apache Spark)

Apache Spark 是一种快速的内存数据处理引擎，它能够高效地执行那些需要迭代访问数据集的流处理、机器学习以及 SQL 工作负载。Spark 通常会比我们前面讨论过的 MapReduce 快很多。

24. 流处理(Stream processing)

望文生义，流处理(Stream Processing)就是指源源不断的数据流过系统时，系统可以不停地连续计算。与流分析技术(指的是能够持续地计算数值和统计分析的能力)结合起来，流处理解决方案旨在针对大规模数据的实时处理。

25. 结构化 vs 非结构化数据(Structured v Unstructured Data)

这是大数据中的对比之一。结构化数据，即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据;而那些不方便用数据库二维逻辑表来表现的数据即称为非结构化数据，包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等。

26. Apache软件基金会(ASF)

Apache软件基金会(Apache Software Foundation，简称ASF)，是专门为支持开源软件项目而办的一个非盈利性组织。它提供了很多大数据的开源项目，目前有 350 多个。

值得一提的是，在它所支持的Apache项目与子项目中，所发行的软件产品都遵循Apache许可证(Apache License)。

27. Apache Kafka

Apache Kafka是由Apache软件基金会开发的一个开源消息系统项目，命名于捷克作家Kafka，由Scala写成。Kafka最初是由LinkedIn开发，并于2011年初开源。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。

28. Apache Mahout

Apache Mahout 是ASF开发的一个开源项目，其主要目标是创建一些可伸缩的机器学习算法，供开发人员在 Apache 在许可下免费使用。Mahout 包含许多实现，包括集群、分类、CP 和进化程序。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。

29. Apache Oozie

在任何编程环境中，你都需要一些工作流系统通过预定义的方式和定义的依赖关系来安排和运行工作。Oozie 为 pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。

30. Apache Drill、Apache Impala、 Apache Spark SQL

这三个开源项目都提供快速和交互式的 SQL，如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS)，这些功能将非常有用。

31. Apache Hive

知道 SQL 吗如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。

32. Apache Pig

Apache Pig 是apache平台下的一个免费开源项目，Pig为大型数据集的处理提供了更高层次的抽象，很多时候数据的处理需要多个MapReduce过程才能实现，使得数据处理过程与该模式匹配可能很困难，有了Pig就能够使用更丰富的数据结构。

它所使用的脚本语言叫做 Pig Latin，它是一个相对简单的语言，一条语句就是一个操作，与数据库的表类似，可以在关系数据库中找到它(其中，元组代表行，并且每个元组都由字段组成)。

33. Apache Sqoop

sqoop是Apache顶级项目，主要用来在Hadoop和关系数据库中传递数据。通过sqoop，我们可以方便的将数据从关系数据库导入到HDFS，或者将数据从HDFS导出到关系数据库。

【Sqoop架构】

34. Apache Storm

一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。

35. 人工智能(Artificial Intelligence ，简称AI)

为什么 AI 出现在这里你可能会问，这不是一个单独的领域吗所有这些技术发展趋势紧密相连，所以我们最好静下心来继续学习!人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

36. 行为分析(Behavioral Analytics)

你是否曾想过谷歌是如何为你需要的产品/服务提供广告的行为分析侧重于根据用户的行为如“怎么做(how)”，“为什么这么做(why)”，以及“做了什么(what)”来得出结论，而不是仅仅针对人物和时间的一门分析学科，它着眼于数据中的人性化模式。

这就涉及了解我们的上网模式、社交媒体互动行为，以及我们的网上购物活动(购物车等)，连接这些无关的数据点，然后尝试预测结果。举一个例子，在我找到一家酒店并清空购物车后，我收到了度假村假期线路的电话。还需要我解释更多吗

37. B字节(Brontobytes)

约等于1000 YB(Yottabytes)，这是未来数字世界存储单位的大小。1 B字节包含了27个0!想知道什么是Terabyte、Yottabytes、Zettabytes以及它们的大小关系在文中找答案吧!

38. 商业智能(Business Intelligence，简称BI)

这里依然引用 Gartner 对 BI 的定义，因为它解释的很好。商业智能是一个总称，包括应用程序、基础设施、工具以及最佳实践，它可以访问和分析信息，从而改善和优化决策及绩效。

39. 生物测定学(Biometrics)

原指用数理统计方法对生物进行分析，现在多指对生物体(一般特指人)本身的生物特征来区分生物体个体的计算机技术。研究领域主要包括语音、脸、指纹、手掌纹、虹膜、视网膜、体形、个人习惯(例如敲击键盘的力度和频率、签字)等，相应的识别技术就有说话人识别、人脸识别、指纹识别、掌纹识别、虹膜识别、视网膜识别、体形识别、键盘敲击识别、签字识别等。

40. 点击流分析(Clickstream analytics)

对于一个网站来说，点击流分析(clickstream analysis，有时也叫做点击流分析学-clickstream analytics)是收集、分析和汇报有关访客访问哪个页面、访问页面的顺序以及每个访客鼠标连续点击的结果(即点击流)的整体数据的过程。

所以，现在你知道为什么某些百度广告始终阴魂不散了吧因为百度大佬知道你在点击什么。

41. 聚类分析(Cluster Analysis)

聚类分析(Cluster Analysis)是对于静态数据分析的一门技术，在许多领域受到广泛应用，包括机器学习、数据挖掘、模式识别、图像分析以及生物信息等。聚类是把相似的对象通过静态分类的方法分成不同的组别，或者更多的子集(subset)，这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。

43. 对比分析(Comparative Analytics)

顾名思义，对比分析是使用诸如模式分析、过滤和决策树分析等统计技术来比较多个进程、数据集或其他对象。比较分析可用于医疗保健领域，通过比较大量的医疗记录、文件、图像等，给出更有效和更准确的医疗诊断。

44. 相关性分析(Correlation analysis)

相关性分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。相关性分析可以帮助发现人们、产品、网络之中的系统，甚至是数据与多个网络结合之间的相关连接和影响。

45. 数据分析师(Data Analyst)

数据分析师是一个非常重要和受欢迎的工作，除了准备报告之外，它还负责收集、编辑和分析数据。我会写一篇更详细的关于数据分析师的文章。

46. 数据清洗(Data Cleansing)

数据清洗从名字上也看的出，就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。借助于自动化或者人工工具和算法，数据分析师能够更正并进一步丰富数据，以提高数据质量。

47. 数据即服务(DaaS)

我们有软件即服务(SaaS，下文有介绍)、平台即服务(PaaS，下文有介绍)、现在我们又有了DaaS，它的意思是：数据即服务，即部署在云端的数据库，即用即付，例如亚马逊云服务(AWS: Amazon Web Services)。DaaS 提供商能够帮助我们快速地得到高质量的数据。

48. 数据虚拟化(Data virtualization)

它是数据整合的过程，以此获得更多的数据信息，这个过程通常会引入其他技术，例如数据库、应用程序、文件系统、网页技术、大数据技术等。例如，社交网络利用这个方法来存储我们的照片。

49. 脏数据(Dirty Data)

既然大数据这么吸引人，那么人们也开始给数据加上其他的形容词来形成新的术语，例如暗数据(dark data)、脏数据(dirty data)、小数据(small data)，以及现在的智能数据(smart data)。“脏数据”并不是说那些废弃或者无用的数据，而是那些不准确的、重复的以及不一致的数据。显然，你不会想着和脏数据搅在一起。所以，尽快地修正它。

50. 模糊逻辑(Fuzzy logic，简称FL)

有多少时候你能100%的确定一件事情很少吧。我们的大脑将数据聚合成部分的事实，这些事实进一步被抽象为某种能够决定我们决策的阈值。模糊逻辑是一种计算方式，它使用隶属度代替布尔代数(boolean algebra)中“0”(表示“假”)和“1”(表示“真”)的二值逻辑。

其出发点就是取消二值逻辑之间非此即彼的对立，用隶属度表示二值间的过渡状态，为进行不精确而有效的描述提供便利，也为将符合人类思维习惯的模糊推理、模糊决策移植到计算机中提供理论工具。

51. 游戏化(Gamification)

在一个典型的游戏中，会有分数、与别人竞争，以及一些游戏规则等因素。大数据中的游戏化就是使用这些概念来收集、分析数据或者激励用户。

52. 图数据库(Graph Databases)

你是否曾经惊叹过亚马逊在你买一件产品的时候告诉你的关于别人在买什么的信息对，这就是图数据库。

图数据库源起欧拉和图理论，也可称为面向/基于图的数据库。其基本含义是以“图”这种数据结构存储和查询数据，而不是存储图片的数据库。它的数据模型主要是以节点和关系(边)来体现，也可处理键值对。它的优点是快速解决复杂的关系问题。

53. Hadoop 用户体验(Hadoop User Experience ，简称Hue)

Hue 是一个能够让使用 Apache Hadoop 变得更加容易的开源界面。它是一款基于 web 的应用程序，并且具有用于分布式文件系统(HDFS)的文件浏览器、用于 MapReduce 的任务设计器、用于调度工作流的框架 Oozie以及一个 shell、 Impala、 Hive UI 和一组 Hadoop API。

54. 高性能分析应用(HANA)

这是 SAP 公司专为大数据传输和分析而设计的一个软/硬件内存平台。

55. HBase

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。它使用 HDFS 作为其底层存储，既支持利用 MapReduce 进行的批量计算，也支持利用事物交互的批量计算。

56. 负载均衡(Load balancing)

在分布式系统中，负载均衡(Load Balancing)是一种将任务分派到多个服务端进程的方法。例如，将一个HTTP请求派发到实际的Web服务器中执行的过程就涉及负载均衡的实现。一个HTTP请求到达Web服务器，这中间涉及多个过程，也存在多种不同负载均衡的方法。

大数据_辞典_吃瓜群众-2

【负载均衡基本原理】

57. 元数据(Metadata)

元数据(Metadata)，又称中介数据、中继数据，为描述数据的数据(data about data)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

元数据算是一种电子式目录，为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。例如，作者、数据的创建日期、修改日期以及大小，这几项是基本的文档元数据。除了文档文件之外，元数据还被用于图像、视频、电子表格和网页。

58. MongoDB

MongoDB是一个基于分布式文件存储，而不是传统的基于表格的数据库，由C++语言编写，旨在为WEB应用提供可扩展的高性能数据存储解决方案。

59. Mashup

幸运的是，这个术语和我们在日常生活中使用的“mashup”一词有着类似的含义——混搭。实质上，mashup 是将不同的数据集合并到单个应用程序中的方法(例如：将房地产数据和人口统计数据、或地理位置数据结合)。这确实能够让可视化变得很酷。

60. 多维数据库(Multi-Dimensional Databases)

它是针对数据在线分析处理(OLAP)应用程序和数据仓库进行优化的数据库。

这里我们介绍一下数据仓库(Data warehouse)。数据仓库是一个与上文提到的“数据湖”类似的概念，但不同的是，它保存的是经过清理和并且其它资源整合后的结构化数据。

61. 多值数据库(MultiValue Databases)

多值数据库是一种非关系型数据库(NoSQL)，一种特殊的多维数据库：能处理3个维度的数据。主要针对非常长的字符串，能够完美地处理HTML和XML中的字串。

62. 自然语言处理(Natural Language Processing)

自然语言处理是计算机科学的一个分支领域，它研究如何实现计算机与人类语言之间的交互。

63. 神经网络(Neural Network)

神经网络是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

64. 模式识别(Pattern Recognition)

模式识别是通过算法来识别数据中的模式，并对同一数据源中的新数据作出预测。它与机器学习和数据挖掘紧密相连，甚至被认为是后两者的代名词。这种可见性可以帮助研究者发现一些深刻的规律或者得到一些可能被认为很荒谬的结论。

65. 射频识别(Radio Frequency Identification，简称RFID)

这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据。随着物联网的发展，RFID 标签能够被嵌入到任何可能的东西里面，帮助生成很多需要被分析的数据。

66. 软件即服务(SaaS)

软件即服务是一种通过Internet提供软件的模式，厂商将应用软件统一部署在自己的服务器上，客户可以根据自己实际需求，通过互联网向厂商定购所需的应用软件服务，按定购的服务多少和时间长短向厂商支付费用，并通过互联网获得厂商提供的服务。

67. 半结构化数据(Semi-structured data)

所谓半结构化数据，就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据，XML、HTML文档就属于半结构化数据。它一般是自描述的，数据的结构和内容混在一起，没有明显的区分。

68. 情感分析(Sentiment Analysis)

情感分析，又称倾向性分析，意见抽取(Opinion extraction)，意见挖掘(Opinion mining)，情感挖掘(Sentiment mining)，主观分析(Subjectivity analysis)，它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其目标就是要辨别或评价针对一个公司、产品、服务、人或者时间所持有的态度或者情感。

69. 空间分析(Spatial analysis)

空间分析是分析地理信息或拓扑信息这类空间数据，从中得出分布在地理空间中的数据的模式和规律。

70. 平台即服务(Paas)

所谓PaaS实际上是指将软件研发的平台作为一种服务，以SaaS的模式提交给用户。因此，PaaS也是SaaS模式的一种应用。但是，PaaS的出现可以加快SaaS的发展，尤其是加快SaaS应用的开发速度。

71.智能数据(Smart Data)

智能数据是经过一些算法过滤后的有用且可操作的数据。

72. T字节(Terabyte)

这是一个相对大的数字数据单位，1TB 等于 1000GB。据估计，10TB 能够容纳美国国会图书馆的所有印刷品，而 1TB 则能够容纳整个百科全书。

73. 可视化(Visualization)

可视化是利用计算机图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域，成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。

74. Y字节(Yottabytes)

约等于 1000 Zettabytes，或者 250 万亿张 DVD的数据容量。现在，整个数字化宇宙的数据量约为 1 Yottabyte，而且这一数字正以每 18 个月翻一番的速度增长。