【金猿人物展】香港科技园公司董事车品觉：大数据揭示了大语言模型的特征与趋势

金猿人物展香港科技园公司董事车品觉

车品觉 | 2023-12-20 18:50

【数据猿导读】本文由香港科技园公司董事车品觉撰写并投递参与“数据猿年度金猿策划活动——2023大数据产业年度趋势人物榜单及奖项”评选。

2023年正好是大数据发展至今的第十三年，过程中大数据的发展深深地塑造了大型AI模型的进步与应用，如深度学习和机器学习模型。随着大数据资源及技术的普及与可访问性的提升，大规模模型训练已不再是天方夜谈。在大数据时代前，海量数据的收集和存储是一项巨大挑战，这限制了大规模模型训练的可能性。记得在大数据时代的初期，算力及稳定性是行家们都很疼苦的经历，但随着云计算平台及数据分析技术的提升，使得我们现在能够处理和分析以往无法处理的非结构性数据(例如文章、影像等)，从而后来可以训练出更复杂的大语言模型，回头看来这都是随着技术的逐步迭代自然发展的路径。

前阿里巴巴首席参谋长最近在一个演讲“下一个十年”里提到，“语言让我们可以沟通，语言的背后天然就蕴含着人类的智慧，而且人类海量的知识，1万年左右的知识，基本上都被最近二十年的IT通过文字、音频、视频给沉淀下来了。所以，你掌握了文字，掌握了语言，基本上就破解了人类到今天为止“所有”的“知识”。

这段话正好也帮助我更确定大语言模型的明线是类似GPT的智能产品，但暗线是把人类的思想逻辑数据化，通过对大量的语料上下文的分析，形成庞大的向量数据厍（另一种大数据）。这个超级数据厍可以帮助人类开发聊天机械人, 但同时也可以作为大数据的底层，因此向量数据厍的可能性还有待开发。需然大模型的发展还在起步阶段，但如果把过去大数据的Volume（体量）、Velocity（速度）、Variety（多样性）和Veracity（真实性）作为框架。不难发现4V特性同时也在大型语言模型（Large Language Models，简称LLM）中得到体现，也许会对未来的大语言大模型有所启发。

1、Volume（体量）：

大数据和LLM都需要处理大量数据，这是一项巨大的挑战，但也是模型实现深入的洞察并展现有意义结果的关键。如OpenAI的GPT，通过大量数据训练，让模型理解和学习从大量文本中获得的复杂信息，从而生成连贯、相关和有深度的文本。这需要投入巨大的资源，数据处理的成本，不仅包括存储和处理这些数据的硬体和软件成本，还包括获取、清洗、管理和保护数据的人力成本。同时，对数据的安全和隐私保护投入也是处理大数据和LLM的重要成本组成。组织需要确保他们的数据存储和处理方式符合各种隐私法规，这需要在安全技术和专业人员等方面进行投入，以防止数据泄露和滥用。因此，大数据和LLM之间的一个重要的共通点是，它们都需要投资大量的资源来处理海量数据。当然更值得我们深刻思考的是，数据量真是越大越好吗？还是也会出现边际效应

2、Velocity（速度）：

处理速度在大数据和LLM中都起着至关重要的作用。在大数据环境下，数据以前所未有的速度产生和流动，需要在短时间内获取、存储、处理和分析这些数据。比如，实时交易系统、社交媒体监控、在线推荐引擎等场景都需要快速处理庞大的数据。正如LLM也需要能够快速处理和理解输入的文本数据。这是因为，用户期望能在短时间内得到模型的答案，以满足用户的实时需要。但追求速度的背后，伴随着的是高昂的成本，追求投资回报平衡是技术得到普及的重要因素。

3、Variety（多样性）：

数据的多样性是大数据和LLM的另一个核心特性。大数据来自多种不同的来源，包括结构化数据（如数据库中的表格数据）和非结构化数据（如社交媒体上的文本数据）。处理和分析不同类型的数据，可以让我们从多个角度理解一个问题，从而获得更全面的洞悉。LLM也需要处理和理解多种类型的文本数据，包括新闻文章、社交媒体帖子、科学论文等。通过在这些不同类型的文本上进行训练，模型可以学习到各种语言模式和知识，从而使得LLM能够处理各种语义情境和上下文关系。它们可以从多个角度理解一个问题，提供更全面和准确的结果。然而，处理这种多样性的数据也是一项挑战，由于数据的来源和类型的不同，数据质量和准确性也可能存在差异。因此，数据清洗和验证也是处理这种多样性数据的一个重要环节。那么大模型是否会像大数据一样，需要有很多小模型作为连接点，从而产出价值

4、Veracity（真实性）：

大数据的价值在很大程度上取决于数据的质量。如果数据包含错误、重复或者过时的信息，那么基于这些数据的分析和决策就会出现偏差。因此，数据清洗（也称为数据清理或数据修正）是大数据分析的一个重要步骤。这包括找出和修正数据中的错误，删除重复的数据，以及处理缺失的数据。同样，LLM的表现也取决于其训练数据的质量。模型是通过从训练数据中学习来生成文本，因此如果训练数据包含错误或误导性的信息，那么模型可能会生成不准确或误导性的文本。进而，对训练数据的清洗和验证也非常重要的。这可能包括删除错误或不相关的文本，以及确保数据的代表性和公正性。但因为多源异构的关系，数据质量是无法通过像处理小数据一样的模式进行清洗及验证，使用的时候要格外小心及进行多方验证，甚至仅可以作为大方向的指引，或者与传统分析方法混合使用。

然而在大数据和LLM的监管上存在一些区别。这些区别主要源于两种技术的使用方式，以及它们所引发的潜在问题。虽然大数据和LLM都涉及数据隐私和安全问题，但重点可能有所不同。对于大数据，监管主要关注的收集、存储和使用数据过程中数据的安全保护和隐私泄露风险。对于LLM，虽然亦需要关注训练过程中数据安全及隐私泄露风险，但更重要的是如何确保模型生成的文本，即模型输出的结果不会泄露敏感信息，例如，如果模型在训练过程中接触到了某些敏感信息，那么它可能会在生成文本时泄露这些信息。另一方面，大数据和LLM都需要提高模型的透明度和可解释性，但挑战来源有所不同。对于大数据，监管主要关注如何理解和解释数据分析的结果。对于LLM，监管可能更加关注如何理解和解释模型的决策过程，例如，如果模型做出了一个重要的决策，那么人们需要能够理解和解释这个决策是如何做出的。

那么以上的观点对于大语言模型有什么启发？

毋庸置疑LLM具有巨大的潜力，可以提高生产力，甚至帮助获取新的知识和技能。我们需要在创新与效率之间找到平衡。早期阶段，大数据经常被描述为一种“炒作”，原因是人们过度夸大了大数据的潜力，而对于其实施的复杂性和挑战性理解不足。同一道理，现在有些人也把LLM描述为一种“幻觉”(Hallucination), 原因可能在大家对LLM的能力有过高的期望，过分夸大其在理解和生成复杂语言结构上的能力，而忽略了它仍然依赖大量的数据训练，而且在一些复杂的语义理解和推理任务上可能仍然表现不佳。

如果我们把2023年作为LLM的元年，那么我相信2024年将会是LLM落地很关键的一年。大家开始会更关注它的实际价值而非一时的冲动，企业会发现使用成本其实不低，衍生出来的问题也难以控制。相比于大数据，大语言模型的透明度及可解释性更低。这意味着大语言模型的稳定性将是它需求全面爆发之前，大家必须面对的困难。因此2024年我们可能会见到各式各样的技术解决方案，甚至替代品。建议企业可以多观察一段时间，才确定投入的力度和方向亦未为晚。

·关于车品觉：

太平绅士；香港致公协会成员；香港科技园公司董事；香港特区政府数字经济发展委员会委员。

车品觉先生拥有十多年丰富的数据实战经验，并在实践中形成了独特的数据化思考及管理方式。他亲自领导阿里数据团队在大数据实践领域取得了一系列重要成果，包括为阿里建立集团各事业群的业务及决策分析框架，开发智能化的数据产品，成立了驱动集团数据化的营运团队，成功发起了公共与数据资产管理体系，还发布了数据安全规范等。

车先生2010年8月加入阿里巴巴，曾任阿里巴巴集团副总裁兼首任数据委员会会长。2014年在任职阿里期间领导阿里数据团队获得Top CIO评选为中国最佳信息化团队，2017年被国家信息中心选为中国十大最具影响力大数据企业家。2018年，荣获“中囯大数据科技领军人奖”。2016年加入红杉中国基金，曾任红杉中国基金的专家合伙人，在红杉期间，对多家投资企业进行经营分析的指导，数据平台建设的技术指导和帮助企业解决大数据上的问题。著有：畅销书《决战大数据》、《数据的本质》及《数循环》。并译有《数据驱动的智能城市》。

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。