܄

WAIC 2025 | 已达物理极限的大模型 下一步路在何方?

【数据猿导读】 2025世界人工智能大会(WAIC)开幕在即,数据猿作为大会权威认证的受邀媒体,将以专业视角全程直击,带来最具深度与洞察力的大会解读,洞见AI未来。

WAIC 2025 | 已达物理极限的大模型 下一步路在何方?

“大模型下一步怎么走, 让我们走进WAIC2025找答案。

2025世界人工智能大会(WAIC)开幕在即,数据猿作为大会权威认证的受邀媒体,将以专业视角全程直击,带来最具深度与洞察力的大会解读,洞见AI未来。

在大会进入倒计时之际,WAIC振聋发聩地提出了“AI三问”:数学之问、科学之问和模型之问。主办方以此“三问”破题,旨在超越技术应用的喧嚣,直击人工智能发展的核心。希望以此来凝聚更多的智慧,探寻AI这一影响人类文明技术的演进方向。

面对这一宏大命题,我们将聚焦“模型之问”,尝试给出我们的思考与回应。

第一问:大模型如何走向了世界中心?

大模型是怎么一步一步站在了AI舞台的中央?

WAIC_2025_大模型_AI未来-1

(大模型发展简史)

大模型最早的技术雏形,我们可以追溯到词向量。2013年Google推出的Word2vec首次证明无监督词向量可有效捕获语义关系,通过Word2vec单词可以被转化成向量形式,词向量可以有效地捕捉单词间的语义关系。

自此,大模型命运的齿轮开始转动。

2018年成为大模型发展的第一个分水岭。Google的BERT模型与OpenAI的GPT-1相继问世,它们分别采用双向Transformer编码器架构和自回归预训练方式,不仅在小样本学习上取得突破,更确立了“预训练+微调”的技术范式,为后续大模型的繁荣奠定了坚实基础。

2020年,OpenAI发布GPT-3,以1750亿参数的惊人规模震撼业界,“规模即能力”的猜想得到了验证。这一时期,涌现能力成为了关键词。整个行业开始意识到,当模型规模达到某个临界点(大约百亿参数)后,就会出现文本生成、逻辑推理等突现能力,以及在处理特定任务能力上的非线性增长。

自此,大模型进入参数军备竞赛的发展阶段。

据统计,2020-2022年间,顶级大模型的参数量年均增长率达到惊人的650%。

2022年OpenAI,引入人类反馈强化学习(RLHF)技术,通过三阶段训练流程使模型输出更符合用户需求。这标志着大模型从纯粹的能力追求转向实用化发展阶段。

自此以后,大模型技术演进呈现多元化趋势:智能体框架通过工具调用实现多步骤自主任务执行;模型轻量化技术则让大模型得以在消费级终端运行;通过模型蒸馏,DeepSeek创造了以小博大的奇迹。

人工智能历经60多年的沉浮,大模型最终能异军突起,既是其技术路线的成功,也离不开时代的推波助澜。深度学习的厚积薄发、GPU算力的性能飞跃与互联网的数据洪流,这些力量互相碰撞和激荡,把大模型推向了风口浪尖。

第二问:参数爆炸已达物理极限 大模型下一步路在何方?

大模型一路向前的同时,模型参数在一路狂飙。

我们以GPT系列模型为参照物,看看模型参数令人咋舌的膨胀速度:

·2018年发布的GPT-1,参数为1.17亿级;

·2019年发布的GPT-2,参数为10亿级;

·2020年发布的GPT-3,参数暴涨至1750亿;

·2023年发布的GPT-4模型参数预估5000亿-一万亿之间。

短短五年间,模型参数几乎翻了一万倍。然而ChatGPT-4似乎成为了一道分水岭,后续发布的新一代顶尖模型如Claude 3.5 Sonnet和Llama 3等,其参数规模反而有所下降。业界开始意识到,模型的效率和智能并非仅由参数量决定。

尤其是Deepseek的横空出世,狠狠的击碎了“模型越大,AI越智能”的迷思,对更大参数规模的盲目追求正在退潮。

百度CEO李彦宏认为,千亿参数是通用大模型的门槛,“过了千亿之后,不是万亿量级参数一定比千亿效果要好。”

当前主流大模型产品几乎都是构建在Transformer架构之上,这是一个划时代的创新。然而,它也存在一些结构性缺陷,最核心的就是O(n²) 的自注意力复杂度的问题。可以说,这个机制催生了一系列改变世界的大模型产品,但是也为后续的发展埋下了隐患。

为什么这样说,这得从O(n²) 的自注意力复杂度的原理说起。

我们设想一个场景,在一间教室,一群刚开学的小朋友,如果其中一个小朋友A想要认识另外一个小朋友B,这个A必须和教室里的每个人单独握手并交谈一次,才能找到小朋友B。那么问题来了,当这间教室有100个小朋友的时候,如果所有的小朋友都互相认识,总共需要握手多少次?答案是4950次——这就是Transformer处理长文本时算力爆炸的根源。

WAIC_2025_大模型_AI未来-2

很多人意识到,想要进一步提升模型处理的效能,需要根本性创新而非渐进式改进。

☆架构革命:从Transformer到混合智能系统

很多人尝试对Transformer架构进行优化升级,比如MoE架构(混合专家模型),架构的核心思想是将庞大模型拆分为多个“专家”子网络,并通过智能路由机制动态激活少量相关专家处理每个输入。它将大模型无差别暴力解题的方式,优化为专人专岗,分组分类的形式,极大的优化了效率。

MoE架构受到很多顶尖大模型公司的青睐,其中最典型的就是DeepSeek。此外,Google的Gemini 2.0也采用了这种架构。

很多企业也开始尝试在Transformer架构之外,寻找新的方案。2024年,一种名为Mamba的新型架构作为挑战者问世。它在保持与Transformer相当的建模能力的同时,对于序列长度具有近线性的可扩展性。Mamba架构通过状态空间模型将计算复杂度从O(n²)降至O(n),使长文本处理效率提升10倍。

然而Mamba架构也存在一定的技术局限性,比如上下文学习能力和上下文的信息复制能力等。

那有没有可能将两者进行优势互补呢?

Transformer-Mamba混合架构是一种将Transformer模型的全局注意力机制与Mamba模型(基于状态空间模型SSM)的高效长序列处理能力相结合的新型神经网络架构。它能够有效克服两者的局限性,同时保留各自优势。

2025年,腾讯推出了国内首个相关产品。腾讯混元 T1采用了Hybrid-Mamba-Transformer融合架构。这一架构在不牺牲准确性的基础上,有效降低了计算复杂度,吐字速度最快可达80token/s。

计算机视觉领域,英伟达团队研发的MambaVision,利用Mamba与Transformer的融合设计,使MambaVision在Top - 1精度和图像吞吐量上超越同类模型。

☆训练范式升级:从预训练到后训练

除了架构的创新以外,业界也尝试从模型的训练方法着手,寻找大模型发展的新方向。

我们知道,预训练是大模型最具标志性的技术特色之一。预训练的优势在于,它能够在海量无标注的数据中学习通用特征,为下游泛化的任务奠定基础。但同时也带来了数据污染、知识幻觉等问题。

人类对模型行为的调控、对齐能力成为大模型提升的关键,“后训练”的模式由此登上了舞台。

后训练指在模型预训练完成后的优化阶段,通过量化、蒸馏、剪枝等技术直接优化已训练模型。其主要功能在于能够有效修正在预训练阶段的知识错误和事实偏差,使模型的输出更符合人类价值观,避免其“信口开河”。同时,通过后训练还能强化模型的多步骤推理能力,更好的助力大模型在具体应用场景的落地。

预训练目前主要有两种发展路径:一是通过在大量的“推理轨迹”上进行后训练,直接教会模型如何思考;二是利用“搜索”技术,在推理时指导模型的思考过程,让模型生成多个候选答案或推理路径,再由奖励模型来挑选出最佳结果。

WAIC_2025_大模型_AI未来-3

包括Claude 4、GPT-4o 、Gemini2.5,以及马斯克的xAI最新发布的Grok 4,都加大了后训练的投入。

Gartner预测到2027年,70%的企业AI系统将采用"预训练-微调-后训练优化"三级流水线。全新的架构和训练范式的变革,这些探索将为下一代基础大模型的构建提供方向。

第三问:高质量数据枯竭 大模型如何解渴?

大模型数据饥渴的问题已经迫在眉睫。

狂奔的大模型几乎吞噬了所有的公开数据,传统依赖数据驱动模型能力增长的路径已难以为继。

千禧年互联网刚诞生时的时候,人们乐观的认为,互联网会让世界变成地球村。所有的信息汇聚到一大片海洋中,供来自世界各地的轮船自由停泊。然而现实并没有像预想的一样,这片想象中的大海被分割成无数个大大小小的水坑。更重要的是,那些真正有质量的“矿藏”稀少且难以获取。

据资料显示,Deepmind每年单是在数据标注上的花费就高达10亿美元。对于高质量的数据,OpenAI愿意为单条推理轨迹支付2000至3000美元。

大模型企业在数据上的“花费”有开始超过计算投入的趋势。

虽然围绕数据端,我们做了很多工作,比如数据治理、可信数据空间、打造高质量数据集等等,但是始终无法从根源上解决大模型的“数据焦虑”。

为此,业界提出了一个名叫SICOG的框架。SICOG的核心在于其“后训练增强—推理优化—再预训练强化”三位一体的协同机制。

首先,在后训练增强阶段,通过少量高质量的标注数据,提升模型的系统性认知与基础推理能力;随后,在大规模无标签数据上进行自主推理,并通过自我一致性投票机制生成伪标签,为再预训练构建基础;最后,将生成的伪标签数据反馈到模型中,实现模型能力的持续进化。

这个技术路线最终走向如何,还有待观察,它至少让我们看到了数据问题的解题之道,正在从被动走向主动。

第四问:人类的焦虑 大模型是敌人还是伙伴?

经济学家熊彼特提出过一个著名的观点——破坏性创新。当前,大模型“破坏性创新”的威力,正在各行各业快速扩散。大模型带来的这场变革迅猛而剧烈,必然伴随着一些产业的毁灭与重塑。

360董事长周鸿祎公开宣布要干掉整个市场部,挑战一个人+AI办一场发布会。招商银行"小招"智能助手已替代45%的客服岗位。美国影视行业有多家公司反应,目前有20%特效镜头由AI生成,使得每集电视剧的制作成本大幅降低。加上具身智能、人形机器人开始走向工厂,AI正在无差别实现对蓝领工作和白领工作的双重替代。

企业层面,AI正在蚕食产业链条中的某些环节。比如,很多企业过去需要外包的工作,如视频制作、业务咨询、软件开发等,在AI的协助下,不断回归到企业内部。这也就意味着提供这些服务的公司将面临客户流失的风险。

任何不愿经历文化和组织变革阵痛的公司,都将面临被淘汰的风险。

☆极简团队时代到来

AI给人类带来了焦虑,焦虑背后我们观察到AI也在帮助人类创造奇迹。

一些善用AI的极简团队正在创造惊人的财富效应。Midjourney用两年时间、约40名员工的团队,创造了约2亿美元的营收;而更年轻的Cursor仅用一年时间、约20名员工,就实现了约1亿美元的营收。事实上,带来产业震撼的Deepseek,其团队规模也只有一两百人。

这些奇迹的背后共同指向一个事实:AI极大提升了个人和团队能力的杠杆,尤其是随着智能体的发展,AI正从一个只能执行瞬时指令的工具,演变为能够处理复杂、长期任务的可靠助手,创造着前所未有的变革之力。

这种变革之力直接体现在团队结构上,那些小而美、小而精的团队只要找到合适的赛道,就能快速启动,利用AI的能力杠杆,创造奇迹。

WAIC_2025_大模型_AI未来-4

(团队50人以下,营收500万美元以上的“极简公司”)

如果说蒸汽机、电动机、内燃机等技术革命,是对人类肌肉力量的延伸。那么大模型的发展无疑是对人类思维能力的一次突破。尽管看起来是人类在规划和设计AI,但AI不同于汽车、冰箱或者任何产品。这是人类第一次与一个在智力上比肩自己的“物种”打交道。在与人和环境的不断互动中,大模型已经从数据的“处理工具”,进化成人类可靠的合作伙伴。

虽然大模型的发展仍面临很多困难,但是纵观过去的历史,在技术难题前面,总会涌现创新的能量。大模型是一个没有使用说明,没有指导手册的全新领域,我们注定要在巨大的不确定中突围。在这些不确定中,唯一能确定的是,2025年我们将接近AI的真相更近一步。WAIC2025或许会给大家带来更多答案。


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

阿里通义千问宣布更新旗舰版Qwen3模型;零一万物万智2.0升级;科大讯飞发布全球首款本地大模型智能办公本X5丨每日大事件
阿里通义千问宣布更新旗舰版Qwen3模型;零一万物万智2.0升级...
从四大巨头的竞赛 看中国通用大模型的突围之路
从四大巨头的竞赛 看中国通用大模型的突围之路
应用综述 | 今年WAIC怎么玩?三大AI环线,一天玩遍城市未来感!
应用综述 | 今年WAIC怎么玩?三大AI环线,一天玩遍城市未来...

我要评论

数据猿微信公众号
第22届国际物联网展
返回顶部