܄

从浆板水花到算力爆炸,Sora2揭开OpenAI二次革命的序幕

【数据猿导读】 10月24日,距离新一代视频生成模型Sora 2及其驱动的社交应用Sora App发布后近一个月的时间,在苹果的App Store,它依然排名第一,似乎在印证着OpenAI创始人Sam Altman所说的Creativity could be about to go through a Cambrian explosion(创造力将走向寒武纪大爆发)。...

从浆板水花到算力爆炸,Sora2揭开OpenAI二次革命的序幕

“视频生成只是开始,Sora 2映射出OpenAI的真正野心。

10月24日,距离新一代视频生成模型Sora 2及其驱动的社交应用Sora App发布后近一个月的时间,在苹果的App Store,它依然排名第一,似乎在印证着OpenAI创始人Sam Altman所说的Creativity could be about to go through a Cambrian explosion(创造力将走向寒武纪大爆发)。

实际上,Sora2至今仍然是邀请制,而且仅在美加可访问,手机端只有iOS版本,这种情况下Sora2在上线后的24小时内仍冲到了App Store的第三位;10月3日,Sora应用在上线第四天便迅速登顶App Store,超过了长期占据前两位的ChatGPT和Gemini,仅美加地区头两天的下载量就达到16.4万次,首周则收获62.7万下载量。

算力爆炸_Sora2_OpenAI-1

来源:App Store

如果说2024年初发布的初代Sora模型可视为视频领域的“GPT-1时刻”,那么Sora 2则直接迈入了视频领域的“GPT-3.5时刻”。

然而,若将Sora 2仅仅视为一个更强大的“视频生成工具”,无疑会低估其划时代的意义。它的核心价值并非简单地生成更逼真、更连贯的视频,而在于它首次大规模地验证了构建“世界模型”(World Model)的技术可行性,这标志着AI正从一个被动响应、处理信息的内容工具,演变为一个能够主动理解、预测并模拟物理世界规则的“现实引擎”(Reality Engine),并进一步影响到真实的人类世界,人类开始广泛接纳AI生成的视频内容,成为社交媒体的一部分。

OpenAI宣布,“Sora 2初期将免费开放,并提供充足的使用额度。”可以预见,Sora百万级用户数乘以视频生成,随之而来的将是巨大的算力消耗。这背后的支撑力量,则是OpenAI与英伟达、AMD、Oracle等科技巨头不久前联合启动的“万亿级算力扩张计划”。而Sora App此次病毒式传播如同不断加热的巨大算力熔炉,正在驱动一场颠覆式的应用生态革命。而这场革命的结果,或将成为全球AI基础设施又一次重大考验和重塑。

解构引擎:世界模型的技术基石

AI生成视频(AI Generated Video)并非一个全新的概念。其基本原理通常是基于扩散模型(Diffusion Models)、Transformer架构、生成对抗网络(GANs)等方法,将用户输入的文本或图像提示(Prompt)作为初始条件,AI系统则会利用经过海量视频数据训练的模型逐帧或批量生成符合描述的像素信息,并最终合成视频片段。

在Sora出现之前,这个赛道已经群雄逐鹿,Runway、Pika等明星创业公司,以及Google、Meta、X等科技巨头都已推出了自己的文生视频产品。

算力爆炸_Sora2_OpenAI-2

来源:百度百科、机器之心微信公众号、国泰海通证券研究

然而,这些AI视频工具普遍受困于几大核心技术难点。首先是物理一致性,模型生成的物体运动往往违背常识,例如篮球会凭空入筐,模型缺乏对重力、惯性等基本物理规律的理解。其次是对象持久性,视频中的角色或物体在暂时被遮挡后再次出现时,其外观、形态常常会发生突变,模型无法维持一个对象在时空中的稳定存在。最后是时间连贯性,长视频中,场景、光影、角色状态容易出现闪烁或不合逻辑的跳变。

2024年2月,OpenAI推出的初代Sora在一定程度上修补了早期AI视频的结构性缺陷,但若细看每一帧,物理错位与逻辑跳脱的“穿帮”仍屡见不鲜,它更像一位天赋卓绝却尚未参透世界规律的“模仿者”,距离真正理解现实的“创造者”仍有一段距离。

Sora 2的出现,标志着AI视频生成从“模仿”迈向“理解”的质变。之所以OpenAI将其誉为视频领域的“GPT-3.5时刻”,引申含义表明其突破是全方位的。最引人注目的进步在于其内隐的物理规律建模能力——Sora 2能够精准模拟奥运体操运动员在鞍马上完成复杂动作的动态平衡,或桨板爱好者在水面后空翻时激起的水花与浮力反馈。在Sora2,模型已不再只是拼接像素,而是在学习海量真实世界视频后,内隐地形成了对重力、流体动力学、刚体碰撞与光影交互的复杂认知结构,从而实现了前所未有的“逻辑自洽”的动态模拟。

OpenAI官网表示,该模型在可控程度方面也有巨大跃进,能够遵循跨越多个镜头的复杂指示,同时精确保持状态与现实相符,而且在写实、电影和动画风格上表现出色。

与之相辅相成的,是其在多模态数据流同步生成上的突破。Sora 2首次原生集成了音频生成能力,不仅能生成与画面情境匹配的环境音,还能生成同步的角色对话,并确保口型与发音的精准对齐。这需要一个高度复杂的多模态融合架构,确保视听逻辑的一致性。

这些关键突破的本质,已经超越了“视频生成”的范畴,共同指向一个更深层次的目标——构建一个能够模拟现实世界的AI模型,即“世界模型”的雏形。

根据英伟达(Nvidia)的定义,世界模型是理解现实世界动态,包括其物理和空间属性的生成式 AI 模型。它以文本、图像、视频和运动数据为输入,通过学习来内化环境的物理规律,从而对运动轨迹、受力变化以及感官数据中的空间关系进行建模和预测。这也是英伟达提出物理AI(Physical AI)概念的基础。

Sora 2亦是在这一理念下构建的。它在多个模块中引入了世界模型的思想,包括视频潜空间的动态建模、时序一致性的物理约束,以及跨模态的生成控制机制,非简单地“拼接镜头”,而是让文本到视频的生成过程更像是在“模拟一个连续的物理世界”。

顺着这一思路,Sora 2的架构设计也随之发生根本变化。首先,Sora 2从基础Diffusion模型升级为Diffusion Transformer混合架构,显著提升了模型的表达能力与训练效率;其次,深度集成可微分物理引擎,使生成的视频不仅视觉真实,更具物理一致性;同时,Sora 2引入时空建模(Spatial-Temporal Modeling)技术,并在训练阶段采用多阶段蒸馏与跨模态对齐策略,将视觉、运动、语义信息融合进一个连续的潜在世界中。

因此,这些能力意味着Sora 2不再只是一个将文字转化为视频的生成模型,而是开始具备“世界模型”的特征,它能在内部模拟世界的动态逻辑、保持跨场景的物理一致性,并基于这种理解生成连贯、可推理的虚拟现实。

算力爆炸_Sora2_OpenAI-3

来源:https://cursor.cv/sora-2-technical-architecture-analysis.html

Sora 2的出现,再次将AGI(通用人工智能)技术路线之争推向风口浪尖。过去,人们更多地聚焦于如何通过规模化与涌现机制打造通用大模型,而当世界模型逐渐走向现实,新的共识开始形成:在通往AGI的演化路径上,或许应当区分两类核心模型,“世界模型”负责理解与模拟现实、预测环境变化;“策略模型”则基于这种理解制定决策与行动。

正如@0xThoughtVecto0r在X(Twitter)上所言:“应当将世界模型与策略模型分开,先训练世界模型去预测输入、生成模拟回合(synthetic rollouts),再让策略模型在这些虚拟环境中学习。”

这一观点恰好揭示了传统AI视频生成,与以Sora 2为代表的“具备世界理解”模型之间的根本区别:前者只是在连续帧间进行插值;后者则通过内部建模,理解时间、空间与物理的关联,使生成结果具备逻辑一致性与动态连贯性。通过学习真实世界视频的时空规律,构建出一个可泛化的“世界认知空间”,从而让生成过程更像是在“重演现实”,而非简单的帧拼接。

而在世界模型的构建上,也有观点上的分歧。图灵奖得主、Meta首席AI科学家Yann LeCun则代表了另一种对“世界模型”的理解。他认为,仅靠语言符号间的统计关系(如大语言模型)无法实现真正的智能,AI必须拥有一个能够“预测世界未来状态”的内部表征体系,也就是一个“会想象的世界模型”。为此,他提出了联合嵌入预测架构(JEPA,Joint Embedding Predictive Architecture),试图让AI在内部构建一个可推理、可预测的想象世界,并在此基础上发展出理解、规划与行动能力。

与这一理论思路相呼应的,是Google DeepMind的实践路线。相较于OpenAI倾向规模化涌现的策略,Google更重视模型的可控性、可编辑性与物理一致性。其最新发布的Dreamer 4模型,也是一种以世界模型为核心的智能体架构。它通过在《Minecraft(我的世界)》等内部环境中进行 “想象训练(imagination-based training)”,借助高效的Transformer架构与可微分物理机制,能够在不依赖外部交互的情况下准确模拟环境动态,从而实现策略学习与行为决策。这意味着,Google并非仅在视频生成上追求真实,而是在更底层通过内部世界的构建,推动AI对现实规律的自我理解。

算力爆炸_Sora2_OpenAI-4

Dreamer 4通过强化学习在其世界模型内部学习解决复杂控制任务,来源:https://arxiv.org/abs/2509.24527

从Sora 2的现实世界建模,到LeCun的内在想象空间,再到Google的智能体训练闭环,“世界模型”这一概念正在从生成范式扩展到认知范式。这场关于“真正的世界理解”的争论,也逐渐演化为两种技术哲学的分歧:通向AGI的路径,究竟是依靠海量数据驱动下的模式涌现,还是通过具备因果推理与预测能力的全新认知架构,目前仍无定论。

引擎的驱动:

应用与商业生态的范式迁移

Sora 2不仅仅是一个技术升级,它所驱动的Sora App和API,如同一台大功率引擎,开始驱动上层应用和商业生态发生深刻的范式迁移。其中,最根本性的变革,在于它宣告了“AI Native(AI原生)”应用时代的真正到来。

过去,我们将AI视为一种“增强”能力,在现有软件中加入AI功能,称之为“AI+”。例如,在视频剪辑软件中加入AI抠图,在文档工具中加入AI写作助手,但在这些应用中,AI是辅助性的,核心流程依然是用户与传统软件界面的交互。而Sora App则是一个彻底的AI Native产品:AI不再是插件,而是驱动整个应用的核心引擎;用户交互的主界面不再是复杂的侧边栏,而是简单的对话框;应用提供的价值不再是有限的功能集,而是基于用户想象力的、无限的生成可能性。

在这种AI Native范式下,平台底层架构也发生了颠覆性变化。以TikTok为代表的现有短视频平台,其架构是围绕“存储与分发”构建的,核心任务是将用户上传的有限内容,通过高效的推荐算法精准地推送给海量用户;而Sora App则是一种“实时生成与计算”的平台架构,在这个新范式下,个人内容创作与群体消费不再是割裂的两个环节,而是融为一体、实时发生,为前所未有的用户体验和社区生态创造了可能。

我们还看到Sora App带来两个全新的功能,Cameo(数字分身)与Remix(二次创作)。Cameo功能允许用户通过录制简短的个人音视频来创建可供调用的“数字分身”,并在AI生成的各种奇幻场景中“客串”出演,极大地满足了个性化表达的需求;而Remix功能则让平台上的任何一个AI视频都能成为用户再创作的起点,极大地降低了内容创作的门槛。这两个功能的结合,构建了一个强大的用户增长与留存飞轮,也正是Sora App能在严苛的邀请制下依然登顶App Store榜首的关键所在,它证明了用户对这种全新互动模式的狂热追捧。

算力爆炸_Sora2_OpenAI-5

Cameo 和Remix功能,来源:Sora2 App – App Store

同时,在这种新架构之上,Sora 2开放的API还将催生出最短路径的商业转化模式。例如在电商领域,平台不再需要提前录制模特视频,而是通过API调用,可以根据用户的身材数据、偏好风格,实时生成一个由用户第一视角的虚拟形象,动态展示商品。从商业流程来看,卖家只需提供产品模型和核心卖点,电商平台便可根据用户的兴趣标签,实时生成一段独一无二的带货短片。更进一步,当这种生成能力与支付系统打通,一条从“激发兴趣”到“完成购买”的无缝商业转化链路就此形成,其转化效率可能远超当前的图文和短视频广告。

这亦与OpenAI前段时间与Stripe合作推出的ACP(Agentic Commerce Protocol,代理商务协议)相得益彰。ACP旨在让AI Agent能够代表用户完成从浏览、比价到最终支付的全流程交易。当Sora App强大的电商内容生成和社交传播能力,与ACP协议驱动的交易能力相结合,一个 “创意-内容生成-支付” 的商业闭环便初具雏形,为接下来的商业模式演化铺平了道路。

算力爆炸_Sora2_OpenAI-6

来源:OpenAI

https://developers.openai.com/commerce

放眼更广阔的内容产业,Sora 2更将成为 “生产力基建”,其通过自动化生成数字资产,重塑整个生态。在广告与影视行业,创意团队可以将更多精力投入到核心构思上,而将分镜绘制、场景预演、甚至部分特效镜头的制作,交给Sora完成,很大程度降低了制作成本、缩短周期;在游戏开发领域,游戏中的NPC对话、过场动画、动态场景背景,都可以由Sora引擎根据游戏实时状态动态生成,创造出真正“千人千面”的开放世界体验;在工业设计中,设计师可以快速将产品草图转化为动态的3D演示视频,在不同材质、光照和环境下的效果一目了然,从而加速产品迭代和决策过程。

当然,技术的指数级进步也必然带来新的挑战。更高的真实感提升了虚假视频的迷惑性,社会对视频作为证据的信任将面临严峻考验,同时,版权和肖像权的复杂问题也使得Sora的推广与应用,必须依赖强有力的内容审核与合规机制。

Sora 2生成的视频已达到以假乱真的程度,这将导致深度伪造(Deepfake)信息泛滥,版权纠纷呈爆炸式增长。从上线第一天开始,无数用户就大量使用Disney(迪士尼)、任天堂(Nintendo)等公司的IP形象生成视频,美国电影协会(Motion Picture Association,MPA)公开指控 Sora 出现未经授权使用其会员内容,Charles Rivkin敦促OpenAI“立即采取果断行动”解决版权问题。日本内阁府特命担当大臣城内实、数字大臣平将明等多位官员表示,政府已强烈意识到问题的严重性,要求OpenAI停止侵犯版权。

算力爆炸_Sora2_OpenAI-7

Sora生成大量IP形象内容

来源:https://copyrightlately.com/sora-2-copyright/

OpenAI CEO Sam Altman(萨姆·奥尔特曼)迅速宣布对Sora 2的两项重要调整:第一,Sora将提供更精细的控制选项,使得角色版权方,能够自主决定是否允许用户使用其角色进行二次创作,并设定创作的具体规则,这种新形式将被称为“互动同人小说”(interactive fan fiction);第二,在赋予版权方更多控制权的同时,Sora还计划探索新收费模式,可将部分收入与授权使用其角色的版权方进行分成。未来,Sora可能会形成一个“创作者+IP方+平台”三方分账的生态系统。

随着需求的增长,合规性也正催生全新的衍生技术赛道。例如,C2PA等开放技术标准将变得至关重要,能够在视频生成时嵌入不可篡改的元数据用于内容溯源。类似阜博集团(Vobile)的视频指纹技术,能够为海量原创和AIGC内容生成唯一的身份标识,在全网范围内进行侵权检测和追踪。同时,面对每日可能数以亿计的AIGC视频,开发能够快速、精准识别侵权、伪造内容的AI审核系统,本身就是一个巨大的市场。

引擎的燃料:对AI基础设施的终极考验

如果说“世界模型”是驱动未来的引擎,那么AI基础设施,特别是算力,就是这台引擎赖以运转的唯一燃料,Sora 2的出现,对AI基础设施提出了前所未有的考验。根据Factorial Funds的早期测算,仅训练Sora1模型就需要4200~10500 块英伟达H100 GPU训练上1个月,而在推理阶段,单块H100每小时最多只能生成约5分钟的视频。

从Sora 1过渡到Sora 2,如前所述,其视频生成能力实现了显著提升,尤其在物理准确性、时序连贯性与多模态融合方面都有突破,但这些进步的背后,相较过去则是几何倍数的计算成本。语言模型仅需处理一维的文本序列,而视频模型则要同时应对空间、颜色与时间,共四维数据,更重要的是,为了模拟物理世界并维持时空一致性,推理时需连续帧级采样与解码,因此单位请求的GPU时长与显存占用更高;另外不断增长的海量数据对存储要求也极高。

Sora App目前采用邀请制和免费模式,更像是一场大规模的公测和数据收集,考虑到高昂的推理成本,这种 “免费午餐” 大概率无法持久,Sam Altman亦表示,未来可能的收费逻辑是,高性能算力将提供给付费用户。

以Sora 2为代表的视频生成任务,正在倒逼AI芯片和硬件加速演进。这类任务对显存带宽(HBM Bandwidth)的需求甚至超过了对算力(FLOPS)的需求,因为模型需要频繁地在显存中读写海量的权重参数和中间状态。因此,拥有更大容量、更高带宽HBM的GPU将更具优势。这也加速了ASIC(专用集成电路)的崛起,Google的TPU、亚马逊的Trainium等自研芯片,可以通过针对性设计,在视频推理任务上实现比通用GPU更高的能效比。

此外,为了训练和运行Sora 2这样庞大的模型,单卡已无可能,必须通过高速互联技术(如英伟达的NVLink)和更高速的光模块将计算单元连接成大规模集群,对800G甚至1.6T光模块的需求正因此而激增。

算力还与能源密切相关。根据国际能源署(IEA)发布的《Energy and AI(能源与人工智能)》的报告称,到2030年,全球数据中心的电力需求将达到约945太瓦时,其中AI将是这一增长的最重要驱动力,预计到那时,与AI相关的计算任务所消耗的电力将比当前水平增加四倍以上。

OpenAI的整体应对策略,则是Sam Altman提出的“万亿级算力扩张计划”。该计划旨在未来几年内构建数个超级数据中心(即星门,Stargate),部署数百万块AI芯片,其目标就是为训练和运行远超Sora 2的下一代世界模型提供基础。OpenAI与英伟达(提供GPU)、甲骨文(提供云基础设施)的深度战略合作,正是这一宏伟计划的体现。

算力爆炸_Sora2_OpenAI-8

OpenAI位于得克萨斯州的Stargate数据中心,来源:Inside OpenAI's Stargate Megafactory with Sam Altman | The Circuit,https://www.youtube.com/watch v=GhIJs4zbH0o

10月6日,OpenAI宣布将通过最多1.6 亿股AMD普通股的认股权证形式,与AMD展开深度合作,后者将为其下一代AI基础架构提供算力支持,目标规模高达6千兆瓦GPU。仅一周后(10月13日),OpenAI又宣布与半导体巨头博通(Broadcom)联合开发定制化AI加速器,规模可达10千兆瓦。通过这项合作,OpenAI能够将自身在前沿模型研发与产品化过程中的经验直接嵌入硬件设计中,从底层释放出更高层次的性能与智能潜力。

算力爆炸_Sora2_OpenAI-9

AI生态的资本流向

来源:摩根斯坦利研究(Morgan Stanley Research)

算力之争不仅在OpenAI与芯片厂商之间上演,也早已蔓延至Google、Amazon、Meta等科技巨头之间,并迅速波及国内。阿里巴巴在9月的云栖大会上宣布,正推进总规模达3800亿元的AI基础设施建设,并计划进一步加码投资。与此同时,字节跳动的“即梦”、快手的“可灵”等国产视频生成模型相继崛起,其背后离不开日益成熟的国产自主算力体系支撑。可以说,AI的竞争早已超越算法与模型层面,而进入以基础设施为核心的新阶段——谁掌握了最强大、最高效的算力,谁就握有通往“世界模型”时代的钥匙。

总体而言,Sora 2所引发的连锁反应,正推动整个AI技术体系的重构。从上层应用架构到下层算力基座,技术范式正被重新定义。对技术从业者与数据专业人士而言,这不仅意味着新的挑战,也预示着前所未有的机遇。

过去,我们主要关注的是“如何实现”某个功能;而未来,我们的核心价值将更多地体现在“能想象出什么”应用场景。AI的现实引擎已然启动,如何驾驭它、与之对话,将成为新的核心竞争力。具体而言,以下几个方向值得技术从业者重点关注:

1.掌握与“引擎”对话的能力:精通Prompt Engineering,能够用精准、结构化的自然语言或多模态指令驾驭复杂的生成模型,将成为一项基础技能。更进一步,结合行业知识(Know-how)进行多模态应用开发,将AI引擎的能力与具体业务场景深度融合,将创造巨大价值。

2.投身内容合规的新战场:随着AIGC内容的井喷,数字水印、内容溯源、AI审核等技术将从边缘走向舞台中央,成为维护数字世界信任和秩序的关键基础设施。

3.追求极致的“引擎”效率:对于更底层的系统和算法工程师而言,模型优化(量化、蒸馏、剪枝)、分布式训练与推理系统的工程实现、以及针对特定任务的硬件加速,将是永恒的课题,也是降低AIGC成本、推动其普惠的关键所在。

Sora 2打开了一扇通往新世界的大门。门后的世界,既充满了不确定性,也蕴藏着无限可能。对于每一个技术从业者来说,现在正是学习、适应并准备好迎接这场变革的最佳时机。


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

DeepSeek团队开源新模型;OpenAI承诺加强防范AI深伪内容;IBM与美国人工智能公司Groq合作 | 每日大事件
DeepSeek团队开源新模型;OpenAI承诺加强防范AI深伪内容;IBM...
OpenAI、甲骨文、英伟达、软银,在玩“俄罗斯套娃”?
OpenAI、甲骨文、英伟达、软银,在玩“俄罗斯套娃”?
DeepSeek-V3.2-Exp发布并开源;蚂蚁开源1T推理大模型;OpenAI据称将发布新版Sora 2丨每日大事件
DeepSeek-V3.2-Exp发布并开源;蚂蚁开源1T推理大模型;Open...

我要评论

数据猿微信公众号
第22届国际物联网展
返回顶部