܄

如何构建物理AI?NVIDIA给出了自己的答案

【数据猿导读】 AI的下一个竞争维度:从模型比拼,转向世界理解能力建设。

如何构建物理AI?NVIDIA给出了自己的答案

“AI的下一个竞争维度:从模型比拼,转向世界理解能力建设。

我们正站在AI发展的又一临界点上。

从ChatGPT到DeepSeek,从Sora到Cursor,多模态与大模型一路狂飙,不断刷新我们对“智能”的认知上限。但一个更现实的问题也日益显现——当AI面对的不再只是“文字、图像与代码”,而是现实世界中柔软的手指、易碎的玻璃杯、拥挤的十字路口,它是否依然能从容应对?

越来越多的技术先锋意识到,人工智能若不能理解并适应真实物理世界,其潜力将永远被锁在“模拟宇宙”里。

于是,一个新的概念开始浮现:“物理AI(Physical AI)”——一种具身、可感知、能推理、会行动的智能体形态,它不再只是数据上的算力堆叠,而是能走入现实世界,与真实物理环境交互的智能生命。

这一次,NVIDIA再次站了出来。

在SIGGRAPH 2025上,加速计算领域的全球领导者没有再谈算力峰值,而是抛出了一个更宏大的愿景:构建支撑物理AI的全栈平台,用Omniverse塑造可信的世界模型,用Cosmos赋予AI推理认知能力,用DGX Cloud和Blackwell GPU打通训练到部署的链路。一套专为“AI+现实世界”设计的技术体系,正悄然成形。

物理AI的时代,正在拉开帷幕。而它的第一幕,始于一个问题:AI,能不能看懂这个世界?

物理AI_NVIDIA_模型-1

现实之问:

AI很强,但离“现实”还很远

当我们谈论AI的突破时,往往沉醉于技术指标:更高的参数量、更低的Loss、更强的推理链路。生成式AI在文本、图像、语音等领域早已大放异彩,从一张图生成无限空间、从一段话编织完整叙事,仿佛无所不能。

但一旦AI走出“模型”的舒适区,面对物理世界的复杂性,则又产生了新的问题。

1、多模态AI狂飙,但仍困于“纸上谈兵”

AI能写会画,却抓不准一个杯子。

这是物理AI领域最常被引用的真实难题。一个带有轻微裂纹、光线反射变化的玻璃杯,足以让机器人“手足无措”。在自动驾驶中,即使模型已训练上千万小时,但当暴雨倾盆、强光干扰、孩子突然冲出马路,AI的识别与反应依然不稳定。

为什么?因为它们“看不懂”现实世界。

今天的AI依赖的是二维图像、静态标注和抽象语义,它理解的是“物”,而不是“物理”:它不知道一块瓷砖在潮湿状态下会滑,也不懂高举手臂的人是在打招呼还是要挥拳。这种脱离物理常识的“智能”,本质上是一种“符号理解”,而非具身认知。

我们一度以为,算力提升和模型堆叠可以解决一切。但现实世界的复杂性远超想象——它是连续的、多变的、不可预测的。如果AI无法理解这些物理规律与变化逻辑,就很难真正落地于“世界”本身。

2、智能体应用爆发,产业却卡在三大瓶颈

2025年,被誉为“智能体元年”。无数新创业项目围绕AI Agent展开:从智能助手、AI外呼系统,到大模型驱动的机器人、自动化工厂、AI仓储系统。

但当这些智能体真正被拉入“现实场景”,问题接踵而至。

瓶颈一:训练数据难拿→模型泛化能力差

AI要想具身,首先要“看”世界。但现实数据昂贵、采集难度大、质量不一致(尤其在物理交互场景下,如抓握、避障、操作等)。模型往往只在“数据里强”,一旦环境稍有变化就“不会做题”。

瓶颈二:虚拟仿真不真实→模型迁移性能差

虽然工业界普遍采用仿真系统训练AI,但传统仿真环境缺乏真实性,材质、光影、碰撞反馈等不够真实,导致“Sim2Real”性能骤降。

瓶颈三:复杂任务推理弱→智能体“听不懂,还不会做”

具身智能不仅要识别,还要规划动作、拆解任务、应对变化。在复杂任务(如搬运多件物体、应对突发状况)中,当前的AI Agent仍缺乏真正的推理与自适应能力。

从人形机器人到自动化工厂,从智慧城市到无人驾驶,真正的AI落地不再只是“模型能力”,还是“世界理解能力”——感知物理环境、理解语境变化、做出合适反应。

产业需要的不再只是一个更大的语言模型,还是一个具身、具感知、具推理能力的“物理智能体”。

而这,正是NVIDIA试图解答的问题。

NVIDIA开了一味“药”,

让AI理解并重构真实世界

面对AI落地的“物理现实壁垒”,NVIDIA并没有试图用更大的模型去强攻短板,而是换了一种思路:

如果AI无法理解世界,不如先帮它建一个世界;

如果AI不会行动,不如先赋予它具身能力;

如果数据不够,不如让AI自己生成数据,再进行推理和决策。

这背后,是一套覆盖从环境构建、认知生成、推理预测到训练部署的完整技术体系。它不是单一产品的升级,而是一种底层逻辑的革新:AI不只是大脑,还需要身体、环境和世界模型。

而NVIDIA,正在用三个关键系统组件,回应这套逻辑:

1、 Omniverse:为AI搭建“可信的训练世界”

AI要真正理解世界,首先要在可信的、近似真实的环境中进行训练与测试。这正是NVIDIA Omniverse的使命——一个用于构建虚拟物理环境的工业级平台。

在最新版本中,Omniverse支持3D Gaussian Splatting技术,仅通过视频就能实现高精度三维场景重建,从而大幅降低训练数据采集与建模的门槛。

更重要的是,Omniverse不再是孤岛式仿真工具,它打通了主流机器人训练标准(如MJCF与OpenUSD),并与NVIDIA Isaac Sim和Isaac Lab实现深度联动,使工业级仿真与强化学习成为一体化流程。

换句话说:Omniverse让AI不只在纸面上“学技能”,而是在拟真的数字世界中完成全流程训练。

目前,Amazon与Hexagon已率先在使用Omniverse流式化工业数字孪生与物理AI场景仿真,面向感知、机器人与自动系统的开发。

2、Cosmos:赋予AI“世界认知”与“推理思维”

如果说Omniverse是训练场,那NVIDIA Cosmos就是AI的“大脑结构”。

Cosmos是一个多模态世界模型系统,由NVIDIA新发布的三大模块组成:

·Cosmos Transfer:自动生成覆盖多场景、多模态的合成数据,让AI不再依赖昂贵的“实拍数据”,实现训练数据“自给自足”。

·Cosmos Reason:基于VLM(视觉语言模型)进化形态,具备更强的推理能力,能将复杂任务拆解为结构化步骤,并结合物理常识做判断。

·Cosmos Predict:从静态理解进化为动态预测,可推演未来状态场景,适用于自动驾驶、城市安防等时空复杂领域。

目前,Uber等行业先驱正在使用Cosmos系列世界模型进行任务推理和合成数据生成,提升物理智能体系统在真实环境中的泛化能力。

通过Cosmos,AI不再只是“回答问题的语言专家”,还是一个能感知现实、理解目标、预测后果、规划路径的行动体。

3、DGX Cloud + Blackwell GPU:统一训练、仿真与部署的AI基座

训练再强,也要部署落地;仿真再真,也要上阵实战。

这正是NVIDIA用于“打通闭环”的底座——NVIDIA DGX Cloud+新一代Blackwell GPU架构。它不仅是算力的升级,更是物理智能体训练、推理、部署的一站式平台。该系统支持从云端训练到边缘端部署全流程迁移,适配工业机器人、智能摄像头、无人车等异构设备。

通过NVIDIA NIM,企业可一键部署模型,仅需几个API调用就能接入自家业务系统,加速AI Agent落地。

这意味着企业不再需要搭建繁琐的AI基础设施,而是“开箱即用”,从仿真、训练到部署,全流程由NVIDIA打包完成。

在生成式AI大潮中,安利中国算是比较早一批完成AI基础设施从通用计算向智能计算跃迁的企业之一。其核心选型,正是依托于NVIDIA DGX Cloud与NIM框架构建的智能体服务平台。根据文章披露,安利中国通过NVIDIA NIM框架优化模型推理效率,配合混合云资源调度,在内部办公与Copilot应用中效率提升显著,模型推理效率提升约40%,员工办公效率提升达50%。

总体来看,Omniverse提供训练环境,Cosmos提供世界理解能力,DGX Cloud和NIM提供部署链路——三者形成一个完整的物理AI全栈闭环。这不是某个单点技术突破,而是从感知→理解→推理→决策→执行的智能体能力建构路径。

有了这些,AI才能开始“看得懂、学得会、做得准”。

物理AI,正在真实世界扎根

技术从不应止步于发布,真正的价值,是在真实世界里“跑得起来、接得住、用得起”。作为一套面向现实构建的AI系统,NVIDIA的物理AI架构早已不仅停留在实验室里。

它已经,正在,并将持续渗透到机器人、城市治理、制造业等高价值场景中。

物理AI_NVIDIA_模型-2

人形机器人,正接入NVIDIA技术栈

在人形机器人这条技术路线的风口之下,中国成为全球最活跃的市场之一。不同于以往“硬件先行、算法滞后”的路径,越来越多机器人公司开始选择NVIDIA的全栈机器人技术解决方案作为起点。

例如,北京人形机器人创新中心、智元机器人、银河通用等企业,统一采用NVIDIA最新的Jetson AGX Thor作为人形机器人的终端部署,配合Isaac Sim/Isaac Lab开展工业级强化学习与任务推理训练。

此外,国内云服务平台也在探索与NVIDIA NIM框架的集成,为智能体提供云端训练与部署闭环能力。

这不仅降低了具身智能研发的门槛,也加速了机器人从原型走向场景落地的速度。

企业借助NVIDIA提供的“具身AI开发基础设施”,形成协同生态,复制出更多“可落地”的智能体。

从交通保障到城市治理,物理AI重塑智慧城市底座

不仅是机器人,整个城市的感知系统也正在被重新定义。

例如,在法国SNCF车站、意大利K2K西西里交通系统等项目中,NVIDIA的Metropolis平台正被用于处理数万路摄像头视频流,结合Omniverse / Cosmos模型,实现城市级的物理AI感知推理。

物理AI_NVIDIA_模型-3

通过统一平台调度,系统可以实现:交通状态实时识别、危险行为预测、能耗数据建模、应急响应规划等复杂功能,并做到分钟级部署、模块化集成。

相比传统“摄像头识别+异构算法”方式,物理AI平台更强调数据统一、语义标准、场景预测,在复杂城市系统中体现出更强的“可迁移性”与“前瞻性”。

想象一下:一座城市,不再只是被动“保障的对象”,而是一个具身的、智能的Agent,自主识别问题,自我调度资源。

当我们把人形机器人和城市治理放在同一个物理AI体系下,会发现:“具身智能”不再只是一个产品,而是一种能力结构。它可以部署在机器人上,也可以部署在城市的管理体系里,甚至未来可能进入无人机、工厂机械臂、智能终端。

而这场能力迁移与规模复制的起点,不仅仅靠某个超级大模型,还包括像NVIDIA这样能提供端到端整体解决方案的公司。

AI的下一个竞争维度:

从模型比拼,转向世界理解能力建设

过去十年,AI的竞争在“语义空间”——我们训练语言模型去理解文本、生成内容、掌握对话的逻辑;我们用图像模型去生成画面、识别物体、还原视觉。

但所有这些能力,最终都要穿越屏幕、走向物理世界。

而当这一步发生,AI的竞争维度也将彻底改写。从NVIDIA技术和产品的基础上展望未来,我们能看到以下几个发展方向

1、从“通用大模型”到“通用智能体”,世界模型成为新引擎

LLM(大语言模型)是认知的开端,但不是智能的终点。

未来的AI竞争,不再只是谁的模型更大、更快,还是谁能构建出更强大的“世界模型”——能感知空间、理解时间、预判动态变化,并做出合理反应的能力。

这背后,是对AI模型结构的新要求:

·从“死记硬背”转向“推理+常识”:基于VLM/VLA架构,逐步取代传统LLM的“符号堆叠”路径;

·从“语言为王”转向“多模态融合”:语言、图像、视频、3D、运动轨迹等多源信息统一建模;

·从“离身智能”转向“具身智能”:智能体不再只在云端运算,还要在机器人和边缘端实时运行。

NVIDIA的Cosmos就是这种“新型世界模型”的代表,它不生成语句,而是模拟决策过程;不只识别图像,而是能在物理场景中执行操作指令。

2、模拟先于现实:合成数据将取代90%的实景训练

在深度学习的世界里,数据是“燃料”。

但在现实世界里,数据往往昂贵、有限且带有伦理边界——特别是在自动驾驶、医疗、工业安全等高风险场景中。

因此,未来的AI系统将转向一种新范式:先在模拟中训练,再推理到现实中部署。核心技术包括:

·3D Gaussian Splatting + Omniverse + OpenUSD:构建高真实感虚拟世界;

·Cosmos Transfer + Predict:自动生成覆盖各类边缘场景的数据;

·自监督、仿真反馈闭环:通过自我优化+交互反馈,实现数据自动再生产。

模拟不再是“辅助工具”,而将成为训练AI的主场,现实数据只是“修正器”。

这正如游戏引擎之于虚拟现实,而AI的“仿真引擎”将成为理解物理世界的基础设施。

这一切——从环境仿真到世界模型,从训练到部署——最终汇聚成NVIDIA正在打造的下一代底座。

如果说CUDA是AI计算的引擎,那Omniverse+Cosmos+DGX就是物理智能体的 “操作系统”:

·Omniverse=虚拟世界建构器

·Cosmos=世界认知与推理引擎

·DGX Cloud + NIM = AI部署与执行平台

一个更深远的类比是:AI正如人类刚刚学会“语言与思考”,但还不会“劳动与交互”。NVIDIA试图做的,是为AI赋能手脚、眼睛和环境——把AI从“头脑”变成“生命体”。

AI不止于智能,更走向真实

人类的智能进化,从来不是线性的。我们学会了语言,不是为了炫耀知识,而是为了彼此理解;我们制造工具,不是为了重复劳动,而是为了改变世界。

而AI,正走在同一条路上。

从GPT掀起的语义革命,到如今物理AI重塑的现实感知,人工智能正在完成一次从“抽象思维”到“具身行动”的跃迁。

它不再困于数据的回声室,不再满足于语言的模仿游戏,而开始追问:“世界是什么?我在哪里?我能做什么?”

这是一次深刻的转向。

AI不再只是一种“计算能力”,而是一种“现实存在”的新形式。

未来某一天,我们或许不再将AI称为工具。它们会成为城市的神经、机器的意志、空间的灵魂。

它们不会只在云端思考,而会在地面奔跑、在空气中感知、在现实中生长。

那将是AI真正“落地”的时代,一个“可感、可知、可控”的现实世界,也终将被AI深刻地理解、重构与改变。


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

生数科技完成A轮数亿元融资,持续加速 Vidu 多模态大模型技术创新与全球服务
生数科技完成A轮数亿元融资,持续加速 Vidu 多模态大模型技...
科大讯飞发布星火东盟多语言大模型;腾讯企点营销云发布Magic Agent;华为发布全球首个通算超节点丨每日大事件
科大讯飞发布星火东盟多语言大模型;腾讯企点营销云发布Magic...
豆包8月月活规模超DeepSeek;OpenAI加速布局机器人领域;通义DeepResearch模型、框架、方案开源丨每日大事件
豆包8月月活规模超DeepSeek;OpenAI加速布局机器人领域;通义D...

我要评论

数据猿微信公众号
第22届国际物联网展
返回顶部