“数据荒”背后，具身智能行业还欠一笔工程账

数据荒具身智能行业工程账

原创数据猿 | 2026-06-23 23:32

【数据猿导读】五位百亿估值的具身智能公司CEO，坐在同一张桌子上。整场讨论只有一个问题没有分歧——数据。

“本体告一段落，具身智能进入“数据时刻”？

6月13日，北京智源大会。

五位百亿估值的具身智能公司CEO，坐在同一张桌子上。整场讨论只有一个问题没有分歧——数据。

不是融资节奏，不是本体成熟度，不是模型路线，是数据。

这个共识来得并不轻松。过去两年，行业花了大量时间争论“人形还是非人形”“VLA还是世界模型”，但当大家坐下来直面现实时，发现所有争论的前提都被同一件事卡住了：没有足够多、足够好的数据，以上一切都不成立。

但比“数量不够”更隐蔽、也更拖效率的，是另一个问题——大量已经被采集到的数据，仍然无法直接用于训练。原始视频到训练就绪之间，隔着漫长的工程链路：清洗、对齐、标注、质检、格式转换，每个环节都可能卡住。

行业不缺原始素材，缺的是把原始素材变成“训练就绪”数据的工程能力。

高质量数据

已成具身智能的关键瓶颈

智源大会上，嘉宾们的判断高度一致：算力和参数不是当前最缺的，模型架构固然重要，但在数据严重缺乏的情况下，架构意义有限。当前真正的瓶颈，是高质量、可扩展的核心态数据。

这个判断首先建立在数量困境之上。

一组数字说明问题的严重性：全球高质量真实物理交互数据总量仅约50万小时，而训练通用具身智能模型需要千万小时起步。50万小时对千万小时，差了一个数量级。

芯片可以多买，模型可以重训，但物理世界的真实交互数据只能一分一秒地采集。没有大规模、高质量的真实物理数据，通用具身智能就永远停留在Demo阶段。

数据荒_具身智能行业_工程账-1

为了理解这个困境的深层结构，需要拆开来看三个层面。

第一道墙：采集本身就很贵、很慢。

Ego-centric第一人称视角数据，是具身智能最核心的训练素材。它和机器人头部感知高度一致，天然具备“第一人称”的视觉分布。

但真机遥操作采集面临三重限制：量产能力不足，造不出足够多的机器人同时采数据；单台设备昂贵，每采集一小时数据都要占用一台高成本硬件；场景部署成本高，如果要做家庭场景数据，需要把笨重设备运到用户家中。这些限制叠加在一起，导致高质量真机数据的产能极低。

行业已经在探索替代路径——人手采集、触觉手套、头戴设备——但这些方案本身也处于早期，采集效率和数据质量仍在验证中。每一种路径都有其局限性，目前还没有任何一种方案能够单独解决数据供给问题。

第二道墙：工具链高度碎片化。

传统数据服务商的工具链各自为政。采集用一套工具，标注用一套，质检用一套，格式转换和训练对接又是另一套。数据在不同环节之间流转时，标准不统一、格式不兼容，大量时间被消耗在“把A工具的输出变成B工具的输入”这件事上。

而具身智能数据对时序对齐、因果关联的要求，比传统CV数据高得多。一段第一人称操作视频，手部动作和相机视角变化必须精确同步，语言指令和动作片段必须精准匹配。这意味着即便只是简单的格式转换，也可能因为时间戳错位导致整段数据失效。

第三道墙：工程成本失控。

由于外部工具链不完整，模型训练团队被迫自行搭建数据管线。从原始视频导入开始，到清洗、对齐、标注、质检、格式转换，最后导出为训练框架能读取的格式，整个流程高度依赖内部工程能力。这不是算法问题，是工程问题——而且是一个极度消耗人力和时间的工程问题。

有业内人士估算，这部分成本有时是数据采集本身的3到5倍。花1块钱采数据，可能要再花3到5块钱让它变得“能用”。更隐蔽的代价是时间，算法团队的大量精力被消耗在数据处理上，真正用于模型迭代的时间被严重压缩。

数量不够、工具链碎片化、工程成本失控——三重困境叠加在一起，形成了行业当前的尴尬局面：一方面大家都在喊“数据不够”，另一方面大量已经采集的数据躺在硬盘里，离“能训练”还有很长的路。

那怎么来解决这些问题呢？

数据“用不上”的难题

有了一条新解法

上面提到的三重困境——采集成本高、工具链碎片化、工程成本失控——行业并非无动于衷。

事实上，过去一年已经有不少公司在尝试突破。

一批具身智能创业公司在探索数据采集的新路径，有的试图用低成本人手采集替代真机遥操作，给人发一双手套或一个头戴摄像头，就能在家里采集操作数据；有的押注触觉、力觉等多模态数据，希望为模型提供更丰富的物理信号；还有的选择退回到更务实的路线，不追求通用数据，而是在某个垂直场景中打透，形成数据闭环。

但这些探索目前都还处于早期，采集效率和数据质量仍在验证中。

就在这个节骨眼上，一条新的解法出现了——不是从采集端发力，而是从数据处理端入手。

6月22日，如祺出行旗下的“如祺数据”发布了一个具身智能数据平台。它专注解决一件很具体的事：把Ego-centric第一人称操作视频，自动化地处理成模型可以直接使用的训练数据。

如祺出行不是新玩家。这家出行服务公司早在2023年就开始布局全链路AI数据服务，此前在智能驾驶领域已完成能力验证——客户含小马智行、理想、腾讯，2025年技术服务营收1.6亿元，同比增长487%。

它的核心能力，除了凭借每年数亿单打车需求积累的大量高价值、多模态真实出行场景数据外，还有“长期处理真实物理数据的工程方法论和基础设施”。这套能力在智能驾驶领域已经跑通，现在被延展到了具身智能场景，目标是通过将数据处理过程标准化、自动化、可追溯，降低Ego-centric数据处理的边际成本。

具体来看，这套数据平台的核心，是一条覆盖从导入到导出的全链路自动化流水线。

数据荒_具身智能行业_工程账-2

导入环节，平台支持两种模式：直接上传已有预处理结果，或仅上传原始MP4由后台自动处理。上传与算法执行解耦，团队无需在本地维护复杂依赖环境。

数据荒_具身智能行业_工程账-3

AI预处理环节是整条流水线的技术核心。原始视频依次经过三个阶段：手部检测——从单目图像中恢复3D关键点与手部形状；相机位姿估计——输出连续准确的6DoF运动轨迹；手部3D姿态优化——将手部运动从相机坐标系映射到世界坐标系，最终输出结构化的手部运动轨迹。

数据荒_具身智能行业_工程账-4

这三个阶段解决的核心问题是：把晃动、遮挡、视角受限的原始视频，变成在三维空间中可量化、可编辑的手部运动数据——这是从“原始素材”到“结构化数据”的关键一跳。

动作标注环节，平台面向的是具身模型特有的需求：带自然语言指令的连续动作序列，而非静态目标框选。标注工作台将当前帧及未来20帧的腕部轨迹投影到图像上，帮助标注员提前感知手腕运动趋势，精准判断动作边界。

审核质检环节，系统自动生成五维质检报告：切片完整性、手部检测质量、相机轨迹质量、语义一致性、样本分布均衡性。异常区域被自动高亮，审核员不再需要逐帧检查。实测表明，单条视频审核时间压缩50%。

导出环节，平台支持多种输出格式——训练框架原生格式（LeRobot、HDF5）、通用交换格式（JSON）、机器人中间件格式（ROS 2 MCap）。从标注完成到开始训练，中间不需要再做任何格式适配工作。

这条流水线的价值在于：过去需要多支团队、多套工具、数周时间才能走完的流程，被压缩成了一条可追溯、可质检、可规模化的管道。

数据荒_具身智能行业_工程账-5

简而言之，如祺出行这套新解法，就聚焦在从采集到训练就绪之间的关键数据工程环节。这也是显示，面对具身智能数据困境，行业已逐步从“死磕采集”开始转向思考如何从采集、处理、审核、标准化、输出等全链条提升已有数据的“可用性”。

数据基础设施

正在成为隐形战场

从智源大会的讨论来看，行业正在发生一个明确的转向。

这个转向背后的逻辑是，当硬件能力逐渐趋同，决定智能水平上限的是“具身大脑”的质量，而大脑的进化只能靠数据喂养。

头部公司已经开始行动，10万小时、100万小时、千万小时甚至上亿小时的数据目标被相继提出。这个节奏部分来自自动驾驶行业的路径验证——自动驾驶中，10万小时可以训练出可用模型，百万小时接近较成熟状态，千万小时则用于突破长尾场景。具身智能的任务复杂度远高于自动驾驶，对数据的需求只会有过之而无不及。

与此同时，数据形态和采集方式正在多样化。核心逻辑正在从“越多越好”转向“有效数据+场景匹配”，不是笼统地追求数据总量，而是在具体可落地的场景中持续积累高质量数据。

但无论走哪条路径，都指向同一个结论：“万台落地”需要数据基础设施先行。

6月9日，工信部与国资委联合启动专项行动，目标是年底推动“万台级规模落地”。万台机器人同时运行，意味着每一台都需要模型驱动，而模型迭代需要源源不断的训练数据。这不是一次性的数据采集能解决的，而是需要持续运转的数据生产管线，需要标准化的处理流程、自动化的质量控制和规模化的交付能力。

对于已沉淀出面向真实世界复杂数据的工程经验，具备构建全链路AI数据服务能力的数据服务商而言，这无疑提供了一个巨大的机会，让类似如祺出行这样的公司可以加快将其物理AI数据能力，从智能驾驶等领域外溢至高增长的具身智能赛道。据接近如祺出行的人士透露，公司已在具身智能领域获得商业化订单。

写在最后

回到智源大会那个圆桌。

五位CEO的共识是：数据是最大瓶颈。但如果我们把目光拉长，会发现这个判断背后藏着一个更底层的逻辑。

每一次技术范式的转移，都会经历一个从“模型崇拜”到“数据觉醒”的过程。

互联网时代，人们相信算法推荐可以解决信息过载，后来才发现用户行为数据才是推荐系统的真正护城河。自动驾驶早期，行业沉迷于规则引擎和感知算法，直到Waymo和特斯拉用数十亿英里的真实路测数据碾碎了所有“聪明算法”的优越感。大语言模型的爆发，本质上是Scaling Law的胜利，是海量文本数据堆积出来的涌现智能。

每一次，都是数据笑到最后。

具身智能正在进入这个拐点。本体已经阶段性成熟，接下来是数据工程的漫长战争。日复一日的数据采集、清洗、标注、对齐，这些看似不性感的“脏活”，最终构成了具身智能行业必不可少的基础设施。

历史反复验证了一件事：所有伟大的进步，最终都取决于那些最不起眼的基础设施。电网、公路、通信基站、云计算，没有这些“无聊”的东西，再聪明的算法也只是空中楼阁。

数据基础设施，就是具身智能时代的电网。

当一万台机器人在真实场景中稳定作业时，人们不会记得是谁铺设了第一条数据管道。但那个提前把管道铺好的人，早已拿到了下一阶段的门票。

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。