千寻智能解浚源:具身智能十年时间覆盖全球10%的人口 | 数据猿专访
原创 俊驰 | 2025-09-29 21:17
【数据猿导读】 近日,数据猿与千寻智能副总裁、具身智能事业部总经理解浚源展开了一场对话,试图揭开人形机器人成长的秘籍以及成长的烦恼。

“盼望着,盼望着,风口来了,机器人的脚步近了。
如今但凡是标榜高科技的展会,总少不了人形机器人“来帮帮场子”。它们或是一记左勾拳右勾拳,或是一个漂亮的回旋踢,动作虽带着机械特有的笨拙感,但绝对是会场的顶流。作为暖场嘉宾,它们确实挺称职。可一旦真要它们干点实际活儿,这些机器人马上躺平给你看。
最近有新闻说,中国现在“牛马”够用,缺的是能扛事儿的“驴”。牛马有我们打工人,在未来,人形机器人能不能成为能扛事的“驴”?在成为合格“赛博驴”的路上,人形机器人最大的挑战究竟是什么?是大模型能力不足吗?不是。是机械结构不够精密吗?也不是。真正的关键,在于数据。
近日,数据猿与千寻智能副总裁、具身智能事业部总经理解浚源展开了一场对话,试图揭开人形机器人成长的秘籍以及成长的烦恼。
“人工智能的终究形态,
在于‘有身体’的智能”
近几年,大模型的飞速进步,让我们直观感受到了“智能涌现”的魅力。一直以来,“造人”始终是科学家门终极的追求,也是最浪漫的使命。
千寻智能也是其中的一员,他们十分笃定的认为——人工智能的最终形态,必然是具身智能。
这一判断基于两个重要原因:技术路径更短,成本优势更大。
具身智能,既可以说是为AI“装上身体”,也可以理解为给机器人“赋予大脑”。无论从哪个角度看,目标都是一致的——让机器人能像人一样“听说读写”、灵活行动,并具备规划与决策能力,自主完成复杂任务。
“相比于AI大模型,在现实世界的任务中,具身智能在技术上更容易实现落地。” 解浚源如是说。
这一观点,似乎有点挑战了大众的一般认知。毕竟在多数人想象中,造一个实体机器人肯定比开发“虚拟”的AI大模型更复杂——就像觉得钢铁侠的战衣比贾维斯的系统更难造。
解浚源解释道,过去几年,大模型在虚拟世界的进化能力让人叹为观止。吟诗作画、解题写程序,或者写一份工整漂亮的专业论文,它都信手拈来。但却难以回答“如何将玻璃杯平稳放置在倾斜桌面上”这类依赖物理直觉的问题。更不用说走入到物理世界,AI的表现就更“差劲”了,连“叠衣服”这么简单的动作,实现起来都很难。
而现实中大量任务——如整理房间、擦桌子等,虽然交互频繁,却并不依赖长链条的推理或记忆,更多是依靠实时感知与动作执行。这类任务重复性高、决策链短、实时性强,恰好是具身智能最能发挥价值的场景。
与纯AI大模型不同,具身智能拥有自己专属的AI大模型。它更轻,因为要在机器人端侧部署。它响应速度更快,因为机器人需要在真实世界中移动,一旦模型发生延迟,动作就会卡顿。它迭代速度更快,虽然技术栈同样基于Transformer架构,但具身智能大模迭代速度更快。以千寻智能为例,其自研的具身智能AI大模型几乎24小时就能完成一次迭代,比纯AI大模型的迭代速度提高了十几倍。
这些优势在物理世界的简单任务中被不断放大。具身智能或者说人形机器人最适合承接那些短程、重复的体力劳动,如洗衣、擦桌、洗碗等,将人从日常琐事中解放出来。
除了技术落地之外,成本优势是另一大关键。
解浚源进一步阐述说,社会上存在一个普遍的认识误区:具身智能或者人形机器人需要巨额的投入。其实则不然,跟大模型相比,具身智能的投入可以说“非常具有性价比了”。当前大模型企业的投入,大多砸在了算力上——很多头部企业买显卡一出手就是几百亿、上千亿。
“如果我们将同等规模的资源投入到机器人研发中,用于在物理世界采集数据,几十亿甚至几百亿的资金,足以获取海量的真实场景数据,从而快速推动实体智能的进步。而且机器人一旦落地,其价值也更加直观——它能实实在在地替代人类完成重复性体力劳动,比如搬运、清洁等。这种‘看得见、摸得着’的价值,比起大模型解题,更容易被大众理解和感知。” 解浚源说。
“数据飞轮是构建核心竞争力的关键”
在千寻智能展厅,我们有幸看到了公司的一款成熟产品——“墨子”机器人。
据解浚源介绍,“墨子”是真正意义上具备多任务连续泛化能力的具身智能机器人。从模型软件到底层硬件,千寻坚持全栈自研,甚至关节模组也是自主设计,AI与硬件的有机融合使“墨子”的性能参数达到行业一流水平。
“墨子”具备全身力控能力,能对外界力量做出实时响应。例如,当它在运动中意外撞到桌子时,不会硬性撞击导致损伤,而是会做出柔顺的缓冲反应。这一能力使其能够执行需要触觉反馈的任务,如擦黑板——对人来说轻而易举,但对机器人而言,若控制不够柔顺,一发力就可能失去平衡。
从项目启动之初,千寻智能就将“墨子”定位为具备市场价值的产品,因此选择了“轮式底盘+上身双臂”的技术路径。优先通过轮式结构解决移动与稳定性问题,再集中攻坚上肢的精细操作能力。解浚源指出:“人类的独特价值不在于奔跑速度或跳跃高度,而在于双手所能实现的灵巧操作。这正是我们聚焦‘大脑级’任务——上半身智能控制的原因。”
面向未来,解浚源分享了两大突破方向:
一是灵巧手技术仍需攻坚
尽管机器人的腰、腿、上身等整体结构已较为成熟,但实现人手级别的灵活操作仍是当前的主要难点。目前尚未出现真正实用、灵活且成本可控的灵巧手方案。要让机器人像人一样熟练抓取、旋转、按压不同物体,甚至完成穿针引线类精细动作,可能仍需数年时间持续打磨。
二是构建“数据飞轮”是关键竞争力
回顾过去十多年的互联网发展,真正能做大的企业,最终依靠的都是数据闭环——更多用户带来更多数据,更多数据训练出更好的模型和系统,更好的系统又吸引更多用户,这个飞轮一旦转起来,就会形成强大的壁垒。具身智能也不例外,必须建立“一边创造价值,一边产生数据”的飞轮效应。
与大语言模型不同,具身智能的数据具有私有性与闭环性。大模型的预训练数据多来自公开网络,难以形成壁垒;后期精标数据又依赖昂贵的人工标注,易被复制。而用户交互数据往往质量有限,难以直接用于模型提升。
然而在具身智能场景中,数据飞轮可以高效运转:机器人以基础能力部署后,在真实场景中执行任务,成功经验强化模型,失败案例经人工干预后转化为高质量数据。这一过程类似自动驾驶,但机器人可优先选择容错率更高的场景(如无人环境下的清洁任务),以更低风险积累有效数据。
“每一次失败,都是模型进化的一次机会。”解浚源总结道,“这种‘从实践中学习’的闭环,正是具身智能持续进化的核心动力。”
“最大的挑战来自数据”
如何解决数据问题,已成为整个具身智能领域共同的“拦路虎”。很多人可能会感到意外:制约机器人发展的,居然不是模型算法,也不是机械结构,而是看似“随处可见”的数据,具身智能的数据到底难在哪?
如果你看过机器人马拉松或运动会,一定会笑出声。那场面简直堪称“大型翻车现场”——有的走着走着突然跪地不起、跑着跑着零件脱落、甚至有的在做动作时直接把自己抡飞……
这些狼狈表现的背后,根源在于具身智能严重缺乏高质量的物理交互数据。没有足够的数据支撑,机器人是无法感知到这个世界的物理法则,在真实世界中“稳健行走”都成问题。
与大模型不同,具身智能需要的数据非常特殊:它依赖大量来自物理世界的交互信息,比如摩擦系数、材料应力反馈、力度控制等。这类数据不像文本或图片那样容易获取,它们无法从公开网络批量下载,而必须通过实打实的动作尝试、碰撞、调整才能积累。
更关键的是,纯文本模型缺乏“身体经验”,它的知识来自符号关联,而非对物理规律的深层理解。要让机器人真正理解世界,就必须像教婴儿学步一样,让它亲自去摸、去抓、去摔倒、再爬起来——而这个过程,比训练一个大模型要困难得多。
和人类相比,人形机器人大概还处在“婴儿学步”的阶段。这绝不是讽刺,反而说明它们走对了路。毕竟,每个婴儿我们都称呼他为“宝贝”。
要知道,即便是刚出生的婴儿,也并非一张白纸。他们自带一套经过千万年进化而来的“预训练系统”,天生就具备几种关键能力:
·物理直觉:几个月大的婴儿,就会对“违反物理规律”的事情表现出惊讶。比如物体悬空不落、突然消失又出现,他们会盯着看更久——说明他们天生就对重力、支撑、物体恒存有了基本预期。
而机器人要学完海量数据,才勉强明白“东西掉下去会落地”这种常识。
·多感官学习:婴儿通过看、抓、爬、扔、咬,实时构建对世界的理解。第一次爬下沙发,身体就在感知高度、风险与动作控制——这种“体感学习”是纯数据替代不了的。
而机器人没有重量感、没有肌肉记忆,知识始终是抽象的、飘着的。
·小样本举一反三:婴儿是高效学习机器,大脑天生就对模式、因果和结构异常敏感。可能只见过两三只狗,就能认出不同品种的狗;没系统学过语法,却能快速掌握语言规则。
而机器人识别一只狗,可能需要学习百万张标注图片。
所以说,别小看婴儿的跌跌撞撞——每一步都是在快速的学习,增加脑回路。机器人今天走得笨拙,也许正是因为它终于开始像婴儿一样,用身体去理解世界了。
而理解这个世界的关键,就是为具身智能创造一个属于它的数据生态,以此构建机器人的“成长系统”。
千寻智能打造了一套完整的具身智能数据收集与训练系统,彻底颠覆了传统的逻辑和方式。他们几乎穷尽了人类各种动作模式,用于训练机器人,从简单的抓取,到复杂的任务,将这些从零开始的技能进化过程,凝缩为可迭代、可复用的数据体系。
更重要的是,千寻智能将数据的维度,从一维的文本空间,扩展至三维的物理世界。在无数次的训练中,通过模拟物理交互,生成动态的认知图谱,最终使得机器真正“用身体感知到这个世界的物理规则”。
“十年时间覆盖全球10%的人口”
千寻智能提出了一个雄心勃勃的目标:未来十年,让全球10%的人拥有自己的机器人。这两个数字背后,是清晰的战略决心与市场判断。
解浚源解释这两个数字背后的深意:十年,是技术落地所需的合理周期;10%,则大致对应全球发达国家人口总数——正如汽车普及之初,率先享受便利的是少数富裕阶层,人形机器人也将沿着相似的路径,从高端走向大众。
这两个数字就像坐标一样,锚定了千寻智能的发展基点和目标节点。
解浚源进一步分析说,从技术发展阶段看,当前的具身智能大约相当于大模型领域的GPT-2到GPT-3阶段。Scaling Law的方向已经明确,规模扩大必然带来能力跃升,但规模化的数据闭环尚未完全跑通。尽管算力不是主要瓶颈,硬件迭代仍比纯软件慢一拍。我们预估,距离出现ChatGPT式的“爆发点”,大概还需要三年时间。
但千寻智能并不只停留在远景规划上,我们已经迈入落地推进的实战阶段。机器人正在进入工业场景实测与生产应用。今年有望实现小范围落地,明年逐步扩大部署——具身智能走进工厂,已进入倒计时。
展望未来三到五年,在商业与生活服务领域,机器人将超越当前扫地机、送餐机器人等单一功能,向更复杂的场景渗透。不过,要实现“三位一体”的综合任务——例如客房退房后全自动清洁整理,或仓储物流中完全替代人工分拣搬运——仍有距离。这些场景虽已有自动化尝试,但离真正的“无人化”还有很长的路要走。
解浚源为我们勾勒出千寻智能未来十年的发展轨迹,清晰而务实:先工业,再商业,后家庭。
·场景上:1-2年聚焦工业(L1-L2智能,单一工位响应作业)→ 3-5年进入商业服务(L2-L3智能,多任务协同)→ 十年迈向家庭(开放指令响应)。
·技术上:从固定场景的“可应变操作”,逐步演进到开放环境中的“泛化能力”。
当谈论机器人“走进家庭”时,许多人心里难免画上一个问号——它们连站稳都还略显笨拙,十年之内,真能成为我们的家庭伙伴吗?
然而,就在前几天,笔者在通过大兴机场高速的收费站,看到了一个令人眼前一亮的画面:原本需要人工伸手递卡、收卡的流程,已经全部交给了机械臂。它虽不是完整的人形机器人,却精准、流畅。那一刻,让笔者深刻体会到具身智能不再是概念或者电子玩具,而是真实世界有生产价值的存在。
这个小小的机械臂,是千寻智能所坚持的“轮式底盘+操作优先”技术路径的一次低调验证。它不急于模仿人类外形,而是先解决“手”和“移动”的问题——把动作做对,把任务完成。
也许,我们不必执着于让机器人一开始就“像人”,也不急于马上就进入家庭。它们可以从收费站、从车间、从仓库开始“练手”,在一次次精准执行中积累“经验值”。当它们带着这样的能力最终叩响家门时,或许会比我们想象中更可靠、更贴心。
来源:数据猿
刷新相关文章
我要评论
不容错过的资讯
大家都在搜
