加紧建厂拼量产,上海具身智能“独角兽”为何强推这条路

2025-03-11 06:35:00 实时讯息

具身智能,一个75年前首次提出、3年前还在学术圈“圈地自萌”的概念,如今已写入了中国政府工作报告。

尽管具身智能概念越来越火,但其技术路线尚未收敛,主要分为“身体派”和“大脑派”。昨天,上海人形机器人“独角兽”公司智元机器人发布国内首个通用具身智能基座模型——智元启元大模型(GO-1),利用全新构架降低具身智能研发门槛,让机器人持续进化。

作为坚定的“大脑派”,智元选择在大语言模型上构建属于具身智能的“尺度定律”:用量产机器人采集标准化数据,用数据实现算法模型持续迭代。目前,马斯克旗下的人形机器人“擎天柱”、美国人形机器人公司Figure都行进在这条路上。

为机器人世界补上欠缺的“燃料”

没有消费者愿意为一个不够聪明的机器人买单。确定这一基本思路后,智元机器人决定将公司重心放在机器人大脑上。去年,智元组建了具身业务部,由清华大学电子工程系毕业的姚卯青挂帅。

数据是大模型的“燃料”,在ChatGPT展现出令人惊讶的智力时,它已消化了全球互联网2/3的文本语料,但机器人却没这么“幸运”。“动作数据比语言数据更多,采集难度也更大。”姚卯青说,全球所有词汇表加起来也就1万多个,但动作几乎是无穷的,而且要精确表达,差之毫厘,失之千里。

2023年9月,智元在张江科学城建立了约2000平方米的数据采集工厂,如今面积已翻倍。那里有上百台“远征A2-D”数采机器人,它们在工厂搭建的家居、餐饮、商超、办公和工业等五类应用场景中接受训练。每天,数据采集师团队在工厂“手把手”教机器人学习各种技能。他们手持两个手柄,重复进行任务操作。一位数据采集师每天采集约150条数据,仅一个倒水的动作,传统架构机器人需要吸收上万条数据才能学会。

经过日复一日的“枯燥”工作,几个月后,智元机器人已积累了涉及217个任务的百万条高质量标准动作轨迹数据,规模全球最大。

“促使大语言模型智能涌现的‘尺度定律’,具身智能也需要再走一遍。”在姚卯青看来,不研究大模型的具身智能公司没有未来。目前,全球机器人动作数据相较于大语言模型的“核爆点”还差3-4个数量级,智元希望两年内能采集到1亿条。

量产撬动具身智能“迭代飞轮”

在具身智能这条赛道上,“大脑派”比“身体派”少得多的原因在于,为机器人构建“大脑”的门槛太高了。数据从哪里来?首先要实现机器人量产。美国人形机器人公司Figure至今只有十几台“手搓”机器人,拖慢了前进的步伐。一个显而易见的事实是,在越来越拥挤的具身智能之路上,谁能率先实现产品量产,谁就有很大可能获得领先身位。

快,是智元发展的一个显著标签,成立两年获9轮融资,被大量产业投资人“托举”着跻身赛道第一梯队。

去年10月,上海首座人形机器人量产工厂——智元机器一期工厂开始投产,原本预计月产规模100台左右,到今年1月计划产出300台左右。然而,市场反馈超出预期。年初,智元机器人迎来了第1000台量产通用具身机器人下线,公司随即宣布计划在张江建设年产能力1万台左右的人形机器人二期工厂。

在商业化道路上,智元有三条主打产品线,分别由三个业务部负责,涵盖商用场景、具身操作及家用场景。工业、商业是智元目前主要发力的方向,有“大脑”的人形机器人走入家庭还需5年甚至更长时间。

面对众人的嗷嗷期盼,如何尽快实现“一户一机”?方法仍然遵循尺度定律——数据量越大、反馈越多,模型训练的效果也就越好。姚卯青透露,智元正在攀登年量产10万台的目标。放眼全球,要实现这一目标并不容易,但如果有公司能够实现,智元大概率是其中之一。

开源推动具身智能量级跃升

智元具身业务部成立之初,就确定了开源路线。坚持开源,一方面展现了企业的自信,不担心因为别人拿走一些数据而被超越,另一方面也是希望有更多人成为同道中人。“具身智能赛道并不卷,如果只靠我们一个工厂采集数据,采集1亿条需要几百年。”姚卯青说。

去年底,智元联合上海人工智能实验室、国家地方共建人形机器人创新中心和上海库帕思科技公司,发布了基于全域真实场景的百万真机数据集开源项目“AgiBot世界”。这一数据集在全球最大开源AI社区HuggingFace(抱抱脸)上连续多周位居下载榜首,在全球最大的代码托管平台GitHub上发布一周获1200星,远超谷歌同类产品。截至今年3月,该数据集的下载量已超2万次。

有业内人士分析,智元已隐约展露出国内具身智能产业链链主的姿态。姚卯青透露,本月将召开智元首届供应商大会,“作为已实现量产的人形机器人企业,我们接触了上千种零部件,与产业链上很多公司有过对接,供应商大会能够让大家更好对齐产业发展目标。”

开源也蕴藏着这家2岁企业的最大“野心”:希望未来所有机器人都能共享同一个“大脑”。智元发布的首个通用具身基座模型已朝这一目标迈出一大步,该模型的一大特点是泛化性好,能在不同机器人本体上部署。全新架构下,倒水这一动作只需千条数据就能实现。智元的理想状态是统一标准,共享互联网图文、动作视频和真机数据,推动具身智能量级跃升。