
【导(dǎo)语(yǔ)】人(rén)形(xíng)机(jī)器(qì)人(rén)从(cóng)实(shí)验(yàn)室(shì)走(zǒu)向(xiàng)产(chǎn)业(yè)化(huà)的(de)道(dào)路上(shàng),面(miàn)临(lín)数(shù)据(jù)严(yán)重(zhòng)不(bù)足(zú)的(de)核心短(duǎn)板(bǎn)。在(zài)2025张(zhāng)江(jiāng)具身智能开发者大会上,多家企业共同探讨数据难题,提出需快速、低(dī)成(chéng)本(běn)地(de)弥(mí)补(bǔ)数(shù)据(jù)短(duǎn)板(bǎn),并(bìng)强(qiáng)调(diào)算(suàn)法(fǎ)创(chuàng)新(xīn)、测(cè)试(shì)闭(bì)环(huán)及(jí)机(jī)器(qì)人(rén)本(běn)体(tǐ)性(xìng)能(néng)提(tí)升(shēng)的(de)重(zhòng)要(yào)性(xìng)。同(tóng)时(shí),行(xíng)业(yè)标(biāo)准(zhǔn)制(zhì)定(dìng)和(hé)安全问题也成为亟待解决的焦点。
从实验室走向产业,当前人形机器人落地应用的最核心短板是数据严重不足。
5月29日,在2025张江具身智能开发者大会期间,一批具身智能企业探讨人形机器人产业落地困境时,不约而同提到了数据难题。数据采集难、适配难,真机数据远远不够,如何才能弥补(bǔ)具(jù)身(shēn)智(zhì)能(néng)的(de)数(shù)据(jù)短(duǎn)板(bǎn)?

2025年(nián)5月(yuè)29日(rì),上(shàng)海(hǎi)张(zhāng)江(jiāng)科(kē)学(xué)会(huì)堂(táng),具(jù)身机器人达人秀表演吸引众多观众。记者 朱伟辉 图
数据严重不足制约产业化落地
“如果没有数据,算法很难做。”智元机器人具身智能算法专家陈立梁表示,目前具身智能的操作等高质量真机数据“非常缺失”。去年年底,智元开源了上百万条真机数据,推动数据高质量化,希望形成采集、训练、测试、推理一体化的闭环数据路线。但陈立梁坦言,即便智元已经开源了这些数据,并且近一年中各大厂商和研究机构也在不断开源,然而目前可获得的数据还是远远不够。
光轮智能技术生态负责人甘宇飞介绍,大模型开发依赖的是二三十年里所有互联网数据,自动驾驶发展了十几年,积累了大量真实数据,但具身智能的兴起只(zhǐ)有(yǒu)几(jǐ)年(nián)时(shí)间(jiān),积(jī)累(lèi)的(de)数(shù)据(jù)量(liàng)远(yuǎn)远(yuǎn)无(wú)法(fǎ)支(zhī)撑(chēng)机(jī)器(qì)人(rén)的(de)复(fù)杂(zá)行(xíng)动(dòng)。目(mù)前(qián)大(dà)语(yǔ)言(yán)模(mó)型(xíng)的(de)数(shù)据量是PB级规模,自动驾驶的数据量在百PB级规模。“自动驾驶本质上是一种特殊的具身智能,但具身智能不仅仅有驾驶场景,它还有诸如商超、居家、工(gōng)厂(chǎng)、实(shí)验(yàn)室等场景,每个场景单拎出来都需要自动驾驶这么大规模的数据,所以具身智能所需要的数据量相对于自动驾驶的百PB级又要更上一层。”
“必须用某种方式快速、低成本地弥补数据上的短板。”灵御智能CEO金戈认为,为了降低获取数据的成本,一方面要制造出相对(duì)低(dī)成(chéng)本(běn)、高(gāo)质(zhì)量(liàng)、高(gāo)敏(mǐn)捷(jié)的(de)本(běn)体(tǐ),另(lìng)一方面要将机器人更早投入到使用场景中,边使用边采集数据。
机器人的训练方式和传统机器学习不同,只有在真实物理环境中交互才能验证实际性能。仅仅通过观看以及文字模态的数据,具身智能是无法掌握像人类一样的行动技能的。
“今天的模型是否可以满足实用化需求?今天模型的成功率是否可以让机器人在现实场景中全自主工作?”金戈认为,现阶段来看仍有一定难度。他提出使用类似遥操作手段,让人类操作机器人,解决目前模型无法覆盖的部分,让机器人尽快投入使用,“就像自动驾驶汽车一样边开边收集数据,提升算法模型,降低人的参与比例,从而大幅降低数据采集成本,让机器人更快地从实验室进入产业。”
陈立梁则表示,算法层要找到更优的闭环迭代路线,“我们会投入强化学习,它可以在和真实世界的交互中学习,我们也会持续推进世界模型研究。”除了数据和算法上的闭环,陈立梁认为,还要探索测试闭环。迭代后的算法需要经历测试,但测试会造成损耗,测试成本也高,实现高效低成本的闭环评测已成为行业关注焦点。
机器人本体性能仍有提升空间
“通用机器人不光大脑要好,身体也要好。”智莱特具身智能科技有限公司CEO邓振华表示,具身智能机器人的算法层对硬件要求非常高,尤其是在实施的时效性和多模态的融合方面。“硬件如何有机结合多模态大模型,也是我们现在探讨的问题。”
邓振华表示,目前企业、高校、科研机构都在探索机器人软硬件的不同技术路线,但当前场景落地仍然不成熟,硬件成本、效率、工程化都面临挑战,机器人本体的散热、轻量化、负载、寿命、精度、运动控制路径等方面仍有较大提升空间,一些机器人进工厂时,由于负载能力不足,往往只能选择一些负载较轻的工位。他迫切希望机器人能落地防尘防爆、高温高湿等特殊场景,这对机器人硬件和算法提出了更高的要求。同时,机器人的小试、中试依托于原有产业遗留下来的工业设备,未来这些生产和测试设备也需要快速迭代升级。
当前,机器人软硬件行业标准也没有完全明确。甘宇飞表示,底层算力、模型训练、数据采集、通用场景搭建等方面都需要尽快制定标准。尤其是数据采集,相对于自动驾驶,具身智能的数据适配难度是陡增的。具身智能的本体有机械狗、机器人等不同形态,单就人形机器人而言,也有双足、轮式、双臂、单臂等形态。“每一种机器人之间的数据不一样,并且短期内可能主要是人形机器人,长期来看可能会针对一些特定任务做定制化,那时数据量又是很大的规模。”甘宇飞提到,目前机器人种类多样,每家每户都在采集数据,“但A公司采集的数据并不能给B公司用,B公司部署的模型也不能用在C公司的本体,这里面有非常多的浪费,所以要制定行业标准,提高资源利用效率。”
金戈认为,机器人有望在消费和商业场景快速落地,安全是核心问题。在模型可控性无法完全保证的情况下,强制性的安全标准是必要的。“针对机器人的保险机制应该出现,不管是机器人本体的受损,还是由于机器人操作不当造成的其他财物或身体损伤。”
无论是推动机器人在工业场景落地,还是进入居家场景,眼下算法层还需要更多创新。陈立梁表示,当前国内很多团队以跟随为主,“国外出了一个新的架构,国内就去跟随。其实目前具身智能还处于较早阶段,应该去探索更多新东西。”