具身智能数据“垃圾之谜”,解谜金句奉上!
  【未来机域】   2025年12月08日   1430939   0

今天(11月20日),本账号“未来机域”正式开始第一场具身智能产业系列直播活动。本次直播是《等待具身智能数据的ChatGPT 时刻》系列直播的第一场,主题为“具身智能数据‘垃圾之谜’”。来自产学研的嘉宾,对这一个话题,进行了一个多小时的对话和探讨。本文将直播中嘉宾的金句进行了简要整理,供馈读者。
image.png
备注:后续未来机域会根据本次直播进行内容深度整理,记得持续关注我们哟~

北京人形机器人创新中心数据智能&灵巧操作负责人 李广宇

image.png
这些年VLA大模型驱动了机器人发展,而发展的瓶颈并不是VLA模型本身,是数据闭环的效率上。真人采集的数据会有上限,背后有一个持续积累的过程。当我们收集到最需要的数据,形成一定规模部署后,数据驱动行业发展的飞轮就会站起来。数据质量好坏需要从两个维度判断:一个是技术维度,多传感器的时间同步、帧率稳定性、可量化的指标,都会对数据质量有一个评估;一个是语义层面,对于基础模型厂家来说,数据越丰富越好,背后则需要提高模型训练的质量。此外,在做某个场景的时候,我们还需要任务导向的数据标准。

东华大学信息与智能科学学院Mbot实验室 赵鸣博教授

image.png
仿真数据非常重要,市面上比较知名的机器人、机器狗,初期都是在虚拟环境下进行训练。如果直接在真实场景行走,则会摔倒,造成损失。仿真数据的使用最难的是在抓取环节,因为环境的复杂,导致抓取环节的数据并不能得到行业的信任,虚拟数据不能很好的进行模拟。无本体数采是一个趋势。它的模式非常直接,真人戴上抓取手套来做动作,更接近人的感觉。记录轨迹,让机械臂模仿抓取过程。数据的质量需要建立一个标准,来判断数据的好坏,这样对抓取和导航的精度都大有益处。同时,我们还要关注世界模型。通过物理的建模进行数据的采集,非常的省事。

零次方机器人有限公司联合创始人 廖滔

image.png
高质量的数据必须是连续的,同时它的用户描述必须符合实际操作过程,动作数据中间没有突变。零次方的数采厂的数据不仅自己用,也进行数据出售,我们也有机器人作为数采员。我们观察,随着数采团队的扩大,地点的增多,数据在格式、精度和规范上保持一致非常难。有时候还要看数采员的心情。在有限的时间和成本下,能够采集涵盖现实世界的高质量数据,还要保证丰富度,是非常难的。优化采集方案、使用高精度系统、采用动捕系统,虽然可以提高数据质量,但成本也随之提高。当下整个行业,都在探索便宜的方案。未来,随和供应链的发展,数采价格的下降,会让机器人的发展提速。

Seeed Studio AI Robotics 应用工程师 余有江

image.png
仿真数据有非常多的优点,相较于真实场景,仿真是可以快进的,时间成本低。仿真数据辅助到一个机器人里,也非常容易。难点就是sim-to-real,仿真是理想空间,此中得到的数据会存在各色问题。当然,我们也看到很多基座模型的厂商,正在大量采用仿真数据来训练模型。让更多的人参与到模型训练中去,是提高数据质量的有效方案。我们需要给开发者更多的时间,他们解决问题的能力非常强。同样,像“域言”这样的直播平台,可以现场把我们遇到的问题,进行讨论,提供给开发者,让更多的开发者参与讨论,一起想办法解决问题。数据的ChatGPT时刻一定会到来,开发者的入局速度越来越快,未来具身智能的数据会越来越多,越来越好。再次感谢诸位嘉宾的精彩分享,更多具身智能行业分享,每周四关注#域言 栏目哦~
https://mp.weixin.qq.com/s?__biz=MjM5OTE2NTk3Ng==&mid=2247483706&idx=1&sn=7704342978db96cd342d52233f4398f6&scene=21#wechat_redirect

从算法到实体,陪跑开发者成长全周期

▼来了就别走了,戳个推荐+在看

最后一次编辑于 2025年12月29日 0 0

暂无评论