11月20号直播精彩回顾
具身智能是否真的会迎来属于它的‘ChatGPT时刻’?
这是许多具身智能从业者心头的问题。我们看到不少双足行走、灵活抓取的人形机器人 demo,却也清楚地看到:它们的“小脑”发达,“大脑”却仍显稚嫩。而这一切的背后,是数据效率的困境——端到端模仿学习对高质量、大规模数据的渴求,已成为行业发展的瓶颈。
在11月20日由未来机域主办的"等待具身智能数据的ChatGPT时刻"主题直播中,来自产学研各界的专家围绕具身智能数据领域面临的挑战与突破路径展开深入探讨。北京人形机器人创新中心数据智能&灵巧操作负责人李广宇、零次方机器人有限公司联合创始人廖滔、东华大学信息与智能科学学院Mbot实验室赵鸣博教授、Seeed Studio AI Robotics 应用工程师余有江等嘉宾,从数据采集、质量评估到未来发展趋势进行了全方位剖析。
数据质量迷思:什么才是“好数据”?
“没有数据,就没有智能。”这句话在具身智能领域正在成为现实。但怎样但才算是好数据?
●李广宇表示,这些年VLA大模型驱动了机器人发展,而发展的瓶颈并不是VLA模型本身,是数据闭环的效率上。真人采集的数据会有上限,背后有一个持续积累的过程。当我们收集到最需要的数据,形成一定规模部署后,数据驱动行业发展的飞轮就会站起来。
他从两个维度衡量数据质量好坏:“技术角度包括多传感器时间同步的准确性、帧率稳定性等可量化指标;语义层面则关注数据的多样性、丰富程度,以及环境信息的完整性。”
●廖滔则分享了企业在数据质量控制方面的四项具体标准:视频观测数据必须连续,视野范围要完全涵盖操作对象,用户描述符合实际操作过程,动作数据没有突变。
零次方在自己的数采厂也发现,随着数采团队的扩大,地点的增多,数据在格式、精度和规范上保持一致非常难,“有时候还要看数采员的心情。在有限的时间和成本下,能够采集涵盖现实世界的高质量数据,还要保证丰富度,是非常难的!”
●赵鸣博教授从采集实践角度补充了关键发现:“数据采集过程的连贯性对数据质量影响非常大,必须要求采集员非常专注,就是要明确记住自己的每一个动作。”
他分享了一个重要观察:“人操作机械臂时,刚开始比较顺畅,但过一会就会注意力不集中,这时候采集的数据质量就会变差。”
仿真数据与真实数据互补共生
面对高昂的采集成本,在仿真数据应用方面,专家们表达了审慎乐观的态度。
●赵鸣博表示,仿真数据非常重要,市面上比较知名的机器人、机器狗,在步态训练中,先虚拟训练再真机测试已成为常规操作。“但在抓取环节,仿真数据的可信度还不够,研究者更倾向于使用真实数据微调。”
●余有江认为,仿真数据有非常多的优点,相较于真实场景,仿真可以快进,时间成本、人力成本低。仿真数据辅助到一个机器人里,也非常容易,“问题在于sim-to-real环节,仿真是非常理想的简化版本的空间,因此得到的数据部署在真机里会存在各种问题。”
●廖滔提供了产业界的实际观察:“目前大多数公司更崇尚真实数据。仿真数据的丰富度有限,要实现高精度操作或者泛化性操作,企业通常会购买几百甚至上千小时的真实数据。”
这揭示了业界的普遍选择——在关键任务上,真实数据仍然不可替代。
破局之路:未来已来
面对当前数据质量不佳、采集成本高的困境,专家们描绘了清晰的发展路径。
●李广宇提到了两个方向,一是无本体采集趋势,即不通过真机,而是通过人使用数据手套等可穿戴设备将数据采集融入真实环境,成本更低、效率更高,更容易规模化;其次,Human-in-the-loop通过人在环纠错,修正机器人当前它做错的地方,构建高价值的校正数据集。
除了以上两个方向,赵鸣博教授认为世界模型也值得期待,“通过物理的建模,数据的采集将非常的省事。”
●廖滔从产业角度补充,优化采集方案、使用高精度系统、采用动捕系统可以提高数据质量,但成本也随之提高。目前整个业界都在探索更便宜、便捷的方案。随着中国供应链的发展成熟,采集设备成本将快速下降,加速数据采集的普及。
●余有江从开发者生态角度指出破局关键:“汇聚开发者的力量共同解决问题,这是比较优化的方案。”
在行业展望环节,专家们对人形机器人大规模发展和普及时间表进行了预测。李广宇认为3年内可见明显进展,赵鸣博、余有江则认为需要5年或更长时间。廖滔特别区分了不同类型机器人的发展路径:“轮式双臂机器人进入家庭可能只需3年;而双足人形需要5年以上,因其对硬件稳定性要求更高。”
写在最后
从多模态数据采集到质量标准的建立,从仿真与真实的平衡到新采集模式的探索,每一个环节都在制约着,也推动着具身智能机器人行业的发展。
正如一位专家所说:“我们正在开荒,每一份高质量数据都是在贫瘠土地上开垦出的良田。”具身智能的“ChatGPT时刻”或许不会突然到来,但它正在数据积累的每一步中悄然临近。
下期预告
11月27日(周四)晚8点,我们将继续深入探讨《等待具身智能数据的ChatGPT时刻》系列第二期——高质量的具身智能数据生产。届时将聚焦数据标注的核心挑战、多模态数据融合技术,以及如何构建可持续的数据生产闭环。欢迎继续关注,共同破解具身智能数据的质量密码!
推荐阅读
未来机域
https://mp.weixin.qq.com/s?__biz=MjM5OTE2NTk3Ng==&mid=2247483721&idx=1&sn=4094318d519d166e84f5521b8efee605&scene=21#wechat_redirect
https://mp.weixin.qq.com/s?__biz=MjM5OTE2NTk3Ng==&mid=2247483706&idx=1&sn=7704342978db96cd342d52233f4398f6&scene=21#wechat_redirect
▼来了就别走了,戳个推荐+在看
暂无评论
回复评论