具身智能数据“垃圾之谜”，解谜金句奉上！

今天（11月20日），本账号“未来机域”正式开始第一场具身智能产业系列直播活动。本次直播是《等待具身智能数据的ChatGPT 时刻》系列直播的第一场，主题为“具身智能数据‘垃圾之谜’”。来自产学研的嘉宾，对这一个话题，进行了一个多小时的对话和探讨。本文将直播中嘉宾的金句进行了简要整理，供馈读者。

备注：后续未来机域会根据本次直播进行内容深度整理，记得持续关注我们哟～

北京人形机器人创新中心数据智能&灵巧操作负责人李广宇

这些年VLA大模型驱动了机器人发展，而发展的瓶颈并不是VLA模型本身，是数据闭环的效率上。真人采集的数据会有上限，背后有一个持续积累的过程。当我们收集到最需要的数据，形成一定规模部署后，数据驱动行业发展的飞轮就会站起来。数据质量好坏需要从两个维度判断：一个是技术维度，多传感器的时间同步、帧率稳定性、可量化的指标，都会对数据质量有一个评估；一个是语义层面，对于基础模型厂家来说，数据越丰富越好，背后则需要提高模型训练的质量。此外，在做某个场景的时候，我们还需要任务导向的数据标准。

东华大学信息与智能科学学院Mbot实验室赵鸣博教授

仿真数据非常重要，市面上比较知名的机器人、机器狗，初期都是在虚拟环境下进行训练。如果直接在真实场景行走，则会摔倒，造成损失。仿真数据的使用最难的是在抓取环节，因为环境的复杂，导致抓取环节的数据并不能得到行业的信任，虚拟数据不能很好的进行模拟。无本体数采是一个趋势。它的模式非常直接，真人戴上抓取手套来做动作，更接近人的感觉。记录轨迹，让机械臂模仿抓取过程。数据的质量需要建立一个标准，来判断数据的好坏，这样对抓取和导航的精度都大有益处。同时，我们还要关注世界模型。通过物理的建模进行数据的采集，非常的省事。

零次方机器人有限公司联合创始人廖滔

高质量的数据必须是连续的，同时它的用户描述必须符合实际操作过程，动作数据中间没有突变。零次方的数采厂的数据不仅自己用，也进行数据出售，我们也有机器人作为数采员。我们观察，随着数采团队的扩大，地点的增多，数据在格式、精度和规范上保持一致非常难。有时候还要看数采员的心情。在有限的时间和成本下，能够采集涵盖现实世界的高质量数据，还要保证丰富度，是非常难的。优化采集方案、使用高精度系统、采用动捕系统，虽然可以提高数据质量，但成本也随之提高。当下整个行业，都在探索便宜的方案。未来，随和供应链的发展，数采价格的下降，会让机器人的发展提速。

Seeed Studio AI Robotics 应用工程师余有江

仿真数据有非常多的优点，相较于真实场景，仿真是可以快进的，时间成本低。仿真数据辅助到一个机器人里，也非常容易。难点就是sim-to-real，仿真是理想空间，此中得到的数据会存在各色问题。当然，我们也看到很多基座模型的厂商，正在大量采用仿真数据来训练模型。让更多的人参与到模型训练中去，是提高数据质量的有效方案。我们需要给开发者更多的时间，他们解决问题的能力非常强。同样，像“域言”这样的直播平台，可以现场把我们遇到的问题，进行讨论，提供给开发者，让更多的开发者参与讨论，一起想办法解决问题。数据的ChatGPT时刻一定会到来，开发者的入局速度越来越快，未来具身智能的数据会越来越多，越来越好。再次感谢诸位嘉宾的精彩分享，更多具身智能行业分享，每周四关注#域言栏目哦～
https://mp.weixin.qq.com/s?__biz=MjM5OTE2NTk3Ng==&mid=2247483706&idx=1&sn=7704342978db96cd342d52233f4398f6&scene=21#wechat_redirect

从算法到实体，陪跑开发者成长全周期

▼来了就别走了，戳个推荐+在看

北京人形机器人创新中心数据智能&灵巧操作负责人 李广宇

东华大学信息与智能科学学院Mbot实验室 赵鸣博教授

零次方机器人有限公司联合创始人 廖滔

Seeed Studio AI Robotics 应用工程师 余有江

北京人形机器人创新中心数据智能&灵巧操作负责人李广宇

东华大学信息与智能科学学院Mbot实验室赵鸣博教授

零次方机器人有限公司联合创始人廖滔

Seeed Studio AI Robotics 应用工程师余有江