侧边栏壁纸
博主头像
西瓜码农

成功需要脚踏实地,一步一个脚印

  • 累计撰写 128 篇文章
  • 累计创建 1 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

开源具身模型刷新SOTA:人类视频加机器人数据协同训练

# 开源具身模型刷新SOTA:人类视频+机器人数据协同训练 大晓机器人联合香港中文大学发布了"一脑多型"具身操作VLA模型ACE-Ego,并开源。 在两大国际权威具身智能基准上,ACE-Ego双双领先: - **RoboCasa GR1 TableTop**:72.8%平均成功率,刷新纪录,超越英伟达GR00T、PI π₀.₅、京东JoyAI-RA - **RoboTwin 2.0强域随机化**:90.62%成功率,环境鲁棒性远超行业平均 但比成绩更值得说的是它的训练方法:**大规模第一视角人类视频与多型机器人数据协同预训练**。 ## 四重异构难题 人与不同型号机器人的数据,存在四个维度的不匹配: 1. **空间坐标系不同**:人的视角、机器人的相机位置都不一样 2. **本体结构不同**:人的手、机器人的夹爪,形态差异巨大 3. **时序频率不同**:不同机器人控制频率从10Hz到30Hz不等 4. **标签质量不同**:人类视频的动作标签由视觉算法重建,带噪声 传统做法是"以机器为中心",依赖大批量高成本真机遥操作数据。 ACE-Ego反过来:**以人为中心,把海量低成本的第一视角人类视频转化为可用监督信号**。 ## 四大核心机制 ACE-Ego通过四个机制破解异构难题: **机制一:统一动作空间表达** 以头部相机坐标系为统一基准,把多机型机器人末端执行器轨迹、人类手部运动全部投影到"第一视角"下。新本体部署仅需替换一组相机外参。 **机制二:URDF本体形态映射** 把URDF(统一机器人描述格式)映射为跨本体的统一中间层编码。面对ARX双臂机器人等全新机型,仅需不到200条动作数据即可适配部署。 **机制三:时间对齐动态分块** 以物理时长为标准划分动作块,确保所有数据源预测相同时长的未来动作窗口。 **机制四:可靠性自适应目标函数** 机器人传感器数据全权重锚定核心控制精度,人类采集动作作为多样性补充,按重建质量设置权重上限。 ## 人类视频带来4.5%性能提升 实验结果:在RoboCasa基准上,引入第一视角人类视频进行联合预训练,模型成功率从68.3%提升至72.8%,提升4.5个百分点。 这证明了"以人为中心"的大规模数据预训练对提升具身模型泛化能力的价值。 目前,ACE-Ego已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期、强接触的复杂零售操作,突破了此前模型仅能完成简单桌面抓取的能力边界。 ## 开源的意义 ACE-Ego向行业开源,意味着这套"人类视频+机器人数据协同训练"的方法论可以被更多团队复用。 从干净场景到强随机化场景,ACE-Ego性能仅衰减0.5个百分点,远低于行业平均水平——这意味着习得技能具备极强的环境适应性,更贴近真实商业部署要求。 大晓机器人表示,该范式将从当前的复杂零售场景,加速拓展至工业产线、柔性制造等更多高精尖实体产业场景。 --- **来源:** 雷峰网《刷新权威榜单SOTA!ACE-Ego解锁"以人为中心"的规模化具身模型训练新范式》(2026-06-17) **标签:** ACE-Ego, 具身模型, 开源, 人机协同, RoboCasa, VLA
0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区