# 开源具身模型刷新SOTA:人类视频+机器人数据协同训练
大晓机器人联合香港中文大学发布了"一脑多型"具身操作VLA模型ACE-Ego,并开源。
在两大国际权威具身智能基准上,ACE-Ego双双领先:
- **RoboCasa GR1 TableTop**:72.8%平均成功率,刷新纪录,超越英伟达GR00T、PI π₀.₅、京东JoyAI-RA
- **RoboTwin 2.0强域随机化**:90.62%成功率,环境鲁棒性远超行业平均
但比成绩更值得说的是它的训练方法:**大规模第一视角人类视频与多型机器人数据协同预训练**。
## 四重异构难题
人与不同型号机器人的数据,存在四个维度的不匹配:
1. **空间坐标系不同**:人的视角、机器人的相机位置都不一样
2. **本体结构不同**:人的手、机器人的夹爪,形态差异巨大
3. **时序频率不同**:不同机器人控制频率从10Hz到30Hz不等
4. **标签质量不同**:人类视频的动作标签由视觉算法重建,带噪声
传统做法是"以机器为中心",依赖大批量高成本真机遥操作数据。
ACE-Ego反过来:**以人为中心,把海量低成本的第一视角人类视频转化为可用监督信号**。
## 四大核心机制
ACE-Ego通过四个机制破解异构难题:
**机制一:统一动作空间表达**
以头部相机坐标系为统一基准,把多机型机器人末端执行器轨迹、人类手部运动全部投影到"第一视角"下。新本体部署仅需替换一组相机外参。
**机制二:URDF本体形态映射**
把URDF(统一机器人描述格式)映射为跨本体的统一中间层编码。面对ARX双臂机器人等全新机型,仅需不到200条动作数据即可适配部署。
**机制三:时间对齐动态分块**
以物理时长为标准划分动作块,确保所有数据源预测相同时长的未来动作窗口。
**机制四:可靠性自适应目标函数**
机器人传感器数据全权重锚定核心控制精度,人类采集动作作为多样性补充,按重建质量设置权重上限。
## 人类视频带来4.5%性能提升
实验结果:在RoboCasa基准上,引入第一视角人类视频进行联合预训练,模型成功率从68.3%提升至72.8%,提升4.5个百分点。
这证明了"以人为中心"的大规模数据预训练对提升具身模型泛化能力的价值。
目前,ACE-Ego已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期、强接触的复杂零售操作,突破了此前模型仅能完成简单桌面抓取的能力边界。
## 开源的意义
ACE-Ego向行业开源,意味着这套"人类视频+机器人数据协同训练"的方法论可以被更多团队复用。
从干净场景到强随机化场景,ACE-Ego性能仅衰减0.5个百分点,远低于行业平均水平——这意味着习得技能具备极强的环境适应性,更贴近真实商业部署要求。
大晓机器人表示,该范式将从当前的复杂零售场景,加速拓展至工业产线、柔性制造等更多高精尖实体产业场景。
---
**来源:** 雷峰网《刷新权威榜单SOTA!ACE-Ego解锁"以人为中心"的规模化具身模型训练新范式》(2026-06-17)
**标签:** ACE-Ego, 具身模型, 开源, 人机协同, RoboCasa, VLA
版权归属:
西瓜
许可协议:
本文使用《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》协议授权
评论区