开源具身模型刷新SOTA：人类视频加机器人数据协同训练-西瓜码农

# 开源具身模型刷新SOTA：人类视频+机器人数据协同训练大晓机器人联合香港中文大学发布了"一脑多型"具身操作VLA模型ACE-Ego，并开源。在两大国际权威具身智能基准上，ACE-Ego双双领先： - **RoboCasa GR1 TableTop**：72.8%平均成功率，刷新纪录，超越英伟达GR00T、PI π₀.₅、京东JoyAI-RA - **RoboTwin 2.0强域随机化**：90.62%成功率，环境鲁棒性远超行业平均但比成绩更值得说的是它的训练方法：**大规模第一视角人类视频与多型机器人数据协同预训练**。 ## 四重异构难题人与不同型号机器人的数据，存在四个维度的不匹配： 1. **空间坐标系不同**：人的视角、机器人的相机位置都不一样 2. **本体结构不同**：人的手、机器人的夹爪，形态差异巨大 3. **时序频率不同**：不同机器人控制频率从10Hz到30Hz不等 4. **标签质量不同**：人类视频的动作标签由视觉算法重建，带噪声传统做法是"以机器为中心"，依赖大批量高成本真机遥操作数据。 ACE-Ego反过来：**以人为中心，把海量低成本的第一视角人类视频转化为可用监督信号**。 ## 四大核心机制 ACE-Ego通过四个机制破解异构难题： **机制一：统一动作空间表达** 以头部相机坐标系为统一基准，把多机型机器人末端执行器轨迹、人类手部运动全部投影到"第一视角"下。新本体部署仅需替换一组相机外参。 **机制二：URDF本体形态映射** 把URDF（统一机器人描述格式）映射为跨本体的统一中间层编码。面对ARX双臂机器人等全新机型，仅需不到200条动作数据即可适配部署。 **机制三：时间对齐动态分块** 以物理时长为标准划分动作块，确保所有数据源预测相同时长的未来动作窗口。 **机制四：可靠性自适应目标函数** 机器人传感器数据全权重锚定核心控制精度，人类采集动作作为多样性补充，按重建质量设置权重上限。 ## 人类视频带来4.5%性能提升实验结果：在RoboCasa基准上，引入第一视角人类视频进行联合预训练，模型成功率从68.3%提升至72.8%，提升4.5个百分点。这证明了"以人为中心"的大规模数据预训练对提升具身模型泛化能力的价值。目前，ACE-Ego已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期、强接触的复杂零售操作，突破了此前模型仅能完成简单桌面抓取的能力边界。 ## 开源的意义 ACE-Ego向行业开源，意味着这套"人类视频+机器人数据协同训练"的方法论可以被更多团队复用。从干净场景到强随机化场景，ACE-Ego性能仅衰减0.5个百分点，远低于行业平均水平——这意味着习得技能具备极强的环境适应性，更贴近真实商业部署要求。大晓机器人表示，该范式将从当前的复杂零售场景，加速拓展至工业产线、柔性制造等更多高精尖实体产业场景。 --- **来源：** 雷峰网《刷新权威榜单SOTA！ACE-Ego解锁"以人为中心"的规模化具身模型训练新范式》（2026-06-17） **标签：** ACE-Ego, 具身模型, 开源, 人机协同, RoboCasa, VLA

目录CONTENT

开源具身模型刷新SOTA：人类视频加机器人数据协同训练

评论区