# 世界模型四条路,智源院长说还没到GPT时刻
最近大半年,"世界模型"这个词从学术圈的小众黑话,一跃变成了AI和机器人行业的顶流关键词。
为什么突然这么火?说白了,大家焦虑了。
过去两年具身智能野蛮生长,结果暴露了一个尴尬的事实:机器人能认出杯子,却不知道推一下杯子它会掉;能听懂"帮我拧瓶盖",却搞不清到底该使多大劲。世界模型就是想补这块短板——让AI真正理解物理世界的因果和规律。
但问题是,所有人都喊着要做世界模型,到底该怎么做?没人说得清。
## 四条路,各走各的
智源研究院院长王仲远最近聊了聊他的看法。他觉得目前全球做世界模型的,基本分成了四派:
**第一派,以语言为中心。** Gemini 3这类,模型在文本空间里预测下一个词。它能用语言描述世界,但描述不等于理解,说得出"杯子掉地上会碎",不代表真懂为什么碎。
**第二派,以像素为中心。** Sora、Seedance这些视频生成模型,在视觉空间学习画面。学的是像素,不是物理。能画出天上飞的猪,但物理世界里猪不会飞。
**第三派,以三维结构为中心。** 李飞飞团队的World Labs走的就是这条路,做3D重建。但重建3D空间不等于理解世界,几何结构不代表物理状态。
**第四派,以视觉表征为中心。** 杨立昆的JEPA系列,预测视觉表征的压缩。视觉嵌入在变,不等于物理规律在演化。
智源自己呢?他们在尝试第五条路——把语言和视觉融合进统一的"潜空间表征"。打个比方,就像给机器人大脑准备了一张万能草稿纸,不管看到视频画面还是听到文字指令,统统先压缩成一种AI能懂的"密语笔记",需要时再根据同一份笔记,画出场景、演出动作、算出力度。
## "VLA已死"?没那么简单
最近行业里有个说法叫"VLA已死",王仲远不这么看。他的判断是:**VLA是当下,世界模型是未来。**
VLA当然有用,而且有大用。在工厂里看到包裹就抓取、分拣、放置,这种特定场景VLA完全够用,甚至不需要更复杂的世界模型。但VLA的短板也很明显——泛化性差、长程任务搞不定、复杂场景理解不了,而且模型往往太大,部署响应速度跟不上真实物理世界的高频动作需求。
世界模型要解决的,是更底层的问题。
## 还在2012年
如果类比大语言模型的发展阶段,世界模型现在大概处在什么位置?王仲远的判断挺有意思:**大概在2012年。**
2012年深度学习刚兴起,数据孤岛严重、技术路线没定、Benchmark还在打架,ChatGPT时刻远未到来。从2012年到2022年底ChatGPT发布,走了大约十年。但王仲远认为AI演化速度越来越快,世界模型可能三到五年就能进入爆发阶段。
最核心的难点是什么?**数据。** 大语言模型爆发靠的是互联网海量数据,世界模型要进物理世界,同样需要足够多、足够高质量的真实物理数据。但现在这些数据严重缺乏,而且是散落的孤岛。
视频数据是最容易规模化的,毕竟海量存在,也确实包含大量物理信息。但问题在于,目前的技术还没充分挖掘视频里的物理信息。除了视频,还需要真实交互数据、异构感知数据、动作轨迹数据、人类指令数据、机器人执行反馈数据。
那仿真数据能不能顶上?王仲远的态度很谨慎:仿真有必要,能弥补真实数据不足,但完全依赖仿真数据他是有疑虑的。毕竟仿真数据是人构造的,精准度不一定够,用不够精准的海量数据训练,能不能构建出真正理解物理世界的模型?这得验证。
## 中国没有差距
有个问题很多人关心:大语言模型时代中美有6到12个月差距,世界模型时代呢?
王仲远的回答很干脆:**世界模型没有差距,大家站在同一起跑线。** 世界模型是最前沿的研究方向,概念、路线、模型形态都还没收敛,谁也没跑出来,谈不上谁领先谁。
我觉得这个判断挺靠谱的。世界模型现在连"什么是对的"都没定论,四条路各走各的,这时候谈差距没意义。反过来说,这也意味着这是中国AI少有的、可以真正从起点参与定义规则的机会。
不过也别太乐观。王仲远自己也说,世界模型大概需要三年甚至更长时间才能真正成为"机器人大脑"。这三年里,谁能把数据闭环跑通、谁能在真实物理场景里验证模型能力,谁才可能真正跑出来。
不是谁喊得响谁就赢,得看谁在真实场景里干得出来。
---
**来源:** 36氪·硬氪专访 | 智源研究院院长王仲远:VLA不会死,但世界模型是未来
**作者:** 邱晓芬
**原文:** https://36kr.com/p/3853016586359817
**日期:** 2026-06-15
版权归属:
西瓜
许可协议:
本文使用《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》协议授权
评论区