世界模型四条路，智源院长说还没到GPT时刻-西瓜码农

# 世界模型四条路，智源院长说还没到GPT时刻最近大半年，"世界模型"这个词从学术圈的小众黑话，一跃变成了AI和机器人行业的顶流关键词。为什么突然这么火？说白了，大家焦虑了。过去两年具身智能野蛮生长，结果暴露了一个尴尬的事实：机器人能认出杯子，却不知道推一下杯子它会掉；能听懂"帮我拧瓶盖"，却搞不清到底该使多大劲。世界模型就是想补这块短板——让AI真正理解物理世界的因果和规律。但问题是，所有人都喊着要做世界模型，到底该怎么做？没人说得清。 ## 四条路，各走各的智源研究院院长王仲远最近聊了聊他的看法。他觉得目前全球做世界模型的，基本分成了四派： **第一派，以语言为中心。** Gemini 3这类，模型在文本空间里预测下一个词。它能用语言描述世界，但描述不等于理解，说得出"杯子掉地上会碎"，不代表真懂为什么碎。 **第二派，以像素为中心。** Sora、Seedance这些视频生成模型，在视觉空间学习画面。学的是像素，不是物理。能画出天上飞的猪，但物理世界里猪不会飞。 **第三派，以三维结构为中心。** 李飞飞团队的World Labs走的就是这条路，做3D重建。但重建3D空间不等于理解世界，几何结构不代表物理状态。 **第四派，以视觉表征为中心。** 杨立昆的JEPA系列，预测视觉表征的压缩。视觉嵌入在变，不等于物理规律在演化。智源自己呢？他们在尝试第五条路——把语言和视觉融合进统一的"潜空间表征"。打个比方，就像给机器人大脑准备了一张万能草稿纸，不管看到视频画面还是听到文字指令，统统先压缩成一种AI能懂的"密语笔记"，需要时再根据同一份笔记，画出场景、演出动作、算出力度。 ## "VLA已死"？没那么简单最近行业里有个说法叫"VLA已死"，王仲远不这么看。他的判断是：**VLA是当下，世界模型是未来。** VLA当然有用，而且有大用。在工厂里看到包裹就抓取、分拣、放置，这种特定场景VLA完全够用，甚至不需要更复杂的世界模型。但VLA的短板也很明显——泛化性差、长程任务搞不定、复杂场景理解不了，而且模型往往太大，部署响应速度跟不上真实物理世界的高频动作需求。世界模型要解决的，是更底层的问题。 ## 还在2012年如果类比大语言模型的发展阶段，世界模型现在大概处在什么位置？王仲远的判断挺有意思：**大概在2012年。** 2012年深度学习刚兴起，数据孤岛严重、技术路线没定、Benchmark还在打架，ChatGPT时刻远未到来。从2012年到2022年底ChatGPT发布，走了大约十年。但王仲远认为AI演化速度越来越快，世界模型可能三到五年就能进入爆发阶段。最核心的难点是什么？**数据。** 大语言模型爆发靠的是互联网海量数据，世界模型要进物理世界，同样需要足够多、足够高质量的真实物理数据。但现在这些数据严重缺乏，而且是散落的孤岛。视频数据是最容易规模化的，毕竟海量存在，也确实包含大量物理信息。但问题在于，目前的技术还没充分挖掘视频里的物理信息。除了视频，还需要真实交互数据、异构感知数据、动作轨迹数据、人类指令数据、机器人执行反馈数据。那仿真数据能不能顶上？王仲远的态度很谨慎：仿真有必要，能弥补真实数据不足，但完全依赖仿真数据他是有疑虑的。毕竟仿真数据是人构造的，精准度不一定够，用不够精准的海量数据训练，能不能构建出真正理解物理世界的模型？这得验证。 ## 中国没有差距有个问题很多人关心：大语言模型时代中美有6到12个月差距，世界模型时代呢？王仲远的回答很干脆：**世界模型没有差距，大家站在同一起跑线。** 世界模型是最前沿的研究方向，概念、路线、模型形态都还没收敛，谁也没跑出来，谈不上谁领先谁。我觉得这个判断挺靠谱的。世界模型现在连"什么是对的"都没定论，四条路各走各的，这时候谈差距没意义。反过来说，这也意味着这是中国AI少有的、可以真正从起点参与定义规则的机会。不过也别太乐观。王仲远自己也说，世界模型大概需要三年甚至更长时间才能真正成为"机器人大脑"。这三年里，谁能把数据闭环跑通、谁能在真实物理场景里验证模型能力，谁才可能真正跑出来。不是谁喊得响谁就赢，得看谁在真实场景里干得出来。 --- **来源：** 36氪·硬氪专访 | 智源研究院院长王仲远：VLA不会死，但世界模型是未来 **作者：** 邱晓芬 **原文：** https://36kr.com/p/3853016586359817 **日期：** 2026-06-15

目录CONTENT

世界模型四条路，智源院长说还没到GPT时刻

评论区