世界模型到底往哪走？智源研究院院长王仲远：VLA是当下，世界模型是未来

"世界模型"这个词，过去几个月从学术黑话迅速膨胀成了AI和机器人行业的关键词。但说实话，很多人包括我自己，对这个概念到底意味着什么，其实还是模糊的。

最近智源研究院院长王仲远跟媒体聊了聊他对世界模型的看法，信息密度很高，值得好好梳理一下。

四条分岔路，谁也说服不了谁

王仲远认为，眼下全球围绕世界模型的探索，正被撕扯成四条截然不同的路线：

第一条：以语言为中心。 包括VLM、VLA，模型在文本空间中预测下一个词，学到的是语言描述的世界，但并不理解背后的物理后果。说白了，能说出"杯子掉地上会碎"，但不知道为什么碎、碎成什么样。 第二条：以像素为中心。 像Sora和Seedance这类视频生成模型，在视觉空间中学习视频或图像，学到的是像素描述的世界。画面好看，但物理规律？不一定靠谱。 第三条：以三维结构为中心。 包括3D重建以及李飞飞团队的World Labs Marble模型。不过重建3D空间不等于理解世界，几何结构也不代表物理状态。 第四条：以视觉表征为中心。 比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

智源自己走的是第五条路——以语言和视觉为中心，融合进统一的"潜空间表征"：所有模态被压缩进同一个潜空间，再由不同的解码器按需还原成不同输出形态。

王仲远的逻辑很清楚：世界模型不仅要"看懂"物理世界，更要"理解"并"决策"。人类看到半杯水被打翻，大脑会自动预判水流方向、地面材质对流速的影响——这种能力需要将视觉信号与语言推理深度融合，而不是只生成画面。

视频生成≠世界模型

这点王仲远说得非常明确：视频生成不等于世界模型。

现在很多公司把视频生成模型称为世界模型，很大程度上是因为OpenAI发布Sora时用了"World Simulator"的表述。世界模拟器用于描述视频生成还算相对准确，但视频生成模型本身并不等同于世界模型。

在他看来，语言模型时代的核心是Next Token Prediction，而世界模型时代的核心应该是Next Physical State Prediction——预测下一个物理状态。

这个区分很关键。语言模型可以用Prompt激发能力，世界模型则需要用State激发能力；语言模型更多是被动观察，世界模型必须主动交互。

真正的世界模型需要什么能力？

王仲远列了四个硬指标：

物理正确：光学折射、重力、流体、物体运动都要符合真实物理规律。视频生成模型可能生成一群在天上飞的猪，但物理世界不会这样运行。如果机器人装上一个不能区分真实和虚幻的"大脑"，后果很严重。
动作因果可溯：模型不能只知道画面变化，还要知道Action会导致什么结果。一瓶水有没有盖盖子，当它快掉落时，人类自然会预判不同后果，世界模型需要把这种关系学进去。
长时间序列一致性：很多视频生成模型可以生成5秒、10秒甚至1分钟的视频，但并不代表它真正理解时间。给一个瓶子加水，旁边有一个时钟，镜头移开再移回来，模型要知道现实中确实经过了10秒或20秒。
通用泛化能力：世界基座模型必须能应用在多个下游场景，就像大语言模型可以用于很多任务一样。不能只是一个特定场景的工具。

VLA不会死，但世界模型是未来

关于"VLA已死"的论调，王仲远的判断很务实：VLA是当下，世界模型是未来。

VLA当然有用，在特定场景下甚至不一定需要更复杂的世界模型，看到包裹就执行动作，搜集特定数据就能完成任务。但VLA有局限——泛化性不足、长程任务和复杂场景理解能力不足、模型往往比较大部署响应速度较高。

世界模型要解决的是更底层的问题。王仲远用了个很形象的比喻——有点像《奇异博士》看到不同未来然后选择最优结果。机器人面对真实环境时，需要理解当前环境，预测不同动作会带来什么后果，再选择最合适的动作。

现在大概处在深度学习的2012年

如果把世界模型类比大语言模型的发展阶段，王仲远认为大概处在2012年的时期。那个时候深度学习刚刚兴起，从2012年到ChatGPT发布走了大约十年。

不过他也说了，人工智能演化速度越来越快，世界模型可能三到五年就会进入爆发阶段——随着视频数据进一步被挖掘，具身机器人不断在真实场景落地，真实物理世界数据不断累积。

关于中美差距，他的判断很有意思：世界模型没有差距，大家站在同一起跑线。因为概念、路线、模型形态都还没有完全收敛，不像大语言模型早期中国更多是在跟随。

我的看法

说实话，世界模型这个方向我是看好的，但短期内别指望太多。现在的问题很现实——数据不够。大语言模型的爆发依赖互联网数据，世界模型要进入物理世界，需要足够多、足够高质量的真实物理数据，而这些数据目前还是散落的孤岛。

仿真数据能弥补一些，但仿真数据本身是人类构造的，精准度不一定够。用不够精准的海量数据训练模型，能不能构建出真正理解物理世界的模型？这是个大问号。

不过有一点我同意王仲远的：技术要先行，产品和系统会跟上。就像深度学习、Transformer、大语言模型的发展一样，技术路径往往早于产品爆发。不能等所有数据都Ready之后再探索，那就太晚了。

来源： 36氪 / 硬氪 原文链接： https://36kr.com/p/3853016586359817 作者： 邱晓芬 发布时间： 2026年6月15日

目录CONTENT

世界模型到底往哪走？智源研究院院长王仲远：VLA是当下，世界模型是未来

世界模型到底往哪走？智源研究院院长王仲远：VLA是当下，世界模型是未来

四条分岔路，谁也说服不了谁

视频生成≠世界模型

真正的世界模型需要什么能力？

VLA不会死，但世界模型是未来

现在大概处在深度学习的2012年

我的看法

评论区