世界模型到底往哪走?智源研究院院长王仲远:VLA是当下,世界模型是未来
"世界模型"这个词,过去几个月从学术黑话迅速膨胀成了AI和机器人行业的关键词。但说实话,很多人包括我自己,对这个概念到底意味着什么,其实还是模糊的。
最近智源研究院院长王仲远跟媒体聊了聊他对世界模型的看法,信息密度很高,值得好好梳理一下。
四条分岔路,谁也说服不了谁
王仲远认为,眼下全球围绕世界模型的探索,正被撕扯成四条截然不同的路线:
第一条:以语言为中心。 包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,但并不理解背后的物理后果。说白了,能说出"杯子掉地上会碎",但不知道为什么碎、碎成什么样。 第二条:以像素为中心。 像Sora和Seedance这类视频生成模型,在视觉空间中学习视频或图像,学到的是像素描述的世界。画面好看,但物理规律?不一定靠谱。 第三条:以三维结构为中心。 包括3D重建以及李飞飞团队的World Labs Marble模型。不过重建3D空间不等于理解世界,几何结构也不代表物理状态。 第四条:以视觉表征为中心。 比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。智源自己走的是第五条路——以语言和视觉为中心,融合进统一的"潜空间表征":所有模态被压缩进同一个潜空间,再由不同的解码器按需还原成不同输出形态。
王仲远的逻辑很清楚:世界模型不仅要"看懂"物理世界,更要"理解"并"决策"。人类看到半杯水被打翻,大脑会自动预判水流方向、地面材质对流速的影响——这种能力需要将视觉信号与语言推理深度融合,而不是只生成画面。
视频生成≠世界模型
这点王仲远说得非常明确:视频生成不等于世界模型。
现在很多公司把视频生成模型称为世界模型,很大程度上是因为OpenAI发布Sora时用了"World Simulator"的表述。世界模拟器用于描述视频生成还算相对准确,但视频生成模型本身并不等同于世界模型。
在他看来,语言模型时代的核心是Next Token Prediction,而世界模型时代的核心应该是Next Physical State Prediction——预测下一个物理状态。
这个区分很关键。语言模型可以用Prompt激发能力,世界模型则需要用State激发能力;语言模型更多是被动观察,世界模型必须主动交互。
真正的世界模型需要什么能力?
王仲远列了四个硬指标:
- 物理正确:光学折射、重力、流体、物体运动都要符合真实物理规律。视频生成模型可能生成一群在天上飞的猪,但物理世界不会这样运行。如果机器人装上一个不能区分真实和虚幻的"大脑",后果很严重。
- 动作因果可溯:模型不能只知道画面变化,还要知道Action会导致什么结果。一瓶水有没有盖盖子,当它快掉落时,人类自然会预判不同后果,世界模型需要把这种关系学进去。
- 长时间序列一致性:很多视频生成模型可以生成5秒、10秒甚至1分钟的视频,但并不代表它真正理解时间。给一个瓶子加水,旁边有一个时钟,镜头移开再移回来,模型要知道现实中确实经过了10秒或20秒。
- 通用泛化能力:世界基座模型必须能应用在多个下游场景,就像大语言模型可以用于很多任务一样。不能只是一个特定场景的工具。
VLA不会死,但世界模型是未来
关于"VLA已死"的论调,王仲远的判断很务实:VLA是当下,世界模型是未来。
VLA当然有用,在特定场景下甚至不一定需要更复杂的世界模型,看到包裹就执行动作,搜集特定数据就能完成任务。但VLA有局限——泛化性不足、长程任务和复杂场景理解能力不足、模型往往比较大部署响应速度较高。
世界模型要解决的是更底层的问题。王仲远用了个很形象的比喻——有点像《奇异博士》看到不同未来然后选择最优结果。机器人面对真实环境时,需要理解当前环境,预测不同动作会带来什么后果,再选择最合适的动作。
现在大概处在深度学习的2012年
如果把世界模型类比大语言模型的发展阶段,王仲远认为大概处在2012年的时期。那个时候深度学习刚刚兴起,从2012年到ChatGPT发布走了大约十年。
不过他也说了,人工智能演化速度越来越快,世界模型可能三到五年就会进入爆发阶段——随着视频数据进一步被挖掘,具身机器人不断在真实场景落地,真实物理世界数据不断累积。
关于中美差距,他的判断很有意思:世界模型没有差距,大家站在同一起跑线。因为概念、路线、模型形态都还没有完全收敛,不像大语言模型早期中国更多是在跟随。
我的看法
说实话,世界模型这个方向我是看好的,但短期内别指望太多。现在的问题很现实——数据不够。大语言模型的爆发依赖互联网数据,世界模型要进入物理世界,需要足够多、足够高质量的真实物理数据,而这些数据目前还是散落的孤岛。
仿真数据能弥补一些,但仿真数据本身是人类构造的,精准度不一定够。用不够精准的海量数据训练模型,能不能构建出真正理解物理世界的模型?这是个大问号。
不过有一点我同意王仲远的:技术要先行,产品和系统会跟上。就像深度学习、Transformer、大语言模型的发展一样,技术路径往往早于产品爆发。不能等所有数据都Ready之后再探索,那就太晚了。
来源: 36氪 / 硬氪 原文链接: https://36kr.com/p/3853016586359817 作者: 邱晓芬 发布时间: 2026年6月15日
评论区