盲人摸象但真象无形，资本竞逐世界模型：热潮、分歧与未竟之路

更新时间：2026-06-22 20:16:13 浏览次数：

　　智源研究院院长王仲远坦言：“世界模型的定义到底是什么，大家还没有达成共识。”形成共识，路线方能收敛。在一个融资热度高达数十亿美元的赛道里，共识是一个必须回答的大前提。

　　李飞飞团队关于世界模型概念的，再度引发行业对于世界模型定义的热议。与此同时，在近期刚刚结束的智源大会上，智源研究院也表态，要为世界模型“正本清源”。

　　世界模型并不是一个新概念。它的出现可以追溯到1943年，心理学家最早提出了相关判断；2018年，这一概念扩展至智能世界，一篇题为的论文引发了学术热潮。

　　2024年春节，Sora横空出世，OpenAI彼时介绍Sora是“World Simulator”，以此为标志，世界模型受到了更广泛的关注。

　　在Sora生成的里，液体在流动，光影在变化，模型根据数据摸索出了某些物理世界的规律，通过上一帧推测猜出下一帧，随着猜对的比例越来越高，它看似越来越懂得物理世界。

　　李飞飞的里用了一个词描述这类模型的本质：渲染器。她认为，渲染器优化的是

　　在很长一段时间里，VLA被视为具身智能模型突破的核心路径，但因高度依赖成本高昂且产出极低的真实成功动作数据，并且无法直接利用海量缺乏动作标注的互联网，其面临严重的数据瓶颈。

　　世界模型提供了新的利用数据的方法，它的训练目标不是模仿正确动作，而是理解动作和结果之间的因果关系。在这个逻辑下，失败轨迹、无标注在世界模型的框架里都变成有价值的训练素材。

　　机器人尝试把一个杯子从桌上拿起来，手指位置偏了，杯子倒了。这段录像在VLA训练体系里可能是废品，但在世界模型的框架里，失败本身变成了信息。

　　智源研究院理事长黄铁军解释了为什么这一次的热潮和上一次不同：“现有VLA技术，在制造或抓取等特定场景完成任务是可以的。但我们希望具身智能是通用的，像人一样，在任何一个场景下遇到不同的问题都可以去解决，这样的模型现在还没有。”

　　热情一致，路线分歧，甚至彼此冲突。对于世界模型学什么、用什么方法学，当前业界有几条主流的路径。

　　杨立昆的JEPA是其中一条代表路径。它追求几何和动力学上的准确性，而非

　　但问题在于，不生成可视化输出，很难直观判断模型究竟理解了什么，模型对物理世界的理解可能会“变形”。

　　另一条代表路径是由生成模型逐步迈向世界模型，它的核心主张是，如果一个模型能够生成足够准确的下一帧，它就已经学到了世界运行的某种规律。

　　清华大学计算机系教授朱军认为，和世界最相关的数据就是数据，它是最容易、最方便而且记录量最大的关于世界的数据。

　　但矛盾在于，生成的目标和动作生成的目标是不同的。生成越好，不代表动作预测越好，反之亦然。

　　王仲远举例说明：生成模型可以生成一群猪在天上和飞机一起飞，“因为生成模型采用大量科幻电影训练，目标本身就不是为了真实物理世界基座模型，只是通过大量学习能够捕捉到一定的世界知识”。

　　星源智联合创始人孙振国的逻辑是，如果世界模型只是作为旁路的训练约束，训练开销可能远超性能提升，“还不如探索VLA这种更高效的范式。”他希望达成世界模型参与改变动作本身：机器人即将执行一个动作时，先在内部模拟这个动作的后果，如果预测结果不理想，修正动作，再模拟，再修正，直到满意再执行，最终可以变成一个自进化的智能体。

　　数据和语言数据之间有一个无法靠堆量解决的不对称问题：语言本身是一种高度浓缩的信息载体，但在中，绝大部分像素是背景、与物理因果无关的细节。用数据训练世界模型，意味着模型需要在数百万像素里挑出真正有用的信息。

　　此外，物理理解不是靠观察就能学会的，它来自干预——真实世界的物理规律发生在人类和物体之间的交互中，一个孩子知道玻璃杯摔在地上会碎，不只是因为他看过，更是因为他可能失手摔过，感受过力的传导，听过声音，看过碎片的飞溅方向。

　　Skywork首席科学家刘扬描述了

　　智象未来创始人梅涛此前向

　　黄铁军认为，要改变采集数据的方式本身，而不是在现有方式上堆量。他表示，世界模型阶段需要在线的、实时的数据，让采集寄生在真实生产生活上。比如，工人正常作业时佩戴传感设备，数据自然产生，采集成本会大幅下降。

　　同时，当前数据处理方式是低效的，原因在于所有像素被平等处理。人类

　　王仲远画了一个时间尺度更长的框架。他说，真正催生跨时代世界模型的，可能要等到物理世界的互联网出现，就像数字世界的互联网积累了海量文字数据，催生了大语言模型，将来随着AI硬件越来越多、持续采集大量真实物理世界数据，才有可能形成同等规模的物理数据基础。

　　“现在仍处于世界模型的早期，所有世界模型领域夺冠的模型都还不是未来真正的世界模型。”智源当前对于世界模型做出了四个分类：以语言为中心的世界模型；以像素为中心的世界模型，即生成；以三维结构为中心的世界模型，包括3D重建；以

　　银河通用创始人王鹤的预测最乐观，但他针对的是一个非常具体的目标，他认为WAM打开数据

　　黄铁军把目标降到更加具体的层次：“未来两三年，能跟人日常工作相比的这样一个世界模型，是有可能出来的。”他解释了这句话的含义：做物理性工作的人的常识性能力，不是科学家的水平，只是在日常生活场景里做出合理物理判断和动作的系统。

　　王仲远的判断是至少还需要好几年，“很可能卡在一个地方三五年都没有突破，也有可能突然就突破了”。

　　他同时给出了一个具体的能力标准：一个3岁小朋友正在睡觉，厨房声音很大，家人只要挥一下手，大家就知道应该关门。这种基于当前物理状态、不需要语言的直觉式预测和决策，是基本能力门槛。

　　在连评测标准都没有共识的领域里，时间表本身就是一个没有统一参照系的数字。王仲远也谈到了这一点：“世界模型目前缺乏非常严谨的评测框架和体系。现在很多世界模型的评测都是以生成评测为重点，但不代表完整的未来世界模型作为基座模型的核心能力。”目前智源正在构建世界模型的评测基准，核心问题只有一个：能否对下一个物理状态做出正确预测。

　　黄铁军用“盲人摸象”来描述世界模型现在的状态：“现在各类

　　不过，在盲人摸象的故事里，大象是确定存在的，只需要把各部分拼在一起。世界模型的问题则在于，完整的大象究竟是什么样子，目前没有人真正见过，也没有一套公认的方法验证你是否已经摸到了它。

　　朱军的一句话，或许道出了这个领域某种更深的困境：在复杂的、开放的场景里，很多时候我们并没有清晰或单一的目标，可能优化的是一个多维度的东西。

推荐图文