智源研究院院长王仲远坦言:“世界模型的定义到底是什么,大家还没有达成共识。”形成共识,路线方能收敛。在一个融资热度高达数十亿美元的赛道里,共识是一个必须回答的大前提。
李飞飞团队关于世界模型概念的,再度引发行业对于世界模型定义的热议。与此同时,在近期刚刚结束的智源大会上,智源研究院也表态,要为世界模型“正本清源”。
世界模型并不是一个新概念。它的出现可以追溯到1943年,心理学家最早提出了相关判断;2018年,这一概念扩展至智能世界,一篇题为的论文引发了学术热潮。
2024年春节,Sora横空出世,OpenAI彼时介绍Sora是“World Simulator”,以此为标志,世界模型受到了更广泛的关注。
在Sora生成的里,液体在流动,光影在变化,模型根据数据摸索出了某些物理世界的规律,通过上一帧推测猜出下一帧,随着猜对的比例越来越高,它看似越来越懂得物理世界。
李飞飞的里用了一个词描述这类模型的本质:渲染器。她认为,渲染器优化的是
在很长一段时间里,VLA被视为具身智能模型突破的核心路径,但因高度依赖成本高昂且产出极低的真实成功动作数据,并且无法直接利用海量缺乏动作标注的互联网,其面临严重的数据瓶颈。
世界模型提供了新的利用数据的方法,它的训练目标不是模仿正确动作,而是理解动作和结果之间的因果关系。在这个逻辑下,失败轨迹、无标注在世界模型的框架里都变成有价值的训练素材。
机器人尝试把一个杯子从桌上拿起来,手指位置偏了,杯子倒了。这段录像在VLA训练体系里可能是废品,但在世界模型的框架里,失败本身变成了信息。
智源研究院理事长黄铁军解释了为什么这一次的热潮和上一次不同:“现有VLA技术,在制造或抓取等特定场景完成任务是可以的。但我们希望具身智能是通用的,像人一样,在任何一个场景下遇到不同的问题都可以去解决,这样的模型现在还没有。”
热情一致,路线分歧,甚至彼此冲突。对于世界模型学什么、用什么方法学,当前业界有几条主流的路径。
杨立昆的JEPA是其中一条代表路径。它追求几何和动力学上的准确性,而非
但问题在于,不生成可视化输出,很难直观判断模型究竟理解了什么,模型对物理世界的理解可能会“变形”。
另一条代表路径是由生成模型逐步迈向世界模型,它的核心主张是,如果一个模型能够生成足够准确的下一帧,它就已经学到了世界运行的某种规律。
清华大学计算机系教授朱军认为,和世界最相关的数据就是数据,它是最容易、最方便而且记录量最大的关于世界的数据。
但矛盾在于,生成的目标和动作生成的目标是不同的。生成越好,不代表动作预测越好,反之亦然。
王仲远举例说明:生成模型可以生成一群猪在天上和飞机一起飞,“因为生成模型采用大量科幻电影训练,目标本身就不是为了真实物理世界基座模型,只是通过大量学习能够捕捉到一定的世界知识”。
星源智联合创始人孙振国的逻辑是,如果世界模型只是作为旁路的训练约束,训练开销可能远超性能提升,“还不如探索VLA这种更高效的范式。”他希望达成世界模型参与改变动作本身:机器人即将执行一个动作时,先在内部模拟这个动作的后果,如果预测结果不理想,修正动作,再模拟,再修正,直到满意再执行,最终可以变成一个自进化的智能体。
数据和语言数据之间有一个无法靠堆量解决的不对称问题:语言本身是一种高度浓缩的信息载体,但在中,绝大部分像素是背景、与物理因果无关的细节。用数据训练世界模型,意味着模型需要在数百万像素里挑出真正有用的信息。
此外,物理理解不是靠观察就能学会的,它来自干预——真实世界的物理规律发生在人类和物体之间的交互中,一个孩子知道玻璃杯摔在地上会碎,不只是因为他看过,更是因为他可能失手摔过,感受过力的传导,听过声音,看过碎片的飞溅方向。
Skywork首席科学家刘扬描述了
智象未来创始人梅涛此前向
黄铁军认为,要改变采集数据的方式本身,而不是在现有方式上堆量。他表示,世界模型阶段需要在线的、实时的数据,让采集寄生在真实生产生活上。比如,工人正常作业时佩戴传感设备,数据自然产生,采集成本会大幅下降。
同时,当前数据处理方式是低效的,原因在于所有像素被平等处理。人类
王仲远画了一个时间尺度更长的框架。他说,真正催生跨时代世界模型的,可能要等到物理世界的互联网出现,就像数字世界的互联网积累了海量文字数据,催生了大语言模型,将来随着AI硬件越来越多、持续采集大量真实物理世界数据,才有可能形成同等规模的物理数据基础。
“现在仍处于世界模型的早期,所有世界模型领域夺冠的模型都还不是未来真正的世界模型。”智源当前对于世界模型做出了四个分类:以语言为中心的世界模型;以像素为中心的世界模型,即生成;以三维结构为中心的世界模型,包括3D重建;以
银河通用创始人王鹤的预测最乐观,但他针对的是一个非常具体的目标,他认为WAM打开数据
黄铁军把目标降到更加具体的层次:“未来两三年,能跟人日常工作相比的这样一个世界模型,是有可能出来的。”他解释了这句话的含义:做物理性工作的人的常识性能力,不是科学家的水平,只是在日常生活场景里做出合理物理判断和动作的系统。
王仲远的判断是至少还需要好几年,“很可能卡在一个地方三五年都没有突破,也有可能突然就突破了”。
他同时给出了一个具体的能力标准:一个3岁小朋友正在睡觉,厨房声音很大,家人只要挥一下手,大家就知道应该关门。这种基于当前物理状态、不需要语言的直觉式预测和决策,是基本能力门槛。
在连评测标准都没有共识的领域里,时间表本身就是一个没有统一参照系的数字。王仲远也谈到了这一点:“世界模型目前缺乏非常严谨的评测框架和体系。现在很多世界模型的评测都是以生成评测为重点,但不代表完整的未来世界模型作为基座模型的核心能力。”目前智源正在构建世界模型的评测基准,核心问题只有一个:能否对下一个物理状态做出正确预测。
黄铁军用“盲人摸象”来描述世界模型现在的状态:“现在各类
不过,在盲人摸象的故事里,大象是确定存在的,只需要把各部分拼在一起。世界模型的问题则在于,完整的大象究竟是什么样子,目前没有人真正见过,也没有一套公认的方法验证你是否已经摸到了它。
朱军的一句话,或许道出了这个领域某种更深的困境:在复杂的、开放的场景里,很多时候我们并没有清晰或单一的目标,可能优化的是一个多维度的东西。



