世界模型分类法¶
"世界模型"是一个含义重载的术语。在当前的 AI 讨论中,它可以指学习到的动力学模型、视频生成器、机器人策略、3D 场景生成器、仿真平台或认知架构。这些系统存在交叉,但它们并不可以互换。
WorldForge 使用一个更窄的操作性定义:
这个定义更接近 Yann LeCun 以 JEPA 为导向的规划视角,而非泛化的通俗用法——即"任何能生成类世界工件的模型"。WorldForge 仍然可以集成视频生成器和仿真 API,但其架构以规划接口为中心:候选动作、预测或隐式的未来状态、代价、分数、不确定性以及显式的提供方能力。
同一术语,众多系统¶
文本图示:
"world model"
|
+-----------------------+-----------------------+
| | |
planning model world generator world infrastructure
| | |
predicts/ranks futures emits pixels/3D scenes creates data, tokens,
for action selection or interactive worlds simulation, eval tooling
WorldForge 最关注左侧分支,将中间分支作为提供方工件加以支持,并期望通过适配器而非吸收进核心的方式集成右侧分支。
Mermaid 视图:
flowchart TD
WM[World model terminology]
WM --> Latent[Latent predictive planning]
WM --> Video[Generative video simulation]
WM --> Spatial[Spatial / 3D world generation]
WM --> Infra[Physical AI infrastructure]
WM --> Active[Active inference / structured generative models]
WM --> Policy[Embodied policy / VLA action model]
Latent --> JEPA[JEPA / V-JEPA / LeWorldModel]
Latent --> RL[Dreamer-style model-based RL]
Video --> Sora[Sora-style video simulators]
Video --> Genie[Genie-style interactive worlds]
Spatial --> Marble[World Labs Marble]
Infra --> Cosmos[NVIDIA Cosmos]
Policy --> Groot[NVIDIA Isaac GR00T]
WorldForge 的核心重心¶
WorldForge 围绕以下循环构建:
这是 LeCun 架构提案中描述的模型预测控制形式:动作者提出动作,世界模型预测未来状态表示,代价函数评估候选未来,循环在执行动作后重复进行。在该提案中,JEPA 风格的模型通过避免不必要的像素级细节来学习抽象表示,从而使预测变得可行。
WorldForge 对应的运行时形式为:
世界状态 / 观测张量
|
|-- candidate_actions # 公共 WorldForge Action 序列
|-- score_action_candidates # 可选的模型原生张量候选项
|-- score_info # 模型原生的观测/动作/目标上下文
v
provider.score_actions(...)
|
v
ActionScoreResult(scores, best_index)
|
v
Plan(actions=candidate_actions[best_index])
|
v
通过支持 predict(...) 的提供方执行
LeWorldModel 是该设计的第一等级提供方,因为它是一个基于 JEPA 的世界模型,在隐空间中从像素进行规划,暴露代价接口,并自然契合 score_actions(...) -> ActionScoreResult.best_index 契约。它对 WorldForge 提供方架构的影响应当超过通用视频生成提供方。
分类法¶
| 类别 | 核心问题 | 表示形式 | 典型输出 | WorldForge 立场 |
|---|---|---|---|---|
| 显式仿真 | 在已知物理和几何条件下会发生什么? | 方程、网格、接触、引擎 | 状态展开、传感器渲染 | 适配器目标,非核心运行时 |
| 基于模型的 RL 隐动力学 | 智能体能否在想象的未来中学习? | 紧凑隐状态 | 展开序列、价值、策略 | 适合 predict、score 及评估 |
| JEPA 隐预测世界模型 | 哪个动作能使隐式未来匹配目标或实现低代价? | 学习到的嵌入 | 分数、代价、隐式展开 | 架构核心 |
| 生成式视频仿真器 | 模型能否合成可信的未来像素或交互式帧? | 像素、隐变量、视频 token | 视频片段、交互式帧 | 不在当前提供方表面内 |
| 空间 / 3D 世界模型 | 能否重建或生成持久的 3D 世界? | 几何、深度、辐射场、资产 | 3D 场景、网格、相机路径 | 未来的提供方家族 |
| 物理 AI 基础设施 | 如何大规模生产数据、分词器、微调和评估? | 运行时/工具栈 | 模型、合成数据、API | 提供方适配器 |
| 具身策略 / VLA 动作模型 | 机器人应根据当前观测和指令执行哪个动作块? | 视觉-语言-动作策略状态 | 机器人动作块 | 第一等级的动作者提供方家族 |
| 主动推断 / 结构化生成模型 | 如何在线更新信念、对象、不确定性和动作? | 概率结构化状态 | 信念、策略、期望自由能 | 概念性影响,未来的适配器目标 |
类别说明¶
JEPA 与 LeCun 式规划¶
JEPA 在表示空间中进行预测,而非重建每一个未来像素。其意义不仅仅是压缩。关键在于让模型在忽略不可预测细节的同时,保留与任务相关的结构,以用于预测和规划。
在 LeCun 的架构提案中,这演变为一种更广泛的认知架构:
这是 WorldForge 的北极星。该库应使插入能够排序未来、比较提供方、评估失败,并让宿主方掌控执行和持久化的模型变得容易。
LeWorldModel¶
LeWorldModel 是由 Lucas Maes、Quentin Le Lidec、Damien Scieur、Yann LeCun 和 Randall Balestriero 共同撰写的具体 JEPA 实现。该项目将 LeWM 描述为一个从原始像素端到端训练的 JEPA,具有两个损失项:下一嵌入预测损失和高斯隐式正则化器。其公开描述强调像素到隐空间的预测、基于代价的规划和高效的候选评估。
对于 WorldForge,这意味着:
- LeWM 不被建模为文本推理器。
- LeWM 不被建模为视频生成器。
- LeWM 被建模为本地打分提供方。
- 宿主方负责从传感器数据到检查点形状张量的任务预处理。
- WorldForge 负责提供方注册、打分结果验证、计划选择、计划元数据、可观测性和执行交接。
V-JEPA 2 与 jepa-wms¶
Meta 的 V-JEPA 2 工作在更大规模上展示了同一系列想法:自监督视频预训练,然后以动作为条件的后训练用于具有图像目标的机器人规划。facebookresearch/jepa-wms 仓库与未来的 WorldForge 提供方工作直接相关,因为它包含用于联合嵌入预测世界模型的代码、数据、权重、训练循环、共享规划组件和仿真规划评估。
WorldForge 的公共 jepa 提供方现在遵循 LeWorldModel 模式作为纯打分适配器:它不宣传生成、推理、预测或嵌入能力,并在运行时调用前记录张量形状和由宿主方持有的任务预处理。
WorldForge 还携带一个 jepa-wms 提供方候选脚手架,其中包含针对 facebookresearch/jepa-wms 未来工作的注入式运行时和由宿主方持有的 torch-hub 契约测试;它被有意地不导出也不注册。
Dreamer 式基于模型的 RL¶
Dreamer 风格的智能体从观测中学习隐动力学模型,并通过想象的展开序列改进行为。这一谱系在概念上与 WorldForge 契合,因为它将世界模型视为控制组件,而不仅仅是工件生成器。Dreamer 提供方可以暴露 predict、score 或策略选择,具体取决于智能体循环的哪个部分被导出。
生成式视频仿真器¶
Sora 风格和 Genie 风格的系统使用视频生成来模拟物理或数字世界。它们相关的技术契约是从提示、状态、帧或动作上下文生成帧或世界。这与状态转换预测或候选动作打分是不同的契约。
这些系统很有价值,但它们与 LeWorldModel 的接口并不相同:
WorldForge 可以使用视频模型进行合成观测、迁移和评估。但不应将生成的可信视频视为提供方暴露可控规划语义的证据。
空间智能与 3D 世界模型¶
World Labs 的 Marble 是世界模型空间智能含义的一个好例子:从文本、图像、视频或 3D 结构生成或重建持久的 3D 世界。这接近于场景创建和空间记忆。它对机器人技术和仿真非常重要,但其主要契约是持久化的空间工件,而非以动作为条件的规划代价。
未来的 WorldForge 空间提供方可能会暴露:
- 场景导入/导出
- 相机路径生成
- 几何验证
- 碰撞或可供性元数据
- 为规划器生成合成观测
物理 AI 基础设施¶
NVIDIA Cosmos 最好被理解为物理 AI 基础设施:世界基础模型、分词器、护栏、视频处理、合成数据生成、微调和部署路由。它可以为世界模型工作流提供素材,但它不是单一的窄范围模型契约。
WorldForge 仅应在上游组件能映射到当前规划、预测、打分、策略或嵌入表面时才集成它们。 - 若上游 API 暴露稳定契约,则为未来的评估适配器
具身策略 / VLA 动作模型¶
在 WorldForge 的规划定义下,NVIDIA Isaac GR00T 最好被归类为具身策略,而非世界模型。其策略 API 接受多模态观测(如视频、状态和语言),然后为机器人形态返回未来的动作块。这是一个动作者接口:
它不是未来状态转换模型:
也不是 JEPA 风格的候选打分器:
因此,WorldForge 将 GR00T 建模为 policy 提供方。这使其在控制循环中发挥作用,同时不夸大它能对未来物理状态证明的内容:
GR00T 提出动作
-> LeWorldModel / JEPA-WMS 对候选项进行打分或过滤
-> WorldForge 选择计划
-> 由宿主方持有的控制器、仿真器或 predict 提供方执行
-> 宿主方再次观测
主动推断¶
主动推断使用结构化生成模型、信念和期望自由能,而非通常的奖励最大化框架。WorldForge 中尚未实现它,但它的重要性在于:它使架构对不确定性、信念、对象结构和在线重规划保持诚实。该家族中未来的提供方应将信念和不确定性作为类型化输出暴露,而非隐藏在通用分数内部。
WorldForge 中的提供方分类法¶
mock
确定性的本地代理
适用于契约、示例和测试
leworldmodel
JEPA 隐代价模型
打分提供方
第一等级的架构参考
gr00t
由宿主方持有的具身策略客户端适配器
策略提供方
适用作提出机器人动作块的动作者
jepa
脚手架
未来真实 JEPA 提供方工作的归宿
genie
脚手架
未来真实交互式仿真器提供方工作的归宿
Mermaid 图:
flowchart TD
WF[WorldForge provider registry]
WF --> Mock[mock\nreference runtime]
WF --> LeWM[leworldmodel\nJEPA score provider]
WF --> CosmosPolicy[cosmos-policy\nembodied policy adapter]
WF --> Groot[gr00t\nembodied policy adapter]
WF --> JEPA[jepa\nscore adapter]
WF --> Genie[genie\nscaffold]
LeWM --> Score[score_actions -> ActionScoreResult]
CosmosPolicy --> CosmosPolicyAction[select_actions -> ActionPolicyResult]
Groot --> Policy[select_actions -> ActionPolicyResult]
Mock --> Predict[predict -> PredictionPayload]
新提供方的设计规则¶
将这些规则转化为新的适配器 PR 时,请使用完整的提供方编写指南。
- 窄范围声明能力。
- 记录提供方对"世界模型"的实际含义。
- 在适配器边界验证输入形状、范围、内容类型和任务特定限制。
- 返回类型化输出,保留分数方向、不确定性、模型名称和提供方元数据。
- 当契约可以命名时,不要将任务预处理隐藏在模糊的字典中。
- 为格式错误的载荷、缺失的工件、部分输出和提供方特定限制添加基于夹具的测试。
- 保持由宿主方持有的关注点由宿主方持有:密钥、锁、数据库、长时间运行的编排、生产指标和真实机器人安全联锁。
主要参考文献¶
用于构建本分类法的主要技术参考文献:
- Yann LeCun, A Path Towards Autonomous Machine Intelligence
- LeWorldModel project page
- LeWorldModel paper
- LeWorldModel code
- V-JEPA 2 paper
- facebookresearch/jepa-wms
- Ha and Schmidhuber, World Models
- DreamerV3 paper
- OpenAI, Video generation models as world simulators
- Google DeepMind Genie 3
- NVIDIA Cosmos documentation
- NVIDIA Cosmos Predict2.5 code
- Hugging Face LeRobot code
- Hugging Face LeRobot policy documentation
- NVIDIA Isaac GR00T
- World Labs Marble documentation