主张与证据对照图¶

Issue: #140

状态：当前有效的公开证据图。

本页将 WorldForge 的公开主张与支持其的证据类别进行对应映射。在问题报告、发布证据或提供方晋升评审中引用 README 主张时，请参阅本页。本页不新增基准测试数据、不扩展提供方能力，也不将确定性检查转化为物理保真度主张。

证据类别¶

类别	含义	预期证据
`checkout-tested`	无需凭据、网络、GPU 或可选模型运行时即可从干净检出运行。	本地 pytest、CLI、文档及包命令。
`fixture-tested`	由存放在仓库中的合成 JSON 夹具或录制的解析器夹具覆盖。	`tests/fixtures/`、`worldforge.testing` 夹具、提供方解析器测试或契约辅助工具。
`prepared-host smoke-tested`	需要宿主方持有的凭据、检查点、可选运行时或机器人/模型资产。	一条文档化命令加上经过清理的 `run_manifest.json` 或冒烟测试注册表行。
`release-gated`	属于发布证据或 CI 质量门控的一部分。	覆盖率、包契约、基准测试预设、文档构建或发布证据报告。
`deferred`	设计或脚手架已存在，但可执行的公开行为被有意推迟。	明确的阻塞项、重新触发条件或关闭失败的脚手架文档。
`unsupported`	WorldForge 不主张或不拥有此行为。	公开的非主张声明以及指向宿主方或上游负责人的首步路由。

能力主张¶

公开主张	证据类别	证据	命令或工件	边界
`predict` 是用于状态推演的提供方能力。	`checkout-tested`	`tests/test_provider_contracts.py`、`tests/test_capability_fixtures.py`、`tests/test_capability_dual_routing.py`	`uv run worldforge predict kitchen --provider mock --x 0.3 --y 0.8 --z 0.0 --steps 2`	内置确定性检查不能证明物理保真度。
`score` 为打分模型工作流对动作候选进行排序。	`fixture-tested`；真实运行时使用 `prepared-host smoke-tested`	`tests/test_leworldmodel_provider.py`、`tests/test_jepa_provider.py`、`tests/test_jepa_wms_provider.py`、`tests/fixtures/providers/score`	`uv run worldforge-demo-leworldmodel`；`leworldmodel`、`jepa` 和 `jepa-wms` 的冒烟测试注册表行	张量、检查点、预处理和设备由宿主方持有。
`policy` 返回具身特定的动作块。	`fixture-tested`；真实运行时使用 `prepared-host smoke-tested`	`tests/test_lerobot_provider.py`、`tests/test_gr00t_provider.py`、`tests/test_provider_contracts.py`	`scripts/robotics-showcase --json-only --no-tui --no-rerun`；机器人 CI 中上传的 `run_manifest.json`	WorldForge 保留原始动作，并要求宿主方持有转换器才能执行动作。
`embed` 是 mock 支持的窄能力接口。	`checkout-tested`	`tests/test_provider_contracts.py`、`tests/test_capability_fixtures.py`、`tests/test_benchmark.py`	`uv run worldforge benchmark --preset parser-overhead`	它是契约和适配器路径检查，而非通用嵌入质量主张。
`plan` 是 WorldForge 对组合接口的门面封装。	`checkout-tested`	`tests/test_evaluation_and_planning.py`、`tests/test_capability_dual_routing.py`	`uv run worldforge eval --suite planning --provider mock --format json`	默认情况下，`plan` 不作为提供方持有的能力进行通告。

提供方与运行时主张¶

公开主张	证据类别	证据	命令或工件	边界
`mock` 提供方是稳定且确定性的。	`checkout-tested`；`release-gated`	`tests/test_provider_contracts.py`、`tests/test_benchmark_presets.py`	`uv run worldforge benchmark --preset mock-smoke`	合成提供方行为不是运行时保真度证据。
Cosmos-Policy 是远程具身策略适配器。	`fixture-tested`；已配置时使用 `prepared-host smoke-tested`	`tests/test_cosmos_policy_provider.py`、提供方文档、冒烟测试注册表	`scripts/smoke_cosmos_policy.py --help`	凭据、上游可用性、动作转换器和机器人安全由宿主方持有。
LeWorldModel 暴露 `score` 能力。	`fixture-tested`；`prepared-host smoke-tested`	`tests/test_leworldmodel_provider.py`、`tests/test_lerobot_leworldmodel_smoke_script.py`、冒烟测试注册表	`scripts/robotics-showcase --json-only --no-tui --no-rerun`	`stable-worldmodel`、torch、检查点、张量和设备行为属于可选运行时关注事项。
LeRobot 和 GR00T 暴露 `policy` 能力。	`fixture-tested`；`prepared-host smoke-tested`	`tests/test_lerobot_provider.py`、`tests/test_gr00t_provider.py`、冒烟测试注册表	LeRobot 使用 `scripts/robotics-showcase`；GR00T 设置使用 `scripts/smoke_gr00t_policy.py --help`	机器人控制器、安全检查和动作转换器由宿主方持有。
JEPA 是实验性的，仅支持 `score`。	`fixture-tested`；仅在宿主方证据存在时使用 `prepared-host smoke-tested`	`tests/test_jepa_provider.py`、`tests/test_jepa_wms_provider.py`、运行时清单文档	`uv run worldforge-smoke-jepa-wms --help`	Torch-hub 运行时、权重、预处理和许可证审查由宿主方持有。
Genie 是脚手架占位。	`deferred`	`tests/test_remote_scaffold_providers.py`、`docs/src/providers/genie.md`	Genie 提供方文档中的重新触发条件	不主张任何公开自动化 API 契约；脚手架行为保持关闭失败状态。
Nano World Model 是候选项，而非提供方接口。	`deferred`	`docs/src/provider-cohort-selection.md`	在提出任何目录主张之前，请关注指定的候选 issue	不导出或自动注册任何 `nanowm` 提供方。

工作流与工件主张¶

公开主张	证据类别	证据	命令或工件	边界
评估报告包含来源信息和主张边界。	`checkout-tested`；`release-gated`	`tests/test_provenance.py`、`tests/test_evaluation_and_planning.py`、`docs/src/evaluation.md`	`uv run worldforge eval --suite planning --provider mock --format json`	分数是确定性的契约信号，而非物理或媒体质量指标。
评估报告可以引用数据集清单，而无需嵌入数据集本身。	`checkout-tested`；`release-gated`	`tests/test_evaluation_suites.py`、`tests/test_evidence_bundle.py`、`docs/src/evaluation.md`	`uv run worldforge eval --suite planning --provider mock --dataset-manifest examples/dataset-manifests/mock-evaluation-fixtures.json --format json`	清单记录来源、许可证、隐私、安全、校验和以及宿主方持有的获取步骤；数据集和已准备的资产存放于仓库之外。
失败的评估报告包含适合提交 issue 的失败图集。	`checkout-tested`；`release-gated`	`tests/test_evaluation_failure_gallery.py`、`docs/src/evaluation.md`、`docs/src/api/python.md`	`uv run worldforge eval --suite planning --provider mock --format json` 加上 `report.artifacts()["failure_gallery.json"]`	图集是经过清理的确定性契约分流工具，而非提供方排名或保真度证据。
基准测试报告包含来源信息、预算和预设门控。	`checkout-tested`；`release-gated`	`tests/test_benchmark.py`、`tests/test_benchmark_presets.py`、`docs/src/benchmarking.md`	`uv run worldforge benchmark --preset release-evidence --format json --run-workspace .worldforge`	计时数据是进程本地的适配器路径测量值，而非机器无关的性能主张。
基准测试预算变更保留了基准评审路径。	`checkout-tested`；`release-gated`	`tests/test_benchmark_budget_calibration.py`、`scripts/calibrate_benchmark_budgets.py`、`docs/src/benchmarking.md`	`uv run python scripts/calibrate_benchmark_budgets.py --report .worldforge/reports/benchmark-<timestamp>-<run-id>.json --current-budget src/worldforge/benchmark_presets/_data/budget-release-evidence.json`	候选预算是评审工件；它们不会自动削弱发布门控。
保留的运行对比在不创建排行榜的前提下对比兼容的提供方运行。	`checkout-tested`；`release-gated`	`tests/test_harness_report_compare.py`、`tests/test_harness_workspace.py`、`docs/src/benchmarking.md`	`uv run worldforge runs compare .worldforge/runs/<baseline-run-id> .worldforge/runs/<candidate-run-id> --format markdown`	当能力、操作、夹具摘要、预算或套件版本不匹配时，对比会失败；行数据是工件差异，而非跨任务的排名。
回归对比将候选运行与保留的基准进行比较。	`checkout-tested`；`release-gated`	`tests/test_harness_report_compare.py`、`docs/src/benchmarking.md`、`docs/src/html-reports.md`	`uv run worldforge runs compare .worldforge/runs/<baseline-run-id> .worldforge/runs/<candidate-run-id> --mode regression --format markdown`	报告指标差异、预算状态变更、新增和已移除的失败项、安全的工件漂移、来源差异以及不安全的工件排除；不自动更新基准。
评估证据包打包保留的运行。	`checkout-tested`；`release-gated`	`tests/test_evidence_bundle.py`、`scripts/generate_evidence_bundle.py`、`docs/src/evaluation.md`	`uv run python scripts/generate_evidence_bundle.py --workspace-dir .worldforge`	不安全、仅本地、已签名或二进制的工件会被排除或标记；该包不上传任何内容。
冒烟测试证据被索引到可发布的注册表中。	`prepared-host smoke-tested`；`release-gated`	`tests/test_live_smoke_evidence.py`、`docs/src/live-smoke-evidence.json`	`uv run python scripts/generate_release_evidence.py --live-smoke-registry docs/src/live-smoke-evidence.json`	缺失可选运行时或凭据是明确的跳过状态，而非静默遗漏。
安装扩展后，Rerun 记录经过清理的事件和工件。	`checkout-tested`；机器人案例展示使用 `prepared-host smoke-tested`	`tests/test_rerun_integration.py`、`tests/test_robotics_showcase.py`	`uv run --extra rerun worldforge-demo-rerun`；`/tmp/worldforge-robotics-showcase/real-run.rrd`	Rerun 是可选的可观测性工具，而非提供方能力或基础依赖项。
机器人案例展示 TUI 是可选的，且与 Textual 隔离。	`checkout-tested`；`release-gated`	`tests/test_robotics_showcase.py`、`tests/test_robotics_showcase_ci.py`、`tests/test_import_boundaries.py`	`scripts/robotics-showcase`	非 TUI 机器人证据在不导入 Textual 的情况下仍可用。
规划通过 `LatentMPCController` 基于纯粹的世界状态字典运行。	`checkout-tested`	`tests/test_latent_mpc_controller.py`、`tests/test_capability_dual_routing.py`、持久化 ADR	`uv run python examples/basic_prediction.py`	不存在内置世界存储；持久化由宿主方负责。
质量门控在 Python 3.13 上运行，包含覆盖率、文档、包和 lint 检查。	`release-gated`	`.github/workflows/ci.yml`、`scripts/test_package.sh`、`docs/src/quality.md`	`uv run --extra harness pytest --cov=src/worldforge --cov-report=term-missing --cov-fail-under=90`	通过门控不扩展运行时能力主张。

不支持的行为或非主张¶

非主张	证据类别	首步路由
物理保真度、媒体质量、机器人安全认证或真实世界控制安全。	`unsupported`	将 WorldForge 报告仅视为适配器证据；请使用特定任务的宿主方评估和安全审查。
上游提供方 SLA、付费 API 可用性、速率限制、凭据管理或工件保留。	`unsupported`	检查提供方的上游状态、凭据和宿主方保留策略。
在 WorldForge 内部训练 LeWorldModel、JEPA、NanoWM、GR00T、LeRobot 或任何其他模型。	`unsupported`	使用上游训练仓库，并将工件存放于 WorldForge 基础包之外。
服务级持久化、数据库迁移、锁文件或多写入者存储。	`unsupported`	在引入宿主方存储之前，请遵循持久化适配器边界 ADR。
托管仪表板、遥测服务、队列、部署、认证或告警。	`unsupported`	在宿主应用中实现这些功能，并挂载经过清理的 WorldForge 运行工件。

使用说明¶

在问题报告或发布说明中引用时，请按主张引用对应行，并附上匹配的命令或工件。预期成功信号为明确的测试通过计数、带有 Status: passed 的基准测试门控，或经验证的 run_manifest.json。若命令失败，首步排查应打开该行对应的文档页面，确认提供方属于以下哪种状态：checkout 安全、夹具支持、需要凭据、需要预备宿主机、已延迟，还是不支持。