`geno_lewm.cli.rollout`¶

rollout ¶

geno-lewm-rollout — aggregate measured rollout-fidelity state rows.

RolloutStateRow `dataclass` ¶

RolloutStateRow(row_id: str, split: str, horizon: int, source_state: tuple[float, ...], predicted_state: tuple[float, ...], target_state: tuple[float, ...], target_rank: int, baseline_target_rank: int)

One measured rollout-fidelity row.

RolloutSummary `dataclass` ¶

RolloutSummary(split: str, horizon: int | None, n: int, row_identity: str, cosine_similarity_mean: float, naive_baseline_cosine_mean: float, l2_distance_mean: float, naive_baseline_l2_mean: float, recall_at_k: float, naive_baseline_recall_at_k: float)

Aggregate metrics for one split or split/horizon group.

load_rollout_state_rows ¶

load_rollout_state_rows(path: Path) -> tuple[RolloutStateRow, ...]

Load and validate measured rollout-state JSONL.

Source code in geno_lewm/cli/rollout.py

def load_rollout_state_rows(path: Path) -> tuple[RolloutStateRow, ...]:
    """Load and validate measured rollout-state JSONL."""
    rows: list[RolloutStateRow] = []
    try:
        lines = path.read_text(encoding="utf-8").splitlines()
    except OSError as exc:
        raise InputError("failed to read rollout state JSONL", details={"path": str(path)}) from exc
    for line_no, line in enumerate(lines, start=1):
        if not line.strip():
            continue
        try:
            payload = json.loads(line)
        except json.JSONDecodeError as exc:
            raise InputError(
                "rollout state JSONL row is invalid",
                details={"path": str(path), "line": line_no, "column": exc.colno},
            ) from exc
        rows.append(_parse_rollout_row(payload, line_no=line_no))
    if not rows:
        raise InputError("rollout state JSONL must contain at least one measured row")
    duplicates = _duplicates(row.row_id for row in rows)
    if duplicates:
        raise InputError("rollout state row ids must be unique", details={"duplicates": duplicates})
    return tuple(rows)

build_rollout_metrics_payload ¶

build_rollout_metrics_payload(rows: tuple[RolloutStateRow, ...], *, recall_k: int, model_id: str, model_release: str, dataset_snapshot: str, commit: str, hardware: str, artifacts: dict[str, str]) -> dict[str, object]

Build eval-compatible rollout-fidelity metrics from measured state rows.