`geno_lewm.action.encoder`¶

encoder ¶

PyTorch action encoder for window-relative genomic edits.

The module keeps PyTorch optional so importing :mod:geno_lewm.action does not pull the training stack into the base package. Instantiate ActionEncoder only in a geno-lewm[train] environment.

SeqMicroEncoder ¶

SeqMicroEncoder(*, d_seq: int)

Bases: Module

Shared 6-mer micro-encoder for reference and alternate bases.

Source code in geno_lewm/action/encoder.py

def __init__(self, *, d_seq: int) -> None:
    super().__init__()
    _require_positive("d_seq", d_seq)
    if d_seq % 4 != 0:
        raise InputError("d_seq must be divisible by 4 so attention heads divide evenly")
    token_dim = min(_TOKEN_EMBED_DIM, d_seq)
    self.token_embedding = nn.Embedding(_VOCAB_SIZE, token_dim, padding_idx=_OOV_TOKEN_ID)
    self.token_projection = (
        nn.Identity() if token_dim == d_seq else nn.Linear(token_dim, d_seq)
    )
    layer = nn.TransformerEncoderLayer(
        d_model=d_seq,
        nhead=4,
        dim_feedforward=d_seq,
        activation="gelu",
        batch_first=True,
        norm_first=False,
        dropout=0.0,
    )
    self.encoder = nn.TransformerEncoder(layer, num_layers=2)

ActionEncoder ¶

ActionEncoder(*, d_action: int = 512, d_pos: int = 128, d_type: int = 64, d_seq: int = 256, max_window_bp: int = 12288, carbon_tokenizer: Any | None = None)