绿色记忆

人工智能知识 - 编程（二）

Alex — Sat, 18 Apr 2026 06:42:38 +0000

这一篇承接人工智能知识 - 编程（一）。前一篇已经梳理 AI 训练与推理编程的横向工程栈；本篇进入重点框架详解与代码精读，集中处理 PyTorch、Transformers、PEFT、语言模型强化学习、OpenRLHF、verl、DeepSpeed、vLLM，以及典型开源代码的逐行解读。

PyTorch 详解

PyTorch 是训练与推理编程栈的“最底层可控面”：Tensor、device、autograd、

nn.Module

、数据加载、序列化、编译与分布式训练都在这一层完成。上层框架可以隐藏细节，但当你需要排查显存、吞吐、梯度同步、checkpoint 恢复、算子不确定性时，最终必须回到 PyTorch 的对象模型与 API 语义。

安装矩阵与快速验证

PyTorch 的安装需要同时匹配三件事：Python 版本、操作系统、计算平台（CPU/CUDA/ROCm/MPS）。实际工程里最稳妥的策略是：用官方安装页的选择器生成命令，然后将该命令固化到你的环境脚本或镜像构建中。

目标平台	常用安装方式（示例）	工程备注
CPU（Linux/macOS/Windows）	pip install -U torch torchvision	CPU-only 适合开发与单测；性能调优与显存问题需要在目标 GPU 上复现。
CUDA（NVIDIA GPU）	# 以官方安装页生成的命令为准；典型形态如下 pip install -U torch torchvision --index-url https://download.pytorch.org/whl/cu126	CUDA wheel 与机器驱动/运行时要匹配；多机训练应当在镜像层固定 CUDA 与 PyTorch 组合。
ROCm（AMD GPU）	# 以官方安装页生成的命令为准（ROCm 版本需匹配系统栈） pip install -U torch torchvision --index-url https://download.pytorch.org/whl/rocm	ROCm 生态对内核/驱动版本更敏感，建议使用官方/社区维护的容器基镜像。
MPS（Apple Silicon）	pip install -U torch torchvision	设备为 mps ；算子覆盖度与性能特征与 CUDA 不同。

最小验证覆盖三个断言：版本可读、Tensor 可算、目标加速器可见。

import torch

# 先确认当前导入到的 PyTorch 版本是否符合预期。
print("torch:", torch.__version__)
# 加速器可见性决定后续模型应落到 CUDA、MPS 还是 CPU。
print("cuda_available:", torch.cuda.is_available())
print("mps_available:", hasattr(torch.backends, "mps") and torch.backends.mps.is_available())

# 最后做一次最小矩阵运算，确认基础张量路径可以正常执行。
x = torch.randn(2, 3)
y = x @ x.T
print("ok:", y.shape)

Tensor、dtype 与 device

Tensor 的关键元信息是：形状（shape）、数值类型（dtype）、设备（device）、以及是否参与梯度（requires_grad）。训练代码里常见 bug 本质都是“不匹配”：输入和参数不在同一 device、label dtype 错、view/reshape 造成非 contiguous 导致算子退化，或无意间把需要梯度的张量带入无梯度区间。

创建、迁移与布局

命令/API/函数

torch.tensor

说明
从 Python 对象创建张量（会拷贝）

示例

x = torch.tensor([[1, 2], [3, 4]], dtype=torch.float32)

命令/API/函数

torch.as_tensor

说明
尽量不拷贝地包装已有数据

示例

import numpy as np
arr = np.zeros((2, 3), dtype=np.float32)
x = torch.as_tensor(arr)  # 可能与 numpy 共享内存

命令/API/函数

torch.from_numpy

说明
从 numpy 创建（共享内存）

示例

x = torch.from_numpy(arr)  # 修改一侧会影响另一侧

命令/API/函数

Tensor.to

说明
迁移 device/dtype（训练最常用）

示例

device = torch.device("cuda", 0)  # or "cpu"/"mps"
x = x.to(device=device, dtype=torch.bfloat16)

命令/API/函数

Tensor.permute / Tensor.transpose

说明
重排维度顺序；图像常用于 NCHW/NHWC 互换，序列常用于 batch-first/seq-first 互换。

示例

x = x.permute(0, 3, 1, 2)  # NHWC -> NCHW

命令/API/函数

Tensor.view / Tensor.reshape / Tensor.flatten

说明
改张量形状；

view

更强调复用现有内存布局，

reshape

则在必要时自动 materialize。

示例

y = x.reshape(x.size(0), -1)

命令/API/函数

Tensor.unsqueeze / Tensor.squeeze

说明
插入或删除长度为 1 的维度，常见于 batch 维、head 维和 channel 维补齐。

示例

x = x.unsqueeze(0)
x = x.squeeze(0)

命令/API/函数

Tensor.expand / Tensor.repeat

说明

expand

走广播语义，尽量不复制；

repeat

会真实复制数据。

示例

mask = mask.unsqueeze(0).expand(batch_size, -1)

命令/API/函数

Tensor.contiguous

说明
把非连续内存布局变成连续

示例

x = x.permute(0, 2, 1)     # 可能变成非 contiguous
x = x.contiguous()        # 需要时显式转回

命令/API/函数

Tensor.is_contiguous / channels_last

说明
检测当前内存布局，或显式切到

channels_last

memory format；视觉模型优化时很常见。

示例

x = x.contiguous(memory_format=torch.channels_last)
print(x.is_contiguous(memory_format=torch.channels_last))

布局缩写、memory format 与 NumPy 互操作

PyTorch 里最容易被误解的是“轴顺序”和“memory format”并非同一个概念。

NCHW

、

NHWC

描述语义上的维度顺序；

contiguous

、

channels_last

描述底层 stride 是否符合某种内存访问模式。

视觉模型里常见的缩写与 NumPy 一致：

```
CHW
```
/
```
HWC
```
：单张图像。
```
NCHW
```
/
```
NHWC
```
：批量图像。
```
channels_first
```
/
```
channels_last
```
：通道维放前面还是后面。

当 NumPy 数组通过

torch.from_numpy

或

torch.as_tensor

进入 PyTorch 时，除了 shape/dtype，还要警惕底层 stride。最典型的坑是：

NumPy 的
```
np.flip
```
、
```
[::-1]
```
之类操作，可能产生负 stride 视图。
这类数组在某些 PyTorch 路径里不能直接接收，或会触发额外 materialize。
跨框架前，通常用
```
np.ascontiguousarray
```
或显式 copy 把布局整理干净。

arr = np.flip(arr, axis=1)            # 可能变成负 stride 视图
arr = np.ascontiguousarray(arr)       # 跨到 PyTorch/ORT 之前先整理成稳定布局
x = torch.from_numpy(arr)

多设备下的 device 选择

单机多卡训练通常按“每进程绑定一张卡”的方式组织。绑定的核心动作是：在进程启动后立即

torch.cuda.set_device(local_rank)

，并确保模型与 batch 都迁移到

cuda:local_rank

。

import os
import torch
local_rank = int(os.environ.get("LOCAL_RANK", "0"))
# 当前进程只绑定一张卡；后续模型和 batch 都必须迁到同一个 device。
torch.cuda.set_device(local_rank)
device = torch.device("cuda", local_rank)
model = model.to(device)
batch = {k: v.to(device, non_blocking=True) for k, v in batch.items()}

autograd：梯度模式与反向图

PyTorch 的 autograd 是胶带式自动求导：前向执行时记录算子与中间结果，反向时从标量 loss 回传梯度到叶子张量（leaf tensors）。工程上需要明确三类“梯度模式”：训练（需要梯度）、评估（无梯度）、推理（更强的 inference mode）。

训练：backward 与清梯度

一个稳定的训练 step 通常遵循固定模板：清梯度、前向、算 loss、反向、（可选）裁剪、优化器 step。清梯度推荐使用

set_to_none=True

，这会让 PyTorch 用

None

表示“没有梯度”，减少写零开销。

optimizer.zero_grad(set_to_none=True)
loss = model(**batch).loss
loss.backward()
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
optimizer.step()

评估与推理：no_grad 与 inference_mode

model.eval()

只切换模块行为（例如 dropout/batchnorm），不影响 autograd。关闭梯度需要显式进入无梯度上下文：

```
torch.no_grad()
```
：关闭反向图记录，适用于评估。
```
torch.inference_mode()
```
：更激进的推理模式，额外禁用若干 autograd 相关开销；它不会自动调用
```
model.eval()
```
。

model.eval()
with torch.inference_mode():
    logits = model(x)

autograd.grad：只要梯度、不做参数更新

torch.autograd.grad

在实现自定义优化、梯度惩罚、或需要显式控制梯度张量生命周期时更直接。

import torch
x = torch.randn(4, requires_grad=True)
y = (x ** 2).sum()
# autograd.grad 直接返回梯度张量，不会像 backward 那样把结果顺手写进 x.grad。
gx, = torch.autograd.grad(y, x, create_graph=False)
print(gx)

nn.Module、参数注册与 state_dict

nn.Module

提供两类关键能力：组织子模块并注册参数/缓冲区；提供可序列化的

state_dict

，用于保存/恢复训练状态和做 warmstart。

参数（Parameter）与缓冲区（Buffer）

可训练权重应当是

nn.Parameter

或由标准层（Linear/Conv/Embedding 等）创建；非训练但需要随模型保存的状态（例如 batchnorm 的 running_mean）应注册为 buffer。

import torch
import torch.nn as nn

class Toy(nn.Module):
    def __init__(self):
        super().__init__()
        self.proj = nn.Linear(16, 16)
        # buffer 会进入 state_dict，但不会被优化器更新。
        self.register_buffer("scale", torch.tensor(1.0), persistent=True)
    def forward(self, x):
        return self.proj(x) * self.scale

buffer 是否进入

state_dict

由

persistent

决定：非持久 buffer 不会被保存，这常用于缓存中间结果或仅运行期有效的状态。

state_dict：保存/加载的工程契约

state_dict()

返回一个 Python dict，包含参数与持久化 buffer。加载时常用两种策略：

严格恢复：结构完全一致，使用默认
```
strict=True
```
。
warmstart：允许缺键/多键，使用
```
strict=False
```
，并显式检查 missing/unexpected keys。

state = torch.load("model.pt", map_location="cpu", weights_only=True)
missing, unexpected = model.load_state_dict(state, strict=False)
print("missing:", missing)
print("unexpected:", unexpected)

如果 checkpoint 来自 DDP/FSDP 包装后的模型，键名前缀经常会多出

module.

。不要手工重写整个 dict；PyTorch 已提供了前缀清理工具。

from torch.nn.modules.utils import consume_prefix_in_state_dict_if_present

# 先在 CPU 上加载，避免设备不匹配把问题复杂化
state = torch.load("model.pt", map_location="cpu", weights_only=True)
consume_prefix_in_state_dict_if_present(
    state,
    prefix="module.",  # DDP 最常见的键名前缀；清掉后就能按“裸模型”的参数名恢复
)
missing, unexpected = model.load_state_dict(state, strict=False)

常用API

命令/API/函数

model.train()

说明
切到训练模式，启用 dropout、BatchNorm 更新等训练态行为。

示例

model.train()

命令/API/函数

model.eval()

说明
切到评估模式，冻结 dropout/BatchNorm 的训练态分支；它不等价于关闭梯度。

示例

model.eval()

命令/API/函数

model.parameters()

说明
返回优化器应更新的参数迭代器，多参数组通常从这里拆分 weight decay 或 learning rate。

示例

optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4)

命令/API/函数

model.buffers()

说明
遍历 buffer，适合检查 BatchNorm 统计量、EMA 阴影权重或运行期缓存状态。

示例

for buf in model.buffers():
    print(buf.shape)

命令/API/函数

model.state_dict()

说明
导出参数与持久化 buffer 的字典，是保存 checkpoint 和部署权重包的标准契约。

示例

state = model.state_dict()

命令/API/函数

model.load_state_dict(...)

说明
把 checkpoint 恢复到当前模块，warmstart 时应检查 missing/unexpected keys。

示例

missing, unexpected = model.load_state_dict(state, strict=False)

数据加载：Dataset / DataLoader

训练吞吐的瓶颈经常不在 GPU，而在数据管线：解码、tokenize、增强、CPU 到 GPU 拷贝、以及 DataLoader 的多进程调度。DataLoader 的可调参数很多，但最关键的是：Dataset 类型（map-style/iterable-style）、worker 并发、pin memory、以及 batch 组装（collate）。

Map-style vs Iterable-style

from torch.utils.data import Dataset

class MyDataset(Dataset):
    def __init__(self, items):
        # map-style dataset 的核心是“可随机索引”，适合本地文件、表格或已离线切好的样本集。
        self.items = items

    def __len__(self):
        # DataLoader 会用长度信息估算 epoch 步数、进度条和 DistributedSampler 切分范围。
        return len(self.items)

    def __getitem__(self, idx):
        # __getitem__ 只负责取单条样本，不在这里做 batch 逻辑。
        x, y = self.items[idx]
        return {"x": x, "y": y}

from torch.utils.data import IterableDataset

class StreamDataset(IterableDataset):
    def __iter__(self):
        # iterable-style dataset 不要求随机索引，适合消息队列、对象存储分片或数据库游标。
        for i in range(1000000):
            # 每次 yield 一条样本，DataLoader 会继续负责多 worker 和 batch 拼接。
            yield {"x": i}

DataLoader 参数（工程常用）

DataLoader 的构造参数是你调吞吐的第一现场：

num_workers

决定 CPU 并发、

pin_memory

non_blocking=True

影响 H2D 拷贝、

prefetch_factor

persistent_workers

影响 worker 生命周期与预取深度。

from torch.utils.data import DataLoader

# 这些参数共同决定 CPU 侧吞吐、预取深度和 H2D 拷贝效率。
loader = DataLoader(
    dataset,
    batch_size=32,
    shuffle=True,
    num_workers=8,
    pin_memory=True,
    prefetch_factor=2,
    persistent_workers=True,
    drop_last=True,
)

将 batch 移动到 GPU 时，pin memory 结合

non_blocking=True

才能发挥异步拷贝效果。

def to_device(batch, device):
    return {k: v.to(device, non_blocking=True) for k, v in batch.items()}

Sampler / BatchSampler：把“取样顺序”和“组 batch 规则”拆开

shuffle=True

只覆盖了最简单的“随机读样本”场景。真实训练脚本经常需要显式控制样本顺序、顺序是否可复现、以及 batch 是否按某种结构聚合。此时更稳的做法是把“采样器（Sampler）”与“批采样器（BatchSampler）”分开表达。

命令/API/函数

RandomSampler

说明
按随机顺序产出单条样本索引，适合单机训练、可复现实验或需要自定义重采样逻辑的场景。它表达的是“索引顺序”，而非 batch 结构。

示例

from torch.utils.data import DataLoader, RandomSampler

# 把“随机读索引”显式化，后续更容易替换成带权重或分布式 sampler
sampler = RandomSampler(dataset)
loader = DataLoader(
    dataset,
    batch_size=32,   # 这里仍由 DataLoader 负责每 32 个索引拼成一个 batch
    sampler=sampler, # 一旦显式传 sampler，就不要再同时写 shuffle=True，避免语义冲突
    num_workers=8,
)

命令/API/函数

SequentialSampler

说明
按数据集原始顺序读取样本，适合验证集、离线导出、对齐原始文件顺序的 debug、以及需要稳定回放某段数据的问题排查。

示例

from torch.utils.data import DataLoader, SequentialSampler

# 验证或导出阶段通常更看重顺序稳定，而非随机打散
sampler = SequentialSampler(eval_dataset)
loader = DataLoader(
    eval_dataset,
    batch_size=64,
    sampler=sampler,
    num_workers=4,
)

命令/API/函数

BatchSampler

说明
先决定“这一批该由哪些索引组成”，再把整批索引交给 DataLoader。它适合长度分桶、按图像尺寸分组、或任何“batch 规则比单样本顺序更重要”的任务。

示例

from torch.utils.data import BatchSampler, DataLoader, RandomSampler

base_sampler = RandomSampler(dataset)  # 单样本顺序先交给基础 sampler 决定
batch_sampler = BatchSampler(
    base_sampler,
    batch_size=32,    # 这里定义“每次吐出一组 32 个索引”
    drop_last=True,   # 训练时常丢掉尾部不满批，避免 BN/张量并行尺寸抖动
)
loader = DataLoader(
    dataset,
    # 使用 batch_sampler 后，不再传 batch_size/shuffle/sampler
    batch_sampler=batch_sampler,
    num_workers=8,
)

当样本长度或图像尺寸差异很大时，很多开源训练仓库会在

BatchSampler

上再包一层“分桶/分组”策略，让同一个 batch 内的样本更相似，从而减少 padding 浪费与动态 shape 带来的 kernel 抖动。

分布式训练的数据切分（DistributedSampler）

DDP 下每个进程应读取不同数据子集。map-style 数据集通常配合

DistributedSampler

，并在每个 epoch 调用

set_epoch

让 shuffle 可复现。

from torch.utils.data.distributed import DistributedSampler

# sampler 负责给每个 rank 分到互不重叠的数据子集。
sampler = DistributedSampler(dataset, shuffle=True, drop_last=True)
# DataLoader 不再自己 shuffle，改为交给 sampler 控制全局顺序。
loader = DataLoader(dataset, batch_size=32, sampler=sampler, num_workers=8, pin_memory=True)

for epoch in range(num_epochs):
    # 每个 epoch 更新随机种子，确保所有 rank 对同一轮 shuffle 的理解一致。
    sampler.set_epoch(epoch)
    for batch in loader:
        ...

AMP：混合精度的工程写法

混合精度训练通常用

torch.amp.autocast

与

torch.amp.GradScaler

组合。旧的

torch.cuda.amp.autocast

torch.cpu.amp.autocast

已逐步迁移到统一入口。

import torch

# 显式绑定到 CUDA 设备；多卡时这里通常来自 LOCAL_RANK。
device = torch.device("cuda", 0)
# GradScaler 负责处理缩放、反缩放和溢出检测。
scaler = torch.amp.GradScaler("cuda")

# 模型和优化器在 AMP 外层初始化，避免每个 step 重复创建对象。
model = model.to(device)
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4)

for batch in loader:
    # 先把 batch 移到目标设备，配合 pin_memory + non_blocking 提高拷贝效率。
    batch = to_device(batch, device)

    # set_to_none=True 可以减少写零开销，并让未参与反向的参数保留为 None。
    optimizer.zero_grad(set_to_none=True)
    with torch.amp.autocast("cuda", dtype=torch.bfloat16):
        # 前向和 loss 在 autocast 内执行，算子会按数值安全规则自动选精度。
        loss = model(**batch).loss

    # 先对缩放后的 loss 反向，再在 step 前完成 unscale 与裁剪。
    scaler.scale(loss).backward()
    # 反缩放后再做梯度裁剪，否则阈值会失真。
    scaler.unscale_(optimizer)
    torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
    # step/update 组合会自动跳过溢出 step，并更新下一轮缩放因子。
    scaler.step(optimizer)
    scaler.update()

Checkpoint：保存、恢复与安全加载

训练脚本里 checkpoint 的工程目标是两件事：可恢复（resume 时学习率/AMP/随机性都对齐），以及可复用（用于推理或 warmstart）。推荐把 checkpoint 组织成一个 dict：模型 state、优化器 state、调度器 state、AMP scaler state、当前步数/epoch、以及必要的 RNG 状态。

通用 checkpoint 结构

import os
import torch

def save_checkpoint(path, *, model, optimizer, scheduler=None, scaler=None, step=0, epoch=0):
    # 把“恢复训练所需的全部运行状态”一次性固化到一个 dict。
    ckpt = {
        "model": model.state_dict(),
        "optimizer": optimizer.state_dict(),
        "scheduler": scheduler.state_dict() if scheduler else None,
        "scaler": scaler.state_dict() if scaler else None,
        "step": int(step),
        "epoch": int(epoch),
        "rng_state": torch.get_rng_state(),
        "cuda_rng_state": torch.cuda.get_rng_state_all() if torch.cuda.is_available() else None,
    }

    # 先写临时文件，再原子替换正式文件，避免崩溃时留下半截 checkpoint。
    tmp = path + ".tmp"
    torch.save(ckpt, tmp)
    os.replace(tmp, path)  # 原子替换，避免写到一半崩溃留下坏文件

def load_checkpoint(path, *, model, optimizer, scheduler=None, scaler=None, map_location="cpu"):
    # weights_only=True 把反序列化收窄到更安全的状态字典类型集合。
    ckpt = torch.load(path, map_location=map_location, weights_only=True)
    # 先恢复模型和优化器，再恢复可选组件。
    model.load_state_dict(ckpt["model"], strict=True)
    optimizer.load_state_dict(ckpt["optimizer"])
    if scheduler and ckpt.get("scheduler"):
        scheduler.load_state_dict(ckpt["scheduler"])
    if scaler and ckpt.get("scaler"):
        scaler.load_state_dict(ckpt["scaler"])

    # 把步数和 epoch 返回给外层训练循环，继续从正确位置接着跑。
    step = int(ckpt.get("step", 0))
    epoch = int(ckpt.get("epoch", 0))
    return step, epoch

torch.load 的安全边界（weights_only）

torch.load

基于 pickle 反序列化，不能加载不可信来源的文件。加载权重/状态字典时优先使用

weights_only=True

，把反序列化限定在 state_dict 等常见安全类型集合内。

大 checkpoint 在 CPU 内存紧张的环境里还常配合

mmap=True

使用。它的工程意义是尽量避免一次性把整个文件完整拷进用户态内存，从而降低加载峰值。

state = torch.load(
    "model.pt",
    map_location="cpu", # 先在 CPU 侧安全落稳，再把真正需要的张量搬到目标设备
    weights_only=True,  # 把反序列化边界收窄到常见权重/状态类型
    mmap=True,          # 以内存映射方式读取大文件，常用于超大 checkpoint 的低峰值加载
)

Distributed Checkpointing（DCP）

当模型和优化器状态已经是分布式形态时，把所有 rank 的状态先 gather 成单文件再保存，I/O 与 CPU 峰值都会迅速变差。PyTorch 的

torch.distributed.checkpoint

提供了面向分布式训练的 checkpoint 读写接口：每个 rank 写自己那一份分片，恢复时再按当前并行拓扑装回去。

from torch.distributed.checkpoint import (
    DefaultLoadPlanner,
    FileSystemReader,
    FileSystemWriter,
    load,
    save,
)

state = {
    "model": model.state_dict(),         # 当前 rank 负责把自己持有的模型状态写进 DCP 目录
    # 优化器状态一起保存，断点续训时动量与学习率轨迹才能对齐
    "optimizer": optimizer.state_dict(),
}

save(
    state,
    # DCP 会写元数据和分片文件目录，而非单个 .pt 文件
    storage_writer=FileSystemWriter("ckpt_dcp"),
)

state = {
    # 恢复前先准备“接收容器”；load 会把 checkpoint 内容写回这些对象
    "model": model.state_dict(),
    "optimizer": optimizer.state_dict(),
}
load(
    state,
    storage_reader=FileSystemReader("ckpt_dcp"),
    planner=DefaultLoadPlanner(
        # 默认要求 checkpoint 与当前状态完整匹配；warmstart 才考虑放宽
        allow_partial_load=False,
    ),
)

如果 checkpoint 写盘本身会卡住训练步，DCP 还提供

async_save

。工程上通常要配合“前一次异步保存未完成前不再发起下一次保存”的节流策略，避免后台 I/O 线程堆积。

统一 state_dict API：先抽象“该保存什么”

更复杂的 DDP/FSDP 脚本里，推荐先用统一 state_dict API 把“该保存什么状态”整理出来，再交给 DCP 写盘。这样做的好处是：checkpoint 语义先被建模清楚，再决定底层是单文件还是分布式目录。

from torch.distributed.checkpoint.state_dict import (
    get_model_state_dict,
    get_optimizer_state_dict,
    set_model_state_dict,
    set_optimizer_state_dict,
)

state = {
    # 不直接假设当前 model.state_dict() 的形态，改为用统一 API 取“可保存状态”。
    "model": get_model_state_dict(model),
    "optimizer": get_optimizer_state_dict(model, optimizer),
}

# ... 这里可以继续交给 DCP save / async_save ...

# 恢复时反向写回，避免调用方自己手拼不同并行策略下的状态结构。
set_model_state_dict(model, state["model"])
set_optimizer_state_dict(model, optimizer, state["optimizer"])

这层抽象尤其适合 FSDP、DTensor 或未来并行拓扑会变化的项目，因为“状态怎么表示”与“状态怎么写盘”被拆成了两步。

StateDictOptions：跨拓扑恢复前先定义状态形态

统一 state_dict API 解决了“该保存什么”，但跨拓扑恢复还要回答另一个问题：这些状态应当以什么形态被抽取出来。是完整的 full state，还是保持分片形态；是先搬到 CPU，还是直接留在设备上；是否由 rank0 先拿到完整权重，再广播给其它 rank。

StateDictOptions

就是用来定义这层恢复契约的。

from torch.distributed.checkpoint.state_dict import (
    StateDictOptions,
    get_model_state_dict,
    set_model_state_dict,
)

options = StateDictOptions(
    # 先抽成完整模型状态，适合跨并行拓扑 warmstart 或导出给别的系统消费。
    full_state_dict=True,
    # 先把状态落到 CPU，可降低恢复时的 GPU 峰值。
    cpu_offload=True,
    # 由 rank0 持有完整状态后再广播，常用于“单份 checkpoint 恢复到新拓扑”。
    broadcast_from_rank0=True,
)

state = get_model_state_dict(model, options=options)
# ... 可继续交给 DCP save / load，或做格式转换 ...
set_model_state_dict(model, state, options=options)

这类选项的意义不在于“多几个参数”，而在于把恢复语义写明白。只要训练产物可能在单卡评估、不同 GPU 数、不同 rank 布局之间流动，就应该先定义状态形态，再谈底层 checkpoint 文件怎么组织。

async_save：把写盘挪到训练步之外

from torch.distributed.checkpoint import async_save

pending = None

if should_save and pending is None:
    pending = async_save(
        state,
        storage_writer=FileSystemWriter("ckpt_async"),
    )

# 下一次发起保存前，先确认前一次后台写盘已经结束。
if pending is not None and pending.done():
    pending.result()   # 主动抛出后台保存过程中的异常，避免默默失败
    pending = None

异步保存解决的是“step time 不想被 I/O 卡住”。它不会帮你解决磁盘空间、网络文件系统抖动或 checkpoint 保留策略，所以节流与清理机制仍然要自己设计。

torch.compile：编译加速与排错入口

torch.compile

会追踪（trace）你的 Python 代码中的张量计算并生成可优化的图。工程上它的常见收益来自两类：更少的 Python 开销、以及 Inductor 等后端生成的融合 kernel。无法追踪的代码会产生 graph break，这通常是性能损失，而非静默错误。

import torch

# 先把模型放到目标设备，再调用 compile，让捕获到的图直接面向目标后端。
model = model.to("cuda")
model = torch.compile(model)  # 最小改动：只包一次

# 编译和 AMP 可以叠加使用；compile 负责图级优化，autocast 负责精度路径。
with torch.amp.autocast("cuda", dtype=torch.bfloat16):
    out = model(x)

当你需要确认 compile 到底 trace 了什么，可以打开日志来观察 traced graph（用于定位 graph break 与非预期的 Python 分支）。

import torch
torch._logging.set_logs(graph_code=True)

compile + DDP 的包裹顺序

DDP 与

torch.compile

同时使用时，默认整模型路线更适合按 PyTorch 的 DDP note 来写：先包 DDP，再对 DDP 模型做 compile。这样 TorchDynamo 可以利用 DDP bucket 信息做 DDPOptimizer 相关优化，保留更好的通信-计算重叠机会。

import torch
from torch.nn.parallel import DistributedDataParallel as DDP

# 先把真实模型放到当前 rank 对应设备。
model = MyModel().to(device)
# 先包 DDP，让编译器能感知到梯度 bucket 与分布式外壳。
model = DDP(model, device_ids=[local_rank], output_device=local_rank)
# 再 compile 整个 DDP 模型，走官方 DDP note 更偏向的优化路径。
model = torch.compile(model)

如果你核心是只想对某个稳定子模块做区域化编译，那么“先 compile 子模块，再进入 DDP/FSDP 体系”也可能成立。关键不在背口诀，而在先明确你追求的是：默认整模型吞吐，还是对子模块做精细化图控制。

graph break：哪些代码会让 compile 失去收益

graph break 的含义是：编译器在某一段 Python 代码处无法继续追踪张量图，只能先把当前已捕获部分编译掉，回到普通 Python 执行，再从后面重新开始追踪。结果通常核心是“少编了一大段”，表现为速度没有明显提升甚至更慢。

最常见的 graph break 来源包括：

前向里混入与张量无关但频繁执行的 Python 控制流，例如复杂字典操作、字符串拼接、调试打印。
根据张量值做 Python 分支，而非继续保留在张量图里。
每个 step 都改变形状或结构，导致已经编译过的图难以复用。

def forward(self, x):
    x = self.proj(x)
    # 这类 Python 打印本身不一定报错，但会让热点路径更难形成稳定图。
    if self.debug:
        print(x.shape)
    return self.head(x)

排障顺序通常是：

先关闭
```
torch.compile
```
，确认 eager 路径本身正确。
打开图日志或 profiler，确认 break 集中在什么位置。
把热点前向中的 Python 杂质移出，或把不稳定的小段单独保留为 eager。

对于结构很稳定但某几段特别复杂的模型，可以只编译热点子模块，而非整模型“一把包住”。这类做法本质上属于区域化编译（regional compilation）：把最值得优化的几段先稳定下来，再决定是否继续扩大编译范围。

分布式训练：torchrun + DDP 最小可用形态

DDP 的基本形态是“每进程一份模型副本 + 反向时梯度同步”。启动建议使用

torchrun

，它会为每个进程设置

RANK

LOCAL_RANK

WORLD_SIZE

等环境变量，并负责 rendezvous。

启动命令（单机多卡）

torchrun --standalone --nproc_per_node=8 train_ddp.py --config config.yaml

DDP 训练脚本骨架（可直接复用）

import os
import torch
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.utils.data import DataLoader
from torch.utils.data.distributed import DistributedSampler

def ddp_setup():
    # 由 torchrun 提供 RANK / LOCAL_RANK / WORLD_SIZE，NCCL 负责 GPU 间通信。
    dist.init_process_group(backend="nccl")
    local_rank = int(os.environ["LOCAL_RANK"])
    # 每个进程只绑定一张卡，避免误把多个进程都放到 cuda:0。
    torch.cuda.set_device(local_rank)
    return local_rank

def is_rank0():
    # 只有 rank0 负责写 checkpoint / 打印主日志，避免多进程重复写文件。
    return int(os.environ.get("RANK", "0")) == 0

def main():
    # 完成分布式初始化，并构造当前进程对应的 device。
    local_rank = ddp_setup()
    device = torch.device("cuda", local_rank)

    # 每个进程各自持有一份模型副本；DDP 会在反向阶段同步梯度。
    model = MyModel(...).to(device)
    model = DDP(model, device_ids=[local_rank], output_device=local_rank, broadcast_buffers=True)

    # sampler 负责按 rank 切数据，否则多个进程会重复读到同一批样本。
    dataset = MyDataset(...)
    sampler = DistributedSampler(dataset, shuffle=True, drop_last=True)
    loader = DataLoader(dataset, batch_size=32, sampler=sampler, num_workers=8, pin_memory=True)

    # 优化器和 AMP scaler 都在 DDP 包装后初始化，确保参数引用一致。
    optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4)
    scaler = torch.amp.GradScaler("cuda")

    for epoch in range(10):
        # 每轮都更新 sampler 随机种子，确保所有 rank 的 shuffle 同步。
        sampler.set_epoch(epoch)
        model.train()
        for batch in loader:
            # batch 在进入前向前搬到本进程绑定的 GPU。
            batch = {k: v.to(device, non_blocking=True) for k, v in batch.items()}

            optimizer.zero_grad(set_to_none=True)
            with torch.amp.autocast("cuda", dtype=torch.bfloat16):
                loss = model(**batch).loss

            # backward 时 DDP 会自动做梯度 all-reduce。
            scaler.scale(loss).backward()
            scaler.step(optimizer)
            scaler.update()

        if is_rank0():
            # 保存时取出原始 module，避免把 DDP 包装层一并写进权重结构。
            torch.save(model.module.state_dict(), f"model-ep{epoch}.pt")

    # 训练结束后主动销毁进程组，释放 NCCL 资源。
    dist.destroy_process_group()

if __name__ == "__main__":
    main()

DDP 构造参数：真正高频的几个开关

DDP 很少只靠

DDP(model, device_ids=[...])

就结束。真实工程里最常被反复调整的是下面几项，它们直接关系到“会不会多做通信”“是否能兼容动态分支”“显存里梯度长什么样”。

命令/API/函数

broadcast_buffers

说明
控制 rank0 的 buffer 是否在前向时广播到其它 rank。典型 buffer 包括 BatchNorm 的 running mean/var 这类不参与梯度更新、但会影响推理语义的状态。

示例

model = DDP(
    model,
    device_ids=[local_rank],
    output_device=local_rank,
    # 带 BatchNorm 或其它运行时 buffer 的模型通常保留 True，避免各 rank 状态漂移。
    broadcast_buffers=True,
)

命令/API/函数

find_unused_parameters

说明
让 DDP 在反向图里查找“这一步没参与 loss 的参数”。只在动态图、MoE、条件分支这类场景下启用；结构固定的模型尽量保持关闭，避免额外遍历和同步开销。

示例

model = DDP(
    model,
    device_ids=[local_rank],
    # 只有确实存在条件分支/按样本走不同子图时才打开。
    find_unused_parameters=True,
)

命令/API/函数

static_graph

说明
告诉 DDP 每一步参与反向的参数集合与图结构都稳定不变。对固定结构训练，这能减少内部图分析开销，也更适合长时间稳定运行的预训练/微调任务。

示例

model = DDP(
    model,
    device_ids=[local_rank],
    # 只有在前向图和参数参与关系稳定时才启用。
    static_graph=True,
)

命令/API/函数

gradient_as_bucket_view

说明
让参数梯度直接视作通信 bucket 的视图，以减少梯度副本开销。它有助于省显存，但也要求脚本不要依赖“随手对 grad 做就地奇技淫巧”的旧习惯。

示例

model = DDP(
    model,
    device_ids=[local_rank],
    # 想进一步压缩梯度内存时可尝试；改梯度的自定义逻辑要先核对兼容性。
    gradient_as_bucket_view=True,
)

命令/API/函数

bucket_cap_mb

说明
控制梯度 bucket 的大小。bucket 太小会导致 all-reduce 次数变多，太大又会推迟通信启动时机；它本质上是在平衡“通信碎片化”与“通信重叠启动时机”。

示例

model = DDP(
    model,
    device_ids=[local_rank],
    # 大模型通信调优时常会显式试几个桶大小，而非完全沿用默认值。
    bucket_cap_mb=50,
)

命令/API/函数

register_comm_hook

说明
为 DDP 梯度通信注册自定义 hook，例如 fp16 梯度压缩、PowerSGD 或你自己的 bucket 处理逻辑。它属于高级优化位点，适合通信已经明显成为瓶颈时再动。

示例

from torch.distributed.algorithms.ddp_comm_hooks.default_hooks import fp16_compress_hook

model = DDP(model, device_ids=[local_rank])
# 把 bucket 梯度先做 fp16 压缩再通信，牺牲部分数值冗余换带宽。
model.register_comm_hook(state=None, hook=fp16_compress_hook)

新版 DDP 语义补充：init_sync、forward_sync_buffers、skip_all_reduce_unused_params

旧经验里常把 DDP 的关键参数概括成

broadcast_buffers

、

find_unused_parameters

和

static_graph

。但在新版实现里，还有三项更贴近工程语义的开关：初始化是否先同步一次完整状态、前向时是否同步 buffer、以及 unused 参数是否直接跳过 all-reduce。

model = DDP(
    model,
    device_ids=[local_rank],
    output_device=local_rank,
    # 启动时先做一次参数/缓冲同步，保证所有 rank 从同一份初始权重起跑。
    init_sync=True,
    # 前向阶段同步运行时 buffer；对带 BatchNorm 或其它状态型 buffer 的模型更稳。
    forward_sync_buffers=True,
    # 只有当所有 rank 的 unused 参数集合恒定一致时，这个优化才安全。
    skip_all_reduce_unused_params=False,
)

这三项分别解决三类问题。

init_sync

解决“各 rank 初始状态是否真的一致”；

forward_sync_buffers

解决“运行时 buffer 会不会逐步漂移”；

skip_all_reduce_unused_params

解决“未参与本轮反向的参数还要不要同步”。最后这一项要格外保守，因为只要不同 rank 的 unused 参数集合不一致，就有卡死风险。

no_sync：梯度累积时避免白做 all-reduce

梯度累积下，如果仍然每个 micro-step 都让 DDP 正常反向，同步就会发生在每一次

backward()

上，前 $N-1$ 个 micro-step 的 all-reduce 都是白做。

model.no_sync()

的作用，就是把这些中间步的通信推迟到最后一次真正需要更新前再发生。

accum_steps = 8

for step, batch in enumerate(loader):
    batch = {k: v.to(device, non_blocking=True) for k, v in batch.items()}
    is_last_micro = (step + 1) % accum_steps == 0

    if is_last_micro:
        # 最后一个 micro-step 正常反向；这一步才执行真正的梯度同步。
        with torch.amp.autocast("cuda", dtype=torch.bfloat16):
            loss = model(**batch).loss / accum_steps
        scaler.scale(loss).backward()
    else:
        # 中间 micro-step 只累计本地梯度，不触发 all-reduce。
        with model.no_sync():
            with torch.amp.autocast("cuda", dtype=torch.bfloat16):
                loss = model(**batch).loss / accum_steps
            scaler.scale(loss).backward()

    if is_last_micro:
        scaler.step(optimizer)
        scaler.update()
        optimizer.zero_grad(set_to_none=True)

如果你的训练已经使用了高阶框架（例如 Accelerate、Lightning、DeepSpeed），需要先确认框架是否已经替你做了这件事。手工再包一层

no_sync()

，容易把同步节奏搞乱。

torchrun 多机 rendezvous 参数

单机时

--standalone

足够；一旦进入多机，决定“能不能稳定拉起”的是 rendezvous 配置。关键参数包括：节点数、当前节点序号、主节点地址与端口，以及弹性重启相关设置。

torchrun \
  --nnodes=2 \
  --nproc_per_node=8 \
  --node_rank=0 \
  --rdzv_backend=c10d \
  --rdzv_endpoint=10.0.0.1:29500 \
  --max_restarts=0 \
  train_ddp.py --config config.yaml

排障时，先确认三件事：

所有节点看到的
```
--rdzv_endpoint
```
完全一致。
```
--node_rank
```
从 $0$ 开始连续编号，没有重复也没有跳号。
防火墙、容器网络、作业调度器没有把 rendezvous 端口挡住。

脚本组织方式（训练/推理共用）

可维护性来自“把易变部分隔离出来”：模型定义、数据定义、运行时策略（AMP/compile/DDP）、以及 I/O（checkpoint/logging）。一个简单但可扩展的组织方式如下：

project/
  src/
    models.py        # nn.Module 定义与构建函数
    data.py          # Dataset/Tokenizer/Collate
    train_step.py    # 单步训练逻辑（支持 AMP/compile）
    ddp.py           # 分布式初始化与 rank 工具函数
    ckpt.py          # save/load_checkpoint（含 weights_only 策略）
  train.py           # 单机/单卡入口
  train_ddp.py       # torchrun 入口

Transformers 详解

Transformers 在工程上提供了一套可组合的入口：模型与 tokenizer/processor 的加载与保存（

from_pretrained

save_pretrained

）、架构无关的 Auto* 工厂、训练循环（

Trainer

TrainingArguments

）、以及推理生成（

generate

）与对话模板（Chat Template）。这一节只讲“如何编程接入与部署落地”，不展开算法原理。

安装与最小依赖

pip install -U transformers

# 需要 device_map="auto" / offload / 分布式等能力时通常还需要
pip install -U accelerate

from_pretrained / save_pretrained（装载与交付）

from_pretrained 负责把“模型仓库或本地目录”解析成 Python 对象；save_pretrained 把对象序列化回一个可复用的目录。工程上把这个目录当作“可交付模型包”（artifact），它应当可被推理服务直接加载。

从 Hub 或本地目录加载

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 同一入口既能接 Hub repo id，也能接本地导出的模型目录。
model_id_or_path = "Qwen/Qwen3-0.6B"   # 也可以是 ./models/prod 这类本地目录

# tokenizer 和模型都从同一目录加载，避免词表版本漂移。
tok = AutoTokenizer.from_pretrained(model_id_or_path, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
  model_id_or_path,
  torch_dtype="auto",
  # device_map="auto" 让 accelerate 自动做设备放置和必要的 offload。
  device_map="auto",          # 需要 accelerate
)

# 生成前先切到 eval，并关闭梯度，避免无意义的显存开销。
model.eval()
with torch.inference_mode():
  # tokenizer 的返回值本身就是模型 forward/generate 所需的张量字典。
  out = model.generate(**tok("Hello", return_tensors="pt").to(model.device), max_new_tokens=32)
  print(tok.decode(out[0], skip_special_tokens=True))

保存到本地目录（模型包）

from pathlib import Path
out_dir = Path("models/registry/model_v0001")
out_dir.mkdir(parents=True, exist_ok=True)

# safe_serialization=True 会把权重写成 safetensors，适合作为部署产物默认格式。
model.save_pretrained(out_dir, safe_serialization=True)  # 推荐 safetensors
# tokenizer 也必须随模型一并导出；缺词表或 special tokens 会直接破坏推理语义。
tok.save_pretrained(out_dir)

本地权重目录结构（读写约定）

Transformers 的加载逻辑依赖“目录里有哪些标准文件”。同一个目录既可以来自 Hub 下载缓存，也可以来自

save_pretrained

导出。

model_dir/
  config.json
  generation_config.json                # 可选：生成参数默认值
  model.safetensors                     # 或 pytorch_model.bin
  model.safetensors.index.json          # 可选：分片索引（大模型常见）
  model-00001-of-00002.safetensors      # 可选：分片权重文件
  tokenizer.json                        # fast tokenizer 常见
  tokenizer_config.json
  special_tokens_map.json
  vocab.json / merges.txt               # BPE 类 tokenizer 常见
  spiece.model                          # SentencePiece tokenizer 常见

离线加载与缓存目录

离线/内网环境的最小做法是提前把模型仓库下载到本地目录，然后用本地路径调用

from_pretrained

。需要让缓存落到指定盘符时，优先设置 Hugging Face Hub 的缓存环境变量（例如

HF_HUB_CACHE

HF_HOME

）。

export HF_HOME=/data/hf
export HF_HUB_CACHE=/data/hf/hub

tok = AutoTokenizer.from_pretrained("./model_dir", local_files_only=True)
model = AutoModelForCausalLM.from_pretrained("./model_dir", local_files_only=True)

trust_remote_code、revision 与可审计加载

当模型仓库包含自定义 Python 实现，而该实现不在 Transformers 内建模型类集合里时，加载阶段往往需要显式打开

trust_remote_code=True

。这核心是在允许仓库里的 Python 代码参与本地执行，因此应同时固定 revision 或 commit，避免同一个 repo name 在不同时间拉到不同行为的代码。

from transformers import AutoConfig, AutoModelForCausalLM

# 先单独拿 config，是为了把“远端代码 + revision”这类审计边界先固定下来。
cfg = AutoConfig.from_pretrained(
    "org/custom-model",
    # 固定到具体 revision，避免远端代码更新后加载行为漂移。
    revision="8d4c9d7",
    # 允许仓库里的自定义 Python 类参与实例化；
    # 只有源码已经审过、且来源可信时才打开。
    trust_remote_code=True,
)

model = AutoModelForCausalLM.from_pretrained(
    "org/custom-model",
    # 复用上面已经审过并固定 revision 的配置对象，
    # 避免“config 来自一个版本，权重来自另一个版本”。
    config=cfg,
    revision="8d4c9d7",      # 模型权重与配置都固定到同一提交
    trust_remote_code=True,  # 只在审计过源码的受控环境里启用
    torch_dtype="auto",      # 按仓库推荐 dtype 落地，减少手工指定精度带来的不兼容
    device_map="auto",       # 原型阶段先自动分配设备；正式部署再切到显式映射
)

线上环境更稳的做法通常是：先在受控机器上把模型拉到本地、审计并冻结目录，再由服务侧只加载本地目录而非直接联网拉取。

Auto* 家族（统一入口）

Auto* 是“按配置自动选择具体实现”的工厂。工程上把它当作跨架构的稳定入口：你不需要在代码里硬编码某个模型类名，尤其是在需要频繁替换基座模型时。

命令/API/函数

AutoConfig

说明
读取/改写模型配置（层数、rope、token id 等）

示例

from transformers import AutoConfig
cfg = AutoConfig.from_pretrained("Qwen/Qwen3-0.6B")

命令/API/函数

AutoTokenizer

说明
加载 tokenizer（文本 → input_ids/attention_mask）

示例

from transformers import AutoTokenizer
tok = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B", use_fast=True)

命令/API/函数

AutoProcessor

说明
多模态 processor（文本+图像/音频等统一预处理）

示例

from transformers import AutoProcessor
proc = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")

命令/API/函数

AutoModel

说明
只要 backbone 表示（不带任务头）

示例

from transformers import AutoModel
m = AutoModel.from_pretrained("bert-base-uncased")

命令/API/函数

AutoModelForCausalLM

说明
Decoder-only 生成（LLM 推理/微调）

示例

from transformers import AutoModelForCausalLM
m = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-0.6B")

命令/API/函数

AutoModelForSeq2SeqLM

说明
Encoder-Decoder 生成（翻译、摘要等）

示例

from transformers import AutoModelForSeq2SeqLM
m = AutoModelForSeq2SeqLM.from_pretrained("google-t5/t5-small")

命令/API/函数

AutoModelForSequenceClassification

说明
文本分类

示例

from transformers import AutoModelForSequenceClassification
m = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=2)

命令/API/函数

AutoModelForTokenClassification

说明
序列标注（NER/词性标注等）

示例

from transformers import AutoModelForTokenClassification
m = AutoModelForTokenClassification.from_pretrained("bert-base-uncased", num_labels=9)

Tokenizer 与 Processor（输入标准化）

Tokenizer/Processor 把“原始输入”变成模型可消费的张量字典。文本模型通常用 tokenizer；视觉/语音/多模态模型往往用 processor，它内部可能组合 tokenizer + image/audio processor。

Tokenizer 的返回结构

inputs = tok(
  ["a", "b"],
  padding=True,
  truncation=True,
  max_length=128,
  return_tensors="pt",
)
# inputs 通常包含：input_ids, attention_mask（以及 token_type_ids 等，视模型而定）

Processor 的典型用法（以 CLIP 为例）

from PIL import Image
import requests
from transformers import AutoProcessor, AutoModel

# processor 统一封装图像预处理和文本 tokenization，保证两路输入对齐
proc = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")
# CLIP 的裸 AutoModel 输出图文表示，可继续做相似度计算
model = AutoModel.from_pretrained("openai/clip-vit-base-patch32")

img = Image.open(
  requests.get(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/cat.jpg",
    stream=True,
  ).raw
)  # 直接从远端流里读图，示例重点放在多模态接线而非本地文件处理

inputs = proc(
  text=["a photo of a cat"],  # CLIP 推理时文本提示和图像通常成对出现
  images=[img],
  return_tensors="pt",        # 返回 PyTorch tensor，才能直接喂给 model(**inputs)
  padding=True,               # 文本长度不一致时由 processor 统一补齐
)
out = model(**inputs)  # out 里包含图像与文本 embedding，可继续算相似度或做检索

Trainer / TrainingArguments（训练循环）

Trainer 把训练循环、评估、保存 checkpoint、日志与分布式协同做成统一入口。工程上最关键的是把 TrainingArguments 固化成可追溯的配置（写入 run_meta.json 或随 checkpoint 一起存档），并严格区分 “best checkpoint” 与 “last checkpoint”。

训练控制高频 API

命令/API/函数

EarlyStoppingCallback

说明
当评估指标持续不改善时提前结束训练。它依赖

eval_strategy

、

metric_for_best_model

与

load_best_model_at_end

形成闭环。

示例

from transformers import EarlyStoppingCallback

callbacks = [
    EarlyStoppingCallback(
        # 连续 3 次评估都没有实质改善才停；
        # 这个数字应该与 eval_steps / eval_strategy 一起理解。
        early_stopping_patience=3,
        # 0.0 表示“只要更好一点就算改善”；
        # 若指标噪声很大，可以抬高阈值避免把抖动误判成提升。
        early_stopping_threshold=0.0,
    )
]

命令/API/函数

trainer.train(resume_from_checkpoint=...)

说明
从最近一次或指定 checkpoint 恢复训练。恢复对象包括模型权重、optimizer、scheduler 与 trainer 状态。

示例

trainer.train(resume_from_checkpoint="out_sst2/checkpoint-1200")

命令/API/函数

trainer.push_to_hub

说明
把训练好的模型包、tokenizer 与元数据直接推送到 Hub，适合把“训练完成 → 共享/部署制品”做成固定交付动作。

示例

trainer.push_to_hub(commit_message="ship best checkpoint")

HfArgumentParser：把训练脚本做成 dataclass CLI

Transformers 官方 example 几乎都把训练脚本写成“若干 dataclass +

HfArgumentParser

”。这种写法的价值核心是把命令行、JSON 配置文件与 Python 对象统一到同一套字段定义上，便于实验复现、配置审阅与批量跑任务。

from dataclasses import dataclass, field
from transformers import HfArgumentParser, TrainingArguments

@dataclass
class ScriptArguments:
    # 脚本自定义参数单独放这里，和 HF 标准训练参数解耦
    model_name_or_path: str = field(default="distilbert-base-uncased")
    # 让“训练入口”直接知道该加载哪份数据
    dataset_name: str = field(default="glue")
    # 同一数据集常有多个子配置，显式列出来更可复现
    dataset_config: str = field(default="sst2")

parser = HfArgumentParser((ScriptArguments, TrainingArguments))
# CLI 会自动映射到 dataclass 字段，类型转换也由 parser 处理
script_args, training_args = parser.parse_args_into_dataclasses()

最小训练骨架（分类任务）

import numpy as np
from datasets import load_dataset
from transformers import (
  AutoTokenizer,
  AutoModelForSequenceClassification,
  DataCollatorWithPadding,
  Trainer,
  TrainingArguments,
)

# 先取一个标准数据集，把重点放在 Trainer 的工程接入方式上。
ds = load_dataset("glue", "sst2")
tok = AutoTokenizer.from_pretrained("distilbert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=2)

def tokenize(batch):
  # tokenize 只做输入标准化，不在这里引入 label 或 padding 逻辑。
  return tok(batch["sentence"], truncation=True)

# batched=True 能让 tokenizer 一次处理一批样本，减少 Python 开销。
ds = ds.map(tokenize, batched=True)
# 动态 padding 放到 collator 层，避免预处理阶段把所有样本 pad 到同一长度。
collator = DataCollatorWithPadding(tokenizer=tok)

# TrainingArguments 把评估、保存、日志和 best checkpoint 选择集中到一个配置对象里。
args = TrainingArguments(
  output_dir="out_sst2",
  per_device_train_batch_size=32,
  per_device_eval_batch_size=64,
  num_train_epochs=1,
  evaluation_strategy="steps",
  eval_steps=200,
  save_strategy="steps",
  save_steps=200,
  save_total_limit=3,
  load_best_model_at_end=True,
  metric_for_best_model="eval_loss",
  greater_is_better=False,
  report_to="none",
)

def compute_metrics(eval_pred):
  # Trainer 会把 logits 和 labels 打包给 compute_metrics，这里只保留最小 acc 示例。
  logits, labels = eval_pred
  preds = np.argmax(logits, axis=-1)
  return {"acc": (preds == labels).mean().item()}

# Trainer 把模型、数据、padding 规则和 metric 计算统一到同一个训练入口。
trainer = Trainer(
  model=model,
  args=args,
  train_dataset=ds["train"],
  eval_dataset=ds["validation"],
  tokenizer=tok,
  data_collator=collator,
  compute_metrics=compute_metrics,
)
# 调用 train() 后，Trainer 会自动接管训练循环、评估、保存和日志。
trainer.train()

官方 example 的恢复套路：get_last_checkpoint + save_metrics

Transformers 官方 example 脚本的共同特点是：它们不仅调用一次

trainer.train()

就结束，还把“发现已有 checkpoint”“决定从哪里恢复”“把 metrics 写进磁盘”“把 trainer 状态单独持久化”做成固定套路。这样训练目录才既能续跑，又能给后续回归分析留下证据。

import os

from transformers.trainer_utils import get_last_checkpoint

# 先看 output_dir 里是否已经存在未完成训练留下的 checkpoint。
last_checkpoint = None
if os.path.isdir(args.output_dir):
    last_checkpoint = get_last_checkpoint(args.output_dir)

# 用户显式指定的恢复点优先级最高；
# 否则才回退到“自动发现的最后一个 checkpoint”。
resume_ckpt = training_args.resume_from_checkpoint or last_checkpoint

# train_result.metrics 是训练阶段的聚合指标，包含 loss 以及 Trainer 汇总出的其它统计量。
train_result = trainer.train(resume_from_checkpoint=resume_ckpt)
metrics = train_result.metrics
# 把样本数也写进去，后续比对不同运行时才知道这些指标基于多大数据规模。
metrics["train_samples"] = len(train_dataset)

# log_metrics 负责打印/上报；
# save_metrics 负责把指标固化到 output_dir 下的 JSON 文件。
trainer.log_metrics("train", metrics)
trainer.save_metrics("train", metrics)
# save_state 会保存 trainer_state.json 等运行元数据，
# 其中包括 global_step、最佳 checkpoint 路径和随机状态摘要。
trainer.save_state()
# save_model 则负责导出当前模型包；它和 save_state 并非一回事。
trainer.save_model(training_args.output_dir)

save_metrics

、

save_state

和

save_model

对应三种不同产物：指标、训练状态、模型制品。把它们混成“反正都保存一下”会让训练目录变得难以审计。

大评估集的显存治理：eval_on_start、eval_accumulation_steps、preprocess_logits_for_metrics

Trainer 做评估时，真正容易炸显存的环节常常是“把所有 logits 攒起来再交给

compute_metrics

”。官方脚本里更稳的做法是把这三件事配合起来：训练前先做一次 sanity eval，评估阶段分批把张量搬回 CPU，并在进入 metric 计算前先把巨大的 logits 压缩成更小的统计表示。

import evaluate
import torch.nn.functional as F
from transformers import Trainer, TrainingArguments

metric = evaluate.load("accuracy")

def my_loss_fn(outputs, labels, num_items_in_batch):
    logits = outputs["logits"]
    # reduction='sum' 后再除以真实样本数，避免最后一个小 batch 改变 loss 标尺。
    loss = F.cross_entropy(logits, labels, reduction="sum")
    return loss / num_items_in_batch

def preprocess_logits_for_metrics(logits, labels):
    # 评估阶段不必把整块 logits 都搬到 CPU；
    # 如果指标只看 argmax，这里先压成类别 id，可显著降低内存与通信量。
    if isinstance(logits, tuple):
        logits = logits[0]
    return logits.argmax(dim=-1)

def compute_metrics(eval_preds):
    preds, labels = eval_preds
    return metric.compute(predictions=preds.reshape(-1), references=labels.reshape(-1))

args = TrainingArguments(
    output_dir="out_eval_safe",
    eval_strategy="epoch",
    # 开训前先跑一遍评估，尽早发现标签对齐、metric 键名或数据切分问题。
    eval_on_start=True,
    # 分批把评估结果从 GPU 挪回 CPU，避免整轮评估的中间张量长期堆在显存里。
    eval_accumulation_steps=16,
)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=train_ds,
    eval_dataset=eval_ds,
    compute_loss_func=my_loss_fn,                   # 把损失定义显式化，适合加权/自定义任务头
    preprocess_logits_for_metrics=preprocess_logits_for_metrics,
    compute_metrics=compute_metrics,
)

这组配置的工程价值很高。

eval_on_start=True

解决的是“脚本刚启动就知道评估链路通不通”；

eval_accumulation_steps

解决的是“评估张量怎么分批落回 CPU”；

preprocess_logits_for_metrics

解决的是“没必要把整块 logits 都存下来”。三者配合后，大评估集上的 Trainer 稳定性会明显好很多。

collator 的分工：padding、MLM、Seq2Seq 标签处理

数据集预处理阶段负责“样本级转换”，collator 负责“把一批样本组装成可喂给模型的 batch”。这层分工非常关键：padding、mask 构造、label pad id 处理都应该放在 collator，而非硬塞进

Dataset.map

。

命令/API/函数

default_data_collator

说明
几乎不做智能处理，只把同名字段堆起来。适合样本长度已经统一、或数据本身就是张量的任务。

示例

from transformers import default_data_collator

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_ds,
    # 数据已经预先 pad 好时，用最朴素的拼 batch 方式即可
    data_collator=default_data_collator,
)

命令/API/函数

DataCollatorForLanguageModeling

说明
语言模型任务的专用 collator。对 MLM 会随机打 mask；对 Causal LM 则常用于统一 padding 与 label 对齐。

示例

from transformers import DataCollatorForLanguageModeling

collator = DataCollatorForLanguageModeling(
    tokenizer=tok,
    mlm=False,   # decoder-only Causal LM 训练时不做 masked LM，改为直接预测下一个 token
)

命令/API/函数

DataCollatorForSeq2Seq

说明
Encoder-Decoder 任务的专用 collator，会同时处理 encoder 输入与 decoder labels，并把 label padding 位置改成

-100

以避开 loss。

示例

from transformers import DataCollatorForSeq2Seq

collator = DataCollatorForSeq2Seq(
    tokenizer=tok,
    model=model,            # 传入模型后，collator 能结合模型配置处理 decoder 侧细节
    label_pad_token_id=-100 # 交叉熵会忽略 -100，对变长目标序列尤为关键
)

Seq2SeqTrainer：摘要、翻译、问答式生成不要硬套普通 Trainer

摘要、翻译这类 Encoder-Decoder 任务，评估时往往需要真的跑一次

generate()

再计算 ROUGE/BLEU。此时更合适的入口是

Seq2SeqTrainer

与

Seq2SeqTrainingArguments

，因为它们把“验证阶段是否调用生成”做成了显式配置。

from transformers import DataCollatorForSeq2Seq
from transformers import Seq2SeqTrainer, Seq2SeqTrainingArguments

args = Seq2SeqTrainingArguments(
    output_dir="out_t5_sum",
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    # 验证阶段直接调用 model.generate()，而非只看 teacher forcing loss
    predict_with_generate=True,
    generation_max_length=128,  # 限制验证生成长度，防止评估阶段拖垮吞吐
    eval_strategy="epoch",
    save_strategy="epoch",
)
trainer = Seq2SeqTrainer(
    model=model,
    args=args,
    train_dataset=train_ds,
    eval_dataset=eval_ds,
    # 新版本文档逐步把 tokenizer/processor 收敛到 processing_class 语义
    processing_class=tok,
    data_collator=DataCollatorForSeq2Seq(tokenizer=tok, model=model),
)

CLM 预处理：group_texts 与 block_size

做 Causal LM 预训练或继续预训练时，数据并不总是一条样本对应一条训练序列。官方 example 更常见的做法是先 tokenize，再把多个短文本拼成长 token 流，按固定

block_size

切块。这一步决定了上下文利用率，也决定了 label 的构造方式。

def group_texts(examples, block_size=1024):
    # 先把一批 token 列表拼成连续 token 流，减少短样本浪费
    concatenated = {k: sum(examples[k], []) for k in examples.keys()}
    total_length = len(concatenated["input_ids"])
    # 只保留能整除 block_size 的部分，避免尾部残块长度不齐
    total_length = (total_length // block_size) * block_size

    result = {
        k: [t[i : i + block_size] for i in range(0, total_length, block_size)]
        for k, t in concatenated.items()
    }
    # Causal LM 最常见的数据约定是 labels 和 input_ids 同形，由模型内部完成右移
    result["labels"] = result["input_ids"].copy()
    return result

这类训练里真正的“右移一位”通常由模型内部 loss 逻辑完成，因此数据侧只需要准备与

input_ids

形状一致的

labels

。不要在数据预处理阶段再手工 shift 一次，否则会错位两次。

断点续训与导出

# 断点续训：resume_from_checkpoint 可以传具体 checkpoint 路径
# 这里进入真正的续训流程；Trainer 会同时恢复 optimizer/scheduler/trainer_state。
trainer.train(resume_from_checkpoint=True)

# 导出最终模型包（建议使用 best checkpoint 对应的权重）
# save_model 会把当前模型权重写成标准 Transformers 模型包结构。
trainer.save_model("models/registry/model_v0001")
# tokenizer 需要和模型目录保持同一路径，部署侧才能直接 from_pretrained。
tok.save_pretrained("models/registry/model_v0001")

best checkpoint、callback 与 early stopping

Trainer 的保存逻辑至少有三种语义：最近一次保存的

last checkpoint

，用于恢复训练；指标最优的

best checkpoint

，用于上线或离线评测；以及人为指定导出的最终目录。不要把它们混成一个概念，否则“能续训”与“该上线谁”会互相污染。

from transformers import EarlyStoppingCallback, Trainer, TrainingArguments

args = TrainingArguments(
    output_dir="out_cls",
    per_device_train_batch_size=16,
    per_device_eval_batch_size=32,
    num_train_epochs=10,              # 上限给足，真正何时停交给 metric + callback 判定
    eval_strategy="epoch",            # 每轮评估一次，适合样本量中等的分类微调
    save_strategy="epoch",            # 保存节奏和评估节奏对齐，best model 才有明确参照点
    load_best_model_at_end=True,      # 训练结束后自动把内存中的权重切回 best checkpoint
    metric_for_best_model="f1",       # 明确“谁定义最好”；不要默认把 last 当 best
    greater_is_better=True,           # F1 越大越好；loss/perplexity 这类则应设为 False
    save_total_limit=2,               # 保留少量近期 checkpoint，避免长训练把磁盘写爆
)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=train_ds,
    eval_dataset=eval_ds,
    tokenizer=tok,
    data_collator=collator,
    compute_metrics=compute_metrics,  # compute_metrics 必须返回包含 "f1" 的字典
    callbacks=[
        EarlyStoppingCallback(
            early_stopping_patience=3,   # 连续 3 次评估不改善再停，避免因一次抖动误停
            early_stopping_threshold=0.0 # 只有真正提升才算改善
        )
    ],
)

如果任务真正关心的是生成质量而非 teacher forcing loss，

metric_for_best_model

应切到 ROUGE、BLEU、F1、EM 之类更贴近业务目标的指标，而非机械盯住

eval_loss

。

generate 与 GenerationConfig（推理生成）

generate 把“下一 token 分布 → 序列”的解码策略（贪心、beam、采样等）封装成统一入口。工程上建议把生成策略固化为

GenerationConfig

（或写入服务端配置），避免在业务代码里散落大量参数。

最小生成示例

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

# 分词器必须和生成模型共享同一套 special tokens 与词表
tok = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B")
model = AutoModelForCausalLM.from_pretrained(
  "Qwen/Qwen3-0.6B",
  torch_dtype="auto",  # 让库优先采用权重推荐的加载精度，减少手工选 dtype 带来的不确定性
  device_map="auto",   # 对小模型和原型验证来说最省事；更复杂部署再改显式映射
)

gen_cfg = GenerationConfig(
  max_new_tokens=128,  # 限制新生成 token 数，防止测试脚本因为意外长输出拖慢或打爆上下文
  # 打开采样后，temperature/top_p 这类随机性参数才会真正参与解码。
  do_sample=True,
  temperature=0.7,     # 略低于 1 的温度更稳，适合作为“有变化但不过度发散”的默认值
  top_p=0.9,           # nucleus sampling 砍掉长尾 token，常与 temperature 联合使用
)

# 整个 batch 搬到模型所在设备，避免 device mismatch
inputs = tok("Explain KV cache in one paragraph.", return_tensors="pt").to(model.device)
with torch.inference_mode():
  # 把解码策略显式放进 generation_config，便于复用与上线固化
  out = model.generate(**inputs, generation_config=gen_cfg)

print(tok.decode(out[0], skip_special_tokens=True))

常见参数与含义（部署侧最常用）

参数	作用	工程建议
max_new_tokens	限制生成 token 数	优先用它而非 max_length （后者包含 prompt token）。
do_sample	采样开关	需要稳定输出时关闭采样，并把 temperature=0 或直接不用 temperature。
temperature / top_p	采样随机性与截断	线上服务通常把它们做成可配置策略，按业务风险控制随机性。
eos_token_id / pad_token_id	结束与 padding 的 token id	Decoder-only 模型常需要显式设置 pad_token（一般等于 eos_token）。

GenerationConfig 作为可交付配置

GenerationConfig

可以作为独立配置保存和加载。这样“模型权重”与“默认生成策略”就能一起版本化，服务端也能明确区分“模型默认值”和“请求级覆盖值”。

from transformers import GenerationConfig

gen_cfg = GenerationConfig(
    max_new_tokens=256,   # 把线上默认回复长度写进配置，而非散落在业务代码
    # 这三项一起定义“服务默认输出风格”。
    do_sample=True,
    temperature=0.7,
    top_p=0.9,
)

# 单独把生成策略保存到模型目录；后续 from_pretrained 会自动读取它。
gen_cfg.save_pretrained("models/registry/model_v0001")

# 服务或离线脚本再次加载时，先恢复团队约定的默认策略。
gen_cfg = GenerationConfig.from_pretrained("models/registry/model_v0001")
# 然后再做请求级覆盖；
# 这里改成 128 的含义是“本次调用比服务默认值更保守”，而非修改模型默认配置文件。
gen_cfg.max_new_tokens = 128

推理栈里常见的优先级顺序是：请求级参数覆盖

GenerationConfig

，而

GenerationConfig

再覆盖模型内建默认值。把这层关系说清楚，线上回归时才知道到底是谁改了输出风格。

streamer：把 generate 接到 CLI、WebSocket 或 SSE

generate()

默认等整段输出完成后才返回。做交互式 CLI、Web UI 或流式 API 时，更常见的写法是把 token 增量交给 streamer 对象，再由外层线程或事件循环持续消费。

命令/API/函数

TextStreamer

说明
最简单的 stdout streamer，适合命令行 demo 或快速验证 chat template 与生成配置是否正常。

示例

from transformers import TextStreamer

streamer = TextStreamer(
    tok,
    skip_prompt=True,         # 交互场景通常不希望把原 prompt 再打印一遍
    skip_special_tokens=True, # 避免把 eos、role token 直接暴露到终端输出
)
_ = model.generate(**inputs, max_new_tokens=128, streamer=streamer)

命令/API/函数

TextIteratorStreamer

说明
把增量文本暴露成可迭代对象，适合接到 WebSocket、SSE 或自定义前端事件流。

示例

from threading import Thread
from transformers import TextIteratorStreamer

streamer = TextIteratorStreamer(tok, skip_prompt=True, skip_special_tokens=True)
thread = Thread(
    target=model.generate,
    # generate 放后台线程跑，前台持续取流
    kwargs={**inputs, "max_new_tokens": 128, "streamer": streamer},
)
thread.start()

for chunk in streamer:
    # Web 服务里这里通常会改成 yield SSE / WebSocket send
    print(chunk, end="", flush=True)

thread.join()

命令/API/函数

AsyncTextIteratorStreamer

说明
面向 async 应用，把流式输出对接到异步事件循环。适合 FastAPI、Starlette 这类 async 服务框架。

示例

from transformers import AsyncTextIteratorStreamer

# async 服务用它更容易接 Response streaming
streamer = AsyncTextIteratorStreamer(tok, skip_prompt=True, skip_special_tokens=True)

streamer 解决的是“输出如何增量交付”，不改变底层解码算法。真正接服务时，还需要额外处理取消请求、超时、中断清理和背压。

Chat Template（对话模板接入）

Chat Template 把“messages 列表”转换成模型需要的 prompt 格式，并确保 role token、分隔符与结束符一致。工程上建议统一通过

apply_chat_template

生成输入，避免手工拼 prompt 导致格式漂移。

chat template 的存储位置与模板本质

在 Hugging Face 生态里，chat template 往往直接存放在 tokenizer 配置中，本质上是一段模板字符串，很多模型实际使用的是 Jinja2 风格模板。它定义 role 顺序、system/user/assistant 分隔符、工具调用片段、结束符以及是否在末尾补

assistant

起始标记。

# 模板通常直接挂在 tokenizer 上；同一模型不同 tokenizer 版本可能对应不同模板
template = tok.chat_template
# 排查输出格式漂移时，第一步常常就是确认线上模板和训练时是否同一份
print(template[:300])

apply_chat_template + generate（最小骨架）

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# chat template、special tokens 和词表都由 tokenizer 定义
tok = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B")
model = AutoModelForCausalLM.from_pretrained(
  "Qwen/Qwen3-0.6B",
  torch_dtype="auto",  # 优先沿用模型推荐 dtype，把示例重心放在模板接入而非精度兼容
  device_map="auto",   # 小模型/原型验证可直接自动分配设备
)

messages = [
  {"role": "system", "content": "You are a precise assistant."},
  {"role": "user", "content": "Summarize what gradient accumulation is."},
]

input_ids = tok.apply_chat_template(
  messages,
  # 在末尾补上 assistant 起始标记，让 generate 从正确的角色位置继续
  add_generation_prompt=True,
  return_tensors="pt",         # 直接返回 tensor，省去再手工编码一次
).to(model.device)

with torch.inference_mode():
  # 模板负责 prompt 结构，generate 只负责补全 assistant 回复
  out = model.generate(input_ids, max_new_tokens=128)

print(tok.decode(out[0], skip_special_tokens=True))

apply_chat_template 的返回值与工具变量

新版本 Transformers 中，

apply_chat_template

不再只是返回

input_ids

，而更倾向返回一个完整的 batch 结构。这样可以把

attention_mask

、多模态输入和模板相关字段一起传给

generate()

。如果模型模板支持工具调用，模板上下文里还可能读取

tools

之类的变量。

formatted = tok.apply_chat_template(
    messages,
    # 让模板渲染和 tokenization 一次完成，避免手工 split/join 再编码
    tokenize=True,
    add_generation_prompt=True,  # 让输出停在 assistant 起始位置，方便 generate 直接续写
    return_tensors="pt",
)
# 新版本更适合把它当作完整 BatchEncoding 处理，而非只拿 input_ids
formatted = formatted.to(model.device)

continue_final_message：让模型续写最后一条消息

默认的

add_generation_prompt=True

语义是“在模板末尾再补一个 assistant 起始标记，然后让模型开始回答”。有些任务希望模型直接续写最后一条未完成消息，并不需要新开一条 assistant 消息，例如 JSON 片段补全、代码补全或工具参数半成品续写。此时更合适的入口是

continue_final_message=True

。

messages = [
    {"role": "user", "content": "Return a JSON object with city and weather."},
    # 最后一条 assistant 消息是半成品；希望模型直接从这里往后补，而非重新起一条 assistant。
    {"role": "assistant", "content": '{"city": "Paris", "weather": "'},
]

batch = tok.apply_chat_template(
    messages,
    tokenize=True,
    continue_final_message=True,  # 表示“续写最后一条消息”
    return_dict=True,
    return_tensors="pt",
).to(model.device)

这和

add_generation_prompt=True

是两套不同语义，通常不应同时使用。前者是在模板末尾新开一个 assistant 轮次，后者是在已有消息内部继续补全。

工具调用闭环：tools + parse_response

工具调用模型的真正难点不在于“把工具 schema 塞进 prompt”，而在于把一轮工具调用走完整：模板注入工具定义，模型返回结构化调用意图，应用侧执行真实工具，再把 tool 结果追加回消息历史，最后继续生成。只展示一次性

generate()

往往会漏掉最关键的执行语义。

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.utils import get_json_schema

def get_current_temperature(city: str) -> str:
    """Get current temperature for a city in Celsius."""
    return f"18C in {city}"

tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto")

messages = [{"role": "user", "content": "What is the weather in Paris?"}]
# 由函数签名和 docstring 生成工具 schema，避免手写另一份 JSON Schema。
tools = [get_json_schema(get_current_temperature)]

for _ in range(3):
    batch = tok.apply_chat_template(
        messages,
        tools=tools,                 # 模板在渲染时把工具定义一并注入上下文
        add_generation_prompt=True,
        return_dict=True,            # 返回完整 batch，便于直接喂给 generate
        return_tensors="pt",
    ).to(model.device)

    out = model.generate(**batch, max_new_tokens=256)
    # 只解码新增部分，避免把整个历史消息都再解一遍。
    delta = out[0][batch["input_ids"].shape[1]:]
    text = tok.decode(delta, skip_special_tokens=False)
    # parse_response 会把模型输出解析成 message dict，可能包含 tool_calls。
    msg = tok.parse_response(text)
    messages.append(msg)

    if "tool_calls" not in msg:
        break

    tool_call = msg["tool_calls"][0]
    result = get_current_temperature(**tool_call["arguments"])
    # 工具执行结果必须以 tool message 形式写回历史，模型下一轮才能消费它。
    messages.append({"role": "tool", "content": str(result)})

这条链路一旦确定，训练数据、离线评测和线上服务最好都沿用同一套消息格式。否则就会出现线上是工具调用模板，训练集却只是普通对话模板的格式漂移问题。

训练数据的 chat template 对齐

如果模型的 tokenizer 自带 chat template，SFT 数据建议按同一模板构造训练样本；否则推理时的对话格式会与训练时不一致，表现为“角色混淆”“结束符异常”“输出风格漂移”。

device_map / torch_dtype（加载策略与显存治理）

大模型加载的关键旋钮是：把权重放在哪（GPU/CPU/磁盘）与用什么 dtype（fp32/fp16/bf16）。

device_map="auto"

会尝试把层自动分配到设备上，通常需要安装 accelerate；

torch_dtype="auto"

会按权重与硬件能力选择合适 dtype。

model = AutoModelForCausalLM.from_pretrained(
  "./model_dir",       # 本地目录需要是 save_pretrained 导出的标准模型包结构
  torch_dtype="auto",  # 优先按权重声明与硬件能力选择精度，通常是最稳的起点
  device_map="auto",   # 自动把权重切到 GPU/CPU；原型验证方便，精细部署再手工接管
)

常见坑（高频报错与修复动作）

现象	根因	修复动作
ImportError: Using device_map requires Accelerate	启用了 device_map，但环境缺少 accelerate	安装 pip install -U accelerate ，或移除 device_map 并手动 model.to(device) 。
Decoder-only 推理报 padding 相关错误	tokenizer 没有 pad_token	tok.pad_token = tok.eos_token ，并设置 pad_token_id 。
推理输出乱码或 EOS 提前结束	tokenizer 与模型不匹配，或 chat template 不一致	确保 tokenizer 与模型来自同一目录；推理统一用 apply_chat_template 。
本地目录加载失败（找不到 config/tokenizer）	目录并非标准模型包结构	用 model.save_pretrained 与 tok.save_pretrained 导出；检查是否存在 config.json 。
OOM 或极慢	dtype/设备放置策略不合理	优先 torch_dtype="auto" + device_map="auto" ；必要时启用更强的推理引擎（vLLM/TensorRT-LLM）。
加载第三方模型需要 trust_remote_code=True	模型仓库包含自定义 Python 代码	在受控环境中审计代码后再开启；离线导出时固定 commit hash，避免代码漂移。

PEFT 与微调技术详解

参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）的工程核心是把“可训练参数”从完整模型权重中剥离出来：训练与分发只关心适配器（adapter）的小文件，线上推理再把适配器挂到同一个 base checkpoint 上复用。这样既减少训练时的显存与优化器状态开销，也把多任务/多域适配的存储成本压到可控范围。

安装与版本对齐

PEFT、Transformers、TRL 与 bitsandbytes 在接口上是强耦合组合。工程上以“同一套 requirements 锁定版本”作为默认策略，避免出现 PEFT 与 Transformers 的适配器注入逻辑不一致、或 TRL 的 Trainer 参数签名变化导致脚本失效。

# 训练/微调常见最小集合
pip install -U transformers accelerate datasets peft trl safetensors

# QLoRA / 4bit 量化微调需要
pip install -U bitsandbytes

PEFT 的对象模型：base 与 adapter

PEFT 的存储与加载分两层：

base：Transformers 模型原始 checkpoint（通常很大、可复用、版本需固定）。
adapter：PEFT 生成的小文件（含 adapter_config 与 adapter weights），可多份并存，用于不同任务/域。

标准做法是：训练输出目录只保存 adapter；上线推理时先加载 base，再加载 adapter。这样 adapter 目录可被当作“制品”（artifact）管理，支持灰度、回滚与多 adapter 切换。

常用API

命令/API/函数

LoraConfig

说明
LoRA/QLoRA 的配置对象

示例

from peft import LoraConfig, TaskType

cfg = LoraConfig(
    # 指明这是 decoder-only 语言模型，PEFT 会按自回归任务布置 adapter
    task_type=TaskType.CAUSAL_LM,
    # rank 决定低秩分支容量；r 越大，参数量和适配能力越强
    r=16,
    # alpha 控制低秩更新的缩放强度，避免 adapter 更新过弱
    lora_alpha=8,
    # 对 LoRA 分支做轻度 dropout，用来缓和微调过拟合
    lora_dropout=0.05,
    # 优先覆盖注意力投影层；模块名必须和模型源码一致
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)

命令/API/函数

get_peft_model

说明
把 base model 包装成可训练的

PeftModel

示例

from peft import get_peft_model
peft_model = get_peft_model(base_model, cfg)

命令/API/函数

PeftModel.from_pretrained

说明
给已加载的 base model 挂载某个 adapter

示例

from peft import PeftModel
model = PeftModel.from_pretrained(base_model, "adapter_dir")

命令/API/函数

model.load_adapter / model.set_adapter

说明
在同一 base 上继续挂载其它 adapter，并显式切换当前激活的 adapter。多域推理与灰度切换时非常高频。

示例

model.load_adapter("adapter_b", adapter_name="b")
model.set_adapter("b")

命令/API/函数

model.add_adapter

说明
在当前 base 上新增一份全新的 adapter 配置，常用于“一个底座上继续开第二条训练线”。

示例

cfg_b = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    r=8,
    lora_alpha=16,
    lora_dropout=0.05,
    target_modules=["q_proj", "v_proj"],
)
model.add_adapter("domain_b", cfg_b)

命令/API/函数

model.save_pretrained

说明
保存 adapter（不覆盖 base）

示例

model.save_pretrained("adapter_out")

命令/API/函数

model.merge_and_unload

说明
把 adapter 合并进 base 权重并卸载 adapter（用于导出单体权重）

示例

merged = model.merge_and_unload()

命令/API/函数

model.merge_adapter / model.unmerge_adapter

说明
临时把当前 adapter 合并进 base，再按需撤销。适合做“先合并测一下吞吐/精度，再回到可切换 adapter 结构”的实验。

示例

model.merge_adapter()
# ... 在当前进程里做一轮延迟/显存/质量验证 ...
model.unmerge_adapter()

命令/API/函数

prepare_model_for_kbit_training

说明
把量化后的 base 调整到可训练状态，通常在 QLoRA 里和

BitsAndBytesConfig

一起出现。

示例

from peft import prepare_model_for_kbit_training

base = prepare_model_for_kbit_training(base)

命令/API/函数

AutoPeftModelForCausalLM

说明
把“adapter 目录 + 记录在配置里的 base 身份”直接还原成完整可推理对象，适合把 adapter 目录当成制品交付。

示例

from peft import AutoPeftModelForCausalLM

model = AutoPeftModelForCausalLM.from_pretrained(
    "adapter_out",
    torch_dtype="auto",
    device_map="auto",
)

命令/API/函数

get_peft_model_state_dict / set_peft_model_state_dict

说明
只提取或恢复 adapter 相关参数，便于接自定义 checkpoint、FSDP 或分片保存系统。

示例

from peft import get_peft_model_state_dict, set_peft_model_state_dict

adapter_state = get_peft_model_state_dict(model)
set_peft_model_state_dict(model, adapter_state)

命令/API/函数

model.print_trainable_parameters

说明
自检：确认“只训练 adapter”而非误训全参

示例

model.print_trainable_parameters()

save_pretrained 的高级选项：save_embedding_layers

当 LoRA 训练同时动到了 embedding 层，或者训练过程中做过

resize_token_embeddings

，单纯保存 adapter 增量并不总是足够。PEFT 的

save_pretrained(..., save_embedding_layers=...)

用来显式控制“是否把 embedding 层也随 adapter 一起保存”。这在加新 token、改词表或把 embedding 本身纳入

target_modules

时尤其关键。

# auto 会根据当前 adapter 是否覆盖 embedding、以及 embedding 是否在微调中被调整过来判断。
model.save_pretrained(
    "adapter_out",
    save_embedding_layers="auto",
)

# 当你明确知道 embedding 层已经被修改过时，可以直接强制保存。
model.save_pretrained(
    "adapter_out_with_embed",
    save_embedding_layers=True,
)

# 如果确认 embedding 没被动过，只想让 adapter 目录尽可能轻量，可以显式关闭。
model.save_pretrained(
    "adapter_out_small",
    save_embedding_layers=False,
)

这并非“目录大小优化”这么简单。若训练时扩过词表，但导出时没把相关 embedding 状态带走，推理侧最常见的后果就是：tokenizer 已经认识新 token，模型权重却没有与之对应的 embedding 或输出头权重。

ephemeral_gpu_offload：让 adapter 装配借道 GPU

有些 adapter 路线在加载、合并或切换阶段会出现“CPU 太慢，但常驻 GPU 又太贵”的矛盾。PEFT 提供的

ephemeral_gpu_offload

属于折中方案：平时仍把主要状态放在 CPU/低成本位置，但在关键装配步骤临时借用 GPU，加速权重处理过程。

from transformers import AutoModelForCausalLM
from peft import PeftModel

base = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map={"": "cpu"},      # 先把底座稳定落在 CPU，避免一开始就抢占线上 GPU
)

model = PeftModel.from_pretrained(
    base,
    "adapter_dir",
    # 打开后，PEFT 会在需要时临时把相关计算借道到 GPU，而非全程只走 CPU。
    ephemeral_gpu_offload=True,
    # 给 CPU 明确内存预算，防止大模型加载时被系统 OOM killer 直接杀掉。
    max_memory={"cpu": "256GiB"},
    device_map={"": "cpu"},
)

这类参数优化的是“加载/装配路径”，并非训练吞吐主路径。只有当你真的遇到 adapter 加载或 merge 很慢、而机器又有可借用 GPU 时，它才值得作为工程旋钮引入。

LoRA：PEFT 的主力路径

LoRA（Low-Rank Adaptation）通过对线性层权重施加低秩增量，让可训练参数规模与显存开销显著下降。实际工程难点集中在两处：target_modules 怎么选，以及如何保存/加载/合并。

target_modules：如何定位注入点

target_modules

是 LoRA 注入的“模块名匹配规则”，用于指定 base 模型里哪些子模块会被替换/包裹。这一选择与“按层类型挑选线性层”不同：它依赖模型内部的命名约定。不同架构的模块命名差异很大（Llama 系列常见

q_proj/k_proj/v_proj/o_proj

，也有模型用

Wq/Wk/Wv/Wo

或把投影层藏在自定义块里）。稳定做法是先枚举可疑线性层，再按名字筛选。

import torch

def list_linear_module_names(model: torch.nn.Module):
    names = []
    for name, m in model.named_modules():
        if isinstance(m, torch.nn.Linear):
            # LoRA 最常挂在线性层上，先把所有候选层名字列出来再筛 target_modules
            names.append(name)
    return names

# 先看前几十个，判断该模型到底叫 q_proj 还是别的名字
for n in list_linear_module_names(model)[:50]:
    print(n)

LoRA 常见的注入策略是“注意力投影层优先”：先只覆盖 attention 的 Q/K/V/O，再根据效果与显存预算扩展到 FFN 的投影层（例如 gate/up/down）。

modules_to_save：适配器之外还要训练哪些层

adapter 之外偶尔需要训练额外模块（例如分类头、语言模型的

lm_head

、或新加 token 的 embedding）。这类模块可以通过

modules_to_save

声明为可训练并随 adapter 一起保存，避免“训练时更新了头部，但保存的 adapter 不包含它”的上线故障。

LoRA 最小训练骨架（Transformers Trainer）

from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments
from peft import LoraConfig, TaskType, get_peft_model

# 选 1B 级模型做骨架示例，普通单卡更容易跑通完整流程
model_id = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
# fast tokenizer 预处理吞吐更高，适合训练前批量 map
tok = AutoTokenizer.from_pretrained(model_id, use_fast=True)
base = AutoModelForCausalLM.from_pretrained(
    model_id,
    # 先沿用模型推荐 dtype，把精力放在 LoRA 训练链路而非精度兼容问题上
    torch_dtype="auto",
    device_map="auto",   # 原型阶段直接自动分配设备；正式训练再切换到显式分布式配置
)

cfg = LoraConfig(
    task_type=TaskType.CAUSAL_LM,                         # 按自回归语言模型注入 adapter
    # 给 1B 级模型一个中等容量的 LoRA 分支
    r=16,
    # alpha 控制 adapter 更新幅度；这里偏保守，先求训练稳定
    lora_alpha=8,
    # 小比例 dropout 用来缓和 SFT 对训练集的死记硬背。
    lora_dropout=0.05,
    # 覆盖注意力主干投影层，是最常见的 LoRA 起点。
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)
# 把 LoRA 配置真正注入到 base 模型里；
# 之后训练入口看到的是 PeftModel，优化器也应只更新 adapter 参数。
model = get_peft_model(base, cfg)
# 训练前先核对参数占比，防止 target_modules 写错导致零参或全参训练
model.print_trainable_parameters()

# 用公开 SFT 数据验证数据流；真实项目通常还要先做模板标准化
ds = load_dataset("trl-lib/Capybara", split="train")

def tokenize(example):
    # 多轮 messages 在真实项目里应先渲染成统一训练文本
    text = example["text"] if "text" in example else str(example)
    # 先裁到 1024，避免示例因为极长样本直接 OOM
    return tok(text, truncation=True, max_length=1024)

# 删除原始列，只保留模型 forward 真正需要的输入字段
ds = ds.map(tokenize, remove_columns=ds.column_names)

args = TrainingArguments(
    # adapter checkpoint 和 trainer 状态单独存放，便于和 merge 产物区分
    output_dir="out_lora_adapter",
    per_device_train_batch_size=1,      # LoRA 虽省显存，但长序列下单卡通常仍从 1 起步
    gradient_accumulation_steps=8,      # 用微步累积把有效 batch 拉大，让优化更平滑
    # LoRA 常用学习率显著高于全参微调，因为真正更新的参数规模小
    learning_rate=2e-4,
    num_train_epochs=1,                 # 骨架示例先保证完整闭环，不在这里讨论最优停点
    # 展示最常见的混合精度开关；新卡也可根据硬件改成 bf16
    fp16=True,
    logging_steps=10,                   # 高频看 loss，更容易发现模板或 label 对齐问题
    save_steps=200,                     # 长任务中断时至少能从最近 adapter checkpoint 恢复
)

trainer = Trainer(
    model=model,       # 这里传的是 PeftModel；训练循环只会更新 LoRA 参数
    args=args,         # 保存、日志和 batch 行为统一由 args 接管
    train_dataset=ds,  # ds 已经只剩模型输入字段，Trainer 可以直接喂给 forward 计算 loss
)

trainer.train()

# 推荐默认只保存 adapter；部署时再决定是否 merge 成单体权重
model.save_pretrained("out_lora_adapter")

保存、加载与多 adapter 切换

PEFT 支持一个 base 上挂多份 adapter，并在推理时切换 active adapter。这种能力适合“同一底座，多业务域”的线上形态。

from transformers import AutoModelForCausalLM
from peft import PeftModel

base = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype="auto",  # base 先按常规方式加载；多个 adapter 共享这一份底座权重
  device_map="auto",
)

# 先挂第一份 adapter，并给它取业务可读名字
model = PeftModel.from_pretrained(base, "adapter_a", adapter_name="a")
model.set_adapter("a")  # 显式声明当前激活哪份 adapter，避免多 adapter 并存时弄错生效对象

# 第二份 adapter 叠挂到同一个 base 上，便于线上快速切换域能力
model.load_adapter("adapter_b", adapter_name="b")

# 推理前切到目标 adapter；没有这一步时，模型仍可能沿用上一份激活配置
model.set_adapter("b")

adapter 生命周期补全：禁用、删除与梯度开关

多 adapter 系统里，真正困难的是在训练、评估、A/B 和回收阶段精确控制它们。PEFT 在这方面给了几组很实用的生命周期接口：

from transformers import AutoModelForCausalLM
from peft import PeftModel

# 先恢复一份共享底座；后续多份 adapter 都挂在这一个 base 上。
# torch_dtype="auto" 让权重按模型仓库推荐精度加载，避免例子把焦点带偏到 dtype 手调。
# device_map="auto" 让加载器自动把权重分配到可见设备，便于直接进入切换与对照流程。
base = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto")
model = PeftModel.from_pretrained(
    base,
    "adapter_a",       # 第一份 adapter 的目录；内部应包含 adapter 权重与 adapter_config。
    adapter_name="a",  # 给当前 adapter 取一个短名字，后续切换、导出与删除都用它引用。
    # 先以推理态挂载，避免恢复模型时误把旧 adapter 直接放进训练图。
    is_trainable=False,
    # 默认会把部分 adapter 权重提升到更稳的 dtype，减少低精度训练/推理异常。
    autocast_adapter_dtype=True,
)
# 第二份 adapter 继续挂到同一个 base 上。
# 这样两个域能力共享一份底座权重，切换成本只落在 adapter 层。
model.load_adapter("adapter_b", adapter_name="b", is_trainable=False)

# disable_adapter() 是最直接的 base 对照实验入口：
# 同一份请求，不切模型对象，只临时绕过 adapter 路径。
with model.disable_adapter():
    base_only = model.generate(**inputs)  # 这里拿到的是“同一底座、关闭全部 adapter”的基线输出。

# 只打开目标 adapter 的梯度，适合“多 adapter 并存，但本轮只训练其中一份”。
model.set_requires_grad(["b"], requires_grad=True)
model.set_adapter("b")  # 把 active adapter 切到 b；后续 forward / generate 都走这份 adapter。

# 导出时可以只挑某几个 adapter，避免把实验性分支一起打包。
model.save_pretrained("out_adapters", selected_adapters=["b"])

# delete_adapter() 用于清理不再需要的驻留 adapter，减少对象复杂度。
model.delete_adapter("a")

is_trainable

决定加载完成后 adapter 是“默认参与训练”还是“默认按推理态挂载”；

autocast_adapter_dtype

决定是否把 adapter 权重提升到更稳的 dtype；

selected_adapters

则决定最终导出哪些 adapter。三者分别控制的是训练态、数值态和制品态。

这组接口的工程意义很直接：线上多租户场景要切域能力，实验阶段要做 base vs adapter 对照，持续训练时要只放开某几份 adapter，回收旧版本时要清理驻留对象。没有这层生命周期控制，最终只会得到一堆“目录里能存文件，但系统行为不可控”的 adapter 包。

多 adapter 组合与加权

当两份 adapter 分别学习了不同域能力，而业务又希望在同一个请求里组合它们时，PEFT 提供了“先加载多份 adapter，再按权重生成一份组合 adapter”的路线。这种做法常用于实验性融合、域能力叠加或上线前的快速拼接验证。

# 先把两份 adapter 都挂到同一个 base 上。
model.load_adapter("adapter_a", adapter_name="a")
model.load_adapter("adapter_b", adapter_name="b")

# 生成一份新的加权 adapter；weights 控制每份 adapter 的影响强度。
model.add_weighted_adapter(
    adapters=["a", "b"],
    weights=[0.7, 0.3],         # 让 domain_a 保持主导，domain_b 只补充局部能力
    # 新组合会以一份独立 adapter 的形式注册，方便后续切换与导出。
    adapter_name="blend_ab",
)

# 推理时切到组合后的 adapter；业务代码不需要感知内部是多份融合而来。
model.set_adapter("blend_ab")

加权组合的本质仍然是“线性组合若干已存在的 adapter 参数”。它并非魔法平均，也不会自动解决词表、模板、任务定义不一致的问题；只有当几份 adapter 共享同一个 base、相近注入位置和可兼容任务语义时，这条路才有意义。

add_weighted_adapter 的组合类型与约束

add_weighted_adapter

不只有“给两份 adapter 配个权重”这么简单。它背后对应的是一组不同的组合算法，而不同算法对 rank、一致性和内存峰值有明确要求。

组合类型	适用语义	工程约束
linear	最直接的线性加权，适合“几份 LoRA 语义接近，只想做平滑融合”	参与融合的 adapter 通常需要相同 rank，否则组合会直接失去可比性
cat	把多个 adapter 的低秩空间直接拼接到更高 rank 的新 adapter	结果 rank 约等于各 adapter rank 之和，容量会变大，显存与导出体积也会同步增加
ties / dare_ties / magnitude_prune	更偏“从多个 adapter 中抽取共识或高价值权重”	通常要配合 density 一起用，density 表示保留多大比例的权重信息
svd / *_svd	先合成，再通过 SVD 压回目标 rank	更像“压缩后的融合”，但对 dtype 与数值稳定性更敏感，低精度环境里要额外验证

选择组合类型时，先问清楚目标是什么：是做离线实验、希望快速看到两域混合效果；还是想交付一份稳定可部署的新 adapter。前者可以容忍更激进的组合方式，后者通常更偏向

linear

或经过充分验证的稀疏化融合。

cat

的风险尤其工程化，因为它会直接拉高 rank，导致后续训练、保存与推理都变重。

如果组合完成后还要按样本级切换

adapter_names

，需要先确认当前模型没有处于 merged 状态。部分组合、merge 与多 adapter 路径是互斥的，先 merge 后再按请求细切换，通常只会把系统带进不可逆状态。

AutoPeftModel：把“base + adapter”当作一个可加载制品

如果 adapter 目录已经完整记录了 base 模型身份与 PEFT 配置，加载时不一定要先手工恢复 base，再显式

PeftModel.from_pretrained

。PEFT 提供了

AutoPeftModel*

家族，把“还原整个 adapter 制品”做成统一入口。

from peft import AutoPeftModelForCausalLM

model = AutoPeftModelForCausalLM.from_pretrained(
    "adapter_out",      # adapter 目录里应当已经记录 base 模型来源与适配器配置
    # 仍沿用常规加载策略；AutoPeftModel 解决的是对象装配，而非精度策略
    torch_dtype="auto",
    device_map="auto",
)
# 返回的对象已经是“可直接推理/继续训练的 PEFT 模型”，
# 不必再手工恢复 base 然后 from_pretrained 一次。

adapter 的 state_dict 工具

复杂训练栈里，adapter 状态并不总是通过

save_pretrained

直存直取。做 FSDP、分片保存、或和自定义 checkpoint 体系对接时，往往需要直接拿到“只包含 PEFT 参数”的状态字典。

from peft import get_peft_model_state_dict, set_peft_model_state_dict

# 只提取 adapter 相关参数，便于塞进自定义 checkpoint 结构
adapter_state = get_peft_model_state_dict(model)

# ... 这里可以把 adapter_state 写进你自己的 checkpoint 目录或分布式存储 ...

# 恢复时只把 adapter 参数写回，不污染 base 权重
set_peft_model_state_dict(model, adapter_state)

merge：合并成单体权重（用于导出/部署）

merge_and_unload()

用于把 LoRA 权重写回 base 权重，再移除 adapter 结构，得到“标准 Transformers 模型结构”。工程上这通常用于：

导出到单体 checkpoint（例如给不支持 adapter 的推理引擎）。
降低线上复杂度（不需要两段加载与 adapter 切换）。

合并前需要确认 base 权重处于可写入的浮点 dtype（fp16/bf16/fp32）。对 4-bit 量化权重，合并通常不作为默认路径。

from transformers import AutoModelForCausalLM
from peft import PeftModel

base = AutoModelForCausalLM.from_pretrained(
  model_id,
  # merge 需要可写入的浮点权重；这里显式用 fp16，避免量化权重无法直接写回
  torch_dtype="float16",
  device_map="cpu",       # merge 常放在 CPU 或大显存机器上做，避免和线上推理实例争 GPU
)
model = PeftModel.from_pretrained(base, "adapter_out")  # 先恢复“base + adapter”的组合形态
merged = model.merge_and_unload()  # 把 LoRA 增量写回 base，并移除 adapter 包装层
# 导出成标准 Transformers 单体模型包，便于不支持 adapter 的后端加载
merged.save_pretrained("out_merged_full")

merge_adapter vs merge_and_unload vs unload

这三个接口名字接近，但交付语义完全不同。实际项目里最常见的错误，就是把

merge_and_unload()

当作一个“随时可以撤销”的性能开关。

接口	会发生什么	适合什么场景
merge_adapter()	把当前 adapter 临时合到 base 权重里，但仍保留 adapter 结构与回退能力	做基准测试、对比 merged 与 unmerged 性能，或暂时消除推理期 adapter 额外开销
unmerge_adapter()	撤销前一次 merge_adapter() 的效果，回到“base + adapter”分离态	实验阶段切回可编辑、可切换 adapter 的状态
merge_and_unload()	返回一个新的、已经写回 adapter 权重的标准模型对象，并移除 PEFT 包装	导出单体权重，交给不理解 adapter 的推理后端或交付团队
unload()	直接去掉 adapter，不做权重合并	只想回到 base 模型做对照，或清理对象状态

# 这条路线适合做“可回退”的 merged benchmark。
model.merge_adapter()
bench = model.generate(**inputs)
model.unmerge_adapter()

# 这条路线适合做最终导出。
# 返回值是一个新的普通 Transformers 模型对象，并非原对象原地变化。
merged_model = model.merge_and_unload()
merged_model.save_pretrained("out_merged_full")

# 如果目标只是临时回到 base 路径，不需要做 merge。
base_only_model = model.unload()

从对象生命周期看，

merge_adapter()

仍然站在“PEFT 世界”里，保留了继续切换、反向撤销与再保存 adapter 的空间；

merge_and_unload()

则直接跨到“普通 Transformers 模型”的世界里。后者更适合制品交付，前者更适合实验与排障。

QLoRA：量化权重 + LoRA 的组合

QLoRA 的工程语义是：base 权重以 4-bit 量化形式加载并冻结，反向传播只更新 LoRA 参数；量化层负责把反向信号“传递”到 LoRA，而非更新量化权重本身。

QLoRA 关键 API（BitsAndBytesConfig + prepare_model_for_kbit_training）

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import LoraConfig, TaskType, get_peft_model, prepare_model_for_kbit_training

model_id = "mistralai/Mistral-7B-v0.1"

bnb_cfg = BitsAndBytesConfig(
    # base 权重按 4bit 量化加载，把显存压力压到 LoRA 可训练场景能承受的范围
    load_in_4bit=True,
    # NF4 是 QLoRA 常见默认量化格式，对权重分布更友好
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,            # 再做一层量化压缩量化常数，进一步省显存
    # 前向/反向实际计算用 bf16，兼顾速度和数值稳定性
    bnb_4bit_compute_dtype=torch.bfloat16,
)

# tokenizer 仍按原模型加载；量化不影响词表
tok = AutoTokenizer.from_pretrained(model_id, use_fast=True)
base = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_cfg,  # 把 4bit 配置传进加载流程，base 会以量化层形式构建
    device_map="auto",            # 让量化后的权重自动落到可见设备
)

# 这一步会冻结量化底座、修正部分层的 dtype/训练标志，
# 让后续注入的 LoRA 建立在“已经准备好训练”的量化骨架上。
base = prepare_model_for_kbit_training(base)

cfg = LoraConfig(
    # QLoRA 在任务语义上仍然是 LoRA，只是 base 换成量化权重
    task_type=TaskType.CAUSAL_LM,
    r=16,                                                 # 给量化底座配一个中等 LoRA 容量
    # 控制 adapter 更新幅度，先用保守值保证训练稳定
    lora_alpha=8,
    # 继续对 LoRA 分支做轻度正则化。
    lora_dropout=0.05,
    # 注入点仍优先选注意力投影层。
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)
# 注入 LoRA 后，训练仍只更新 adapter；
# 不同之处在于底层 base 已经是 4bit 量化形式。
model = get_peft_model(base, cfg)
# 再次确认训练参数规模，确保没有误把量化 base 放开
model.print_trainable_parameters()

prepare_model_for_kbit_training

必须发生在 LoRA 注入之前，因为它负责冻结量化底座、处理某些层的 dtype 与训练标志，让后续注入的 adapter 建立在“已经准备好训练”的量化骨架上。顺序颠倒后最常见的问题是：LoRA 已经挂上了，但底层量化模块仍处于不适合训练的状态。

prepare_model_for_kbit_training 的真实副作用

这个函数的重要性不在“名字看起来像初始化工具”，而在它确实会改模型状态。工程上至少要把它理解成四件事：

冻结 base 参数。QLoRA 的核心前提就是“量化底座不更新，只让 LoRA 学”。如果这一步没发生，训练就会悄悄滑向“低比特全参微调”，显存、数值稳定性和保存语义都会变坏。
处理 layer norm、embedding 等层的 dtype 与训练标志。这样做的目的核心是让低比特底座上的前向与反向路径更稳定。
为 gradient checkpointing 和输入梯度路径做准备。很多长上下文 QLoRA 脚本把这一步和 gradient checkpointing 绑定考虑，本质上是在给“可训练 LoRA + 低比特底座”这条路径收拾好反向传播现场。
建立后续保存/恢复的前提。LoRA 注入后之所以还能清晰地区分“哪些是 adapter，哪些是 base”，前提正是底座已经被预处理为冻结状态。

因此，

prepare_model_for_kbit_training

不该被理解成一个可有可无的 helper。它更接近“把普通量化模型变成可做 QLoRA 训练的骨架”的入口。

量化 + adapter 的工程约束

合并策略：4-bit 量化权重通常不作为合并目标。需要单体权重时，常见流程是“重新加载 fp16/bf16 base → 挂载 adapter → merge → 导出”。
训练开关：Decoder-only 模型训练时常需要关闭
```
use_cache
```
，并配合 gradient checkpointing 控制显存。
部署形态：adapter 目录天然适合做制品；量化 base 属于环境相关资产（与推理后端、算子实现与硬件强相关），需要独立版本管理。

量化后端	训练期常见形态	导出与 merge 判断
bitsandbytes 4-bit / 8-bit	最常见的 QLoRA 训练底座	训练期可以挂 LoRA；需要单体权重时，通常回到浮点 base 再 merge，而非直接在量化权重上产出最终制品
GPTQ / AWQ	更偏推理期量化制品	很多真实工作流把它们当部署格式而非训练骨架，LoRA 合并与继续训练路径通常更受限
AQLM / HQQ / 其它非常规低比特后端	需要核对专门兼容路径	优先把 adapter 作为独立制品管理，除非文档明确说明支持 merge；否则更稳的做法是分离保存而非强行写回量化权重

这一层判断的核心只有一句话：训练骨架和部署制品并非同一个概念。很多量化后端非常适合把推理显存压下来，却并不天然适合做“最终 merge 交付”的承载格式。

IA3：更轻量的向量型适配器

IA3（Infused Adapter by Inhibiting and Amplifying Inner Activations）通过在注意力与前馈模块中注入少量可训练向量来缩放激活值。它的可训练参数通常比 LoRA 更少，适合“极低成本的快速适配”场景。

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from peft import IA3Config, TaskType, get_peft_model

model_id = "bigscience/mt0-large"
# 仍然沿用原模型 tokenizer；IA3 只改网络内部缩放向量
tok = AutoTokenizer.from_pretrained(model_id, use_fast=True)
base = AutoModelForSeq2SeqLM.from_pretrained(
  model_id,
  torch_dtype="auto",  # 先按模型建议精度加载，避免把示例重点带偏到 dtype 调参
  device_map="auto",
)

cfg = IA3Config(
    task_type=TaskType.SEQ_2_SEQ_LM,  # 这里是 encoder-decoder 模型，不再是 Causal LM
    # IA3 通过缩放关键激活通路工作；具体名字必须按模型实现核对
    target_modules=["k", "v", "wo"],
)
model = get_peft_model(base, cfg)  # 把 IA3 向量注入到指定模块，参数量通常比 LoRA 还小
model.print_trainable_parameters()  # 先确认确实只打开了少量 IA3 参数

Prompt Tuning：软提示词（soft prompt）

Prompt tuning 把“要学习的东西”压缩为一段可训练的虚拟 token embedding（virtual tokens），base 权重保持冻结。它的工程接口与 LoRA 不同：训练的是提示向量，并非注入线性层的低秩权重。

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import (
    PromptTuningConfig,
    PromptTuningInit,
    TaskType,
    get_peft_model,
)

model_id = "bigscience/bloomz-560m"
# prompt tuning 依赖 tokenizer 对虚拟 token 前后边界的处理
tok = AutoTokenizer.from_pretrained(model_id, use_fast=True)
base = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype="auto",  # base 保持冻结，加载精度主要影响推理/前向显存而非训练参数规模
  device_map="auto",
)

cfg = PromptTuningConfig(
    task_type=TaskType.CAUSAL_LM,                          # 软提示仍服务于自回归生成任务
    # 用一段真实文本初始化虚拟 token，比完全随机初始化更容易收敛
    prompt_tuning_init=PromptTuningInit.TEXT,
    prompt_tuning_init_text="Classify if the tweet is a complaint or not:",
    # 虚拟 token 数决定软提示容量；太少表达不够，太多又增加上下文占用
    num_virtual_tokens=8,
    # 明确使用哪套 tokenizer 来把初始化文本映射到 embedding 空间
    tokenizer_name_or_path=model_id,
)

# 把可训练对象限制为虚拟 token embedding，而非网络层权重
model = get_peft_model(base, cfg)
model.print_trainable_parameters()  # 先确认只打开了 prompt 参数

Prompt tuning 的数据组织更接近“提示 + 输入 + 输出”的模板化任务。工程上需要明确：提示文本、虚拟 token 数量、以及 tokenizer 的特殊 token 处理方式，三者必须一致，否则会出现训练可收敛但推理表现异常的对齐问题。

与 Transformers / TRL 的集成方式

Transformers：PeftAdapterMixin

Transformers 在模型类上集成了适配器管理接口，典型能力包括

add_adapter

、

load_adapter

、

set_adapter

与适配器保存。LoRA/IA3/AdaLoRA 属于常见的“直接集成”方法；prompt tuning 等提示类方法通常直接用 PEFT 库完成更稳定。

TRL：把 PEFT 当作模型构造步骤

TRL 的 Trainer（SFT/DPO/GRPO/PPO 等）工程上更适合把 PEFT 当作“模型构造步骤”：先用 Transformers 加载 base，再用 PEFT 包一层 adapter，把得到的

PeftModel

直接传给 TRL Trainer。这样可以绕开不同 TRL 版本对

peft_config

参数支持度不一致的问题。

from datasets import load_dataset
from trl import SFTTrainer, SFTConfig

# 先拿公开数据验证 TRL+PEFT 训练栈；真实项目通常先做模板清洗
train_ds = load_dataset("trl-lib/Capybara", split="train")

cfg = SFTConfig(
    # 保存 adapter checkpoint 与 trainer 状态；TRL 仍沿用 HF 的落盘约定
    output_dir="out_trl_lora",
    per_device_train_batch_size=1,      # 大模型 + LoRA 的单卡安全起点通常仍然是 1
    gradient_accumulation_steps=8,      # 通过累积把有效 batch 拉大，减少小 batch 更新抖动
    learning_rate=2e-4,                 # adapter 参数少，学习率通常可以比全参微调更高
    logging_steps=10,                   # 早期高频看 loss，便于快速发现模板或 masking 配错
    save_steps=200,                     # 周期性保存 adapter，避免长任务中断后完全重来
    # 示例保留最小闭环；真实项目应按验证集或 reward 指标决定停点
    num_train_epochs=1,
)

trainer = SFTTrainer(
    # 这里直接传已经挂好 LoRA 的 PeftModel，绕开不同 TRL 版本 peft_config 支持差异
    model=model,
    # tokenizer 决定模板拼接后的切分方式，也决定 labels 的 token 对齐
    tokenizer=tok,
    # 数据集需要已经整理成 TRL 能消费的字段；否则会在格式化阶段报错
    train_dataset=train_ds,
    args=cfg,               # SFTConfig 是 TRL 对 TrainingArguments 的任务化扩展
)

trainer.train()
# 继续保留 adapter 形态，便于后续叠加、切换或 merge 导出
model.save_pretrained("out_trl_lora_adapter")

配置化微调工作台

PEFT 原生 API 适合需要精确控制模型对象、adapter 生命周期和 checkpoint 语义的工程；Unsloth、LLaMA-Factory、Axolotl 这类工作台则把常见微调路径封装成配置和命令。它们的价值在于减少重复脚本，让团队用同一套配置描述模型、数据、模板、LoRA、量化、训练参数和导出路径。

工作台	主要能力	适合用法
Unsloth	低显存 LoRA/QLoRA、快速 SFT、本地推理与 GGUF/Ollama/vLLM 导出路径。	单卡或少卡快速验证数据、模板和 adapter 效果。
LLaMA-Factory	用 YAML、CLI 和 WebUI 管理 SFT、RM、DPO、PPO、导出与 merge。	希望把训练配方交给配置文件管理，减少手写 Trainer 脚本。
Axolotl	复杂 QLoRA/FSDP 配方、sample packing、DPO/GRPO、vLLM 协作。	需要更细粒度控制训练数据拼接、分布式策略和后训练组合。

Unsloth：快速 LoRA/QLoRA 原型

Unsloth 更适合把“底座加载、量化、LoRA 注入、训练、保存、导出”压成短路径。它常用于先验证数据清洗、chat template、target modules 和学习率是否合理，再决定是否迁移到更完整的分布式训练系统。

from datasets import load_dataset
from trl import SFTTrainer, SFTConfig
from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    "unsloth/Meta-Llama-3.1-8B",
    # 先给出训练时最大上下文长度，后续 RoPE/attention 路径会按这个预算准备。
    max_seq_length=2048,
    # 4bit 加载把底座显存压下来，训练时只更新 LoRA 分支。
    load_in_4bit=True,
)

model = FastLanguageModel.get_peft_model(
    model,
    # rank 决定 LoRA 容量；小数据先从 8/16 起步，避免 adapter 过度记忆训练集。
    r=16,
    # target_modules 要和模型内部线性层命名匹配。
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    # alpha 控制 LoRA 更新幅度，通常和 rank 配套调。
    lora_alpha=16,
    # LoRA 分支 dropout 用来缓和小数据 SFT 的过拟合。
    lora_dropout=0.05,
)

dataset = load_dataset("trl-lib/Capybara", split="train")

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    args=SFTConfig(
        output_dir="out_unsloth_lora",
        per_device_train_batch_size=1,
        gradient_accumulation_steps=8,
        learning_rate=2e-4,
        num_train_epochs=1,
        logging_steps=10,
    ),
)

trainer.train()

# 保存 adapter 目录，后续可以继续挂到底座上评估、切换或 merge。
model.save_pretrained("out_unsloth_adapter")
tokenizer.save_pretrained("out_unsloth_adapter")

# 如果目标是本地推理格式，再单独做 merged/GGUF 导出。
# 导出前应先确认目标后端支持的量化类型和 tokenizer 模板。
model.save_pretrained_gguf("out_gguf", tokenizer, quantization_method="q4_k_m")

LLaMA-Factory：YAML 管理训练配方

LLaMA-Factory 的核心使用方式是把训练语义写进 YAML。模型、数据集、chat template、微调方法、LoRA 参数、batch、学习率、输出目录都在同一个文件中声明，CLI 只负责读取配置并启动训练。

# 声明训练阶段；sft 表示监督微调。
stage: sft

# 声明使用 LoRA，而非全参更新。
finetuning_type: lora

# 底座模型目录或 Hub id。
model_name_or_path: Qwen/Qwen2.5-7B-Instruct

# 训练数据集名称；具体字段映射由 LLaMA-Factory 的 dataset_info 管理。
dataset: my_sft_dataset

# 模板决定 system/user/assistant 消息如何渲染成训练文本。
template: qwen

# 训练输出目录，通常保存 adapter、日志和配置快照。
output_dir: saves/qwen2_5_7b/lora/sft

# all 表示由工具按常见规则覆盖主要线性投影层。
lora_target: all

# LoRA rank 控制 adapter 容量。
lora_rank: 16

# alpha 控制 LoRA 更新量缩放。
lora_alpha: 32

# 长上下文会显著增加显存，先用明确上限约束训练预算。
cutoff_len: 2048

# 单卡微批大小；长上下文 LoRA 常从 1 起步。
per_device_train_batch_size: 1

# 用多个微步累计成更大的有效 batch。
gradient_accumulation_steps: 8

# LoRA 常用学习率通常高于全参微调。
learning_rate: 2.0e-4

# bf16 在支持的 GPU 上通常比 fp16 更稳。
bf16: true

# 最小闭环先跑 1 轮；正式实验按验证指标决定停点。
num_train_epochs: 1.0

llamafactory-cli train qwen_lora_sft.yaml

这类配置化路线的关键是把“训练语义”和“运行方式”分开。YAML 描述这次训练到底做什么；Accelerate、DeepSpeed 或 FSDP 配置描述它如何在硬件上运行。排查问题时两份配置都要看，不能只看 Python 调用栈。

Axolotl：复杂配方与 sample packing

Axolotl 更偏向把复杂微调配方显式化。它适合需要 QLoRA、FSDP、sample packing、多数据集混合和后训练路线组合的场景。配置能力越强，对字段语义的要求越高，尤其是

chat_template

、

sequence_len

、

sample_packing

、

adapter

这些字段。

# 底座模型身份；tokenizer、config 与权重加载都围绕它展开。
base_model: meta-llama/Meta-Llama-3-8B

# 明确 tokenizer 工厂类型，避免模型仓库默认配置不完整时解析失败。
tokenizer_type: AutoTokenizer

# qlora 表示底座按低比特加载，同时只训练 LoRA 分支。
adapter: qlora

# 打开 4bit 权重量化，降低底座显存占用。
load_in_4bit: true

datasets:
  # 数据来源；type 决定字段如何被解释成监督样本。
  - path: tatsu-lab/alpaca
    type: alpaca

# 模板决定消息如何被渲染成模型实际看见的训练文本。
chat_template: llama3

# sample packing 会把多个短样本拼进同一序列，提高 token 利用率。
sample_packing: true

# 验证阶段常关闭 packing，便于逐条样本解释指标。
eval_sample_packing: false

# 上下文长度直接决定显存、吞吐和可学习的长程依赖。
sequence_len: 4096

# 单卡微批大小，长上下文 QLoRA 通常从 1 起步。
micro_batch_size: 1

# 梯度累积把有效 batch 拉大，减少小 batch 更新噪声。
gradient_accumulation_steps: 8

# adapter 参数少，常用比全参微调更高的学习率。
learning_rate: 2.0e-4

# 本次运行的 adapter、日志和配置快照目录。
output_dir: ./outputs/llama3-8b-qlora

axolotl train axolotl_qlora.yml

sample_packing

追求的是 token 利用率。开启后，一个训练序列里可能包含多个样本，吞吐通常更好，但逐条样本排错、label 对齐和 loss 解释会更难。正式实验应同时保留一份不 packing 的小验证集，用来排查模板和答案边界。

语言模型强化学习

语言模型强化学习（Reinforcement Learning for Language Models）发生在 SFT 之后。SFT 让模型学会按照示例回答，RL 后训练让模型在生成过程中接受奖励信号约束，把“回答是否有用、是否正确、是否符合格式、是否遵守工具协议”转成可优化的目标。

从 SFT 到 RL 后训练

SFT（Supervised Fine-Tuning）使用人工写好的目标答案做交叉熵训练。训练样本通常是一个 prompt 和一个 target answer，模型只需要提高目标 token 的似然。RL 后训练的输入仍然可以是 prompt，优化对象变为模型自己生成的回答集合、奖励函数、参考模型约束和策略优化算法。

一条典型链路如下：

Pre-training：基座模型从大规模语料中学习语言建模能力。
SFT：模型学习指令跟随、回答格式、基础安全边界和任务模板。
RL post-training：模型对同一个 prompt 采样多个回答，由 reward function 或 reward model 打分；训练器根据 reward、KL、advantage 更新 policy。
Serving：部署时使用更新后的 policy；reference、critic、reward 只在训练阶段参与。

这一步的核心变化是训练目标从“模仿一个答案”变为“在可采样空间里提高高奖励回答的概率，同时限制策略漂移”。因此 RL 后训练同时牵涉推理引擎、分布式训练、奖励计算、样本队列和 checkpoint 恢复。

Rollout：语言模型里的行动轨迹

Rollout 指策略模型在当前参数下对 prompt 进行采样，生成一个或多个完整 response，并记录训练需要的中间量。对于机器人控制，轨迹由状态、动作、奖励组成；对于语言模型，动作就是生成下一个 token，状态就是已有上下文，轨迹就是 prompt 后面的一串 response tokens。

语言模型 rollout 的最小结构可以写成：

字段	含义	工程用途
prompt	输入问题、工具调用上下文或多轮对话历史。	用于构造模型输入，也用于 reward function 解析任务条件。
response	当前 policy 采样出的回答 token 序列。	reward、KL、log probability、长度统计都围绕 response 计算。
old_log_probs	采样当时当前 policy 对每个 response token 的对数概率。	PPO/GRPO 更新时计算概率比值，避免策略一次更新过大。
ref_log_probs	reference model 对同一 response token 的对数概率。	计算 KL 惩罚，限制 RL 把模型推离 SFT 分布太远。
reward / score	reward function 或 reward model 给出的标量或 token-level 分数。	决定这条回答应该被鼓励还是压低概率。
advantage	相对同组回答、baseline 或 value function 的优势值。	把“绝对分数”转成“这条回答比预期好多少”。
response_mask	标记哪些位置属于 response，哪些位置只是 padding。	loss、KL、reward 聚合时排除 prompt 和 padding。

Rollout 的质量直接决定 RL 训练质量。采样温度过高会带来大量低质量噪声，温度过低会导致同一个 prompt 的多个 response 太相似，GRPO/RLOO 这类组内比较方法就缺少有效差异。工程上常同时监控 response 长度、成功率、格式错误率、重复率、KL 和 reward 方差。

# 一个极简 rollout 数据结构，用于说明 RL 训练器真正需要保存什么。
# 实际框架会把这些字段放进 TensorDict、DataProto 或 Ray object store。
rollout_batch = {
    # prompt_tokens 是已经应用 chat template 后的输入 token。
    # 使用 token 作为跨组件边界，可以避免训练端和推理端模板不一致。
    "prompt_tokens": prompt_tokens,

    # response_tokens 是 policy 采样出的动作序列。
    # 语言模型 RL 中，每个 token 都是一次动作。
    "response_tokens": response_tokens,

    # old_log_probs 固定为采样时 policy 的概率。
    # PPO/GRPO 更新时用它计算 ratio，判断新 policy 是否偏离过大。
    "old_log_probs": old_log_probs,

    # ref_log_probs 来自冻结 reference model。
    # 它提供 SFT 分布的锚点，避免 reward 把模型推向奇怪输出。
    "ref_log_probs": ref_log_probs,

    # rewards 可以是每条样本一个标量，也可以展开成 token-level reward。
    # 数学题、代码题常用规则奖励；开放式偏好任务常用 reward model。
    "rewards": rewards,

    # response_mask 让 loss 只作用在 response token 上。
    # prompt token 只是条件，不应该被策略梯度当作模型动作更新。
    "response_mask": response_mask,
}

Policy、Reference、Reward、Critic

语言模型 RL 是多角色系统。一个完整 PPO/RLHF 系统至少包含 policy、reference、reward，使用 PPO 时通常还包含 critic。

角色	训练状态	作用
Policy / Actor	可训练	真正被更新的语言模型。rollout、log probability 和最终部署都围绕它。
Reference	冻结	通常是 SFT 后的初始模型。计算 KL 约束，防止 policy 为了 reward 牺牲语言质量。
Reward Function / Reward Model	通常冻结	把回答映射成分数。可由规则、单元测试、人工偏好模型、格式检查、多目标加权组成。
Critic / Value Model	可训练	估计当前状态下的期望回报，为 PPO 的 GAE 提供 baseline，降低梯度方差。
Rollout Engine	服务组件	vLLM、SGLang 或 HF generation。负责高吞吐生成和新权重同步。

Reference 和 reward 的存在解释了 RLHF 框架为什么比 SFT 框架复杂。SFT 只需要训练模型前向、反向和优化器；RLHF 还要在训练期间反复调用推理引擎生成样本，并把 actor 的新权重同步给 rollout engine。

Reward Function：把业务目标变成训练信号

奖励函数（Reward Function）是 RL 后训练最关键的设计点。它决定模型优化什么，也决定模型会钻哪些空子。奖励函数可以来自规则、模型、工具执行结果、人工偏好、检索一致性或多目标加权。

奖励来源	适用任务	主要风险
规则奖励	数学答案、JSON 格式、工具协议、正则可验证输出。	覆盖不完整时容易 reward hacking。
单元测试 / 沙箱	代码生成、SQL、Agent 工具调用。	执行成本高，超时和安全隔离必须严格。
Reward Model	开放式问答、摘要、偏好对齐。	reward model 偏差会被 policy 放大。
LLM-as-a-Judge	难以写硬规则的质量评估。	成本、稳定性、提示词泄漏和 judge 偏差。
多目标加权	正确性、格式、简洁性、安全性同时约束。	权重尺度不一致时，某个目标会吞掉其他目标。

奖励函数需要先单元测试，再接入训练。单元测试至少覆盖正确答案、错误答案、格式正确但内容错误、格式错误但内容接近、空回答、超长回答和恶意输出。训练中还要记录分项 reward，不能只看总 reward，否则很难定位 reward hacking。

import re


def math_box_reward(response: str, label: str) -> float:
    # 规则奖励先解析最终答案，不直接比较整段推理文本。
    # CoT 推理链存在大量等价表达，直接字符串比较会错误惩罚正确解法。
    match = re.search(r"\\boxed\{([^}]*)\}", response)

    # 没有遵守 \boxed{} 输出协议时给 0 分。
    # 这会同时训练模型的答案格式和可解析性。
    if match is None:
        return 0.0

    # strip 只去掉答案两侧空白，避免空格导致可验证答案误判。
    pred = match.group(1).strip()

    # label 应该来自数据集的标准答案字段，避免从 prompt 中再次抽取。
    # 这样 reward function 的输入边界清晰，便于离线单元测试。
    gold = label.strip()

    # 二值奖励适合可验证任务；开放式任务通常需要连续分数或分项奖励。
    return 1.0 if pred == gold else 0.0

Advantage、Baseline 与 Credit Assignment

原始 reward 只说明一条回答的得分，advantage 说明这条回答相对预期好多少。策略梯度更新依赖 advantage：正 advantage 提高该 response token 的概率，负 advantage 降低概率。

\[A_t = R_t - b_t\]

其中 $A_t$ 是第 $t$ 个 token 或轨迹位置的优势值，读作 advantage；$R_t$ 是从该位置开始的回报；$b_t$ 是 baseline，可以来自 critic、同组样本均值或规则估计。baseline 不改变期望梯度方向，但能显著降低方差。

GRPO 常在同一个 prompt 下采样多个 response，用组内均值做 baseline：

\[A_i = r_i - \frac{1}{G}\sum_{j=1}^{G} r_j\]

其中 $G$ 是同一 prompt 的采样条数，读作 group size；$r_i$ 是第 $i$ 条 response 的奖励。这个形式不需要单独训练 critic，适合数学、代码、格式检查等规则奖励任务。

PPO、GRPO、RLOO、REINFORCE++ 与 DPO

算法	核心思路	适用场景
PPO	用 old policy 和 new policy 的概率比做 clipped objective，配合 critic 估计 value。	经典 RLHF、reward model 训练链路完整、需要稳定收敛的场景。
GRPO	同一 prompt 采样多条 response，用组内相对分数构造 advantage，减少 critic 依赖。	RLVR、数学/代码等可验证任务，尤其适合多样本采样。
RLOO	Leave-one-out baseline。每条样本用同组其他样本均值作为 baseline。	同 prompt 多采样、希望降低组内估计偏差的场景。
REINFORCE++	基于 REINFORCE 的语言模型后训练改造，常配合 baseline、KL 和长度/格式控制。	规则奖励、推理任务、希望简化 value model 的场景。
DPO	直接使用偏好对，不做在线 rollout；优化 chosen 相对 rejected 的概率差。	偏好数据充足、希望避免在线 RL 系统复杂度的场景。

在线 RL 框架通常覆盖 PPO、GRPO、RLOO、REINFORCE++。DPO 更接近离线偏好优化，常放在 TRL、LLaMA-Factory、OpenRLHF 的 non-RL 训练入口里。工程选型时先判断是否需要在线采样：需要 rollout、工具交互、沙箱执行或动态 reward，就进入在线 RL；只有 chosen/rejected 数据，DPO/IPO/KTO 往往更简单。

监控指标与失败模式

指标	正常含义	异常信号
reward/score	任务目标正在改善。	快速上升但人工评估下降，通常是 reward hacking。
KL	policy 与 reference 的距离保持在预算内。	KL 爆炸表示策略漂移；KL 长期接近 0 表示学习太弱。
entropy	生成分布保留一定探索。	entropy 快速坍缩通常对应模板化、重复或过早收敛。
response_length	回答长度处在任务合理范围。	长度持续增长可能是模型学会用长答案骗 reward。
grad_norm	梯度规模可控。	突然尖峰常见于 reward 尺度失控、坏 batch 或数值溢出。
clipfrac	PPO 中被 clip 的 token 比例。	过高表示学习率或 advantage 尺度过大，更新被大量截断。
rollout throughput	推理引擎采样效率。	GPU 空转通常来自 vLLM batch、tensor parallel、sleep mode 或 Ray placement 配错。

RL 训练健康性不能只看 reward。reward、KL、长度、格式错误率和人工抽检需要一起读。reward 上升且 KL 稳定、长度稳定、格式错误下降，才更接近真实改进。

框架选择边界

框架	优势	边界
TRL	Hugging Face 生态内最容易本地验证 DPO、PPO、GRPO、SFT。	大规模 Ray/vLLM/DeepSpeed 一体化能力较弱。
OpenRLHF	Ray + vLLM + DeepSpeed 组合明确，Hybrid Engine 和 Agent Paradigm 适合大规模在线 RL。	命令参数多，资源拓扑和版本组合需要严格管理。
verl	HybridFlow 把 RL 控制流与模型计算流解耦，适合研究新算法和复杂 rollout。	Hydra 配置体系较大，首次接入需要理解 DataProto 和 WorkerGroup。
OpenRLHF / verl + vLLM	rollout 吞吐高，适合多样本采样和长 response。	权重同步、KV cache、GPU memory utilization 是主要工程瓶颈。

OpenRLHF 详解

OpenRLHF 面向大语言模型 RLHF/RLVR 后训练。它把 Ray、vLLM、DeepSpeed、Transformers 组合成一条在线 RL 管线：Ray 做角色调度，vLLM 做 rollout，DeepSpeed 做 actor/critic 训练，Transformers 负责模型加载与 Hugging Face checkpoint 兼容。

官方文档结构与源码入口

入口	阅读重点	工程意义
quick_start.rst	安装、层级 CLI、Qwen3 RLVR 首跑命令。	确认版本边界和最小可运行训练链路。
architecture.rst	Ray、vLLM、DeepSpeed、NCCL 的职责划分。	理解为什么 RLHF 训练需要多个角色和多个引擎。
agent_paradigm.rst	Single-turn、multi-turn、token-in-token-out、算法解耦。	理解工具调用和环境交互如何接入同一 RL loss。
hybrid_engine.rst	sleep mode、colocate_all、NCCL weight sync。	解决小集群上生成与训练互相空转的问题。
async_training.rst	async queue、partial rollout、off-policy correction。	在吞吐优先场景下重叠 rollout 与训练。
examples/python/math_reward_func.py	Python reward function 的输入输出协议。	把规则奖励接到在线 RLVR。
examples/python/agent_func.py	MultiTurnAgentExecutor 与 AgentInstanceBase。	把多轮环境、工具调用、反馈回路接入 rollout。

安装与版本边界

OpenRLHF 官方推荐在 NVIDIA PyTorch 容器中安装，原因是 RLHF 同时依赖 CUDA、NCCL、vLLM、FlashAttention、DeepSpeed 和 Ray。容器能减少二进制依赖冲突。

# 使用 NVIDIA runtime 启动 PyTorch 容器，确保容器内能访问 GPU。
# --shm-size 给 Ray、DataLoader、vLLM 共享内存留空间。
docker run --runtime=nvidia -it --rm --shm-size="10g" --cap-add=SYS_ADMIN \
    -v $PWD:/openrlhf nvcr.io/nvidia/pytorch:25.11-py3 bash

# 基础镜像里可能预装与 vLLM / flash-attn ABI 不兼容的包。
# 先卸载这些包，可以避免安装 OpenRLHF extras 时出现二进制冲突。
pip uninstall xgboost transformer_engine flash_attn pynvml opencv-python-headless -y

# 只安装核心训练入口，适合先阅读 SFT/RM/DPO 或自带推理后端的场景。
pip install openrlhf

# 安装 vLLM 集成，是在线 RL rollout 的常用组合。
pip install openrlhf[vllm]

# 跟随较新的 vLLM 版本，适合需要新推理特性但愿意处理兼容性问题的环境。
pip install openrlhf[vllm_latest]

# 增加 ring attention 与 Liger kernel，通常用于长上下文和训练吞吐优化。
pip install openrlhf[vllm,ring,liger]

# 源码安装便于阅读 examples、修改 reward、调试 trainer 内部实现。
git clone https://github.com/OpenRLHF/OpenRLHF.git
cd OpenRLHF
pip install -e .

版本选择上，vLLM 是 rollout 性能核心，DeepSpeed 是 ZeRO-3 和大模型训练核心。使用 Muon 优化器时还要满足 DeepSpeed 的版本要求。生产环境不要混用随机升级的 vLLM、DeepSpeed、CUDA 镜像，应把容器 tag、pip freeze、训练脚本和 checkpoint 绑定保存。

核心架构：Ray + vLLM + DeepSpeed

OpenRLHF 的核心思想是角色拆分。Actor、Reference、Reward、Critic 和 vLLM engine 都可以独立映射到 GPU 资源池，也可以通过 Hybrid Engine 放在同一批 GPU 上分时运行。

组件	职责	常见瓶颈
Ray	提交 job、启动远程 actor、分配 GPU、管理 role placement。	placement 配错导致某些 GPU 空闲，或主节点内存被 driver 吃满。
vLLM	批量生成 rollout，维护 KV cache，接受 actor 权重同步。	KV cache 不够、batch 太小、tensor parallel 配置不匹配。
DeepSpeed	Actor/Critic 的 ZeRO-3 训练、参数/梯度/优化器状态分片。	ZeRO stage、offload、micro batch、gradient checkpointing 组合不当。
NCCL	训练端与 vLLM 端权重同步、GPU 间通信。	网络/NCCL 环境变量错误会卡在同步或 reduce。
Transformers	加载 Hugging Face 模型、tokenizer、chat template、checkpoint 结构。	special tokens、chat template 和 checkpoint 目录不一致。

角色模型：Actor / Reference / Reward / Critic / vLLM

OpenRLHF 的层级 CLI 把不同角色的参数放在不同前缀下，例如

--actor.*

、

--reward.*

、

--vllm.*

、

--ds.*

。这能避免大规模训练脚本里参数归属混乱。

前缀	控制对象	示例
--actor	可训练 policy 模型、优化器、梯度检查点。	--actor.model_name_or_path, --actor.adam.lr
--ref	冻结 reference policy 的节点和 GPU 数。	--ref.num_nodes, --ref.num_gpus_per_node
--reward	reward model 或 Python reward function。	--reward.remote_url
--vllm	rollout engine 数量、TP、显存预算、权重同步。	--vllm.num_engines, --vllm.tensor_parallel_size
--rollout	采样 batch、每 prompt 采样数、最长生成长度。	--rollout.batch_size, --rollout.n_samples_per_prompt
--algo	advantage、KL、动态过滤、off-policy correction。	--algo.advantage.estimator, --algo.kl.init_coef
--ds	DeepSpeed ZeRO、精度、packing、sleep mode。	--ds.zero_stage, --ds.param_dtype
--ckpt	checkpoint 保存、恢复、HF 导出。	--ckpt.path, --ckpt.save_hf

QuickStart 命令逐行解读

下面基于官方 Qwen3-4B RLVR 示例重写为工程注释版。命令展示的是“如何把 Ray job、actor、reward、dataset、vLLM、算法、DeepSpeed 和 checkpoint 接起来”。

# Ray head 节点负责接收 job、维护集群资源视图和调度远程 worker。
# --num-gpus 4 告诉 Ray 当前节点有 4 张 GPU 可分配给 OpenRLHF 的各个角色。
ray start --head --node-ip-address 0.0.0.0 --num-gpus 4

# 通过 Ray Jobs API 提交训练，训练进程由 Ray 在集群内启动。
# 这样提交脚本可以和训练 worker 解耦，适合多节点或容器环境。
ray job submit --address="http://127.0.0.1:8265" \

  # working_dir 会被 Ray 打包分发到 worker，reward 脚本和本地源码才能被远程进程找到。
  --runtime-env-json='{"working_dir": "/openrlhf"}' \

  # 双横线后面是 Ray job 内真正执行的命令。
  # train_ppo_ray 是 OpenRLHF 在线 RL 的 Ray 入口。
  -- python3 -m openrlhf.cli.train_ppo_ray \

  # actor 是被训练的 policy，初始权重来自 Qwen3-4B-Thinking。
  --actor.model_name_or_path Qwen/Qwen3-4B-Thinking-2507 \

  # reward.remote_url 可以指向 HTTP reward 服务，也可以指向本地 Python 文件。
  # 数学 RLVR 常先使用规则 reward，省掉单独训练 reward model 的步骤。
  --reward.remote_url examples/python/math_reward_func.py \

  # prompt_dataset 提供训练 prompt；label_key 提供标准答案或验证目标。
  --data.prompt_dataset zhuzilin/dapo-math-17k \
  --data.input_key prompt \
  --data.label_key label \

  # 使用 tokenizer 自带 chat template，保证训练端输入格式与模型指令格式一致。
  --data.apply_chat_template \

  # packing_samples 把变长样本打包，提高长上下文场景下的 token 利用率。
  --ds.packing_samples \

  # reference policy 使用 1 个节点、4 张 GPU。
  # 它通常冻结，只负责提供 ref_log_probs 和 KL 约束。
  --ref.num_nodes 1 --ref.num_gpus_per_node 4 \

  # actor policy 使用同样的 GPU 规模训练。
  # Hybrid Engine 下它会与 vLLM 分时共享资源。
  --actor.num_nodes 1 --actor.num_gpus_per_node 4 \

  # 启动 2 个 vLLM engine，每个 engine 用 2 张卡做 tensor parallel。
  # 2 engines * TP=2 正好覆盖 4 张 GPU。
  --vllm.num_engines 2 --vllm.tensor_parallel_size 2 \

  # colocate_all 把 Actor、Reference、Reward、Critic、vLLM 放到同一批 GPU 上分时运行。
  --train.colocate_all \

  # 控制 vLLM 可用显存比例；值太高会挤压训练侧，值太低会限制 KV cache。
  --vllm.gpu_memory_utilization 0.7 \

  # rollout 阶段 DeepSpeed sleep，训练阶段 vLLM sleep，降低同卡共存的显存压力。
  --vllm.enable_sleep --ds.enable_sleep \

  # 使用 NCCL 同步 actor 新权重到 vLLM，比 CPU 中转更适合多 GPU。
  --vllm.sync_backend nccl --vllm.enforce_eager \

  # reinforce_baseline 使用 baseline 降低 REINFORCE 方差，适合规则奖励 RLVR。
  --algo.advantage.estimator reinforce_baseline \

  # KL loss 把 policy 拉回 reference 附近；init_coef 是初始约束强度。
  --algo.kl.use_loss --algo.kl.estimator k2 --algo.kl.init_coef 1e-5 \

  # rollout.batch_size 是每轮采样的 prompt 数。
  # n_samples_per_prompt=8 表示每个 prompt 生成 8 条候选回答，用于组内比较。
  --rollout.batch_size 128 --rollout.n_samples_per_prompt 8 \

  # train.batch_size 是进入策略更新的样本总量，需要和 rollout 产物规模匹配。
  --train.batch_size 1024 \

  # data.max_len 限制 prompt 总长度；rollout.max_new_tokens 限制生成长度。
  # 推理题常需要更长 response，但长度上限必须和显存预算一起调。
  --data.max_len 8192 --rollout.max_new_tokens 4096 \

  # ZeRO-3 分片参数、梯度和优化器状态，是大模型训练的基本内存手段。
  --ds.zero_stage 3 --ds.param_dtype bf16 \

  # 梯度检查点用额外计算换显存，常用于长上下文或较大 actor。
  --actor.gradient_checkpointing_enable \

  # RL 阶段学习率通常比 SFT 更小，避免 reward 噪声导致策略剧烈漂移。
  --actor.adam.lr 5e-7 \

  # 输出目录需要和实验名绑定，避免覆盖 SFT 或旧 RL checkpoint。
  --ckpt.output_dir ./exp/Qwen3-4B-Thinking

自定义 Reward Function 逐行解读

OpenRLHF 的 Python reward function 接收完整 query、prompt 和 label，返回 rewards、scores 与 extra_logs。rewards 用于策略优化，scores 常用于动态过滤和指标记录。

from typing import List

import torch

from openrlhf.utils import extract_boxed_answer, grade_answer


def reward_func(queries: List[str], prompts: List[str], labels: List[str], **kwargs) -> dict:
    # queries 是 prompt + response 的完整文本，来自 rollout engine 的生成结果。
    # prompts 是原始输入，用于从 query 中切出模型生成的 response。
    # labels 是数据集中的标准答案字段，来自 --data.label_key。
    rewards = []

    # zip 保证每条 query、prompt、label 一一对应。
    # reward function 必须保持 batch 内样本顺序，否则 reward 会错配到别的 response。
    for query, prompt, label in zip(queries, prompts, labels):
        # prompt 可能已经被 chat template 改写；只有确认 prompt 在 query 中才切片。
        # 这能避免模板不一致时错误截断 response。
        if isinstance(prompt, str) and prompt in query:
            response = query[len(prompt) :]
        else:
            # 如果无法可靠切出 response，就退化为对完整 query 抽取答案。
            # 这比抛异常更适合长时间训练，但需要在 extra_logs 中监控异常比例。
            response = query

        # 数学奖励只检查最终 boxed answer，不直接比较推理链。
        # 推理链可以有多种等价写法，最终答案才是可验证目标。
        pred_answer = extract_boxed_answer(response)

        # grade_answer 负责归一化和判等，例如数字格式、LaTeX 表达式等。
        # 具体容错能力由 OpenRLHF 工具函数实现。
        is_correct = grade_answer(pred_answer, label)

        # 二值 reward 清晰稳定，适合作为 RLVR 的第一版奖励。
        # 如果任务需要部分分，可以改成分项连续 reward。
        rewards.append(1.0 if is_correct else 0.0)

        # 训练早期保留少量打印有助于验证 reward 是否和人类判断一致。
        # 大规模训练时应改成采样日志，避免 stdout 成为瓶颈。
        print(f"[Math Reward] Pred: {pred_answer}, Gold: {label}, Match: {is_correct}")

    # OpenRLHF 期望 rewards 是 tensor，便于直接进入分布式训练管线。
    rewards_tensor = torch.tensor(rewards, dtype=torch.float)

    # accuracy 是 batch 级别的平均正确率，适合写入 logger 观察训练趋势。
    accuracy = rewards_tensor.mean()

    return {
        # rewards 进入 advantage 与 policy loss，是训练信号。
        "rewards": rewards_tensor,

        # scores 通常用于动态过滤、评估展示和额外统计。
        # 对简单规则奖励，可以直接与 rewards 保持一致。
        "scores": rewards_tensor,

        # extra_logs 会进入日志系统，建议放可解释的分项指标。
        "extra_logs": {
            "math_accuracy": accuracy,
        },
    }

Multi-turn Agent 代码逐行解读

OpenRLHF 的 Agent Paradigm 把“如何收集经验”和“如何更新 policy”拆开。Single-turn 只生成一次回答；multi-turn 会在环境中多步交互，每一步把模型 action、环境反馈、reward 继续拼成 token-level trajectory。

import random
from typing import Any, Dict

import torch

from openrlhf.utils.agent import AgentInstanceBase, MultiTurnAgentExecutor


class AgentInstance(AgentInstanceBase):
    # 每个 AgentInstance 对应一个 prompt 的环境实例。
    # 状态变量放在实例上，避免不同 prompt 的交互步数互相污染。
    def __init__(self, *args, **kwargs):
        # 当前已经交互到第几步。
        self.step_idx = 0

        # 示例环境随机设置最大步数。
        # 真实工具任务会用任务结束条件、测试结果或环境 done 信号决定。
        self.max_steps = random.randint(1, 3)

    async def reset(self, states: dict, **kwargs):
        # reset 在一条新轨迹开始时调用。
        # states 通常包含原始 prompt、label、metadata 和采样参数。
        return {"observation": states["observation"]}

    async def step(self, states: dict, **kwargs) -> Dict[str, Any]:
        # step 接收模型刚生成的 action_text，以及上一轮 observation。
        # 多轮 Agent 的核心就是 action -> environment_feedback -> next action。
        observation_text = states["observation_text"]
        action_text = states["action_text"]
        label = states["label"]

        # 示例代码没有真正使用 observation_text/action_text/label。
        # 真实任务会在这里运行工具、调用判题器、访问检索系统或比对答案。
        _ = observation_text, action_text, label

        # done 表示当前轨迹是否结束。
        # 结束时 reward 才通常给到非零值，未结束步骤更多提供环境反馈。
        done = self.step_idx >= self.max_steps

        # 示例用随机 0/1 奖励模拟环境结果。
        # 真实 reward 应来自可复现的规则、模型评分或工具执行结果。
        reward = torch.randint(0, 2, (1,)).float() if done else torch.tensor(0)

        # environment_feedback 会作为下一轮模型输入的一部分。
        # 它必须保持模板稳定，否则训练端和推理端会出现分布漂移。
        if done:
            environment_feedback = "\n\nHuman: [CORRECT]\n"
        else:
            environment_feedback = (
                "\n\nHuman: [INCORRECT]\n"
                "Please analyze the issues and try again.\n\n\nAssistant: "
            )

        # 每调用一次 step，环境步数递增。
        self.step_idx += 1

        return {
            # rewards 用于 advantage 和策略更新。
            "rewards": reward,

            # scores 用于动态过滤和统计；简单环境可与 rewards 相同。
            "scores": reward,

            # environment_feedback 被追加到上下文，让下一次生成看到环境反馈。
            "environment_feedback": environment_feedback,

            # done 控制 multi-turn rollout 是否继续。
            "done": done,

            # sampling_params 允许环境按步调整温度、max_tokens 等采样参数。
            "sampling_params": states.get("sampling_params", None),

            # extra_logs 记录任务相关指标，便于训练时定位 reward 问题。
            "extra_logs": {"dummy_scores": reward},
        }


class AgentExecutor(MultiTurnAgentExecutor):
    # MultiTurnAgentExecutor 负责把每个 prompt 包装成 AgentInstance，
    # 并把多步交互结果转成 OpenRLHF 统一的 token-level trajectory。
    def __init__(self):
        super().__init__(AgentInstance)

Hybrid Engine 配置逐行解读

Hybrid Engine 解决 RLHF 的资源空转问题。生成阶段 vLLM 使用 GPU，训练阶段 DeepSpeed 使用 GPU。sleep mode 让二者在同一批 GPU 上分时占用显存。

# colocate_all 让 Actor、Reference、Reward、Critic 与 vLLM 共用同一组 GPU。
# 这降低 GPU 数量需求，但要求 sleep mode 和显存预算配置正确。
--train.colocate_all \

# vLLM 的 KV cache 显存预算。
# 值越大，rollout 越能处理长上下文和大 batch；值过大会挤压训练侧。
--vllm.gpu_memory_utilization 0.7 \

# generation 阶段 vLLM 醒着，训练阶段 vLLM 释放大部分显存。
--vllm.enable_sleep \

# training 阶段 DeepSpeed 醒着，generation 阶段 DeepSpeed 降低显存占用。
--ds.enable_sleep \

# actor 权重更新后，通过 NCCL 同步到 vLLM engine。
# RL 训练必须持续同步，否则 rollout 使用的 policy 会越来越旧。
--vllm.sync_backend nccl \

# enforce_eager 关闭部分 CUDA graph 行为，常用于提高兼容性和降低图捕获显存压力。
--vllm.enforce_eager

Hybrid Engine 的调参顺序通常是先让脚本稳定跑通，再提高

vllm.gpu_memory_utilization

、rollout batch、max tokens。OOM 时先降低 vLLM 显存比例和 micro batch，再考虑分离资源池。

Async 与 Partial Rollout 配置解读

同步训练按 rollout -> train -> rollout 交替执行。Async 让 rollout 和训练通过队列并行，Partial Rollout 进一步在权重同步时暂停和恢复 vLLM 请求。吞吐更高，但样本可能带有轻微 off-policy 噪声。

# 开启异步管线后，rollout worker 和 trainer 同时运行。
# 训练端从队列消费样本，rollout 端继续生成下一批。
--train.async_enable \

# 队列越深，GPU 越不容易空转，但样本越可能来自旧 policy。
# 初次验证建议从 1 开始。
--train.async_queue_size 1 \

# partial rollout 允许 vLLM 在权重同步时暂停正在生成的请求。
# 新权重加载后再恢复生成，提高 rollout 与同步的重叠程度。
--train.partial_rollout_enable \

# 异步样本可能偏离当前 policy。
# off-policy correction 用于降低旧样本带来的优化偏差。
--algo.advantage.is_correction_enable \
--algo.advantage.is_correction_type icepop

Async 不适合作为第一轮实验默认配置。先用同步 Hybrid Engine 验证 reward、KL、长度和正确率曲线，再切换 async 观察吞吐收益和收敛差异。

Checkpoint、导出与恢复

OpenRLHF 的 checkpoint 需要同时考虑 DeepSpeed 分片状态和 Hugging Face 可部署权重。训练中断恢复依赖 optimizer、scheduler、dataset progress；上线部署通常需要导出 HF 格式。

# DeepSpeed/Ray 训练状态保存目录，用于断点恢复。
# 这个目录通常包含分片权重、优化器状态、scheduler 状态和训练进度。
--ckpt.path ./exp/Qwen3-4B-Thinking/ckpt \

# output_dir 是实验产物根目录，日志、HF 导出和最终模型通常都挂在这里。
--ckpt.output_dir ./exp/Qwen3-4B-Thinking \

# 每隔多少 training steps 保存一次 checkpoint。
# RL 训练成本高，save_steps 不宜过大，否则失败后回滚太多 rollout。
--ckpt.save_steps 10 \

# 最多保留几个 checkpoint，避免长时间训练把磁盘写满。
--ckpt.max_num 3 \

# 同时导出 Hugging Face 格式模型，方便后续用 transformers/vLLM 加载评估。
--ckpt.save_hf \

# 从已有 checkpoint 恢复训练时打开。
# 恢复前要保证训练脚本、模型路径、world size 和关键并行配置兼容。
--ckpt.load_enable

Agent Paradigm 与 token-in-token-out

OpenRLHF 的 Agent Paradigm 把执行方式和 RL 算法拆开。执行方式负责产生轨迹，算法负责消费轨迹。single-turn、自定义 reward、multi-turn 工具环境都被统一成 token-level trajectory，后续 PPO、GRPO、RLOO、REINFORCE++ 使用同一套 loss 入口。

维度	Single-turn	Multi-turn Agent
执行过程	prompt 生成一次 response，然后 reward 打分。	prompt 进入环境，模型多次 action，环境多次反馈。
配置入口	默认模式，常配合 --reward.remote_url。	--train.agent_func_path 指向 AgentExecutor 文件。
轨迹结构	prompt tokens + response tokens + reward。	observation/action/feedback 多轮拼成一条 token trajectory。
典型任务	数学答案、代码单测、格式校验、偏好奖励。	工具调用、网页环境、代码调试、交互式游戏、搜索增强。

token-in-token-out 的工程价值很高。模型生成结果不先还原成字符串再重新 tokenize，能避免 BOS/EOS、chat template、特殊 token、工具标记在训练端和 rollout 端不一致。多轮 Agent 仍然可以返回文本反馈，但框架最终保存和优化的是 token 级轨迹。

Single-turn RLVR
  prompt tokens
    -> vLLM generate response tokens
    -> reward function reads response text and label
    -> trainer stores response tokens, log_probs, rewards, masks
    -> RL loss updates actor

Multi-turn Agent RL
  prompt tokens
    -> model action tokens
    -> environment returns feedback and reward
    -> model reads feedback and emits next action tokens
    -> executor packs all turns into one token-level trajectory
    -> RL loss updates actor with the same algorithm interface

算法入口与层级 CLI

OpenRLHF 0.10.2 之后使用层级 CLI。算法切换主要通过

--algo.advantage.estimator

完成，KL、动态过滤、off-policy correction、batch 和长度预算则通过各自前缀组合。

配置	含义	常见选择
--algo.advantage.estimator	选择 advantage 估计器，也就是在线 RL 的核心算法形态。	gae, reinforce, reinforce_baseline, rloo, group_norm, dr_grpo
--algo.kl.use_loss	把 KL 作为 actor loss 的约束项。	推理/RLVR 中常用，避免 reward 直接吞掉语言质量。
--algo.kl.init_coef	KL 初始系数。	从小值开始，结合实际 KL 曲线调。
--algo.dynamic_filtering_enable	过滤全错、全对或超出分数范围的 rollout group。	规则奖励任务常用，减少无学习信号 batch。
--train.dynamic_batch_enable	按 token 数动态组织 batch。	长短 response 混合时降低 OOM 和吞吐抖动。
--train.max_tokens_per_gpu	训练阶段每张 GPU 的 token 上限。	显存控制阈值，优先级高于样本条数。
--rollout.max_tokens_per_gpu	rollout 阶段每张 GPU 的 token 上限。	控制 vLLM 侧批量生成规模。

# 切换为 GRPO 风格的组内相对优势。
# group_norm 对应 GRPO 这一类按组归一化的 estimator。
--algo.advantage.estimator group_norm \

# 动态过滤会丢弃没有学习信号的 group。
# 例如同一 prompt 的 8 条回答全错或全对，组内 advantage 接近无效。
--algo.dynamic_filtering_enable \

# 只保留 score 落在 0 到 1 范围内的样本组。
# 对二值数学 reward，这通常覆盖正常正确率区间。
--algo.dynamic_filtering_range 0.0 1.0 \

# 动态 batch 让 batch 按 token 预算组织，样本条数只作为次级约束。
# 长 response 场景下，这是控制显存和吞吐的关键开关。
--train.dynamic_batch_enable \

# 训练阶段每张 GPU 最多处理的 token 数。
# OOM 时先降低这个值，比盲目降低学习率更有效。
--train.max_tokens_per_gpu 16192 \

# rollout 阶段每张 GPU 最多处理的 token 数。
# 该值影响 vLLM batching 和 KV cache 压力。
--rollout.max_tokens_per_gpu 32768

训练脚本组织模板

OpenRLHF 命令很长，生产脚本应把资源、算法、数据、checkpoint 分区写清楚。下面是一个结构化模板，重点展示每组参数的职责。

#!/usr/bin/env bash

# 严格模式让脚本在变量缺失、命令失败、管道失败时立刻停止。
# RL 训练成本高，静默失败会浪费大量 GPU 时间。
set -euo pipefail

# 模型、数据、输出目录集中放在顶部，便于实验管理系统覆盖。
ACTOR_MODEL=${ACTOR_MODEL:-Qwen/Qwen3-4B-Thinking-2507}
PROMPT_DATASET=${PROMPT_DATASET:-zhuzilin/dapo-math-17k}
OUTPUT_DIR=${OUTPUT_DIR:-./exp/qwen3_math_rlvr}

# Ray head 只需在集群启动时执行一次。
# 本地单机调试可以把它放进脚本；生产集群通常由调度器提前启动。
ray start --head --node-ip-address 0.0.0.0 --num-gpus 4

# 使用数组组织参数，避免一条命令无限延伸且难以审查。
DATA_ARGS=(
  # prompt_dataset 是在线 rollout 的问题来源。
  --data.prompt_dataset "$PROMPT_DATASET"

  # input_key/label_key 明确数据字段，reward function 才能拿到标准答案。
  --data.input_key prompt
  --data.label_key label

  # chat template 保持 prompt 格式与模型训练格式一致。
  --data.apply_chat_template
)

ROLLOUT_ARGS=(
  # rollout batch 控制每轮采样多少 prompt。
  --rollout.batch_size 128

  # 每个 prompt 多采样，给 GRPO/RLOO/REINFORCE baseline 提供比较对象。
  --rollout.n_samples_per_prompt 8

  # 限制生成长度，防止模型靠超长输出拖垮吞吐或骗 reward。
  --rollout.max_new_tokens 4096
)

ALGO_ARGS=(
  # 规则奖励任务首选无 critic 或弱 critic 的 estimator 做快速验证。
  --algo.advantage.estimator reinforce_baseline

  # KL loss 保留 SFT 模型的语言分布和安全边界。
  --algo.kl.use_loss
  --algo.kl.estimator k2
  --algo.kl.init_coef 1e-5
)

ENGINE_ARGS=(
  # ZeRO-3 是大模型在线训练的主要显存手段。
  --ds.zero_stage 3
  --ds.param_dtype bf16

  # vLLM 负责采样，TP=2 时一个 engine 跨两张卡。
  --vllm.num_engines 2
  --vllm.tensor_parallel_size 2
  --vllm.sync_backend nccl

  # Hybrid Engine 共用 GPU，sleep mode 降低同时驻留显存。
  --train.colocate_all
  --vllm.enable_sleep
  --ds.enable_sleep
)

CKPT_ARGS=(
  # ckpt.path 保存可恢复训练状态。
  --ckpt.path "$OUTPUT_DIR/ckpt"

  # output_dir 保存实验输出和可选 HF 导出。
  --ckpt.output_dir "$OUTPUT_DIR"

  # 频繁保存降低长时间 RL 训练失败后的回滚成本。
  --ckpt.save_steps 10
  --ckpt.max_num 3
  --ckpt.save_hf
)

ray job submit --address="http://127.0.0.1:8265" \
  --runtime-env-json='{"working_dir": "/openrlhf"}' \
  -- python3 -m openrlhf.cli.train_ppo_ray \
  --actor.model_name_or_path "$ACTOR_MODEL" \
  --reward.remote_url examples/python/math_reward_func.py \
  "${DATA_ARGS[@]}" \
  "${ROLLOUT_ARGS[@]}" \
  "${ALGO_ARGS[@]}" \
  "${ENGINE_ARGS[@]}" \
  "${CKPT_ARGS[@]}"

OpenRLHF 选型边界

OpenRLHF 适合已经明确要做在线 RLHF/RLVR 的团队，尤其是需要 Ray 调度、vLLM rollout、DeepSpeed ZeRO-3 和 multi-turn agent 的项目。它的优势是角色边界清楚、命令行可组合、Hybrid Engine 对中小 GPU 集群友好。代价是参数多、版本组合敏感、训练脚本需要严格工程化管理。

verl 详解

verl 是面向大语言模型后训练的强化学习框架，核心设计来自 HybridFlow。它把 RL 算法的控制流放在单进程 driver 中，把模型前向、rollout、反向和优化器放在 Ray worker 上执行。这个拆分让研究者能更容易改 PPO/GRPO 主循环，同时复用 FSDP、Megatron-LM、vLLM、SGLang 等计算后端。

官方文档结构与源码入口

入口	阅读重点	工程意义
docs/hybrid_flow.rst	控制流、计算流、driver/worker 拆分。	理解 verl 与一体化多进程 trainer 的差异。
docs/examples/ppo_code_architecture.rst	main_ppo、RewardManager、WorkerGroup、ResourcePool。	定位新增算法或新 worker 应该改哪里。
docs/start/quickstart.rst	GSM8K PPO 首跑、parquet 数据、model_merger。	建立最小可运行工程链路。
docs/preparation/reward_function.rst	custom_reward_function.path/name 和 RewardManager。	接入自定义规则奖励或 reward model。
verl/trainer/main_ppo.py	Hydra 入口、Ray 初始化、TaskRunner。	理解训练 job 如何启动和分配角色。
verl/trainer/ppo/ray_trainer.py	apply_kl_penalty、compute_advantage、RayPPOTrainer.fit。	理解 rollout 到 actor update 的主循环。
examples/grpo_trainer/run_qwen3_8b_fsdp.sh	GRPO、FSDP、vLLM、NPU/GPU 的真实配置组织。	把 Hydra 参数分组管理，避免巨型命令不可维护。

安装与后端选择

verl 官方推荐容器环境。训练后端和 rollout 后端可以独立选择：研究和原型常用 FSDP/FSDP2，超大规模可选 Megatron-LM；rollout 常用 vLLM，也支持 SGLang、TensorRT-LLM 或 Hugging Face 调试路径。

# 克隆 verl 源码，便于阅读 trainer、worker 和 examples。
git clone https://github.com/verl-project/verl.git
cd verl

# 使用 no-deps 源码安装，依赖通常由官方镜像或项目 requirements 管理。
# 这样可以避免 pip 自动升级 CUDA 相关包导致 ABI 冲突。
pip3 install --no-deps -e .

# 预处理 GSM8K 为 parquet。
# verl 的 RLHFDataset 默认从 parquet 读取 prompt、label、data_source 等字段。
python3 examples/data_preprocess/gsm8k.py --local_save_dir ~/data/gsm8k

# 预下载模型可以提前暴露网络、权限、模型卡依赖问题。
# 真正训练时 actor 和 critic 会通过配置项再次加载该模型。
python3 -c "import transformers; transformers.pipeline('text-generation', model='Qwen/Qwen2.5-0.5B-Instruct')"

HybridFlow：控制流与计算流

HybridFlow 把 RL 系统看成两层 dataflow。控制流决定先 rollout、再算 logprob/reward/advantage、再 update actor/critic；计算流决定每个模型操作如何在多 GPU 上执行。verl 让控制流保持单进程 Python 逻辑，计算流交给 Ray worker 和模型引擎。

层次	包含内容	在 verl 中的位置
控制流	rollout 顺序、reward 计算、advantage、actor/critic 更新时机。	RayPPOTrainer.fit、main_ppo.py、算法扩展。
计算流	模型 forward、backward、optimizer、FSDP/Megatron/vLLM 并行。	ActorRolloutRefWorker、TrainingWorker、engine backend。
数据协议	prompt、response、mask、log_probs、reward、advantage。	DataProto、TensorDict、non_tensor_batch。
资源映射	哪些角色放到哪些 GPU pool。	ResourcePoolManager、Role、RayWorkerGroup。

DataProto 与 WorkerGroup

DataProto 是 verl 在 driver 和 worker 之间传递 batch 的核心容器。tensor 字段放在 batch 中，字符串、数据源、ground truth 等非 tensor 字段放在 non_tensor_batch 中。WorkerGroup 对外暴露看起来像本地函数的方法，内部负责把 DataProto 拆分到多个 worker，再收集结果。

# 下面是 WorkerGroup 调用模式的压缩示意。
# 真实实现由 @register(dispatch_mode=...) 自动处理 split、remote call 和 gather。

# data 是一个 DataProto，里面同时包含 tensor batch 与非 tensor metadata。
data = build_prompt_dataproto(batch)

# generate_sequences 在 rollout worker 上远程执行。
# driver 只描述控制流，不直接管理每张 GPU 的推理细节。
output = actor_rollout_ref_wg.generate_sequences(data)

# compute_log_prob 使用当前 actor 重新计算生成 token 的 log probability。
# PPO/GRPO 需要它和 old_log_probs 共同构造策略更新目标。
old_log_prob = actor_rollout_ref_wg.compute_log_prob(output)

# compute_ref_log_prob 使用冻结 reference policy 计算同一批 response 的概率。
# KL 惩罚依赖 current policy 与 reference policy 的差异。
ref_log_prob = actor_rollout_ref_wg.compute_ref_log_prob(output)

# critic 估计 value，用于 PPO 的 GAE 或 return 计算。
# GRPO 这类算法可以不启用 critic。
values = critic_wg.compute_values(output)

# reward worker 或函数式 reward 计算训练信号。
# 输出通常会变成 token_level_scores 或 sequence-level score。
rewards = reward_wg.compute_scores(output)

# advantage 在 driver 控制流中计算。
# 这样新增算法可以直接改 Python 逻辑，不必重写底层 FSDP/vLLM worker。
advantages = compute_advantages(values, rewards)

# union 把不同 worker 产出的字段合并回同一个 DataProto。
# 后续 actor/critic update 会读取这些字段计算 loss。
output = output.union(old_log_prob)
output = output.union(ref_log_prob)
output = output.union(values)
output = output.union(rewards)
output = output.union(advantages)

# actor update 执行策略梯度更新。
# 具体反向传播、梯度裁剪、optimizer step 由 actor worker 的后端实现负责。
actor_rollout_ref_wg.update_actor(output)

# critic update 只在启用 critic 的算法中执行。
# GRPO/RLOO/部分 REINFORCE 变体可以省略 value model。
critic_wg.update_critic(output)

RayPPOTrainer 主循环逐行解读

verl 的

ray_trainer.py

中，KL penalty 和 advantage 是连接 reward 与 policy loss 的两个关键函数。下面保留核心逻辑并加工程注释。

def apply_kl_penalty(data, kl_ctrl, kl_penalty="kl"):
    # response_mask 标记 response token 的有效位置。
    # prompt 和 padding 不应该参与 KL reward penalty。
    response_mask = data.batch["response_mask"]

    # token_level_scores 是 reward function 或 reward model 产生的原始分数。
    # 它可能只在最后一个 token 非零，也可能已经被展开到每个 token。
    token_level_scores = data.batch["token_level_scores"]

    # batch_size 用于更新自适应 KL controller。
    # controller 需要知道本次统计覆盖了多少条样本。
    batch_size = data.batch.batch_size[0]

    # old_log_probs 是 actor 对采样 response 的概率。
    # ref_log_prob 是 reference policy 对同一 response 的概率。
    kld = core_algos.kl_penalty(
        data.batch["old_log_probs"],
        data.batch["ref_log_prob"],
        kl_penalty=kl_penalty,
    )

    # 只保留 response token 的 KL，避免 prompt token 污染策略约束。
    kld = kld * response_mask

    # beta 是当前 KL 惩罚系数，可由 controller 动态调整。
    beta = kl_ctrl.value

    # reward 被扣掉 beta * KL。
    # 这让模型提高任务得分时仍受 reference 分布约束。
    token_level_rewards = token_level_scores - beta * kld

    # masked_mean 先对每条 response 求平均 KL，再对 batch 求平均。
    # 该指标用于日志和自适应调整 beta。
    current_kl = masked_mean(kld, mask=response_mask, axis=-1)
    current_kl = torch.mean(current_kl, dim=0).item()

    # KL controller 根据实际 KL 和目标 KL 调整惩罚强度。
    # KL 过高时 beta 增大，KL 过低时 beta 可以降低。
    kl_ctrl.update(current_kl=current_kl, n_steps=batch_size)

    # 后续 advantage 计算读取 token_level_rewards，原始 scores 只保留为未加 KL 的任务分数。
    data.batch["token_level_rewards"] = token_level_rewards

    # 返回 metrics 供 logger 展示训练是否偏离 reference。
    metrics = {
        "actor/reward_kl_penalty": current_kl,
        "actor/reward_kl_penalty_coeff": beta,
    }
    return data, metrics

def compute_advantage(data, adv_estimator, gamma=1.0, lam=1.0, config=None):
    # response_mask 是所有 advantage estimator 的公共输入。
    # 如果前面没有显式计算，这里根据 attention_mask 补出来。
    if "response_mask" not in data.batch.keys():
        data.batch["response_mask"] = compute_response_mask(data)

    # GAE 需要 critic values，适合标准 PPO。
    # gamma 控制未来 reward 折扣，lam 控制 bias-variance tradeoff。
    if adv_estimator == AdvantageEstimator.GAE:
        advantages, returns = core_algos.compute_gae_advantage_return(
            token_level_rewards=data.batch["token_level_rewards"],
            values=data.batch["values"],
            response_mask=data.batch["response_mask"],
            gamma=gamma,
            lam=lam,
        )
        data.batch["advantages"] = advantages
        data.batch["returns"] = returns

    # GRPO 用同一 prompt 的多条 response 做组内归一化。
    # index 通常是 prompt uid，用来判断哪些 response 属于同一组。
    elif adv_estimator == AdvantageEstimator.GRPO:
        advantages, returns = core_algos.compute_grpo_outcome_advantage(
            token_level_rewards=data.batch["token_level_rewards"],
            response_mask=data.batch["response_mask"],
            index=data.non_tensor_batch["uid"],
            norm_adv_by_std_in_grpo=True,
        )
        data.batch["advantages"] = advantages
        data.batch["returns"] = returns

    else:
        # 其他 estimator 通过注册表分发，便于扩展 RLOO、REINFORCE++ 等算法。
        adv_estimator_fn = core_algos.get_adv_estimator_fn(adv_estimator)

        # 所有 estimator 至少需要 token reward、mask 和算法配置。
        adv_kwargs = {
            "token_level_rewards": data.batch["token_level_rewards"],
            "response_mask": data.batch["response_mask"],
            "config": config,
        }

        # uid 允许 estimator 做组内 baseline 或按 prompt 聚合。
        if "uid" in data.non_tensor_batch:
            adv_kwargs["index"] = data.non_tensor_batch["uid"]

        # reward_baselines 可来自数据集、reward model 或外部估计。
        if "reward_baselines" in data.batch:
            adv_kwargs["reward_baselines"] = data.batch["reward_baselines"]

        advantages, returns = adv_estimator_fn(**adv_kwargs)
        data.batch["advantages"] = advantages
        data.batch["returns"] = returns

    # 返回的 DataProto 已经带上 actor/critic update 所需字段。
    return data

RewardManager 与自定义奖励

verl 的自定义 reward 通过 Hydra 配置接入：

custom_reward_function.path

指向 Python 文件，

custom_reward_function.name

指向函数名。函数通常接收 data_source、solution_str、ground_truth 和 extra_info。

def compute_score(data_source, solution_str, ground_truth, extra_info=None):
    # data_source 用于区分不同数据集。
    # 同一个训练任务混合 GSM8K、MATH、代码题时，reward 逻辑通常不同。
    if data_source == "openai/gsm8k":
        return score_gsm8k(solution_str, ground_truth)

    # MATH 数据集常需要 LaTeX 归一化和更复杂的答案等价判断。
    if data_source == "lighteval/MATH":
        return score_math(solution_str, ground_truth)

    # extra_info 可以携带测试用例、rubric、样本难度或工具参数。
    # 代码任务通常会从 extra_info 中读取 hidden tests 或 sandbox 配置。
    if extra_info and extra_info.get("task_type") == "code":
        return run_sandbox_tests(solution_str, extra_info["tests"])

    # 未覆盖的数据源直接报错，避免静默给 0 分导致训练信号损坏。
    raise NotImplementedError(f"No reward function for data_source={data_source}")

# 指定自定义 reward 文件路径。
# 该文件会被 trainer 加载，函数必须在 worker 可访问的路径下。
custom_reward_function.path=/workspace/rewards/math_reward.py \

# 指定 reward 文件中的函数名。
# 如果函数就叫 compute_score，可以省略 name，使用默认入口。
custom_reward_function.name=compute_score

QuickStart 命令逐行解读

verl 的 QuickStart 使用 Hydra 覆盖参数。命令行里的

a.b.c=value

会覆盖配置树中的对应字段。

# PYTHONUNBUFFERED=1 让日志实时输出，训练异常时不用等缓冲区刷新。
PYTHONUNBUFFERED=1 python3 -m verl.trainer.main_ppo \

  # 训练集和验证集使用 parquet，便于保存 prompt、answer、data_source、extra_info。
  data.train_files=$HOME/data/gsm8k/train.parquet \
  data.val_files=$HOME/data/gsm8k/test.parquet \

  # train_batch_size 是每次 PPO 外层迭代消费的 prompt 数。
  # 真实进入 actor update 的样本数还会乘以 rollout.n。
  data.train_batch_size=256 \

  # prompt 和 response 分开限制长度，便于控制 KV cache 和训练显存。
  data.max_prompt_length=512 \
  data.max_response_length=512 \

  # actor、rollout、reference 共用同一个模型路径。
  # actor 会训练，reference 通常冻结，rollout 用于高吞吐采样。
  actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct \

  # actor 学习率控制 policy 更新幅度。
  # RL 阶段通常小于 SFT 学习率，降低 reward 噪声放大风险。
  actor_rollout_ref.actor.optim.lr=1e-6 \

  # PPO mini batch 控制一次 rollout batch 被切成多少策略更新子批次。
  actor_rollout_ref.actor.ppo_mini_batch_size=64 \

  # 每张 GPU 的 micro batch 控制显存峰值。
  # OOM 时优先降低它，再考虑总 batch 或模型规模。
  actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=4 \

  # rollout.name=vllm 使用 vLLM 作为生成后端。
  actor_rollout_ref.rollout.name=vllm \

  # log_prob micro batch 控制重新计算 response token 概率时的显存。
  actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=8 \

  # tensor_model_parallel_size 控制 vLLM 推理时一个模型切到几张 GPU。
  actor_rollout_ref.rollout.tensor_model_parallel_size=1 \

  # vLLM KV cache 显存比例，值越大 rollout 能容纳更长 response 或更多并发。
  actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \

  # reference policy 只计算 ref_log_prob，也需要 micro batch 控制显存。
  actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=4 \

  # critic 学习率通常可以高于 actor，因为 value 拟合不直接改变生成分布。
  critic.optim.lr=1e-5 \

  # critic.model.path 通常与 actor 初始模型一致，也可以使用更小 value model。
  critic.model.path=Qwen/Qwen2.5-0.5B-Instruct \

  # critic micro batch 控制 value model 训练显存。
  critic.ppo_micro_batch_size_per_gpu=4 \

  # KL 系数限制 policy 偏离 reference。
  # 系数过大模型学不动，过小容易 reward hacking。
  algorithm.kl_ctrl.kl_coef=0.001 \

  # console logger 适合本地首跑；长期实验通常加 wandb。
  trainer.logger=console \

  # 跳过训练前验证可以更快暴露训练链路问题。
  trainer.val_before_train=False \

  # 单节点单卡配置；多卡时同步修改 n_gpus_per_node 和并行参数。
  trainer.n_gpus_per_node=1 \
  trainer.nnodes=1 \

  # checkpoint 和验证频率。
  # RL 训练波动大，早期建议更频繁保存和验证。
  trainer.save_freq=10 \
  trainer.test_freq=10 \

  # total_epochs 控制遍历数据集轮数，不等于 PPO update 总数。
  trainer.total_epochs=15 2>&1 | tee verl_demo.log

GRPO / FSDP / vLLM 配置逐行解读

verl 的真实训练脚本通常把 Hydra 参数分组为 DATA、MODEL、ACTOR、ROLLOUT、REF、TRAINER。这样比一条超长命令更可维护，也便于不同硬件分支复用。

# 失败即退出，未定义变量即报错，管道中任何一步失败都会失败。
# 训练脚本应默认严格模式，避免静默跑出错误实验。
set -xeuo pipefail

# DEVICE 默认通过 torch_npu 探测 NPU，否则使用 GPU。
# 这让同一份脚本可以覆盖 NVIDIA GPU 和 Ascend NPU 环境。
DEVICE=${DEVICE:-$(python3 -c 'import torch_npu' 2>/dev/null && echo npu || echo gpu)}

# rollout backend 默认 vLLM，也可以改成 sglang 或 trtllm。
# 选择后端会影响可用参数、吞吐和硬件兼容性。
INFER_BACKEND=${INFER_BACKEND:-vllm}

# 模型路径可以是 Hugging Face repo，也可以是本地 checkpoint。
MODEL_PATH=${MODEL_PATH:-Qwen/Qwen3-8B}

# train_batch_size 是每轮外层训练消费的 prompt 数。
# GRPO 中每个 prompt 还会采样 rollout_n 条 response。
train_batch_size=${TRAIN_BATCH_SIZE:-1024}

# ppo_mini_batch_size 控制一次 rollout 产物切成多少策略更新批次。
ppo_mini_batch_size=${PPO_MINI_BATCH_SIZE:-256}

# max_response_length 对推理题很关键，过短会截断思考，过长会拖垮吞吐。
max_response_length=${MAX_RESPONSE_LENGTH:-2048}

# rollout_n 是每个 prompt 的采样条数。
# GRPO 依赖组内比较，rollout_n 太小会让 advantage 估计不稳定。
rollout_n=${ROLLOUT_N:-5}

DATA=(
    # 使用 GRPO advantage estimator，不需要单独训练 critic。
    algorithm.adv_estimator=grpo

    # KL 放在 actor loss 中处理，保留 reward 的原始任务语义。
    algorithm.use_kl_in_reward=False

    # 混合 GSM8K 和 MATH parquet，reward 需要根据 data_source 区分逻辑。
    data.train_files="['$HOME/data/gsm8k/train.parquet', '$HOME/data/math/train.parquet']"
    data.val_files="['$HOME/data/gsm8k/test.parquet', '$HOME/data/math/test.parquet']"

    # 控制 prompt batch，真实 response 数量约为 train_batch_size * rollout_n。
    data.train_batch_size=${train_batch_size}

    # prompt/response 长度上限同时影响 vLLM KV cache 和 FSDP 训练显存。
    data.max_prompt_length=${MAX_PROMPT_LENGTH:-1024}
    data.max_response_length=${max_response_length}

    # 过长 prompt 直接过滤，避免训练中途被截断破坏题意。
    data.filter_overlong_prompts=True
    data.truncation='error'
)

MODEL=(
    # actor、rollout、reference 的初始权重。
    actor_rollout_ref.model.path="$MODEL_PATH"

    # remove padding 能减少无效 token 计算，提高长短样本混合时的吞吐。
    actor_rollout_ref.model.use_remove_padding=True

    # gradient checkpointing 用计算换显存，适合 8B 以上模型和长 response。
    actor_rollout_ref.model.enable_gradient_checkpointing=True
)

ACTOR=(
    # actor 学习率决定 policy 更新幅度。
    actor_rollout_ref.actor.optim.lr=${ACTOR_LR:-1e-6}

    # GRPO/PPO update 的 mini batch 大小。
    actor_rollout_ref.actor.ppo_mini_batch_size=${ppo_mini_batch_size}

    # 动态 batch 按 token 数组织 micro batch，减少长短样本造成的显存波动。
    actor_rollout_ref.actor.use_dynamic_bsz=True

    # 每张 GPU 的最大训练 token 数，是防 OOM 的核心阈值。
    actor_rollout_ref.actor.ppo_max_token_len_per_gpu=${PPO_MAX_TOKEN_LEN_PER_GPU:-24576}

    # KL loss 约束 actor 不要偏离 reference 过远。
    actor_rollout_ref.actor.use_kl_loss=True
    actor_rollout_ref.actor.kl_loss_coef=${KL_LOSS_COEF:-0.001}
    actor_rollout_ref.actor.kl_loss_type=low_var_kl

    # entropy 系数控制探索；推理任务常设为 0，依赖 rollout sampling 提供多样性。
    actor_rollout_ref.actor.entropy_coeff=${ENTROPY_COEFF:-0}
)

ROLLOUT=(
    # rollout 后端选择 vLLM/SGLang/TensorRT-LLM。
    actor_rollout_ref.rollout.name=${INFER_BACKEND}

    # rollout tensor parallel size 控制推理模型切分。
    actor_rollout_ref.rollout.tensor_model_parallel_size=${ROLLOUT_TP:-2}

    # vLLM 显存比例主要用于 KV cache。
    actor_rollout_ref.rollout.gpu_memory_utilization=${ROLLOUT_GPU_MEM_UTIL:-0.6}

    # 每个 prompt 生成多条 response，GRPO 用这些 response 做组内相对优势。
    actor_rollout_ref.rollout.n=${rollout_n}

    # log_prob 动态 batch 避免长 response 重新算概率时 OOM。
    actor_rollout_ref.rollout.log_prob_use_dynamic_bsz=True
    actor_rollout_ref.rollout.log_prob_max_token_len_per_gpu=${PPO_MAX_TOKEN_LEN_PER_GPU:-24576}
)

REF=(
    # reference 只算 ref_log_prob，动态 batch 同样可以降低显存尖峰。
    actor_rollout_ref.ref.log_prob_use_dynamic_bsz=True
    actor_rollout_ref.ref.log_prob_max_token_len_per_gpu=${PPO_MAX_TOKEN_LEN_PER_GPU:-24576}

    # reference 冻结后可 offload 参数，给 actor/rollout 腾显存。
    actor_rollout_ref.ref.fsdp_config.param_offload=True
)

TRAINER=(
    # balance_batch 按序列长度平衡 batch，减少某张 GPU 被长样本拖慢。
    trainer.balance_batch=True

    # 同时输出 console 和 wandb，适合长期训练留存曲线。
    trainer.logger='["console","wandb"]'

    # project_name 和 experiment_name 决定 checkpoint 与日志目录层级。
    trainer.project_name=${PROJECT_NAME:-verl_grpo_gsm8k_math}
    trainer.experiment_name=${EXPERIMENT_NAME:-qwen3_8b_grpo_vllm_fsdp}

    # 资源规模，Ray 会据此分配 worker。
    trainer.n_gpus_per_node=${NGPUS_PER_NODE:-8}
    trainer.nnodes=${NNODES:-1}

    # checkpoint 和验证频率。
    trainer.save_freq=${SAVE_FREQ:-20}
    trainer.test_freq=${TEST_FREQ:-5}
    trainer.total_epochs=${TOTAL_EPOCHS:-15}
)

# 数组展开可以保持每组参数独立维护，同时传给 Hydra 入口。
python3 -m verl.trainer.main_ppo \
    "${DATA[@]}" \
    "${MODEL[@]}" \
    "${ACTOR[@]}" \
    "${ROLLOUT[@]}" \
    "${REF[@]}" \
    "${TRAINER[@]}" \
    "$@"

Checkpoint、合并与评估

verl 默认把 checkpoint 保存到

checkpoints/${trainer.project_name}/${trainer.experiment_name}

。FSDP 保存的是分片状态，部署前通常需要用

verl.model_merger

合并成 Hugging Face 目录。

# local_dir 指向某个 global_step 下 actor 的 FSDP 分片 checkpoint。
# 这个目录用于恢复训练，不一定能直接被 transformers/vLLM 加载。
LOCAL_DIR=checkpoints/${trainer_project}/${trainer_experiment}/global_step_1/actor

# target_dir 是合并后的 Hugging Face 格式目录。
# 部署、离线评估和继续 SFT 通常使用这个目录。
TARGET_DIR=checkpoints/${trainer_project}/${trainer_experiment}/global_step_1/actor/huggingface

# backend=fsdp 告诉 merger 按 FSDP 分片格式读取权重。
# 如果训练使用 Megatron 后端，backend 需要切换到对应合并路径。
python3 -m verl.model_merger merge \
    --backend fsdp \
    --local_dir "$LOCAL_DIR" \
    --target_dir "$TARGET_DIR"

评估时应固定 decoding 配置，并同时看任务分数、KL、长度和格式错误率。RL checkpoint 之间不能只按 reward 选最优；reward hacking 会让训练分数优于人工质量。

main_ppo 与 TaskRunner 代码解读

verl 的训练入口由 Hydra 管配置，Ray 管分布式任务。

main_ppo.py

里的 driver 负责启动 Ray、构造 TaskRunner，并由 TaskRunner 组装 worker、resource pool 和 trainer；模型前向、反向和生成由远程 worker 执行。

@hydra.main(config_path="config", config_name="ppo_trainer", version_base=None)
def main(config):
    # Hydra 把 YAML 和命令行覆盖合成 config。
    # 训练脚本中的 a.b.c=value 最终都会落到这个对象里。
    auto_set_device(config)

    # 兼容旧 reward 配置，统一迁移到当前 RewardManager 接口。
    # 这一步让老实验脚本不必一次性全部重写。
    config = migrate_legacy_reward_impl(config)

    # 真正启动 Ray 和 PPO 训练逻辑。
    run_ppo(config)


def run_ppo(config, task_runner_class=None) -> None:
    # 如果外部没有提前 ray.init，这里创建本地或集群 Ray runtime。
    if not ray.is_initialized():
        # 默认 runtime_env 会设置 tokenizer、NCCL、vLLM 等环境变量。
        # 这些变量必须随着 Ray worker 一起分发。
        default_runtime_env = get_ppo_ray_runtime_env()

        # 用户可以通过 config.ray_kwargs.ray_init 覆盖 Ray 初始化参数。
        ray_init_kwargs = config.ray_kwargs.get("ray_init", {})
        runtime_env_kwargs = ray_init_kwargs.get("runtime_env", {})

        # transfer_queue 用于某些高吞吐数据传输路径。
        # 开启后需要把环境变量注入所有 Ray worker。
        if config.transfer_queue.enable:
            runtime_env_vars = runtime_env_kwargs.get("env_vars", {})
            runtime_env_vars["TRANSFER_QUEUE_ENABLE"] = "1"
            runtime_env_kwargs["env_vars"] = runtime_env_vars

        # OmegaConf.merge 让默认 runtime_env 与用户覆盖项合并。
        runtime_env = OmegaConf.merge(default_runtime_env, runtime_env_kwargs)

        # ray.init 接收普通 dict，这里把 OmegaConf 转回容器。
        ray_init_kwargs = OmegaConf.create({**ray_init_kwargs, "runtime_env": runtime_env})
        ray.init(**OmegaConf.to_container(ray_init_kwargs))

    # TaskRunner 是单进程 driver actor。
    # 官方建议不要调度到 Ray head，因为它会持有配置、数据迭代器和控制状态。
    if task_runner_class is None:
        task_runner_class = ray.remote(num_cpus=1)(TaskRunner)

    # 创建远程 TaskRunner，然后调用 run(config)。
    # ray.get 阻塞直到整个 PPO job 完成或失败。
    runner = task_runner_class.remote()
    ray.get(runner.run.remote(config))

Role、Worker 与 ResourcePool 映射

verl 的角色映射决定“谁负责 actor/rollout/ref/critic/reward”，资源池映射决定“这些角色放到哪些 GPU 上”。理解这层映射后，FSDP、Megatron、vLLM 或 SGLang 的替换才不会混乱。

class TaskRunner:
    def __init__(self):
        # role_worker_mapping 把逻辑角色映射到 Ray remote worker class。
        # 例如 ActorRolloutRef 使用 ActorRolloutRefWorker。
        self.role_worker_mapping = {}

        # mapping 把逻辑角色映射到资源池 id。
        # 资源池 id 再对应具体节点和 GPU 数量。
        self.mapping = {}

    def add_actor_rollout_worker(self, config):
        from verl.single_controller.ray import RayWorkerGroup
        from verl.trainer.ppo.ray_trainer import Role
        from verl.workers.engine_workers import ActorRolloutRefWorker

        # ActorRolloutRefWorker 是统一 worker。
        # 它可以只做 actor，也可以融合 actor + rollout + reference。
        actor_rollout_cls = ActorRolloutRefWorker
        ray_worker_group_cls = RayWorkerGroup

        # LoRA PPO 中 reference 往往可以由 base model + adapter 状态表示。
        # 因此需要根据 LoRA 配置判断 reference 是否融合进 actor worker。
        lora_rank = config.actor_rollout_ref.model.get("lora", {}).get("rank", 0)
        if lora_rank <= 0:
            lora_rank = config.actor_rollout_ref.model.get("lora_rank", 0)

        # lora_adapter_path 存在时，也说明 reference 与 actor 的关系不同于全量模型。
        ref_in_actor = lora_rank > 0 or config.actor_rollout_ref.model.get("lora_adapter_path") is not None

        # 需要 reference 且不能融合时，使用 ActorRolloutRef 角色。
        # 否则只注册 ActorRollout 角色，减少不必要的 worker 拆分。
        if need_reference_policy(config) and not ref_in_actor:
            role = Role.ActorRolloutRef
        else:
            role = Role.ActorRollout

        # ray.remote 把 worker class 转成 Ray actor class。
        self.role_worker_mapping[role] = ray.remote(actor_rollout_cls)

        # actor/rollout/ref 默认放到 global_pool。
        # 后续 ResourcePoolManager 会把 global_pool 映射到具体 GPU 列表。
        self.mapping[role] = "global_pool"

        # 返回 worker class 和 worker group class，供 trainer 初始化时使用。
        return actor_rollout_cls, ray_worker_group_cls

    def init_resource_pool_mgr(self, config):
        # global_pool 是默认资源池 id。
        global_pool_id = "global_pool"

        # 每个节点分配 n_gpus_per_node 张卡，共 nnodes 个节点。
        # 例如 2 节点 * 8 卡会得到 [8, 8]。
        resource_pool_spec = {
            global_pool_id: [config.trainer.n_gpus_per_node] * config.trainer.nnodes,
        }

        # reward model 可以使用独立资源池，避免占用 actor/rollout 的 GPU。
        if config.reward.reward_model.enable_resource_pool:
            reward_pool = [config.reward.reward_model.n_gpus_per_node] * config.reward.reward_model.nnodes
            resource_pool_spec["reward_pool"] = reward_pool

        from verl.trainer.ppo.ray_trainer import ResourcePoolManager

        # ResourcePoolManager 最终把 Role -> pool id -> GPU 拓扑串起来。
        return ResourcePoolManager(resource_pool_spec=resource_pool_spec, mapping=self.mapping)

Reward 数据流代码解读

verl 的 RewardManager 从 DataProto 中取出 response、ground_truth、data_source，解码 response 后调用具体 reward function。这个设计支持混合数据集：同一个 batch 里不同 data_source 可以走不同评分函数。

class RewardManager:
    def __init__(self, tokenizer, num_examine=0, compute_score_fn=None):
        # tokenizer 用于把 response token 解码成文本。
        # function reward 通常基于字符串解析答案或执行测试。
        self.tokenizer = tokenizer

        # num_examine 控制打印多少条样本用于人工检查 reward 是否合理。
        # 训练时不要打印过多，否则日志会成为瓶颈。
        self.num_examine = num_examine

        # compute_score_fn 是真正的业务 reward 函数。
        # 它可以按 data_source 分发到 GSM8K、MATH、代码沙箱等逻辑。
        self.compute_score_fn = compute_score_fn

    def __call__(self, data):
        # responses 是模型生成的 token，不包含 prompt 部分。
        responses = data.batch["responses"]

        # attention_mask / response_mask 用于确定有效 token。
        # padding 位置不能参与 reward 或 loss 聚合。
        response_mask = data.batch["response_mask"]

        # ground_truth 和 data_source 是非 tensor metadata。
        # 它们通常来自 parquet 文件中的列。
        ground_truth = data.non_tensor_batch["ground_truth"]
        data_source = data.non_tensor_batch["data_source"]

        # token_level_scores 的形状与 responses 对齐。
        # 很多规则奖励只在最后一个有效 token 写入分数。
        token_level_scores = torch.zeros_like(responses, dtype=torch.float32)

        for i in range(len(responses)):
            # valid_response_tokens 去掉 padding，只保留模型真实生成的 token。
            valid_response_tokens = responses[i][response_mask[i].bool()]

            # 解码 response 文本给 reward function 使用。
            # skip_special_tokens 能减少 EOS/PAD 对正则解析的干扰。
            solution_str = self.tokenizer.decode(valid_response_tokens, skip_special_tokens=True)

            # 调用业务 reward。
            # extra_info 可携带测试用例、rubric、难度、答案解析等字段。
            score = self.compute_score_fn(
                data_source=data_source[i],
                solution_str=solution_str,
                ground_truth=ground_truth[i],
                extra_info=None,
            )

            # 把序列级 reward 放到最后一个有效 token 上。
            # 这样 policy loss 可以沿 response_mask 聚合，同时保持 reward 稀疏语义。
            last_token_idx = response_mask[i].nonzero()[-1]
            token_level_scores[i, last_token_idx] = score

        # 返回 token-level score，后续 KL penalty 和 advantage 会继续处理它。
        return token_level_scores

模型合并后的评估模板

RL checkpoint 合并成 Hugging Face 格式后，应单独写评估脚本，固定模型路径、解码参数和数据切分。不要直接拿训练 reward 日志当最终结论。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 合并后的 HF 目录，来自 verl.model_merger 或 OpenRLHF --ckpt.save_hf。
model_dir = "checkpoints/project/run/global_step_100/actor/huggingface"

# tokenizer 必须与训练时一致，尤其是 chat template 和 special tokens。
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)

# 加载 actor 权重用于离线评估。
# torch_dtype=bfloat16 与训练精度保持一致，减少数值分布差异。
model = AutoModelForCausalLM.from_pretrained(
    model_dir,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

# 评估 prompt 应使用和训练一致的消息结构。
messages = [{"role": "user", "content": "Solve: 12 + 30 = ?"}]

# apply_chat_template 复用模型 tokenizer 中的官方模板。
# add_generation_prompt=True 表示把输入停在 assistant 应该开始回答的位置。
prompt = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)

# return_tensors="pt" 生成 PyTorch tensor，随后移动到模型所在设备。
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

# 评估时固定 decoding 参数，保证不同 checkpoint 可比较。
# do_sample=False 对应 greedy decoding，适合先做确定性回归测试。
with torch.no_grad():
    output_ids = model.generate(
        **inputs,
        max_new_tokens=256,
        do_sample=False,
        pad_token_id=tokenizer.eos_token_id,
    )

# 只解码新生成部分，避免 prompt 混入答案解析。
response_ids = output_ids[0, inputs["input_ids"].shape[1] :]
response = tokenizer.decode(response_ids, skip_special_tokens=True)
print(response)

verl 选型边界

verl 适合需要频繁改 RL 算法主循环、接入复杂 reward、试验 FSDP/Megatron/vLLM/SGLang 后端组合的团队。它的核心优势是控制流清晰，研究者可以在 driver 侧修改 rollout、advantage 和 update 顺序；底层模型并行仍由 worker 后端负责。代价是 Hydra 配置树较深，DataProto、WorkerGroup、Role、ResourcePoolManager 需要先建立概念模型。

DeepSpeed 详解

DeepSpeed 的工程接口由两部分构成：一部分是 launcher + 分布式初始化，负责把“单机脚本”变成“多进程多卡训练”；另一部分是 DeepSpeedEngine + JSON 配置，负责把显存分片（ZeRO）、offload、混合精度、梯度累积、checkpoint 等能力落在可复现的配置上。本节围绕安装、启动、

deepspeed.initialize

、

ds_config.json

、ZeRO Stage 1/2/3、offload、checkpoint，以及与 Transformers/Accelerate 的集成路径展开，重点给出配置与代码的对应关系。

安装与环境验证

基础安装

DeepSpeed 的最小安装路径是先安装 PyTorch，再安装 DeepSpeed。DeepSpeed 包含若干 C++/CUDA 扩展（ops），默认采用 JIT 方式在运行期编译加载，因此环境里通常需要可用的编译链与

ninja

。

pip install deepspeed

# 可选：Transformers 侧一次性装好集成依赖
pip install "transformers[deepspeed]"

环境报告（ds_report）

安装完成后优先跑环境报告，确认“哪些 ops 可用、哪些会在运行时编译、CUDA/通信栈是否匹配”。这个步骤在排查安装或性能差异时比直接跑训练更高效。

ds_report

# 等价入口
python -m deepspeed.env_report

预编译 ops（可选）

默认 JIT 编译适合研发迭代；在固定镜像或需要减少“首次运行抖动”的场景里，可以在安装期预编译部分或全部 ops。DeepSpeed 提供一组

DS_BUILD_*

环境变量控制构建范围。

# 尝试构建所有 ops（只会构建与当前机器兼容的部分）
DS_BUILD_OPS=1 pip install deepspeed

# 只构建某一类 op（示例：FusedLamb）
DS_BUILD_FUSED_LAMB=1 pip install deepspeed

预编译全部 ops 可能耗时较长，可通过并行编译加速：

DS_BUILD_OPS=1 pip install deepspeed --global-option="build_ext" --global-option="-j8"

Launcher 与进程启动

单机多卡

DeepSpeed launcher 的默认约定是“一进程一 GPU”。launcher 会为脚本注入

--local_rank

，脚本侧需要能解析这个参数并把当前进程绑定到对应 GPU。

# 单机 8 卡
deepspeed --num_gpus=8 train.py --deepspeed --deepspeed_config ds_config.json

多机

多机训练通常由 launcher 读取 hostfile（节点列表与每节点 slots），并在每个节点上拉起相同脚本。hostfile 格式依赖部署系统（裸机/Slurm/K8s），工程上常见做法是先让调度系统分配机器与 GPU，再由 DeepSpeed 或 torchrun 建立通信。

node0 slots=8
node1 slots=8

deepspeed --hostfile=hostfile train.py --deepspeed --deepspeed_config ds_config.json

脚本侧参数解析

DeepSpeed 提供

deepspeed.add_config_arguments

把

--deepspeed

与

--deepspeed_config

等参数接入到自定义 argparse 中。

import argparse
import deepspeed
parser = argparse.ArgumentParser()
# local_rank 由 launcher 注入；脚本保留这个参数是为了兼容常见多卡启动方式。
parser.add_argument("--local_rank", type=int, default=-1)
# add_config_arguments 会补上 --deepspeed / --deepspeed_config 等标准参数。
parser = deepspeed.add_config_arguments(parser)
args = parser.parse_args()

deepspeed.initialize 与训练循环

最小接入骨架

deepspeed.initialize

是训练入口：负责（必要时）初始化 torch distributed，并返回一个可直接用于 forward/backward/step 的 DeepSpeedEngine。配置文件里的 optimizer/scheduler/dataloader 也可以被 DeepSpeed 构造与管理。

import argparse
import torch
import deepspeed
def main():
    parser = argparse.ArgumentParser()
    parser.add_argument("--local_rank", type=int, default=-1)
    parser = deepspeed.add_config_arguments(parser)
    args = parser.parse_args()
    model = MyModel()

    # optimizer 既可以在 ds_config.json 里声明，也可以像这里一样由代码显式传入覆盖配置。
    model_engine, optimizer, _, lr_scheduler = deepspeed.initialize(
        args=args,
        model=model,
        model_parameters=model.parameters(),
    )
    for batch in train_loader:
        # engine 负责前向、ZeRO 状态管理和梯度累积；不要再手工调原始 optimizer。
        loss = model_engine(batch)
        model_engine.backward(loss)
        # 何时真正更新参数由 DeepSpeedEngine 按配置决定。
        model_engine.step()
if __name__ == "__main__":
    main()

manual backward：什么时候该用 engine.scale(loss)

标准路径当然是

model_engine.backward(loss)

。但真实项目里经常会遇到一种情况：损失核心是你先做了额外组合、裁剪、蒸馏、或跨模型共享，再想手工调

loss.backward()

。这时就不能直接把 DeepSpeedEngine 绕过去。

# initialize 会返回 DeepSpeedEngine。
# 训练脚本后面真正应该交互的是 engine，而不再是原始 model / optimizer。
engine, optimizer, _, _ = deepspeed.initialize(
    model=model,
    # model_parameters 告诉 DeepSpeed：哪些参数需要建立优化器与 ZeRO 状态。
    model_parameters=model.parameters(),
    # config 决定混合精度、ZeRO、梯度累积等运行时策略。
    config=ds_config,
)

for batch in train_loader:
    # 这里直接调用 engine，而非原始 model。
    # 原因是 forward 期间 DeepSpeed 还要管理 ZeRO gather/repartition 与 mixed precision。
    loss = engine(batch)

    # 如果不用 engine.backward(loss)，就要先显式 scale。
    scaled_loss = engine.scale(loss)
    scaled_loss.backward()  # backward 作用在已经过 loss scaling 的张量上，数值路径才完整。

    # 只有到真正的梯度累积边界，这一步才会触发权重更新。
    engine.step()  # 非边界步只会累积梯度；边界步才会执行 optimizer update。

这里的关键点核心是混合精度与 loss scaling 的责任边界。直接调用

loss.backward()

而不经过

engine.backward()

或

engine.scale(loss)

，会把 DeepSpeed 的数值路径直接绕开。

梯度累积边界：is_gradient_accumulation_boundary 的用途

DeepSpeed 的

step()

每轮都可以调用，但并非每轮都会真正更新参数。很多训练逻辑只应发生在“真实更新边界”上，例如 EMA、外部 scheduler、吞吐统计、checkpoint tag 递增，以及某些 callback。判断这个边界的标准接口就是

is_gradient_accumulation_boundary()

。

for step, batch in enumerate(train_loader):
    loss = engine(batch)
    engine.backward(loss)

    if engine.is_gradient_accumulation_boundary():
        # 这类逻辑只应在“真实参数更新”那一步执行。
        ema.update()
        step_counter += 1

    engine.step()

没有这层判断时，最常见的问题是日志步数、学习率步数和真实优化步数错位。表面上训练还在跑，实际上很多围绕“step”的外围系统都已经对不上了。

多模型共享 loss：蒸馏、RLHF 与协同训练的骨架

DeepSpeed 并不要求一个进程里只能有一个 engine。蒸馏、actor-critic、reward model 协同训练，常常会在同一轮里维护多个 engine，然后围绕一个共享 loss 做反向传播。

# teacher 与 student 分别维护自己的 DeepSpeedEngine。
# 它们可以有不同的 ZeRO stage、精度策略和 checkpoint 目录。
teacher_engine, _, _, _ = deepspeed.initialize(
    model=teacher,
    model_parameters=teacher.parameters(),
    config=teacher_ds_config,
)
student_engine, _, _, _ = deepspeed.initialize(
    model=student,
    model_parameters=student.parameters(),
    config=student_ds_config,
)

for batch in train_loader:
    with torch.no_grad():
        # teacher 只负责给出目标分布，因此放在 no_grad 里，避免无意义的显存与反向开销。
        teacher_logits = teacher_engine(batch["input_ids"])

    student_logits = student_engine(batch["input_ids"])  # student 才是要更新的对象。
    loss = distill_loss(student_logits, teacher_logits)  # 上层任务 loss 由两边输出共同定义。

    # 共享 loss 由各自 engine 负责回传到各自参数分片。
    student_engine.backward(loss)
    student_engine.step()

一旦进入这种多 engine 场景，训练脚本就不能再把“模型对象”“优化器对象”“checkpoint 目录”混为一谈。每个 engine 都有自己的 ZeRO 状态、优化器与恢复语义，而共享的只是上层任务目标。

分布式初始化的边界

当脚本里已经显式调用了

torch.distributed.init_process_group

，DeepSpeed 侧应改为

deepspeed.init_distributed

或直接移除显式初始化，让

deepspeed.initialize

自动完成分布式初始化。多重初始化是常见的 hang 根源。

配置与代码的覆盖规则

DeepSpeed 的核心覆盖规则是：配置文件定义默认行为，显式传入的 Python 对象覆盖配置。例如，当在

deepspeed.initialize

里传入 optimizer 时，会覆盖 ds_config.json 里 optimizer 段落的定义。

ds_config.json：把“训练策略”编码进配置

批大小三件套与推导关系

DeepSpeed 将 batch size 拆为三项参数：有效 batch（

train_batch_size

）、每卡 micro-batch（

train_micro_batch_size_per_gpu

）、梯度累积步数（

gradient_accumulation_steps

）。三者满足：

\[B = b \\times g \\times N\]

其中 $B$ 对应

train_batch_size

，$b$ 对应

train_micro_batch_size_per_gpu

，$g$ 对应

gradient_accumulation_steps

，$N$ 是参与训练的 GPU 数量（即 world size）。

工程上通常只显式指定其中两个，剩下一个由 DeepSpeed 推导；这样可以减少多机扩容时的人工改动。

一份可跑的最小配置

{
  "train_micro_batch_size_per_gpu": 1,
  "gradient_accumulation_steps": 8,
  "fp16": { "enabled": true },
  "zero_optimization": { "stage": 2 }
}

配置-代码对照表

配置项	DeepSpeed 行为	代码侧需要做什么
train_micro_batch_size_per_gpu	定义每次 forward/backward 的 micro-batch 大小	DataLoader 提供的 batch 必须与该值一致，或让上层框架（Trainer/Accelerate）保持一致
gradient_accumulation_steps	定义多少个 micro-step 后做一次参数更新	训练循环仍按 “每个 batch 一次 backward”，DeepSpeedEngine 内部按配置决定何时 step
fp16.enabled / bf16.enabled	启用混合精度与 loss scaling（若需要）	脚本不再手写 AMP 也能跑通；若与外部 AMP 同时启用，需明确由谁负责 autocast/scaler
optimizer	DeepSpeed 构造优化器（可选）	如果在 deepspeed.initialize 显式传入 optimizer，则会覆盖该段配置
scheduler	DeepSpeed 构造并在每步自动 step（可选）	当 scheduler 由 DeepSpeed 管理时，脚本不应额外调用 scheduler.step()

ZeRO：Stage 1/2/3 与 Offload

ZeRO 的全称是 Zero Redundancy Optimizer，中文可译作“零冗余优化器”。名字里的 redundancy 指的是数据并行里的重复状态：每张 GPU 都拿到完整参数、完整梯度、完整优化器状态。ZeRO 并没有改变模型的数学结构，也没有改变损失函数；它改变的是训练状态在不同 GPU 上的存放方式。

设模型参数量为 $P$，data-parallel world size 为 $N$。如果按 bf16/fp16 参数、bf16/fp16 梯度、AdamW 的 FP32 一阶动量 $m$、FP32 二阶动量 $v$、FP32 master weights 粗略估算，单卡仅模型状态就可能接近：

\[\mathrm{memory}_{\mathrm{DP}}\approx P\cdot(2+2+4+4+4)\ \mathrm{bytes}=16P\ \mathrm{bytes}\]

其中 $2$ bytes 来自 bf16/fp16 参数，另一个 $2$ bytes 来自梯度，三个 $4$ bytes 分别来自 AdamW 的 $m$、$v$ 和 FP32 master weights。这个估算还没有算激活、临时 buffer、通信 bucket、KV cache 或框架额外开销。

ZeRO 的分片收益可以粗略理解为：

\[\mathrm{memory}_{\mathrm{ZeRO\text{-}1}}\approx P\cdot(2+2)+\frac{P\cdot(4+4+4)}{N}\]

Stage 1 只把优化器状态切到 $N$ 张卡上；参数和梯度仍然每卡完整保存。

\[\mathrm{memory}_{\mathrm{ZeRO\text{-}2}}\approx P\cdot2+\frac{P\cdot(2+4+4+4)}{N}\]

Stage 2 再把梯度也切开；参数仍然每卡完整保存。

\[\mathrm{memory}_{\mathrm{ZeRO\text{-}3}}\approx \frac{P\cdot(2+2+4+4+4)}{N}\]

Stage 3 连参数也分片，单卡模型状态占用最低。代价是每层计算前需要把当前层参数 all-gather 到可计算形态，计算后再释放或重新分片。显存节省来自“少存重复状态”，额外成本来自“更多通信与更复杂的参数生命周期管理”。

把它类比成多人搬书更直观。普通数据并行像每个人都背着整套书，再一起读同一章节；ZeRO-1 先把笔记本和索引卡分给不同人保管；ZeRO-2 再把每章批注也分开保管；ZeRO-3 连书页本身也分开保管，读到某一章时临时把相关页面凑齐，读完再分回去。越往后越省背包空间，但传递页面的协调成本越高。

问题	优先尝试	原因
模型能加载，训练时 optimizer state 顶爆显存	ZeRO Stage 1 / Stage 2	AdamW 状态和梯度通常是第一波显存大头，Stage 1/2 的收益直接且通信代价相对温和。
模型参数本身太大，完整权重难以放进单卡	ZeRO Stage 3 或 PyTorch FSDP	必须切参数本身，Stage 1/2 已经不够。
ZeRO-3 仍然放不下，GPU 显存极端紧张	CPU / NVMe offload	把部分参数或优化器状态搬到主存/磁盘，牺牲带宽换容量。
初始化模型时就 OOM	deepspeed.zero.Init	让模型构造阶段就按 ZeRO-3 语义分片，避免先完整创建再切分。

zero.Init：超大模型先分片再初始化

当模型大到“连在单卡或单进程里完整实例化一次都做不到”时，光靠训练阶段的 ZeRO-3 已经不够，因为程序会先死在 Python 对象创建与参数分配这一步。

deepspeed.zero.Init

的作用，就是在模型构造阶段就按 ZeRO-3 语义分片参数，把“初始化时的峰值内存”也压下来。

import deepspeed

ds_config = {
    "train_micro_batch_size_per_gpu": 1,
    "bf16": {"enabled": True},
    "zero_optimization": {
        "stage": 3,
        "offload_param": {"device": "cpu", "pin_memory": True},
        "offload_optimizer": {"device": "cpu", "pin_memory": True},
    },
}

with deepspeed.zero.Init(
    # 直接复用训练态配置，让初始化与正式训练沿用同一套 ZeRO 语义。
    config_dict_or_path=ds_config,
    remote_device="cpu",   # 先在 CPU 侧构造，再按 ZeRO-3 规则搬运/分片
    enabled=True,          # 显式打开 zero.Init；便于按条件分支决定是否启用
):
    # 这里的模型参数不会先完整落到单卡显存里再分片。
    model = MyHugeTransformer(...)

# 模型对象创建完成后，再进入正常的 DeepSpeed initialize。
engine, optimizer, _, _ = deepspeed.initialize(
    model=model,
    # 把真正需要训练的参数列表交给 DeepSpeed 建优化器与 ZeRO 状态。
    model_parameters=model.parameters(),
    config=ds_config,
)

它解决的是“模型创建阶段的峰值内存”，并非训练吞吐本身。工程上只有在模型规模真的碰到初始化内存墙时才需要上这一层；普通 7B/13B 微调不必默认引入。

Stage 1：分片优化器状态

ZeRO Stage 1 将优化器状态（例如 Adam 的一阶/二阶动量与 FP32 master 权重）在 data-parallel ranks 之间分片，降低“优化器状态显存/内存”的重复开销。对模型参数量中等但 optimizer state 占用成为瓶颈的训练很直接。

{
  "train_micro_batch_size_per_gpu": 1,
  "gradient_accumulation_steps": 8,
  "bf16": { "enabled": true },
  "zero_optimization": { "stage": 1 }
}

Stage 2：再分片梯度

ZeRO Stage 2 在 Stage 1 的基础上将梯度也分片。它通常在“模型能放下，但训练状态占用过高”或“希望进一步扩大 batch/seq_len”时成为默认选择；相较 Stage 3，它在通信与实现复杂度上更温和。

{
  "train_micro_batch_size_per_gpu": 1,
  "gradient_accumulation_steps": 8,
  "fp16": { "enabled": true },
  "zero_optimization": {
    "stage": 2,
    "overlap_comm": true,
    "contiguous_gradients": true
  }
}

Stage 3：再分片参数（最省显存）

ZeRO Stage 3 进一步把模型参数也分片，使得“单卡显存”主要由激活与少量 shard 状态构成，从而把可训练模型尺度推到显存上限之外。代价是更多通信与参数聚合/分片的复杂性，checkpoint 与恢复也会更敏感。

{
  "train_micro_batch_size_per_gpu": 1,
  "gradient_accumulation_steps": 8,
  "bf16": { "enabled": true },
  "zero_optimization": {
    "stage": 3,
    "overlap_comm": true,
    "contiguous_gradients": true
  }
}

Offload：把状态搬到 CPU/NVMe

offload 的目标是继续压缩 GPU 显存占用。常见组合是：ZeRO-2 offload optimizer states（CPU）与 ZeRO-3 offload params/optimizer（CPU 或 NVMe）。offload 会把瓶颈从显存转移到带宽与延迟，因此通常需要配合更细的 micro-batch、更高的梯度累积与更强的通信/计算重叠。

{
  "train_micro_batch_size_per_gpu": 1,
  "gradient_accumulation_steps": 8,
  "fp16": { "enabled": true },
  "zero_optimization": {
    "stage": 3,
    "offload_param": { "device": "cpu", "pin_memory": true },
    "offload_optimizer": { "device": "cpu", "pin_memory": true }
  }
}

ZeRO-3 动态模块：leaf modules 的必要性

ZeRO-3 会在 forward/backward 期间自动 gather 与 repartition 参数。对普通静态 Transformer 结构，这条路很顺；但对 MoE、动态路由器或不同 rank 可能走到不同子模块的网络，自动 gather 就可能在不同 rank 上走出不同分支，最后直接演变为 hang 或 all-gather 不一致。DeepSpeed 给这类模块准备了 leaf module 机制。

from deepspeed.utils import set_z3_leaf_modules_by_suffix

# 把动态 expert 模块标成 leaf，告诉 ZeRO-3：到这里就当成一个整体 gather。
set_z3_leaf_modules_by_suffix(model, ["experts"])

engine, optimizer, _, _ = deepspeed.initialize(
    model=model,
    model_parameters=model.parameters(),
    config=ds_config,
)

把模块标为 leaf 的含义，核心是“ZeRO-3 在这里停止继续向内递归协调参数收集”。对动态专家层而言，这往往是避免不同 rank 走出不同 gather 路径的关键。

GatheredParameters 与外部参数访问

ZeRO-3 下，参数默认处于分片态。只要你打算在模块外部直接读一个参数，或把某个参数借给别的模块 forward 使用，就必须显式告诉 DeepSpeed 你要把它临时 gather 出来。

import deepspeed
from deepspeed.zero import GatheredParameters

engine, optimizer, _, _ = deepspeed.initialize(
    model=model,
    model_parameters=model.parameters(),
    config=ds_config,
)

# 在 owner module 之外读取 lm_head.weight，就要显式 gather。
with GatheredParameters([engine.module.lm_head.weight], modifier_rank=0):
    if engine.global_rank == 0:
        snapshot = engine.module.lm_head.weight.detach().cpu().clone()

如果某个参数会在别的模块 forward 中被外部引用，还需要考虑

register_external_parameter()

这类接口。工程语义很简单：让 DeepSpeed 知道“这个参数虽属于 A 模块，但 B 模块 forward 也会碰它”。否则参数分片生命周期和实际访问路径会脱节。

safe_get / safe_set：分片状态的调试与修复接口

ZeRO 把参数、梯度和优化器状态分散到不同 rank 之后，普通的

param.grad

、

state_dict()

式直觉就不再可靠。DeepSpeed 为此提供了

safe_get_full_grad

、

safe_get_full_fp32_param

、

safe_set_full_grad

等调试接口，用于在正确的阶段把分片状态安全收拢。

这些接口的工程价值主要出现在三类场景：排查某一层梯度是否真的在更新；在 ZeRO-3 下做权重修补或规则化操作；以及把大模型训练中的数值异常定位到具体参数张量。如果还沿用普通单卡时代的“直接 print param.grad”，你看到的常常只是一个局部 shard，而非完整状态。

运行时显存接口：empty_partition_cache 与 offload_states

大模型训练越来越常见的一个模式，是训练、评估、生成、蒸馏交替发生。同一进程既要做训练态 ZeRO，又要临时切进生成态或检查点转换。DeepSpeed 这时提供的核心是一些很朴素但非常关键的运行时接口：

```
empty_partition_cache()
```
用来释放 ZeRO 在分片过程中缓存的一些参数副本。
```
offload_states(...)
```
与
```
reload_states(...)
```
用来在 CPU/GPU 之间搬运优化器状态或参数状态，为临时生成窗口腾显存。

它们不会把一个本来放不下的训练 magically 变成能放下，但在“训练与生成共进程”这类高压场景里，经常能决定一个流程是稳定切换，还是偶发性 OOM。

ZeRO 高频配置项：哪些旋钮最常真正去调

真正的 ZeRO 调优很少只改

stage

。更高频的是下面这些和通信形态、梯度布局、offload 粒度直接相关的参数。它们通常出现在官方教程、OpenRLHF/DeepSpeedExamples 以及大模型训练配置里。

命令/API/函数

overlap_comm

说明
让部分通信与计算重叠，减少纯等待时间。对通信占比高的多卡训练很常见。

示例

{
  "zero_optimization": {
    "stage": 2,
    "overlap_comm": true
  }
}

命令/API/函数

contiguous_gradients

说明
把梯度布局整理得更连续，减少碎片化与部分通信/拷贝开销。通常和 Stage 2/3 一起出现。

示例

{
  "zero_optimization": {
    "stage": 2,
    "contiguous_gradients": true
  }
}

命令/API/函数

reduce_scatter / allgather_bucket_size / reduce_bucket_size

说明
控制 ZeRO 通信的聚合方式与 bucket 粒度。它们共同决定“通信开始得多早”“每次通信包有多大”。

示例

{
  "zero_optimization": {
    "stage": 2,
    "reduce_scatter": true,
    "allgather_bucket_size": 5e8,
    "reduce_bucket_size": 5e8
  }
}

命令/API/函数

offload_param / offload_optimizer

说明
把参数或优化器状态搬到 CPU/NVMe。它换来更低显存占用，也把瓶颈转移到 PCIe、内存或磁盘带宽。

示例

{
  "zero_optimization": {
    "stage": 3,
    "offload_param": {"device": "cpu", "pin_memory": true},
    "offload_optimizer": {"device": "cpu", "pin_memory": true}
  }
}

调这些参数时，判断标准包括单步速度、峰值显存、吞吐稳定性、step time 抖动，以及 checkpoint 保存/恢复是否开始变脆弱。

ZeRO 配置的第二层语义：粒度、通信 dtype 与 offload 管线

真实项目里，决定成败的往往是下面这些“看起来像小旋钮，实际定义运行时行为”的配置：

配置项	它控制什么	什么时候需要认真看
stage3_module_granularity_threshold	ZeRO-3 按模块做 gather/repartition 时的粒度阈值	模块层级复杂、host 开销高，或动态模块很多时
communication_data_type	通信路径采用什么 dtype 传输梯度/参数	多机多卡上 fp16/bf16 数值稳定性与通信带宽要一起平衡时
gradient_predivide_factor	all-reduce 前的梯度预除因子	大规模并行训练里需要缓和梯度归约数值路径时
offload_param.buffer_count / buffer_size	参数 offload 时的缓冲池数量与块大小	CPU/NVMe offload 已经启用，但 GPU 在等 IO 或 host 内存抖动明显时
offload_optimizer.pipeline_read / pipeline_write	优化器状态的读写是否做流水化	NVMe offload 已经成主路径，希望减少读写阻塞时
aio.block_size / queue_depth / thread_count	异步 IO 管线的提交粒度与并发深度	NVMe offload 变成主要瓶颈，且你已经确认并非模型本身算力吃满时

这类参数不建议在“训练第一天”就满天飞地改。更稳的顺序是：先把 stage、micro-batch、梯度累积和混合精度跑稳，再针对真实瓶颈决定是去调通信、调 gather 粒度，还是调 offload 管线。

Checkpoint：保存、恢复与导出

Engine 级保存/恢复

DeepSpeedEngine 提供

save_checkpoint

load_checkpoint

，用于保存与恢复模型、优化器、scheduler 以及自定义 client_state。工程要点是：所有 ranks 都必须调用 save_checkpoint，否则会在同步点 hang。ZeRO-3 下，保存后立刻在同一 engine 上 load（不重新初始化）是已知的不兼容用法。

# 保存（所有进程都会参与）
model_engine.save_checkpoint("ckpt_dir", tag=f"global_step{global_step}", client_state={"step": global_step})

# 恢复（通常在初始化后尽早执行）
load_path, client_state = model_engine.load_checkpoint("ckpt_dir", tag=None)
global_step = client_state.get("step", 0)

ZeRO-3 恢复约束：先重建 engine，再 load

ZeRO-3 下，参数本来就是分片状态，因此 checkpoint 恢复并非“随手把文件再读回来”这么简单。工程上更稳的顺序是：

重新构造模型对象。
重新调用
```
deepspeed.initialize
```
得到新的 engine。
在这个新 engine 上调用
```
load_checkpoint
```
。

不要把“刚 save 完的老 engine”直接拿来马上 load 同一路径，尤其在 ZeRO-3 下，这会把参数分片与内部状态管理搞得非常脆弱。恢复语义应被理解为“用 checkpoint 重新装配一套训练状态”，而非“对当前 engine 就地回滚”。

ZeRO checkpoint 权重导出（fp32 合并）

ZeRO-2/3 的 checkpoint 是分片形态。需要“脱离 DeepSpeed 继续使用/分享权重”时，常用做法是把 ZeRO checkpoint 转为合并后的 fp32 state_dict。

from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint

fp32_state_dict = get_fp32_state_dict_from_zero_checkpoint("ckpt_dir", tag=None)
torch.save(fp32_state_dict, "pytorch_model_fp32.bin")

Universal Checkpoint：把分片 checkpoint 变成可迁移制品

当训练拓扑、并行策略或下游恢复环境会变化时，只导出一份 fp32 权重往往不够，因为你还可能需要恢复优化器状态、调度器状态以及更完整的训练上下文。DeepSpeed 近年的 Universal Checkpoint 路线，目标就是把原本强依赖当前 ZeRO/并行拓扑的 checkpoint 转成更容易跨环境迁移的格式。

python -m deepspeed.checkpoint.ds_to_universal \
  --input_folder /path/to/ds_ckpt/global_step1000 \
  --output_folder /path/to/universal_ckpt/global_step1000_uni

它更像“交付格式转换”而非训练时的主存储格式：训练阶段继续保存原生 DeepSpeed checkpoint，真正需要迁移、共享或给别的恢复流程消费时，再做 Universal 转换会更稳。

latest、latest_universal 与 load_universal 的关系

这组概念如果不分清，恢复逻辑几乎一定会写错。

普通

save_checkpoint(..., save_latest=True)

写出的“最新 tag 指针”是

latest

。

启用 Universal Checkpoint 恢复链路后，DeepSpeed 会去看
```
latest_universal
```
。这个文件通常来自转换流程，而非普通保存时自动生成。
```
checkpoint.load_universal=true
```
的含义，是“恢复时按 universal 语义查目录与 tag”，并非“保存时自动帮你多产一份 universal”。

因此，训练主路径通常仍保存原生 DeepSpeed checkpoint；真正要跨拓扑迁移、跨环境恢复，才做

ds_to_universal

转换，并补上

latest_universal

这一层索引。

16-bit 导出与 tag 校验的两个常见坑

在 ZeRO-3 下，
```
save_16bit_model()
```
只有在相应 gather 保存开关打开时，才有机会产出真正可用的 16-bit 单体权重。否则你以为拿到了导出，实际只得到不完整状态。
```
checkpoint.tag_validation
```
决定 DeepSpeed 在各 rank 的 checkpoint tag 不一致时是忽略、告警还是直接失败。多阶段脚本、手工拼装 tag、或并行保存逻辑复杂时，建议把这层校验看成“帮你提前暴露一致性错误”的安全带，而非烦人的额外检查。

与 Transformers 的集成

Trainer / TrainingArguments 接入

Transformers 的 Trainer 通过

TrainingArguments.deepspeed

（或 CLI 的

--deepspeed

）接入 DeepSpeed。工程上更稳定的做法是：把与 Trainer 重复的值在 ds_config 中写成

"auto"

，由 Trainer 统一灌入，避免“两边都写但不一致”。

{
  "train_micro_batch_size_per_gpu": "auto",
  "gradient_accumulation_steps": "auto",
  "optimizer": {
    "type": "AdamW",
    "params": { "lr": "auto" }
  },
  "fp16": { "enabled": "auto" },
  "zero_optimization": { "stage": 2 }
}

from transformers import TrainingArguments
args = TrainingArguments(
    output_dir="out",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,
    learning_rate=2e-5,
    fp16=True,
    deepspeed="ds_hf_auto.json",
)

与 Accelerate 的集成

用 DeepSpeedPlugin（代码内指定）

Accelerate 提供 DeepSpeedPlugin，把 ZeRO stage、梯度累积等关键项绑定到 Accelerator 的生命周期里。工程要点是：DeepSpeed 需要提前知道

gradient_accumulation_steps

，因此插件与训练循环要对齐，梯度累积本身仍需要按常规方式在代码里实现。

from accelerate import Accelerator, DeepSpeedPlugin

ds_plugin = DeepSpeedPlugin(zero_stage=2, gradient_accumulation_steps=2)
accelerator = Accelerator(deepspeed_plugin=ds_plugin)

用 DeepSpeed 配置文件（更强的可控性）

当需要 ZeRO-3/offload/更细的 ZeRO knobs 时，Accelerate 通常通过“指定 DeepSpeed 配置文件”的方式接入。此时 ds_config.json 才是事实来源，代码侧只保留必要的

accelerator.prepare

与

accelerator.backward

语义，避免重复配置。

# 通过 accelerate config 生成运行配置后，再用 accelerate launch 运行训练脚本
accelerate config
accelerate launch train.py

RLHF 脚本链路：SFT / RM / PPO

DeepSpeed 在 RLHF 系统里很少单独出现，它通常与“多阶段脚本 + 多角色资源编排”一起工作。以 OpenRLHF / DeepSpeedExamples 这类工程为代表，最常见的是三段式链路：先做监督微调（SFT），再训练奖励模型（RM），最后进入 PPO 或近似 PPO 的在线策略优化。

阶段 1：SFT

deepspeed --module openrlhf.cli.train_sft \
  --model.model_name_or_path meta-llama/Meta-Llama-3-8B \
  --train.batch_size 256 \
  --train.micro_batch_size 2 \
  --ds.zero_stage 2 \
  --ds.param_dtype bf16 \
  --model.gradient_checkpointing_enable

SFT 阶段的目标是得到一个“能听懂指令、输出格式已基本对齐”的初始策略模型。这里的 DeepSpeed 角色主要是把单卡难以承受的 batch/序列长度压回可训练范围。

阶段 2：奖励模型（RM）

deepspeed --module openrlhf.cli.train_rm \
  --model.model_name_or_path OpenRLHF/Llama-3-8b-sft-mixture \
  --train.batch_size 256 \
  --train.micro_batch_size 2 \
  --ds.zero_stage 3 \
  --ds.param_dtype bf16 \
  --ds.packing_samples \
  --model.gradient_checkpointing_enable

RM 阶段的关键是打分。它要求 reward model 的 checkpoint 之后能被 PPO 阶段稳定加载，因此“checkpoint 目录结构、ZeRO stage、是否做 Universal 转换”最好在这一阶段就固定下来。

阶段 3：PPO / 在线策略优化

python3 -m openrlhf.cli.train_ppo_ray \
  --actor.num_gpus_per_node 8 \
  --critic.num_gpus_per_node 8 \
  --ref.num_gpus_per_node 8 \
  --reward.num_gpus_per_node 8 \
  --vllm.num_engines 4 \
  --vllm.tensor_parallel_size 2 \
  --train.colocate_all \
  --ds.zero_stage 3 \
  --ds.packing_samples \
  --train.dynamic_batch_enable

PPO 阶段里，DeepSpeed 已经从“包一个模型训练”扩展到 actor、critic、reference policy、reward model 这些角色各自带着自己的 ZeRO/显存策略运行，再通过 Ray 与 vLLM 协同。这就是为什么在线 RLHF 系统的复杂度远高于普通 SFT：训练本体、生成服务和奖励打分已经是三类不同的运行时。

PPO checkpoint 的后处理

PPO 往往会同时产出 actor 与 critic 的 DeepSpeed checkpoint 目录。若后续要跨环境迁移、给别的脚本恢复或归档，实践里常把 ZeRO checkpoint 进一步转换为 Universal 格式，而非把分片目录原样交给别的系统猜。

# 这类脚本通常会同时处理 actor / critic 两棵目录。
bash examples/scripts/ckpt_ds_zero_to_universal.sh /path/to/ppo_ckpt_root

vLLM 详解

vLLM 是面向服务化推理的运行时：围绕高吞吐调度、KV cache 管理、continuous batching、分布式并行与 OpenAI-compatible API 提供一体化推理栈。工程落地时可以把 vLLM 当作三条“入口路径”：离线推理的 LLM，可嵌入自建服务的 Engine，以及直接上线的 vllm serve。

安装路径与环境兼容

vLLM 的 wheel 包含大量编译好的 C++/GPU kernels。性能与兼容性高度依赖“vLLM wheel、PyTorch、驱动/运行时”三者的组合，工程上优先使用官方提供的预构建 wheel 或官方 Docker 镜像。

GPU 安装（推荐路径）

官方文档建议在新环境中安装 vLLM，并优先使用 wheel 自带的 PyTorch/依赖组合以减少二进制不兼容问题；此外，conda 安装的 PyTorch 可能静态链接 NCCL，容易在分布式/多进程场景引发问题。

# create a clean env (example with uv)
uv venv --python 3.12 --seed
source .venv/bin/activate

# install vLLM
uv pip install vllm

基本自检可以用“导入 + 小模型离线生成”验证：

from vllm import LLM, SamplingParams

# enforce_eager=True 牺牲一部分吞吐，换取“先确认环境能跑通”的更稳定起点。
llm = LLM(model="facebook/opt-125m", enforce_eager=True)
params = SamplingParams(max_tokens=16, temperature=0.0)
out = llm.generate(["Hello, my name is"], params)
print(out[0].outputs[0].text)

Docker 安装（生产最常用）

生产系统更常直接使用官方镜像运行 OpenAI-compatible server。多进程与张量并行依赖共享内存，容器启动通常需要

--ipc=host

或显式配置

--shm-size

。

# 把受限模型访问令牌注入容器环境，避免服务首次拉权重时出现 401。
export HF_TOKEN=""

# 共享 Hugging Face 缓存目录，减少容器重启后的重复下载。
docker run --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --env "HF_TOKEN=$HF_TOKEN" \
  -p 8000:8000 \
  --ipc=host \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen3-0.6B

当宿主机驱动较旧时，官方镜像提供 CUDA compatibility 模式（只覆盖部分专业/数据中心 GPU 的兼容场景）：

# 只在驱动偏旧、且官方文档明确支持兼容库的机器上启用这条路径。
docker run --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -p 8000:8000 \
  --env "HF_TOKEN=$HF_TOKEN" \
  --env "VLLM_ENABLE_CUDA_COMPATIBILITY=1" \
  --ipc=host \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen3-0.6B

何时需要从源码构建

当你的 CUDA/ROCm 版本、PyTorch 构建配置或硬件平台与官方 wheel 不匹配时，需要从源码构建。官方提供了以

VLLM_USE_PRECOMPILED=1

作为起点的可编辑安装，以及基于 CMake 的增量编译工作流用于迭代 kernels。

git clone https://github.com/vllm-project/vllm.git
cd vllm

uv venv --python 3.12 --seed
source .venv/bin/activate

# 先做 editable 安装，让 Python 侧改动可以直接生效。
VLLM_USE_PRECOMPILED=1 uv pip install -U -e . --torch-backend=auto

# 只有需要改 C++/CUDA kernel 时才补这组构建依赖。
uv pip install -r requirements/build.txt --torch-backend=auto

三条接口：LLM / Engine / vllm serve

vLLM 的 API 结构可以用“离线批处理推理”“可嵌入的引擎”“生产服务端”三条路径来理解。三者底层共享同一套 Engine 配置（EngineArgs），差异在于请求进入方式与生命周期管理。

接口 1：LLM（离线批处理推理）

vllm.LLM

适合离线批处理与数据集推理。它接受 prompts 列表并返回结构化输出，常用于离线评测、数据合成与批量生成。

from vllm import LLM, SamplingParams
prompts = [
    "Hello, my name is",
    "The capital of France is",
]
params = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=64)

# 离线批处理仍然通过 LLM 对象统一接入；底层 engine 和调度器由 vLLM 内部管理。
llm = LLM(model="facebook/opt-125m")
outputs = llm.generate(prompts, params)
for o in outputs:
    print(o.prompt)
    print(o.outputs[0].text)

采样参数的默认来源有两套：模型仓库里的

generation_config

与 vLLM 自己的默认值。若业务希望显式使用 vLLM 的默认采样参数，可以在创建 LLM 时设置：

from vllm import LLM

llm = LLM(
    model="facebook/opt-125m",
    # 显式忽略模型仓库里的 generation_config，回到 vLLM 自己的默认采样语义。
    generation_config="vllm",
)

SamplingParams：离线与服务共用的采样控制面

SamplingParams

是 vLLM 里最常被反复创建的对象之一。它对应的是“单次请求想怎么解码”，而非整个 engine 的资源配置；因此它更接近业务请求参数，而非部署参数。

命令/API/函数

temperature / top_p / top_k

说明
控制随机性与候选截断范围。适合把“输出多样性”从服务默认值里拆成请求级旋钮。

示例

from vllm import SamplingParams

params = SamplingParams(
    temperature=0.7,  # 降低随机性，但保留一定表达变化
    top_p=0.9,        # 切掉长尾 token，减少离谱采样
    # 再给候选集合一个显式上界，防止 nucleus 后候选仍过宽。
    top_k=50,
)

命令/API/函数

max_tokens / stop / stop_token_ids

说明
限制回复长度并声明何时停止。对工具调用、结构化输出和 Web 对话都很常见。

示例

params = SamplingParams(
    max_tokens=256,                  # 给单次回答设置上限，避免尾部失控
    stop=["\nUser:"],                # 遇到特定分隔符就截断
    # 当上游协议或模板已经约定了特殊 token 时，按 token id 截断更稳。
    stop_token_ids=[151645],
)

命令/API/函数

n / best_of

说明
控制一次请求要生成多少个候选，以及内部要采多少条再返回最好的一批。离线数据合成与 reranking 场景很常用。

示例

params = SamplingParams(
    n=4,          # 返回 4 个候选，供后续 rerank 或规则过滤
    # 先在内部采 8 条，再把得分更好的 4 条返回给业务侧。
    best_of=8,
)

接口 2：Engine（嵌入式引擎，用于自建服务）

Engine 路线用于把 vLLM 嵌入到自建服务/作业系统中，获得“请求级 streaming + 细粒度生命周期控制”。当前主线接口是 V1 Engine（

AsyncLLM

），通过

AsyncEngineArgs

构建。

import asyncio

from vllm import SamplingParams
from vllm.engine.arg_utils import AsyncEngineArgs
from vllm.sampling_params import RequestOutputKind
from vllm.v1.engine.async_llm import AsyncLLM

async def main() -> None:
    engine_args = AsyncEngineArgs(
        model="meta-llama/Llama-3.2-1B-Instruct",
        # 先用 eager 路线做服务集成，减少 graph capture 或编译问题带来的噪声。
        enforce_eager=True,
    )
    engine = AsyncLLM.from_engine_args(engine_args)
    try:
        params = SamplingParams(
            max_tokens=64,
            temperature=0.2,
            # DELTA 模式每轮只返回新增 token，最适合直连 SSE / WebSocket 流。
            output_kind=RequestOutputKind.DELTA,
        )
        async for out in engine.generate(
            request_id="req-1",
            prompt="Write a haiku about caching.",
            sampling_params=params,
        ):
            for c in out.outputs:
                if c.text:
                    print(c.text, end="", flush=True)
            if out.finished:
                break
    finally:
        # engine 内部持有调度线程和 GPU 资源；嵌入式服务退出前要显式 shutdown。
        engine.shutdown()
if __name__ == "__main__":
    asyncio.run(main())

在 Engine 路线里，“并发/显存预算”通常通过 EngineArgs 控制，应用侧需要自行处理：请求队列、超时/取消（abort）、重试、以及与外部网关的对接。

AsyncLLM 的生命周期控制

把 vLLM 当嵌入式引擎使用时，真正的工程难点是请求取消、更新窗口和进程退出是否可控。

AsyncLLM

这一层已经把这些动作做成显式接口。

import asyncio
from contextlib import suppress

from vllm import SamplingParams
from vllm.engine.arg_utils import AsyncEngineArgs
from vllm.v1.engine.async_llm import AsyncLLM


async def run_one(engine: AsyncLLM, request_id: str, prompt: str) -> str | None:
    params = SamplingParams(
        # 这里只让模型最多生成 128 个 token，目的是把例子收敛到“请求控制”而非采样调参。
        max_tokens=128,
        # temperature=0.0 把例子固定在确定性更强的解码路径上，便于观察请求生命周期。
        temperature=0.0,
    )
    try:
        async for out in engine.generate(
            request_id=request_id,   # request_id 是后续 abort / 追踪 / 日志关联的主键。
            prompt=prompt,           # 这里直接传 prompt 字符串；真实系统也可以改成 messages 路径。
            sampling_params=params,  # 采样策略对象和请求一起提交给 engine。
        ):
            if out.finished:
                return out.outputs[0].text  # 只取第一条候选，保持示例焦点在生命周期控制。
    except asyncio.CancelledError:
        # 请求级取消要显式通知 engine 回收对应状态。
        await engine.abort(request_id)
        raise
    return None


async def main() -> None:
    engine = AsyncLLM.from_engine_args(
        AsyncEngineArgs(
            model="facebook/opt-125m",  # 选小模型只是为了让生命周期示例更容易本地复现。
            enforce_eager=True,         # 关闭更激进的图优化路径，减少集成期额外变量。
        )
    )
    try:
        # create_task 把一个生成请求交给 event loop；真实服务里这里通常对应一个用户请求。
        task = asyncio.create_task(run_one(engine, "req-1", "Explain request schedulers in one paragraph."))

        # 超时并不同于 engine 已经自动丢弃请求；超时处理要和 abort 配合思考。
        with suppress(asyncio.TimeoutError):
            print(await asyncio.wait_for(task, timeout=5))

        # 在线更新或切换窗口前，可以先暂停新生成。
        await engine.pause_generation(mode="keep", clear_cache=True)
        await engine.resume_generation()
    finally:
        # 服务退出前要显式 shutdown，让后台线程和 GPU 资源有序释放。
        engine.shutdown()


if __name__ == "__main__":
    asyncio.run(main())

abort()

控制请求级取消，

pause_generation()

resume_generation()

控制更新窗口，

shutdown()

控制进程级收尾。对自建服务而言，这些接口的价值远高于“再包一层 HTTP 就能上线”。

接口 3：vllm serve（生产服务端）

vllm serve

直接启动 OpenAI-compatible server，是最接近“拿来就用”的生产入口。典型端点包括

/v1/chat/completions

与

/v1/embeddings

，并支持流式输出（SSE）。

# 这是最常见的生产入口：直接暴露 OpenAI-compatible HTTP 服务。
vllm serve meta-llama/Meta-Llama-3-8B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype auto \
  --api-key token-abc123

# curl 只验证协议层是否通，不代表服务已经调到最佳吞吐。
curl http://localhost:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer token-abc123' \
  -d '{
    "model": "meta-llama/Meta-Llama-3-8B-Instruct",
    "messages": [{"role":"user","content":"Hello!"}],
    "stream": true
  }'

OpenAI Python SDK（base_url 与 extra_body）

应用侧最常见的接入方式是 OpenAI Python SDK，把

base_url

指向自托管服务。部分参数在 OpenAI API 中不存在，但 vLLM 支持；这类扩展字段通常通过

extra_body

传入。

vLLM (pattern)">
from openai import OpenAI

# 通过 base_url 把官方 OpenAI SDK 指向自建 vLLM 服务。
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token-abc123")

# 普通 OpenAI 字段直接按标准传；vLLM 扩展字段通过 extra_body 透传。
resp = client.chat.completions.create(
    model="meta-llama/Meta-Llama-3-8B-Instruct",
    messages=[{"role": "user", "content": "Hello!"}],
    temperature=0.2,
    max_tokens=128,
    extra_body={"top_k": 50},
)
# 这里返回的是完整的 ChatCompletion 对象，业务代码可以继续读 usage、finish_reason 等字段。
print(resp.choices[0].message)

OpenAI-compatible 端点矩阵

生产里最容易出错的一点，是把“兼容 OpenAI”理解成“只支持 chat completions”。vLLM 的 HTTP 面远比这宽，是否暴露对应能力，要看你启动的模型与服务参数。

端点	工程用途	什么时候优先用它
/v1/chat/completions	最经典的聊天式生成接口	应用已经按 Chat Completions 组织 prompt，或要兼容大量现有 SDK/中间件
/v1/responses	更统一的新式接口，便于承载结构化输出、多模态与工具调用扩展	新系统直接建设，且希望减少未来从 Chat Completions 迁移的成本
/v1/embeddings / /v2/embed	向量化入口	做检索、重排前召回、聚类或语义缓存
/v1/rerank / /v2/rerank / /v1/score	重排与打分	检索系统里要把粗召回结果重新排序，或需要 pairwise/listwise 相关性分数
/tokenize / /detokenize	token 级观测与调试	排查 prompt 模板、上下文预算、停词边界与计费口径

服务配置中最容易忽视的兼容开关

vllm serve meta-llama/Meta-Llama-3-8B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --api-key token-abc123 \
  --generation-config vllm \
  --chat-template-content-format auto \
  --enable-request-id-headers \
  --max-num-batched-tokens 8192 \
  --max-num-seqs 256

```
--generation-config vllm
```
用来避免模型仓库里的
```
generation_config.json
```
静默覆盖服务端解码默认值。线上同一服务接多个业务方时，这个开关能显著减少“为什么同样 temperature，行为却不一致”的排障时间。
```
--chat-template-content-format
```
控制请求消息内容如何映射到 chat template。多模态或复杂 content 格式下，它直接决定模板渲染是否和客户端预期一致。
```
--enable-request-id-headers
```
让
```
X-Request-Id
```
能沿 HTTP 边界传递。服务一旦接入网关、APM 或异步任务系统，这个 request id 往往比 prompt 本身更关键，因为它是跨层排障的唯一稳定主键。

Tool calling 与 structured outputs 的生产语义

vLLM 支持工具调用，但不同模式的可靠性差异很大。生产里需要把“方便演示”和“可验收约束”分开。

```
--enable-auto-tool-choice
```
并非独立开关，它需要同时提供
```
--tool-call-parser
```
。前者允许模型自动决定是否调用工具，后者负责把模型输出解析回工具调用结构。
```
tool_choice="auto"
```
更接近“模型自由输出 + 解析器尽量提取”。它适合探索式系统，但并不天然保证一定满足 schema。
```
tool_choice="required"
```
或显式指定工具名，更接近“必须产出一个符合工具调用壳子的结果”。这类模式更适合工作流系统与生产链路。
请求里的
```
strict
```
字段常见于 OpenAI 风格客户端，但在不同版本组合下，它更多承担兼容入口角色，而非单独决定解码行为的神奇开关。真正约束输出的，还是 structured outputs 或明确的工具 schema。

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="token-abc123")

resp = client.chat.completions.create(
    model="meta-llama/Meta-Llama-3-8B-Instruct",
    messages=[{"role": "user", "content": "Classify: vLLM is production-ready."}],
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "sentiment",
            "schema": {
                "type": "object",
                "properties": {
                    "label": {"type": "string", "enum": ["positive", "negative"]},
                },
                "required": ["label"],
                "additionalProperties": False,
            },
        },
    },
)

print(resp.choices[0].message.content)

新系统应优先围绕

structured_outputs

与标准

response_format

建设，而非继续押注旧的

guided_json

、

guided_regex

之类历史字段。后者更多是兼容路径，前者才是现在的主语义接口。

服务端配置文件（YAML）

vllm serve

支持从 YAML 配置文件加载参数。参数名使用长参数形式（long form）。CLI 与配置文件同时提供时，优先级为 CLI > config > defaults。

model: meta-llama/Llama-3.1-8B-Instruct
host: "0.0.0.0"
port: 8000
uvicorn-log-level: "info"
api-key: "token-abc123"
dtype: "auto"
max-model-len: 8192
gpu-memory-utilization: 0.90
max-num-seqs: 64
enable-prefix-caching: true

vllm serve --config config.yaml

在线 RLHF：权重热更新与 Prefill/Decode 解耦

一旦把 vLLM 用到在线 RLHF 或异步后训练中，服务端就不再只是“提供推理 API”，还需要和训练进程交换新权重、暂停生成、完成热切换。vLLM 已经把这类能力做成显式参数和 HTTP 接口，而非要求用户每轮都重启整个服务。

weight-transfer-config 与热更新端点

--weight-transfer-config

负责打开 trainer ↔ serving 的权重同步通道。典型流程是：训练侧先请求初始化权重传输引擎，再开始更新、逐块推送新权重，最后通知服务端切换到新版本。服务端通常还会配合

/pause

、

/resume

暂停和恢复新请求生成。

VLLM_SERVER_DEV_MODE=1 \
vllm serve meta-llama/Meta-Llama-3-8B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --weight-transfer-config '{"backend":"nccl","engine":"v1"}'

POST /init_weight_transfer_engine
POST /start_weight_update
POST /update_weights
POST /finish_weight_update
POST /pause
POST /resume

import requests
from vllm.distributed.weight_transfer.nccl_engine import (
    NCCLTrainerSendWeightsArgs,
    NCCLWeightTransferEngine,
)

# base 指向 vLLM 服务的控制面地址；后面所有 pause / resume / update 都走这里。
base = "http://127.0.0.1:8000"

# 第一步是控制面初始化；HTTP 负载里传的是 init_info，而非裸 backend 字段。
requests.post(
    f"{base}/init_weight_transfer_engine",
    json={
        "init_info": {
            "master_address": "10.0.0.1",  # NCCL 通信主节点地址；trainer 和 serving 需要都能访问到。
            "master_port": 29501,          # NCCL 建链端口；要和训练侧后续 trainer_init 保持一致。
            "rank_offset": 1,              # 让 serving ranks 与 trainer ranks 的编号区间不互相撞车。
            "world_size": 3,               # 整个 weight-transfer 通信域里的总 rank 数。
        }
    },
    timeout=60,
).raise_for_status()

# 进入更新窗口前先暂停生成，让新老权重切换有明确边界。
requests.post(f"{base}/pause", params={"mode": "keep"}, timeout=60).raise_for_status()
requests.post(
    f"{base}/start_weight_update",
    # is_checkpoint_format=True 表示后续发送的是“按 checkpoint 语义组织”的权重块元信息。
    json={"is_checkpoint_format": True},
    timeout=60,
).raise_for_status()

# HTTP 这里传的是本轮权重块的元信息，而非直接把大张量塞进 JSON。
meta = {
    "names": names,              # 张量名列表；服务端靠它知道接下来写回哪些参数。
    "dtype_names": dtype_names,  # 每个张量对应的数据类型字符串，供接收端恢复 tensor 解释方式。
    "shapes": shapes,            # 每个张量的形状；否则服务端无法重建参数布局。
    "packed": True,              # 声明 trainer 发送的是打包权重流，而非逐 tensor 独立发送。
}
requests.post(
    f"{base}/update_weights",
    json={"update_info": meta},
    timeout=300,
).raise_for_status()

# 真正的权重数据平面走 NCCL；HTTP 只负责控制顺序和元信息。
group = NCCLWeightTransferEngine.trainer_init(
    {
        "master_address": "10.0.0.1",  # 与 init_info 保持一致，双方才能进入同一 NCCL 通信域。
        "master_port": 29501,
        "world_size": 3,
    }
)
NCCLWeightTransferEngine.trainer_send_weights(
    iterator=model.named_parameters(),  # 把训练中当前模型参数按名字迭代出来，作为实际发送的数据源。
    # packed=True 要和上面的 update_info 保持一致，否则服务端解析权重流的方式会错位。
    trainer_args=NCCLTrainerSendWeightsArgs(group=group, packed=True),
)

# finish_weight_update 表示本轮新权重已经完整送达，服务端可以切换到新版本。
requests.post(f"{base}/finish_weight_update", json={}, timeout=60).raise_for_status()

# 最后恢复生成，让后续新请求开始吃到新权重。
requests.post(f"{base}/resume", timeout=60).raise_for_status()

这里有两个边界必须说清楚。第一，

init_weight_transfer_engine

与

update_weights

的 JSON 负载结构分别是

{"init_info": ...}

与

{"update_info": ...}

，并非任意自造键名。第二，HTTP 是控制面，NCCL 或 IPC 才是数据面；把大张量直接塞进 HTTP JSON，不符合这条接口的设计方式。

这类端点通常只在开发模式下开放，因此示例命令把

VLLM_SERVER_DEV_MODE=1

显式写在前面。线上暴露时必须额外套网关与访问控制，因为很多非

/v1*

端点并不属于普通 API 消费面。

kv-transfer-config 与 Prefill/Decode 解耦

长上下文服务里，prefill 和 decode 的负载形态差异很大。vLLM 的

--kv-transfer-config

允许把 prefill 产出的 KV 传给 decode 侧实例，从而把两类负载拆到不同进程甚至不同机器上。这类拓扑特别适合“长 prompt + 短回复”的系统，因为 prefill 往往比 decode 更吃带宽和显存。

# prefill producer
vllm serve meta-llama/Meta-Llama-3-8B-Instruct \
  --port 8100 \
  --kv-transfer-config '{"role":"producer","connector":"shared_storage"}'

# decode consumer
vllm serve meta-llama/Meta-Llama-3-8B-Instruct \
  --port 8200 \
  --kv-transfer-config '{"role":"consumer","connector":"shared_storage"}'

Prefill/Decode 解耦改善的通常是资源形态匹配与尾延迟，而非“任何负载下都绝对更快”。如果请求大多是短 prompt、短回复，额外的 KV 传输与系统复杂度可能抵消收益。

EngineArgs（核心配置面）

Engine arguments 控制 vLLM 的运行行为：离线推理时它们是

LLM(...)

的一部分参数；在线服务时它们是

vllm serve

的参数子集。工程上可以把 EngineArgs 按职责分为四类：模型与 tokenizer、并行与执行器、KV cache 与调度、以及安全/可观测性。

常用 EngineArgs（服务端视角）

参数	含义	工程后果
--max-model-len	最大上下文长度	直接决定 KV cache 的 token 预算；过大常导致并发下降或 OOM
--gpu-memory-utilization	显存预算比例	留出系统/碎片空间；过高会提升 OOM 风险
--max-num-batched-tokens	每步调度的 token 预算	影响吞吐与尾延迟，常与并发/显存一起调
--max-num-seqs	并发序列数上限	决定同卡并发，过高会导致排队抖动与尾延迟上升
--kv-cache-dtype	KV cache 存储精度	影响显存/带宽；更激进精度需要评估质量与稳定性
--trust-remote-code	允许加载模型仓库的自定义代码	改变执行边界；仅在可信模型源启用
--download-dir	权重/缓存下载目录	容器化时用于挂载共享缓存，减少冷启动成本

EngineArgs 在 Python 侧的用法

当你希望把“服务端配置”复用到离线任务中，可以在 Python 里用

EngineArgs

组装配置，再把字段展开给 LLM：

LLM (pattern)">
from dataclasses import asdict

from vllm import LLM
from vllm.engine.arg_utils import EngineArgs

# 先把服务端同款参数集中到 EngineArgs，便于在离线脚本和在线服务之间复用配置。
engine_args = EngineArgs(
    model="meta-llama/Meta-Llama-3-8B-Instruct",
    max_model_len=8192,
    gpu_memory_utilization=0.90,
    enable_prefix_caching=True,
)

# asdict 会把 dataclass 展开成 LLM 构造函数可接受的关键字参数。
llm = LLM(**asdict(engine_args))

吞吐预算：max_num_batched_tokens 与 chunked prefill

vLLM 服务调优里，最常被忽视的核心是调度器预算。

max_num_batched_tokens

控制单个调度步最多同时处理多少 token；

enable_chunked_prefill

控制长 prompt 的 prefill 是否允许被切块处理。二者决定的是服务端如何在“长提示词请求”和“短请求延迟”之间做平衡。

from dataclasses import asdict

from vllm import LLM
from vllm.engine.arg_utils import EngineArgs

engine_args = EngineArgs(
    model="meta-llama/Meta-Llama-3-8B-Instruct",
    max_model_len=16384,
    # GPU 显存预算不要一上来顶满；先留出 KV cache 波动和碎片化余量。
    gpu_memory_utilization=0.90,
    # 单个调度步最多处理 4096 个 token；
    # 它太小会压吞吐，太大又会让长请求拖慢短请求。
    max_num_batched_tokens=4096,
    # 打开后，超长 prompt 的 prefill 可以分块进入调度器，
    # 更适合“长输入 + 高频并发”的服务。
    enable_chunked_prefill=True,
    # max_num_seqs 限制同一时刻允许并发挂在调度器上的请求条数。
    max_num_seqs=64,
)

llm = LLM(**asdict(engine_args))

经验上，

enable_chunked_prefill=True

更适合长上下文服务；而

max_num_batched_tokens

往往需要结合真实流量压测来找平衡点。它并非“越大越快”的旋钮，因为过大的 batch token 预算会拉高单步时延，并放大长请求对短请求的阻塞。

调度器的第二层旋钮：partial prefill、stream interval 与调度策略

只调

max_num_batched_tokens

往往不够。长上下文、高并发和在线流式三者同时存在时，调度器的第二层参数才是真正决定尾延迟的部分。

参数	控制什么	什么时候值得调
--scheduling-policy	请求在调度器里的优先策略	不同业务混跑，且你确实需要在公平性和吞吐之间做取舍时
--stream-interval	流式输出向客户端刷新的频率	前端强调实时感知，或日志系统希望减少碎片化 token 事件时
--max-num-partial-prefills	允许多少个长 prompt 以切块形式并行进入 prefill	长 prompt 请求经常把短请求拖住时
--max-long-partial-prefills / --long-prefill-token-threshold	定义“多长算长请求”，以及这类请求最多允许多少并发切块	流量同时包含极长上下文任务与常规问答请求时

这一层参数没有固定最优值。它们依赖模型大小、GPU 代际、上下文长度分布，以及你更关心吞吐、TTFT 还是尾延迟。框架暴露的是可调旋钮，真正落地仍然要靠业务流量压测。

批量推理系统里的 vLLM：Processor 配置而非手搓循环

在真实离线批量推理系统里，vLLM 往往会挂进更高层的数据处理框架，由框架负责分片、重试、结果回写和集群扩缩。Ray Data 的 vLLM Processor 就是一个典型模式：把 prompt 构造、采样参数和结果抽取分成三段函数，vLLM 只负责把 GPU 算力吃满。

from ray.data.llm import build_llm_processor, vLLMEngineProcessorConfig

config = vLLMEngineProcessorConfig(
    model_source="unsloth/Llama-3.1-8B-Instruct",
    engine_kwargs={
        # 这两项直接下发给 vLLM engine，用来约束长 prompt 的调度方式。
        "enable_chunked_prefill": True,
        "max_num_batched_tokens": 4096,
        "max_model_len": 16384,
    },
    concurrency=1,   # 每个 Processor 副本背后一份 vLLM engine；并发副本数由这里控制
    batch_size=64,   # 上游数据框架把多少条记录聚成一批交给 vLLM
)

processor = build_llm_processor(
    config,
    # preprocess 负责把业务行转成 messages + sampling_params。
    preprocess=lambda row: dict(
        messages=[{"role": "user", "content": row["text"]}],
        sampling_params={"temperature": 0.3, "max_tokens": 250},
    ),
    # postprocess 负责从生成结果里抽回业务字段，便于直接写回 Parquet/对象存储。
    postprocess=lambda row: dict(answer=row["generated_text"], **row),
)

这条路线的意义在于职责分离：数据系统负责大规模分片与回写，vLLM 负责单副本高吞吐推理。两者分开后，离线推理任务就不需要把“数据调度”和“GPU 推理调度”揉在同一个脚本里。

并行：Tensor Parallel / Pipeline Parallel / Data Parallel

分布式推理的目标是“把单模型副本放进足够多的 GPU 里，并把负载分摊出去”。vLLM 的并行策略可以分为三类：单副本的张量并行/流水并行，以及多副本的 data parallel（权重复制）。

Tensor Parallel（单机多卡）

当模型无法放进单卡但能放进单机多卡时，设置

tensor_parallel_size

为“每节点 GPU 数”是最常见策略。

vllm serve meta-llama/Meta-Llama-3-8B-Instruct \
  --tensor-parallel-size 4 \
  --host 0.0.0.0 --port 8000

Pipeline Parallel（多机或单机不均匀切分）

当模型超过单机容量，需要组合张量并行与流水并行：把

tensor_parallel_size

设为“每节点 GPU 数”，把

pipeline_parallel_size

设为“节点数”。如果模型在单机可容纳，但 GPU 数无法均匀切分模型，也可以用 pipeline parallel 做不均匀切分：此时常见设置是

tensor_parallel_size=1

，

pipeline_parallel_size=GPU 数

。

vllm serve meta-llama/Meta-Llama-3-70B-Instruct \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --host 0.0.0.0 --port 8000

Data Parallel（多副本 + 负载均衡）

data parallel 复制权重，让多个 GPU/进程独立处理请求，适合吞吐扩展。vLLM 支持“自包含 DP（一个对外端点，内部做 rank 级负载均衡）”与“外部负载均衡（每 rank 单独对外，外部 LB 路由）”。

vllm serve meta-llama/Meta-Llama-3-8B-Instruct \
  --data-parallel-size 4 \
  --host 0.0.0.0 --port 8000

前缀缓存（Prefix Caching）

前缀缓存缓存“已 prefill 的前缀 KV blocks”，新请求与历史请求共享前缀时，可以复用缓存并跳过重复的 prefill 计算。它对“系统 prompt 固定、RAG 模板固定、长上下文重复”的场景收益很大。

开启方式与哈希策略

服务端通过

--enable-prefix-caching

开启前缀缓存。为多租户隔离与碰撞风险控制，前缀缓存提供可配置的哈希策略（例如使用 SHA256 族）。

vllm serve meta-llama/Meta-Llama-3-8B-Instruct \
  --enable-prefix-caching \
  --prefix-caching-hash-algo sha256 \
  --host 0.0.0.0 --port 8000

Speculative Decoding

speculative decoding 用“草稿模型提出多个候选 token + 目标模型验证并接收其中一部分”的方式减少目标模型 decode 步数，从而降低解码延迟。服务端需要同时加载目标模型与草稿模型，并为草稿模型设置独立的资源预算。

# 启动 vLLM 服务。
vllm serve  \
  --speculative-config '{
    "method": "draft_model",
    "model": "",
    "num_speculative_tokens": 5
  }'

speculative decoding 与某些并行策略（例如 pipeline parallel）可能存在兼容性限制，上线前需要在目标版本组合上做压测与回归。

监控、日志与部署注意项

/metrics 与 Prometheus

vLLM 的 OpenAI-compatible server 默认暴露

/metrics

，可用于 Prometheus 抓取与容量规划。

curl http://0.0.0.0:8000/metrics

容量规划时需要重点关注两类信息：KV cache 的 token 容量与“最大并发估计”。vLLM 启动日志通常会输出类似的估算信息（示例格式如下）：

GPU KV cache size: 643,232 tokens
Maximum concurrency for 40,960 tokens per request: 15.70x

健康检查与日志降噪

服务端通常提供健康检查端点（例如

/health

、

/ping

）。生产环境里这些端点会被 LB 高频调用，建议通过

--disable-access-log-for-endpoints

关闭对应 access logs，避免淹没有效日志：

vllm serve meta-llama/Meta-Llama-3-8B-Instruct \
  --disable-access-log-for-endpoints "/health,/metrics,/ping" \
  --host 0.0.0.0 --port 8000

日志配置（环境变量）

vLLM 使用 Python 的 logging 配置体系，并提供环境变量控制默认日志行为。最常见的两类控制是：关闭 vLLM 的默认日志配置，以及提供自定义 JSON logging 配置文件路径。

# 完全交给宿主应用自己的 logging 配置，适合已有统一日志体系的服务。
export VLLM_CONFIGURE_LOGGING=0

# 也可以继续让 vLLM 初始化 logging，但显式指定 JSON 配置文件。
export VLLM_CONFIGURE_LOGGING=1
export VLLM_LOGGING_CONFIG_PATH=/path/to/logging_config.json

部署前的稳定性检查清单

显存预算：用

--max-model-len

与

--gpu-memory-utilization

先跑通，再逐步提高

--max-num-seqs

与

--max-num-batched-tokens

做压测。

默认行为：明确 chat template、tokenizer 与 generation_config 的来源与优先级，避免升级后默认采样参数变化。
权限边界：
```
--trust-remote-code
```
只在可信模型源启用；容器中通过只读挂载、最小权限与镜像固化降低风险。
日志与指标：确保
```
/metrics
```
可被抓取，健康检查端点与 access log 策略不会引发噪声或误报警。

运维 CLI：bench 与 run-batch

vLLM 近年的 CLI 已经不只剩

serve

。做容量评估、回归压测与离线批任务时，

vllm bench

和

vllm run-batch

往往比自己写临时脚本更稳，因为它们直接复用了官方参数面与统计口径。

# 吞吐/延迟基准
vllm bench throughput --model meta-llama/Meta-Llama-3-8B-Instruct
vllm bench latency --model meta-llama/Meta-Llama-3-8B-Instruct

# 离线批任务
vllm run-batch --input-file prompts.jsonl --output-file outputs.jsonl

知名代码精读

AI 训练与推理编程的学习不能只停在 API 表面。成熟项目的源码会暴露更真实的问题：张量形状如何流动，工具接口如何约束模型，权限和上下文如何管理，NER 模型如何把标签、边界和 span 组织成可训练目标。本章选取三类代码做精读：手写 Transformer、Claude Code 类 AI 编程 agent、以及 CRF / GlobalPointer / GLiNER 等 NER 知名算法。

minGPT

minGPT 的核心模型源码集中在

mingpt/model.py

。本节使用官方仓库本地 clone 的真实源码，commit

37baab7

架构说明

minGPT 的

GPT

是标准 decoder-only Transformer：token id 先经过 token embedding，位置编号经过可学习 position embedding，两者相加后进入一串

Block

。每个

Block

采用 pre-norm 结构，先做因果多头自注意力，再做 MLP，两个子层都通过残差连接回到主干。注意力部分显式计算 Q/K/V、下三角 mask、softmax 和 V 加权求和，因此非常适合第一次读清 GPT 的张量形状。

minGPT 的位置编码是可学习表

wpe

，长度由

block_size

决定。生成时如果上下文超过

block_size

，代码会裁掉更早的 token，只保留最后一段上下文继续预测。MLP 采用

n_embd → 4*n_embd → n_embd

的两层线性结构，中间接 GELU。

训练和推理脚本

minGPT 官方 README 把项目定位成三部分：

mingpt/model.py

是模型，

mingpt/trainer.py

是通用训练循环，

projects

目录提供具体任务脚本。训练入口主要看

projects/chargpt/chargpt.py

和

projects/adder/adder.py

；推理入口主要看

model.generate()

和

generate.ipynb

。

入口	用途	阅读重点
Trainer	通用 PyTorch 训练循环，接收模型和 Dataset。	batch 获取、loss.backward、optimizer.step、callback。
projects/chargpt/chargpt.py	字符级语言模型训练脚本。	字符词表、 x/y 右移、训练中定期调用 generate 采样。
projects/adder/adder.py	训练 GPT 做 n 位数加法。	把结构化算术问题渲染成 token 序列，并用 -1 mask 掉不计 loss 的输入位置。
generate.ipynb	加载预训练 GPT-2 并按 prompt 生成文本。	GPT.from_pretrained 、BPE 编码、 model.generate 。

# 以可编辑模式安装 minGPT，方便本地 projects 脚本 import mingpt。
git clone https://github.com/karpathy/minGPT.git
cd minGPT
pip install -e .

# 字符级语言模型训练入口；脚本默认读取 projects/chargpt/input.txt。
cd projects/chargpt
python chargpt.py

# 加法任务训练入口；脚本会构造 AdditionDataset 并周期性评估正确率。
cd ../adder
python adder.py

from mingpt.model import GPT
from mingpt.trainer import Trainer

# Dataset 需要返回 LongTensor token 序列，x 是输入，y 是 next-token 标签。
train_dataset = YourDataset()

model_config = GPT.get_default_config()
# model_type 选择 GPT 结构预设，也可以直接指定 n_layer/n_head/n_embd。
model_config.model_type = "gpt2"
# vocab_size 必须匹配 tokenizer 或任务自定义词表。
model_config.vocab_size = 50257
# block_size 是最大上下文长度，也决定 position embedding 表长度。
model_config.block_size = 1024
model = GPT(model_config)

train_config = Trainer.get_default_config()
# learning_rate 是 AdamW 的学习率，minGPT README 示例用 5e-4。
train_config.learning_rate = 5e-4
# max_iters 控制训练更新步数。
train_config.max_iters = 1000
# batch_size 是 DataLoader 每步送入 Trainer 的样本数。
train_config.batch_size = 32

# Trainer 负责循环取 batch、计算 loss、反向传播和调用 callback。
trainer = Trainer(train_config, model, train_dataset)
trainer.run()

from mingpt.model import GPT

# 从 Hugging Face GPT-2 权重初始化 minGPT 模型。
model = GPT.from_pretrained("gpt2")
model.eval()

# idx 是已经编码好的 prompt token，形状为 [B, T]。
idx = encode_prompt_to_tensor("The meaning of life is")

# do_sample=True 走随机采样；top_k 限制候选 token，temperature 控制分布尖锐度。
out = model.generate(idx, max_new_tokens=100, temperature=0.8, do_sample=True, top_k=40)
text = decode_tokens(out[0])

完整代码

"""
Full definition of a GPT Language Model, all of it in this single file.

References:
1) the official GPT-2 TensorFlow implementation released by OpenAI:
https://github.com/openai/gpt-2/blob/master/src/model.py
2) huggingface/transformers PyTorch implementation:
https://github.com/huggingface/transformers/blob/main/src/transformers/models/gpt2/modeling_gpt2.py
"""

# 导入标准库；这里用于数学缩放、运行时检查或优化器能力探测。
import math

# PyTorch 是张量计算、自动求导和 GPU 执行的底层框架。
import torch
# nn 提供 Module、Linear、Embedding、Dropout 等神经网络层。
import torch.nn as nn
# F 提供无状态函数接口，例如 softmax、cross_entropy、layer_norm。
from torch.nn import functional as F

# minGPT 使用 CfgNode 管理配置，类似轻量版配置树。
from mingpt.utils import CfgNode as CN

# -----------------------------------------------------------------------------

# NewGELU 是 GPT/BERT 常用激活函数的显式实现。
class NewGELU(nn.Module):
    """
    Implementation of the GELU activation function currently in Google BERT repo (identical to OpenAI GPT).
    Reference: Gaussian Error Linear Units (GELU) paper: https://arxiv.org/abs/1606.08415
    """
    # forward 定义一次前向计算；训练和推理都会进入这里。
    def forward(self, x):
        return 0.5 * x * (1.0 + torch.tanh(math.sqrt(2.0 / math.pi) * (x + 0.044715 * torch.pow(x, 3.0))))

# **注意力核心**：这里开始实现 decoder-only GPT 的因果自注意力。
class CausalSelfAttention(nn.Module):
    """
    A vanilla multi-head masked self-attention layer with a projection at the end.
    It is possible to use torch.nn.MultiheadAttention here but I am including an
    explicit implementation here to show that there is nothing too scary here.
    """

    # 初始化函数注册子模块和参数，决定 state_dict 的结构。
    def __init__(self, config):
        # 调用 Module 基类初始化；否则子层和参数不会被 PyTorch 正确注册。
        super().__init__()
        # **注意力核心**：隐藏维必须能均分到多个 attention head。
        assert config.n_embd % config.n_head == 0
        # key, query, value projections for all heads, but in a batch
        # **注意力核心**：一次线性投影同时产生 Q、K、V，输出维度是 3*C。
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
        # output projection
        # **注意力核心**：多头结果拼回后，用输出投影混合各 head 信息。
        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
        # regularization
        # attention dropout 随机丢弃注意力权重，缓解训练过拟合。
        self.attn_dropout = nn.Dropout(config.attn_pdrop)
        # 残差 dropout 作用在子层输出进入残差路径之前。
        self.resid_dropout = nn.Dropout(config.resid_pdrop)
        # causal mask to ensure that attention is only applied to the left in the input sequence
        # **注意力核心**：注册下三角因果 mask，禁止当前位置看未来 token。
        self.register_buffer("bias", torch.tril(torch.ones(config.block_size, config.block_size))
                                     # mask 形状扩展到 [1, 1, T, T]，便于广播到 batch 和 head 维。
                                     .view(1, 1, config.block_size, config.block_size))
        # 保存 head 数，forward 中 reshape 会反复使用。
        self.n_head = config.n_head
        # 保存隐藏维，切分 Q/K/V 时需要按这个维度拆分。
        self.n_embd = config.n_embd

    # forward 定义一次前向计算；训练和推理都会进入这里。
    def forward(self, x):
        # B 是 batch，T 是序列长度，C 是隐藏维；后面所有 reshape 都依赖它们。
        B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)

        # calculate query, key, values for all heads in batch and move head forward to be the batch dim
        # **注意力核心**：把一次投影结果沿隐藏维切成 q、k、v 三份。
        q, k ,v  = self.c_attn(x).split(self.n_embd, dim=2)
        # **注意力核心**：K 从 [B,T,C] 变为 [B,head,T,head_dim]。
        k = k.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)
        # **注意力核心**：Q 也拆到多头维度，准备和 K 做点积。
        q = q.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)
        # **注意力核心**：V 拆成多头后，后续用注意力权重加权求和。
        v = v.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)

        # causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        # **注意力核心**：QK^T 得到每个 token 对历史 token 的相关性分数。
        att = (q @ k.transpose(-2, -1)) * (1.0 / math.sqrt(k.size(-1)))
        # **注意力核心**：未来位置写成 -inf，softmax 后概率变成 0。
        att = att.masked_fill(self.bias[:,:,:T,:T] == 0, float('-inf'))
        # **注意力核心**：softmax 把相关性分数转成注意力概率分布。
        att = F.softmax(att, dim=-1)
        # attention dropout 随机丢弃注意力权重，缓解训练过拟合。
        att = self.attn_dropout(att)
        # **注意力核心**：用注意力概率对 V 加权求和，得到每个位置的新表示。
        y = att @ v # (B, nh, T, T) x (B, nh, T, hs) -> (B, nh, T, hs)
        # **注意力核心**：把多头输出重新拼回 [B,T,C]，供残差路径使用。
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side

        # output projection
        # 残差 dropout 作用在子层输出进入残差路径之前。
        y = self.resid_dropout(self.c_proj(y))
        return y

# Block 把注意力、MLP、LayerNorm 和残差连接组装成一层 Transformer。
class Block(nn.Module):
    """ an unassuming Transformer block """

    # 初始化函数注册子模块和参数，决定 state_dict 的结构。
    def __init__(self, config):
        # 调用 Module 基类初始化；否则子层和参数不会被 PyTorch 正确注册。
        super().__init__()
        # 第一个 LayerNorm 放在 attention 前，属于 pre-norm 结构。
        self.ln_1 = nn.LayerNorm(config.n_embd)
        # Block 内部挂载一层因果自注意力。
        self.attn = CausalSelfAttention(config)
        # 第二个 LayerNorm 放在 MLP 前，稳定前馈网络输入。
        self.ln_2 = nn.LayerNorm(config.n_embd)
        # minGPT 用 ModuleDict 保存 MLP 子层，结构紧凑但不如单独 MLP 类清晰。
        self.mlp = nn.ModuleDict(dict(
            c_fc    = nn.Linear(config.n_embd, 4 * config.n_embd),
            c_proj  = nn.Linear(4 * config.n_embd, config.n_embd),
            # **MLP核心**：GELU 提供平滑非线性，比 ReLU 更常见于 Transformer。
            act     = NewGELU(),
            # minGPT 分别配置 embedding、残差和 attention dropout。
            dropout = nn.Dropout(config.resid_pdrop),
        ))
        m = self.mlp
        # **MLP核心**：这行定义完整 FFN 路径：升维、激活、降维、dropout。
        self.mlpf = lambda x: m.dropout(m.c_proj(m.act(m.c_fc(x)))) # MLP forward

    # forward 定义一次前向计算；训练和推理都会进入这里。
    def forward(self, x):
        # 第一个 LayerNorm 放在 attention 前，属于 pre-norm 结构。
        x = x + self.attn(self.ln_1(x))
        # 第二个 LayerNorm 放在 MLP 前，稳定前馈网络输入。
        x = x + self.mlpf(self.ln_2(x))
        return x

# GPT 主类把 embedding、多个 block、最终归一化和 lm_head 串起来。
class GPT(nn.Module):
    """ GPT Language Model """

    # 静态方法不依赖具体模型实例，适合返回默认配置。
    @staticmethod
    def get_default_config():
        # 创建默认配置节点，后续逐项填入模型和 dropout 参数。
        C = CN()
        # either model_type or (n_layer, n_head, n_embd) must be given in the config
        # model_type 允许用 gpt2/gpt-mini 这类名字选择预设结构。
        C.model_type = 'gpt'
        # n_layer 是 block 层数；越大模型越深。
        C.n_layer = None
        # n_head 是 attention head 数；必须和 n_embd 可整除。
        C.n_head = None
        # n_embd 是隐藏维；同时决定 embedding、attention 和 MLP 的主宽度。
        C.n_embd =  None
        # these options must be filled in externally
        # vocab_size 必须由 tokenizer 或任务数据提供。
        C.vocab_size = None
        # block_size 是最大上下文长度，同时约束位置编码和因果 mask。
        C.block_size = None
        # dropout hyperparameters
        # minGPT 分别配置 embedding、残差和 attention dropout。
        C.embd_pdrop = 0.1
        # minGPT 分别配置 embedding、残差和 attention dropout。
        C.resid_pdrop = 0.1
        # minGPT 分别配置 embedding、残差和 attention dropout。
        C.attn_pdrop = 0.1
        return C

    # 初始化函数注册子模块和参数，决定 state_dict 的结构。
    def __init__(self, config):
        # 调用 Module 基类初始化；否则子层和参数不会被 PyTorch 正确注册。
        super().__init__()
        # 没有词表大小就无法创建 token embedding 和输出分类头。
        assert config.vocab_size is not None
        # 没有上下文长度就无法创建位置编码和因果 mask。
        assert config.block_size is not None
        # minGPT 把 block_size 存到模型上，forward/generate 用它限制上下文。
        self.block_size = config.block_size

        # 检查调用者是用预设 model_type，还是手动给出层数/头数/宽度。
        type_given = config.model_type is not None
        # 手动结构参数需要 n_layer、n_head、n_embd 三项同时存在。
        params_given = all([config.n_layer is not None, config.n_head is not None, config.n_embd is not None])
        # 检查调用者是用预设 model_type，还是手动给出层数/头数/宽度。
        assert type_given ^ params_given # exactly one of these (XOR)
        # 检查调用者是用预设 model_type，还是手动给出层数/头数/宽度。
        if type_given:
            # translate from model_type to detailed configuration
            # 把 gpt2/gpt-mini 等名字翻译成具体层数、头数和隐藏维。
            config.merge_from_dict({
                # names follow the huggingface naming conventions
                # GPT-1
                'openai-gpt':   dict(n_layer=12, n_head=12, n_embd=768),  # 117M params
                # GPT-2 configs
                # 这里记录 GPT-2 124M 的结构尺寸。
                'gpt2':         dict(n_layer=12, n_head=12, n_embd=768),  # 124M params
                'gpt2-medium':  dict(n_layer=24, n_head=16, n_embd=1024), # 350M params
                'gpt2-large':   dict(n_layer=36, n_head=20, n_embd=1280), # 774M params
                'gpt2-xl':      dict(n_layer=48, n_head=25, n_embd=1600), # 1558M params
                # Gophers
                'gopher-44m':   dict(n_layer=8, n_head=16, n_embd=512),
                # (there are a number more...)
                # I made these tiny models up
                'gpt-mini':     dict(n_layer=6, n_head=6, n_embd=192),
                'gpt-micro':    dict(n_layer=4, n_head=4, n_embd=128),
                'gpt-nano':     dict(n_layer=3, n_head=3, n_embd=48),
            }[config.model_type])

        # ModuleDict 按名字组织 GPT 主干，state_dict 会保留这些前缀。
        self.transformer = nn.ModuleDict(dict(
            # **位置编码核心**：wte 是 token embedding，把 token id 映射到向量。
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # **位置编码核心**：wpe 是可学习位置 embedding，每个位置有独立向量。
            wpe = nn.Embedding(config.block_size, config.n_embd),
            # minGPT 分别配置 embedding、残差和 attention dropout。
            drop = nn.Dropout(config.embd_pdrop),
            # ModuleList 保存 n_layer 个 Block，forward 会顺序执行。
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
            # 最终 LayerNorm 放在所有 block 之后，稳定进入词表头的表示。
            ln_f = nn.LayerNorm(config.n_embd),
        ))
        # lm_head 把隐藏状态投影到词表 logits，用于 next-token 分类。
        self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)

        # init all weights, and apply a special scaled init to the residual projections, per GPT-2 paper
        # 递归初始化所有子模块，确保 Linear/Embedding/LayerNorm 起点一致。
        self.apply(self._init_weights)
        # 遍历所有参数名和值，用于特殊初始化或参数分组。
        for pn, p in self.named_parameters():
            # 残差投影矩阵使用更小初始化，深层模型训练更稳。
            if pn.endswith('c_proj.weight'):
                # 按层数缩小残差分支方差，缓解深层残差叠加放大。
                torch.nn.init.normal_(p, mean=0.0, std=0.02/math.sqrt(2 * config.n_layer))

        # report number of parameters (note we don't count the decoder parameters in lm_head)
        # 统计参数量，用于确认模型尺寸是否符合预期。
        n_params = sum(p.numel() for p in self.transformer.parameters())
        # 启动时打印参数规模，便于核对配置。
        print("number of parameters: %.2fM" % (n_params/1e6,))

    def _init_weights(self, module):
        # Linear 层使用 GPT 常见小方差正态初始化。
        if isinstance(module, nn.Linear):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
            # 只有创建了 bias 的层才需要初始化偏置。
            if module.bias is not None:
                # 偏置或 LayerNorm 偏移初始化为 0，让模型初始不引入偏移。
                torch.nn.init.zeros_(module.bias)
        # Embedding 表也按同样尺度初始化，保持表示尺度一致。
        elif isinstance(module, nn.Embedding):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
        # LayerNorm 的 weight=1、bias=0，使初始状态接近恒等归一化。
        elif isinstance(module, nn.LayerNorm):
            # 偏置或 LayerNorm 偏移初始化为 0，让模型初始不引入偏移。
            torch.nn.init.zeros_(module.bias)
            torch.nn.init.ones_(module.weight)

    # 类方法用于从预训练权重构建模型实例。
    @classmethod
    # from_pretrained 负责把 Hugging Face GPT-2 权重搬到当前实现中。
    def from_pretrained(cls, model_type):
        """
        Initialize a pretrained GPT model by copying over the weights
        from a huggingface/transformers checkpoint.
        """
        # 只允许加载这些 GPT-2 规格，避免结构不匹配。
        assert model_type in {'gpt2', 'gpt2-medium', 'gpt2-large', 'gpt2-xl'}
        # 借助 Hugging Face 读取官方 GPT-2 checkpoint。
        from transformers import GPT2LMHeadModel

        # create a from-scratch initialized minGPT model
        # 先创建 minGPT 默认配置，再填入 GPT-2 固定结构。
        config = cls.get_default_config()
        config.model_type = model_type
        # GPT-2 官方词表大小固定为 50257。
        config.vocab_size = 50257 # openai's model vocabulary
        # GPT-2 官方最大上下文长度固定为 1024。
        config.block_size = 1024  # openai's model block_size
        # 用当前实现先构建同构模型，随后再拷贝权重。
        model = GPT(config)
        # 当前模型 state_dict 是目标权重表。
        sd = model.state_dict()

        # init a huggingface/transformers model
        # 借助 Hugging Face 读取官方 GPT-2 checkpoint。
        model_hf = GPT2LMHeadModel.from_pretrained(model_type)
        # Hugging Face 模型的 state_dict 是源权重表。
        sd_hf = model_hf.state_dict()

        # copy while ensuring all of the parameters are aligned and match in names and shapes
        keys = [k for k in sd_hf if not k.endswith('attn.masked_bias')] # ignore these
        # GPT-2 原始 Conv1D 权重布局和 nn.Linear 相反，这些矩阵需要转置。
        transposed = ['attn.c_attn.weight', 'attn.c_proj.weight', 'mlp.c_fc.weight', 'mlp.c_proj.weight']
        # basically the openai checkpoints use a "Conv1D" module, but we only want to use a vanilla nn.Linear.
        # this means that we have to transpose these weights when we import them
        # 断言用于尽早暴露配置或形状错误。
        assert len(keys) == len(sd)
        # 逐个参数名复制，确保名称和形状严格对齐。
        for k in keys:
            if any(k.endswith(w) for w in transposed):
                # special treatment for the Conv1D weights we need to transpose
                # 转置类权重要求源形状反过来等于目标形状。
                assert sd_hf[k].shape[::-1] == sd[k].shape
                with torch.no_grad():
                    # 把 Conv1D 布局转置后复制到 Linear 权重。
                    sd[k].copy_(sd_hf[k].t())
            else:
                # vanilla copy over the other parameters
                # 断言用于尽早暴露配置或形状错误。
                assert sd_hf[k].shape == sd[k].shape
                with torch.no_grad():
                    # 普通权重形状一致，直接复制。
                    sd[k].copy_(sd_hf[k])

        return model

    # 优化器配置把参数分组，决定哪些参数参与 weight decay。
    def configure_optimizers(self, train_config):
        """
        This long function is unfortunately doing something very simple and is being very defensive:
        We are separating out all parameters of the model into two buckets: those that will experience
        weight decay for regularization and those that won't (biases, and layernorm/embedding weights).
        We are then returning the PyTorch optimizer object.
        """

        # separate out all parameters to those that will and won't experience regularizing weight decay
        # minGPT 用集合记录参与和不参与 weight decay 的参数名。
        decay = set()
        # minGPT 用集合记录参与和不参与 weight decay 的参数名。
        no_decay = set()
        # Linear 权重通常参与 weight decay。
        whitelist_weight_modules = (torch.nn.Linear, )
        # LayerNorm 和 Embedding 权重通常不做 weight decay。
        blacklist_weight_modules = (torch.nn.LayerNorm, torch.nn.Embedding)
        # 遍历模块树，才能根据父模块类型判断参数归属。
        for mn, m in self.named_modules():
            # 遍历当前模块的直接参数，构造完整参数名。
            for pn, p in m.named_parameters():
                # fpn 是完整参数名，和 state_dict 中的命名保持一致。
                fpn = '%s.%s' % (mn, pn) if mn else pn # full param name
                # random note: because named_modules and named_parameters are recursive
                # we will see the same tensors p many many times. but doing it this way
                # allows us to know which parent module any tensor p belongs to...
                # 所有 bias 都不做 weight decay。
                if pn.endswith('bias'):
                    # all biases will not be decayed
                    no_decay.add(fpn)
                # Linear 权重通常参与 weight decay。
                elif pn.endswith('weight') and isinstance(m, whitelist_weight_modules):
                    # weights of whitelist modules will be weight decayed
                    decay.add(fpn)
                # LayerNorm 和 Embedding 权重通常不做 weight decay。
                elif pn.endswith('weight') and isinstance(m, blacklist_weight_modules):
                    # weights of blacklist modules will NOT be weight decayed
                    no_decay.add(fpn)

        # validate that we considered every parameter
        # 遍历所有参数名和值，用于特殊初始化或参数分组。
        param_dict = {pn: p for pn, p in self.named_parameters()}
        # 检查同一参数没有同时进入 decay 和 no_decay。
        inter_params = decay & no_decay
        # 检查所有参数都被分到某一组。
        union_params = decay | no_decay
        # 检查同一参数没有同时进入 decay 和 no_decay。
        assert len(inter_params) == 0, "parameters %s made it into both decay/no_decay sets!" % (str(inter_params), )
        # 检查所有参数都被分到某一组。
        assert len(param_dict.keys() - union_params) == 0, "parameters %s were not separated into either decay/no_decay set!" \
                                                    % (str(param_dict.keys() - union_params), )

        # create the pytorch optimizer object
        # optimizer 参数组允许不同 weight_decay 策略。
        optim_groups = [
            {"params": [param_dict[pn] for pn in sorted(list(decay))], "weight_decay": train_config.weight_decay},
            {"params": [param_dict[pn] for pn in sorted(list(no_decay))], "weight_decay": 0.0},
        ]
        # AdamW 是 Transformer 训练常用优化器，decoupled weight decay 更稳定。
        optimizer = torch.optim.AdamW(optim_groups, lr=train_config.learning_rate, betas=train_config.betas)
        return optimizer

    # forward 定义一次前向计算；训练和推理都会进入这里。
    def forward(self, idx, targets=None):
        # 输入 token 在哪个设备上，位置张量也必须创建到同一设备。
        device = idx.device
        # idx 形状是 [batch, time]；这里取出 batch 和当前长度。
        b, t = idx.size()
        # 当前序列长度不能超过模型最大上下文。
        assert t <= self.block_size, f"Cannot forward sequence of length {t}, block size is only {self.block_size}"
        # **位置编码核心**：pos 是位置编号 [0..T-1]，用于索引位置 embedding。
        pos = torch.arange(0, t, dtype=torch.long, device=device).unsqueeze(0) # shape (1, t)

        # forward the GPT model itself
        # **位置编码核心**：token id 经 wte 查表得到 token 向量。
        tok_emb = self.transformer.wte(idx) # token embeddings of shape (b, t, n_embd)
        # **位置编码核心**：位置编号经 wpe 查表得到位置向量。
        pos_emb = self.transformer.wpe(pos) # position embeddings of shape (1, t, n_embd)
        # **位置编码核心**：GPT 把 token 向量和位置向量相加，注入顺序信息。
        x = self.transformer.drop(tok_emb + pos_emb)
        # 顺序执行每个 Transformer block，形状保持 [B,T,C]。
        for block in self.transformer.h:
            # 每层 block 更新上下文表示，包含一次 attention 和一次 MLP。
            x = block(x)
        # 最终归一化后再进入输出头。
        x = self.transformer.ln_f(x)
        # 训练路径计算所有位置的词表 logits。
        logits = self.lm_head(x)

        # if we are given some desired targets also calculate the loss
        loss = None
        if targets is not None:
            # next-token 训练把 [B,T] 每个位置都当成一个分类样本。
            loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1), ignore_index=-1)

        # 统一返回 logits 和 loss，让训练/推理共用一个接口。
        return logits, loss

    # 推理生成不需要梯度，关闭 autograd 可节省显存和计算。
    @torch.no_grad()
    # generate 是自回归解码循环，每次只追加一个 token。
    def generate(self, idx, max_new_tokens, temperature=1.0, do_sample=False, top_k=None):
        """
        Take a conditioning sequence of indices idx (LongTensor of shape (b,t)) and complete
        the sequence max_new_tokens times, feeding the predictions back into the model each time.
        Most likely you'll want to make sure to be in model.eval() mode of operation for this.
        """
        # 自回归循环每次生成一个 token，总共重复 max_new_tokens 次。
        for _ in range(max_new_tokens):
            # if the sequence context is growing too long we must crop it at block_size
            # 上下文过长时只保留最后 block_size 个 token。
            idx_cond = idx if idx.size(1) <= self.block_size else idx[:, -self.block_size:]
            # forward the model to get the logits for the index in the sequence
            # 把当前上下文送入模型，得到下一个 token 的 logits。
            logits, _ = self(idx_cond)
            # pluck the logits at the final step and scale by desired temperature
            # 取最后位置 logits；temperature 越高，采样分布越平。
            logits = logits[:, -1, :] / temperature
            # optionally crop the logits to only the top k options
            # top-k 截断限制候选 token 数，降低低概率乱采样。
            if top_k is not None:
                # 找出概率最高的 k 个候选，最小的那个作为阈值。
                v, _ = torch.topk(logits, top_k)
                # 低于 top-k 阈值的 logits 设为 -inf，softmax 后概率为 0。
                logits[logits < v[:, [-1]]] = -float('Inf')
            # apply softmax to convert logits to (normalized) probabilities
            # softmax 把 logits 变成可采样的概率分布。
            probs = F.softmax(logits, dim=-1)
            # either sample from the distribution or take the most likely element
            # minGPT 支持采样和贪心两种解码分支。
            if do_sample:
                # 按概率分布随机采样下一个 token。
                idx_next = torch.multinomial(probs, num_samples=1)
            else:
                # 找出概率最高的 k 个候选，最小的那个作为阈值。
                _, idx_next = torch.topk(probs, k=1, dim=-1)
            # append sampled index to the running sequence and continue
            # 把新 token 拼回上下文，下一轮继续基于更长序列生成。
            idx = torch.cat((idx, idx_next), dim=1)

        # 返回包含原始 prompt 和新生成 token 的完整序列。
        return idx

nanoGPT

nanoGPT 的

model.py

保留 GPT 核心结构，同时加入 PyTorch 2.x 的 scaled dot-product attention 路径、可选 bias、权重共享、MFU 估算、上下文裁剪和更贴近真实训练脚本的优化器分组。源码来自官方仓库本地 clone，commit

3adf61e

架构说明

nanoGPT 延续 minGPT 的 decoder-only GPT 主体，但把若干工程细节显式化。

LayerNorm

支持

bias=False

，

CausalSelfAttention

会优先调用 PyTorch 2.x 的

scaled_dot_product_attention

，缺失时才回退到手写 mask attention。MLP 被拆成独立类，结构仍是

n_embd → 4*n_embd → n_embd

，便于替换或定位性能瓶颈。

nanoGPT 的位置编码仍是可学习

wpe

，同时提供

crop_block_size

做模型手术：裁小上下文时同步裁剪位置 embedding 和慢 attention 路径的因果 mask。它还加入权重共享、GPT-2 权重导入、只在推理阶段计算最后位置 logits、AdamW 参数分组、fused AdamW 检测和 MFU 估算，因此更接近真实训练脚本。

训练和推理脚本

nanoGPT 官方 README 直接给出训练、微调和采样命令。训练主入口是

train.py

，配置通过

config/*.py

和命令行覆盖进入

configurator.py

；推理主入口是

sample.py

，既能从本地 checkpoint 采样，也能直接从 GPT-2 系列预训练权重采样。

入口	用途	阅读重点
data/shakespeare_char/prepare.py	把 Shakespeare 字符数据转成 train.bin / val.bin 。	数据预处理产物和 train.py 的 memmap 数据读取如何衔接。
train.py	从头训练、恢复训练、加载 GPT-2 初始化、DDP 训练。	配置覆盖、DDP 初始化、AMP、梯度累积、checkpoint、学习率调度。
config/train_shakespeare_char.py	小型字符级 GPT 快速训练配置。	调小 block、层数、头数和 hidden size，适合单卡或 CPU 试跑。
config/train_gpt2.py	OpenWebText 上复现 GPT-2 124M 训练配置。	多卡 DDP、较长训练、GPT-2 规模结构参数。
config/finetune_shakespeare.py	从 GPT-2 初始化后在 Shakespeare 上微调。	init_from 、较小学习率、输出目录和采样衔接。
sample.py	从本地 checkpoint 或 GPT-2 预训练模型生成文本。	prompt 编码、checkpoint 恢复、 model.generate 、temperature/top-k。

# 安装官方 README 中列出的训练、数据、tokenizer 和日志依赖。
pip install torch numpy transformers datasets tiktoken wandb tqdm

# 准备字符级 Shakespeare 数据，生成 train.bin、val.bin 和 meta.pkl。
python data/shakespeare_char/prepare.py

# 用官方小模型配置训练字符级 GPT，输出目录默认是 out-shakespeare-char。
python train.py config/train_shakespeare_char.py

# 从训练得到的 checkpoint 采样。
python sample.py --out_dir=out-shakespeare-char

# CPU 试跑时显式关闭 torch.compile，并调小上下文、batch 和模型尺寸。
python train.py config/train_shakespeare_char.py \
    --device=cpu \
    --compile=False \
    --eval_iters=20 \
    --log_interval=1 \
    --block_size=64 \
    --batch_size=12 \
    --n_layer=4 \
    --n_head=4 \
    --n_embd=128 \
    --max_iters=2000 \
    --lr_decay_iters=2000 \
    --dropout=0.0

# CPU 上从同一输出目录采样。
python sample.py --out_dir=out-shakespeare-char --device=cpu

# 准备 OpenWebText；产物是 GPT-2 BPE token id 的 train.bin 和 val.bin。
python data/openwebtext/prepare.py

# 单机 8 卡复现 GPT-2 124M 训练，使用 PyTorch DDP。
torchrun --standalone --nproc_per_node=8 train.py config/train_gpt2.py

# 在新文本上微调 GPT-2 初始化模型。
python train.py config/finetune_shakespeare.py

# 从微调输出目录采样。
python sample.py --out_dir=out-shakespeare

# 直接从 GPT-2 XL 权重采样，start 是 prompt。
python sample.py \
    --init_from=gpt2-xl \
    --start="What is the answer to life, the universe, and everything?" \
    --num_samples=5 \
    --max_new_tokens=100

# init_from=\"resume\" 表示从 out_dir/ckpt.pt 恢复自训练模型。
init_from = "resume"
out_dir = "out"

# start 可以是直接 prompt，也可以是 FILE:prompt.txt。
start = "\\n"
num_samples = 10
max_new_tokens = 500
temperature = 0.8
top_k = 200

# sample.py 会从 checkpoint 的 model_args 重建 GPTConfig 和 GPT。
checkpoint = torch.load(os.path.join(out_dir, "ckpt.pt"), map_location=device)
gptconf = GPTConfig(**checkpoint["model_args"])
model = GPT(gptconf)
model.load_state_dict(checkpoint["model"])
model.eval()
model.to(device)

# 编码 prompt 后，generate 逐 token 采样并返回完整 token 序列。
start_ids = encode(start)
x = torch.tensor(start_ids, dtype=torch.long, device=device)[None, ...]
y = model.generate(x, max_new_tokens, temperature=temperature, top_k=top_k)
print(decode(y[0].tolist()))

完整代码

"""
Full definition of a GPT Language Model, all of it in this single file.
References:
1) the official GPT-2 TensorFlow implementation released by OpenAI:
https://github.com/openai/gpt-2/blob/master/src/model.py
2) huggingface/transformers PyTorch implementation:
https://github.com/huggingface/transformers/blob/main/src/transformers/models/gpt2/modeling_gpt2.py
"""

# 导入标准库；这里用于数学缩放、运行时检查或优化器能力探测。
import math
# 导入标准库；这里用于数学缩放、运行时检查或优化器能力探测。
import inspect
# dataclass 用来声明结构化配置，比散落的 dict 更容易保存和恢复。
from dataclasses import dataclass

# PyTorch 是张量计算、自动求导和 GPU 执行的底层框架。
import torch
# nn 提供 Module、Linear、Embedding、Dropout 等神经网络层。
import torch.nn as nn
# F 提供无状态函数接口，例如 softmax、cross_entropy、layer_norm。
from torch.nn import functional as F

# LayerNorm 是每个 Transformer block 的稳定器，作用在隐藏维。
class LayerNorm(nn.Module):
    """ LayerNorm but with an optional bias. PyTorch doesn't support simply bias=False """

    # 初始化函数注册子模块和参数，决定 state_dict 的结构。
    def __init__(self, ndim, bias):
        # 调用 Module 基类初始化；否则子层和参数不会被 PyTorch 正确注册。
        super().__init__()
        # 这一行把子模块、参数或运行时状态挂到模型实例上。
        self.weight = nn.Parameter(torch.ones(ndim))
        # 这一行把子模块、参数或运行时状态挂到模型实例上。
        self.bias = nn.Parameter(torch.zeros(ndim)) if bias else None

    # forward 定义一次前向计算；训练和推理都会进入这里。
    def forward(self, input):
        return F.layer_norm(input, self.weight.shape, self.weight, self.bias, 1e-5)

# **注意力核心**：这里开始实现 decoder-only GPT 的因果自注意力。
class CausalSelfAttention(nn.Module):

    # 初始化函数注册子模块和参数，决定 state_dict 的结构。
    def __init__(self, config):
        # 调用 Module 基类初始化；否则子层和参数不会被 PyTorch 正确注册。
        super().__init__()
        # **注意力核心**：隐藏维必须能均分到多个 attention head。
        assert config.n_embd % config.n_head == 0
        # key, query, value projections for all heads, but in a batch
        # **注意力核心**：一次线性投影同时产生 Q、K、V，输出维度是 3*C。
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd, bias=config.bias)
        # output projection
        # **注意力核心**：多头结果拼回后，用输出投影混合各 head 信息。
        self.c_proj = nn.Linear(config.n_embd, config.n_embd, bias=config.bias)
        # regularization
        # attention dropout 随机丢弃注意力权重，缓解训练过拟合。
        self.attn_dropout = nn.Dropout(config.dropout)
        # 残差 dropout 作用在子层输出进入残差路径之前。
        self.resid_dropout = nn.Dropout(config.dropout)
        # 保存 head 数，forward 中 reshape 会反复使用。
        self.n_head = config.n_head
        # 保存隐藏维，切分 Q/K/V 时需要按这个维度拆分。
        self.n_embd = config.n_embd
        # 保存 dropout 概率；Flash Attention 路径需要显式传入。
        self.dropout = config.dropout
        # flash attention make GPU go brrrrr but support is only in PyTorch >= 2.0
        # **注意力核心**：检测 PyTorch 是否提供内置 SDPA/Flash Attention 路径。
        self.flash = hasattr(torch.nn.functional, 'scaled_dot_product_attention')
        # 缺少 Flash Attention 时回退到手写 attention 计算。
        if not self.flash:
            print("WARNING: using slow attention. Flash Attention requires PyTorch >= 2.0")
            # causal mask to ensure that attention is only applied to the left in the input sequence
            # **注意力核心**：注册下三角因果 mask，禁止当前位置看未来 token。
            self.register_buffer("bias", torch.tril(torch.ones(config.block_size, config.block_size))
                                        # mask 形状扩展到 [1, 1, T, T]，便于广播到 batch 和 head 维。
                                        .view(1, 1, config.block_size, config.block_size))

    # forward 定义一次前向计算；训练和推理都会进入这里。
    def forward(self, x):
        # B 是 batch，T 是序列长度，C 是隐藏维；后面所有 reshape 都依赖它们。
        B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)

        # calculate query, key, values for all heads in batch and move head forward to be the batch dim
        # **注意力核心**：把一次投影结果沿隐藏维切成 q、k、v 三份。
        q, k, v  = self.c_attn(x).split(self.n_embd, dim=2)
        # **注意力核心**：K 从 [B,T,C] 变为 [B,head,T,head_dim]。
        k = k.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)
        # **注意力核心**：Q 也拆到多头维度，准备和 K 做点积。
        q = q.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)
        # **注意力核心**：V 拆成多头后，后续用注意力权重加权求和。
        v = v.view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)

        # causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        if self.flash:
            # efficient attention using Flash Attention CUDA kernels
            # **注意力核心**：内置 SDPA 接收 Q/K/V，并通过 is_causal=True 应用因果约束。
            y = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=None, dropout_p=self.dropout if self.training else 0, is_causal=True)
        else:
            # manual implementation of attention
            # **注意力核心**：QK^T 得到每个 token 对历史 token 的相关性分数。
            att = (q @ k.transpose(-2, -1)) * (1.0 / math.sqrt(k.size(-1)))
            # **注意力核心**：未来位置写成 -inf，softmax 后概率变成 0。
            att = att.masked_fill(self.bias[:,:,:T,:T] == 0, float('-inf'))
            # **注意力核心**：softmax 把相关性分数转成注意力概率分布。
            att = F.softmax(att, dim=-1)
            # attention dropout 随机丢弃注意力权重，缓解训练过拟合。
            att = self.attn_dropout(att)
            # **注意力核心**：用注意力概率对 V 加权求和，得到每个位置的新表示。
            y = att @ v # (B, nh, T, T) x (B, nh, T, hs) -> (B, nh, T, hs)
        # **注意力核心**：把多头输出重新拼回 [B,T,C]，供残差路径使用。
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side

        # output projection
        # 残差 dropout 作用在子层输出进入残差路径之前。
        y = self.resid_dropout(self.c_proj(y))
        return y

# **MLP核心**：前馈网络负责逐 token 的非线性通道混合。
class MLP(nn.Module):

    # 初始化函数注册子模块和参数，决定 state_dict 的结构。
    def __init__(self, config):
        # 调用 Module 基类初始化；否则子层和参数不会被 PyTorch 正确注册。
        super().__init__()
        # **MLP核心**：FFN 先把隐藏维扩大 4 倍，这是 GPT 常见扩张比例。
        self.c_fc    = nn.Linear(config.n_embd, 4 * config.n_embd, bias=config.bias)
        # **MLP核心**：GELU 提供平滑非线性，比 ReLU 更常见于 Transformer。
        self.gelu    = nn.GELU()
        # 这一行把子模块、参数或运行时状态挂到模型实例上。
        self.c_proj  = nn.Linear(4 * config.n_embd, config.n_embd, bias=config.bias)
        # 这一行把子模块、参数或运行时状态挂到模型实例上。
        self.dropout = nn.Dropout(config.dropout)

    # forward 定义一次前向计算；训练和推理都会进入这里。
    def forward(self, x):
        # **MLP核心**：第一层线性把每个 token 的通道维扩大。
        x = self.c_fc(x)
        # **MLP核心**：GELU 提供平滑非线性，比 ReLU 更常见于 Transformer。
        x = self.gelu(x)
        # **MLP核心**：第二层线性把通道维投回 n_embd，回到残差主干。
        x = self.c_proj(x)
        # MLP 输出 dropout 后再回到残差路径。
        x = self.dropout(x)
        return x

# Block 把注意力、MLP、LayerNorm 和残差连接组装成一层 Transformer。
class Block(nn.Module):

    # 初始化函数注册子模块和参数，决定 state_dict 的结构。
    def __init__(self, config):
        # 调用 Module 基类初始化；否则子层和参数不会被 PyTorch 正确注册。
        super().__init__()
        # 第一个 LayerNorm 放在 attention 前，属于 pre-norm 结构。
        self.ln_1 = LayerNorm(config.n_embd, bias=config.bias)
        # Block 内部挂载一层因果自注意力。
        self.attn = CausalSelfAttention(config)
        # 第二个 LayerNorm 放在 MLP 前，稳定前馈网络输入。
        self.ln_2 = LayerNorm(config.n_embd, bias=config.bias)
        # nanoGPT 把 MLP 拆成独立类，阅读和替换更方便。
        self.mlp = MLP(config)

    # forward 定义一次前向计算；训练和推理都会进入这里。
    def forward(self, x):
        # 第一个 LayerNorm 放在 attention 前，属于 pre-norm 结构。
        x = x + self.attn(self.ln_1(x))
        # 第二个 LayerNorm 放在 MLP 前，稳定前馈网络输入。
        x = x + self.mlp(self.ln_2(x))
        return x

# 这个装饰器让配置类自动获得初始化和字段管理能力。
@dataclass
# 配置对象集中声明上下文长度、词表大小、层数、头数和隐藏维。
class GPTConfig:
    # **位置编码核心**：block_size 决定可学习位置表能覆盖多少 token 位置。
    block_size: int = 1024
    # 词表大小决定 embedding 行数和 lm_head 输出类别数。
    vocab_size: int = 50304 # GPT-2 vocab_size of 50257, padded up to nearest multiple of 64 for efficiency
    # 层数决定堆叠多少个 Transformer block。
    n_layer: int = 12
    # 头数决定注意力被拆成多少个子空间并行计算。
    n_head: int = 12
    # 隐藏维决定 token 表示宽度，也是大部分矩阵乘法的主维度。
    n_embd: int = 768
    # dropout 是训练期正则化参数；预训练常设为 0。
    dropout: float = 0.0
    # bias 控制 Linear/LayerNorm 是否带偏置，nanoGPT 把它做成显式开关。
    bias: bool = True # True: bias in Linears and LayerNorms, like GPT-2. False: a bit better and faster

# GPT 主类把 embedding、多个 block、最终归一化和 lm_head 串起来。
class GPT(nn.Module):

    # 初始化函数注册子模块和参数，决定 state_dict 的结构。
    def __init__(self, config):
        # 调用 Module 基类初始化；否则子层和参数不会被 PyTorch 正确注册。
        super().__init__()
        # 没有词表大小就无法创建 token embedding 和输出分类头。
        assert config.vocab_size is not None
        # 没有上下文长度就无法创建位置编码和因果 mask。
        assert config.block_size is not None
        # nanoGPT 保存完整配置，forward、generate 和裁剪上下文都会读取。
        self.config = config

        # ModuleDict 按名字组织 GPT 主干，state_dict 会保留这些前缀。
        self.transformer = nn.ModuleDict(dict(
            # **位置编码核心**：wte 是 token embedding，把 token id 映射到向量。
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # **位置编码核心**：wpe 是可学习位置 embedding，每个位置有独立向量。
            wpe = nn.Embedding(config.block_size, config.n_embd),
            # embedding 相加后先经过 dropout，再进入 Transformer block。
            drop = nn.Dropout(config.dropout),
            # ModuleList 保存 n_layer 个 Block，forward 会顺序执行。
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
            # 最终 LayerNorm 放在所有 block 之后，稳定进入词表头的表示。
            ln_f = LayerNorm(config.n_embd, bias=config.bias),
        ))
        # lm_head 把隐藏状态投影到词表 logits，用于 next-token 分类。
        self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)
        # with weight tying when using torch.compile() some warnings get generated:
        # "UserWarning: functional_call was passed multiple values for tied weights.
        # This behavior is deprecated and will be an error in future versions"
        # not 100% sure what this is, so far seems to be harmless. TODO investigate
        # **位置编码核心**：权重共享让输入 token embedding 和输出词表头共用矩阵。
        self.transformer.wte.weight = self.lm_head.weight # https://paperswithcode.com/method/weight-tying

        # init all weights
        # 递归初始化所有子模块，确保 Linear/Embedding/LayerNorm 起点一致。
        self.apply(self._init_weights)
        # apply special scaled init to the residual projections, per GPT-2 paper
        # 遍历所有参数名和值，用于特殊初始化或参数分组。
        for pn, p in self.named_parameters():
            # 残差投影矩阵使用更小初始化，深层模型训练更稳。
            if pn.endswith('c_proj.weight'):
                # 按层数缩小残差分支方差，缓解深层残差叠加放大。
                torch.nn.init.normal_(p, mean=0.0, std=0.02/math.sqrt(2 * config.n_layer))

        # report number of parameters
        # 启动时打印参数规模，便于核对配置。
        print("number of parameters: %.2fM" % (self.get_num_params()/1e6,))

    def get_num_params(self, non_embedding=True):
        """
        Return the number of parameters in the model.
        For non-embedding count (default), the position embeddings get subtracted.
        The token embeddings would too, except due to the parameter sharing these
        params are actually used as weights in the final layer, so we include them.
        """
        # 统计参数量，用于确认模型尺寸是否符合预期。
        n_params = sum(p.numel() for p in self.parameters())
        if non_embedding:
            n_params -= self.transformer.wpe.weight.numel()
        return n_params

    def _init_weights(self, module):
        # Linear 层使用 GPT 常见小方差正态初始化。
        if isinstance(module, nn.Linear):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
            # 只有创建了 bias 的层才需要初始化偏置。
            if module.bias is not None:
                # 偏置或 LayerNorm 偏移初始化为 0，让模型初始不引入偏移。
                torch.nn.init.zeros_(module.bias)
        # Embedding 表也按同样尺度初始化，保持表示尺度一致。
        elif isinstance(module, nn.Embedding):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)

    # forward 定义一次前向计算；训练和推理都会进入这里。
    def forward(self, idx, targets=None):
        # 输入 token 在哪个设备上，位置张量也必须创建到同一设备。
        device = idx.device
        # idx 形状是 [batch, time]；这里取出 batch 和当前长度。
        b, t = idx.size()
        # 当前序列长度不能超过模型最大上下文。
        assert t <= self.config.block_size, f"Cannot forward sequence of length {t}, block size is only {self.config.block_size}"
        # **位置编码核心**：pos 是位置编号 [0..T-1]，用于索引位置 embedding。
        pos = torch.arange(0, t, dtype=torch.long, device=device) # shape (t)

        # forward the GPT model itself
        # **位置编码核心**：token id 经 wte 查表得到 token 向量。
        tok_emb = self.transformer.wte(idx) # token embeddings of shape (b, t, n_embd)
        # **位置编码核心**：位置编号经 wpe 查表得到位置向量。
        pos_emb = self.transformer.wpe(pos) # position embeddings of shape (t, n_embd)
        # **位置编码核心**：GPT 把 token 向量和位置向量相加，注入顺序信息。
        x = self.transformer.drop(tok_emb + pos_emb)
        # 顺序执行每个 Transformer block，形状保持 [B,T,C]。
        for block in self.transformer.h:
            # 每层 block 更新上下文表示，包含一次 attention 和一次 MLP。
            x = block(x)
        # 最终归一化后再进入输出头。
        x = self.transformer.ln_f(x)

        if targets is not None:
            # if we are given some desired targets also calculate the loss
            # 训练路径计算所有位置的词表 logits。
            logits = self.lm_head(x)
            # next-token 训练把 [B,T] 每个位置都当成一个分类样本。
            loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1), ignore_index=-1)
        else:
            # inference-time mini-optimization: only forward the lm_head on the very last position
            # 推理只需要最后位置的 logits，避免对所有历史位置跑 lm_head。
            logits = self.lm_head(x[:, [-1], :]) # note: using list [-1] to preserve the time dim
            loss = None

        # 统一返回 logits 和 loss，让训练/推理共用一个接口。
        return logits, loss

    # 这个方法裁剪最大上下文长度，也同步裁剪位置编码和 mask。
    def crop_block_size(self, block_size):
        # model surgery to decrease the block size if necessary
        # e.g. we may load the GPT2 pretrained model checkpoint (block size 1024)
        # but want to use a smaller block size for some smaller, simpler model
        # 断言用于尽早暴露配置或形状错误。
        assert block_size <= self.config.block_size
        # 裁剪后更新配置，后续 forward/generate 按新长度工作。
        self.config.block_size = block_size
        # **位置编码核心**：位置 embedding 表也必须裁到新的 block_size。
        self.transformer.wpe.weight = nn.Parameter(self.transformer.wpe.weight[:block_size])
        # 顺序执行每个 Transformer block，形状保持 [B,T,C]。
        for block in self.transformer.h:
            if hasattr(block.attn, 'bias'):
                # 慢 attention 路径的因果 mask 也要同步裁剪。
                block.attn.bias = block.attn.bias[:,:,:block_size,:block_size]

    # 类方法用于从预训练权重构建模型实例。
    @classmethod
    # from_pretrained 负责把 Hugging Face GPT-2 权重搬到当前实现中。
    def from_pretrained(cls, model_type, override_args=None):
        # 只允许加载这些 GPT-2 规格，避免结构不匹配。
        assert model_type in {'gpt2', 'gpt2-medium', 'gpt2-large', 'gpt2-xl'}
        override_args = override_args or {} # default to empty dict
        # only dropout can be overridden see more notes below
        # 断言用于尽早暴露配置或形状错误。
        assert all(k == 'dropout' for k in override_args)
        # 借助 Hugging Face 读取官方 GPT-2 checkpoint。
        from transformers import GPT2LMHeadModel
        print("loading weights from pretrained gpt: %s" % model_type)

        # n_layer, n_head and n_embd are determined from model_type
        config_args = {
            # 这里记录 GPT-2 124M 的结构尺寸。
            'gpt2':         dict(n_layer=12, n_head=12, n_embd=768),  # 124M params
            'gpt2-medium':  dict(n_layer=24, n_head=16, n_embd=1024), # 350M params
            'gpt2-large':   dict(n_layer=36, n_head=20, n_embd=1280), # 774M params
            'gpt2-xl':      dict(n_layer=48, n_head=25, n_embd=1600), # 1558M params
        }[model_type]
        print("forcing vocab_size=50257, block_size=1024, bias=True")
        # GPT-2 官方词表大小固定为 50257。
        config_args['vocab_size'] = 50257 # always 50257 for GPT model checkpoints
        # GPT-2 官方最大上下文长度固定为 1024。
        config_args['block_size'] = 1024 # always 1024 for GPT model checkpoints
        config_args['bias'] = True # always True for GPT model checkpoints
        # we can override the dropout rate, if desired
        if 'dropout' in override_args:
            print(f"overriding dropout rate to {override_args['dropout']}")
            config_args['dropout'] = override_args['dropout']
        # create a from-scratch initialized minGPT model
        config = GPTConfig(**config_args)
        # 用当前实现先构建同构模型，随后再拷贝权重。
        model = GPT(config)
        # 当前模型 state_dict 是目标权重表。
        sd = model.state_dict()
        sd_keys = sd.keys()
        sd_keys = [k for k in sd_keys if not k.endswith('.attn.bias')] # discard this mask / buffer, not a param

        # init a huggingface/transformers model
        # 借助 Hugging Face 读取官方 GPT-2 checkpoint。
        model_hf = GPT2LMHeadModel.from_pretrained(model_type)
        # Hugging Face 模型的 state_dict 是源权重表。
        sd_hf = model_hf.state_dict()

        # copy while ensuring all of the parameters are aligned and match in names and shapes
        sd_keys_hf = sd_hf.keys()
        # 逐个参数名复制，确保名称和形状严格对齐。
        sd_keys_hf = [k for k in sd_keys_hf if not k.endswith('.attn.masked_bias')] # ignore these, just a buffer
        # 逐个参数名复制，确保名称和形状严格对齐。
        sd_keys_hf = [k for k in sd_keys_hf if not k.endswith('.attn.bias')] # same, just the mask (buffer)
        # GPT-2 原始 Conv1D 权重布局和 nn.Linear 相反，这些矩阵需要转置。
        transposed = ['attn.c_attn.weight', 'attn.c_proj.weight', 'mlp.c_fc.weight', 'mlp.c_proj.weight']
        # basically the openai checkpoints use a "Conv1D" module, but we only want to use a vanilla Linear
        # this means that we have to transpose these weights when we import them
        # 断言用于尽早暴露配置或形状错误。
        assert len(sd_keys_hf) == len(sd_keys), f"mismatched keys: {len(sd_keys_hf)} != {len(sd_keys)}"
        # 逐个参数名复制，确保名称和形状严格对齐。
        for k in sd_keys_hf:
            if any(k.endswith(w) for w in transposed):
                # special treatment for the Conv1D weights we need to transpose
                # 转置类权重要求源形状反过来等于目标形状。
                assert sd_hf[k].shape[::-1] == sd[k].shape
                with torch.no_grad():
                    # 把 Conv1D 布局转置后复制到 Linear 权重。
                    sd[k].copy_(sd_hf[k].t())
            else:
                # vanilla copy over the other parameters
                # 断言用于尽早暴露配置或形状错误。
                assert sd_hf[k].shape == sd[k].shape
                with torch.no_grad():
                    # 普通权重形状一致，直接复制。
                    sd[k].copy_(sd_hf[k])

        return model

    # 优化器配置把参数分组，决定哪些参数参与 weight decay。
    def configure_optimizers(self, weight_decay, learning_rate, betas, device_type):
        # start with all of the candidate parameters
        # 遍历所有参数名和值，用于特殊初始化或参数分组。
        param_dict = {pn: p for pn, p in self.named_parameters()}
        # filter out those that do not require grad
        # 把参数名映射到 Parameter，后续 optimizer 分组要用。
        param_dict = {pn: p for pn, p in param_dict.items() if p.requires_grad}
        # create optim groups. Any parameters that is 2D will be weight decayed, otherwise no.
        # i.e. all weight tensors in matmuls + embeddings decay, all biases and layernorms don't.
        decay_params = [p for n, p in param_dict.items() if p.dim() >= 2]
        nodecay_params = [p for n, p in param_dict.items() if p.dim() < 2]
        # optimizer 参数组允许不同 weight_decay 策略。
        optim_groups = [
            {'params': decay_params, 'weight_decay': weight_decay},
            {'params': nodecay_params, 'weight_decay': 0.0}
        ]
        num_decay_params = sum(p.numel() for p in decay_params)
        num_nodecay_params = sum(p.numel() for p in nodecay_params)
        print(f"num decayed parameter tensors: {len(decay_params)}, with {num_decay_params:,} parameters")
        print(f"num non-decayed parameter tensors: {len(nodecay_params)}, with {num_nodecay_params:,} parameters")
        # Create AdamW optimizer and use the fused version if it is available
        # AdamW 是 Transformer 训练常用优化器，decoupled weight decay 更稳定。
        fused_available = 'fused' in inspect.signature(torch.optim.AdamW).parameters
        use_fused = fused_available and device_type == 'cuda'
        extra_args = dict(fused=True) if use_fused else dict()
        # AdamW 是 Transformer 训练常用优化器，decoupled weight decay 更稳定。
        optimizer = torch.optim.AdamW(optim_groups, lr=learning_rate, betas=betas, **extra_args)
        print(f"using fused AdamW: {use_fused}")

        return optimizer

    # MFU 用来估算训练吞吐占理论 GPU 峰值的比例。
    def estimate_mfu(self, fwdbwd_per_iter, dt):
        """ estimate model flops utilization (MFU) in units of A100 bfloat16 peak FLOPS """
        # first estimate the number of flops we do per iteration.
        # see PaLM paper Appendix B as ref: https://arxiv.org/abs/2204.02311
        # MFU 估算先取模型参数量。
        N = self.get_num_params()
        cfg = self.config
        # L/H/Q/T 分别代表层数、头数、单头维度和上下文长度。
        L, H, Q, T = cfg.n_layer, cfg.n_head, cfg.n_embd//cfg.n_head, cfg.block_size
        # 按近似公式估计每个 token 的前反向计算量。
        flops_per_token = 6*N + 12*L*H*Q*T
        # 按近似公式估计每个 token 的前反向计算量。
        flops_per_fwdbwd = flops_per_token * T
        flops_per_iter = flops_per_fwdbwd * fwdbwd_per_iter
        # express our flops throughput as ratio of A100 bfloat16 peak flops
        # 把每次迭代 FLOPs 除以耗时，得到实际吞吐。
        flops_achieved = flops_per_iter * (1.0/dt) # per second
        # A100 bf16 理论峰值作为分母，用于估计利用率。
        flops_promised = 312e12 # A100 GPU bfloat16 peak flops is 312 TFLOPS
        # 把每次迭代 FLOPs 除以耗时，得到实际吞吐。
        mfu = flops_achieved / flops_promised
        return mfu

    # 推理生成不需要梯度，关闭 autograd 可节省显存和计算。
    @torch.no_grad()
    # generate 是自回归解码循环，每次只追加一个 token。
    def generate(self, idx, max_new_tokens, temperature=1.0, top_k=None):
        """
        Take a conditioning sequence of indices idx (LongTensor of shape (b,t)) and complete
        the sequence max_new_tokens times, feeding the predictions back into the model each time.
        Most likely you'll want to make sure to be in model.eval() mode of operation for this.
        """
        # 自回归循环每次生成一个 token，总共重复 max_new_tokens 次。
        for _ in range(max_new_tokens):
            # if the sequence context is growing too long we must crop it at block_size
            # 上下文过长时只保留最后 block_size 个 token。
            idx_cond = idx if idx.size(1) <= self.config.block_size else idx[:, -self.config.block_size:]
            # forward the model to get the logits for the index in the sequence
            # 把当前上下文送入模型，得到下一个 token 的 logits。
            logits, _ = self(idx_cond)
            # pluck the logits at the final step and scale by desired temperature
            # 取最后位置 logits；temperature 越高，采样分布越平。
            logits = logits[:, -1, :] / temperature
            # optionally crop the logits to only the top k options
            # top-k 截断限制候选 token 数，降低低概率乱采样。
            if top_k is not None:
                # 找出概率最高的 k 个候选，最小的那个作为阈值。
                v, _ = torch.topk(logits, min(top_k, logits.size(-1)))
                # 低于 top-k 阈值的 logits 设为 -inf，softmax 后概率为 0。
                logits[logits < v[:, [-1]]] = -float('Inf')
            # apply softmax to convert logits to (normalized) probabilities
            # softmax 把 logits 变成可采样的概率分布。
            probs = F.softmax(logits, dim=-1)
            # sample from the distribution
            # 按概率分布随机采样下一个 token。
            idx_next = torch.multinomial(probs, num_samples=1)
            # append sampled index to the running sequence and continue
            # 把新 token 拼回上下文，下一轮继续基于更长序列生成。
            idx = torch.cat((idx, idx_next), dim=1)

        # 返回包含原始 prompt 和新生成 token 的完整序列。
        return idx

Claude Code

Claude Code 的官方文档、Anthropic 工程文章、事故报道和多方公开逆向分析共同指向同一个结论：工业级 AI 编程 agent 的核心不只在模型，还在模型外部的执行控制面。真正值得学习的是工具契约、权限链、上下文预算、流式执行、任务拆分、文件编辑约束、错误恢复、沙箱和可观测性。本节只抽取适合自研 AI 编程系统借鉴的工程模式，不提供可还原 proprietary 实现的细节。

阅读边界：读设计，不复刻源码

Claude Code 相关材料可以分成四类：官方文档公开的产品机制，Anthropic 工程与产品文章，媒体和安全社区对 sourcemap 外溢事件的报道，社区对泄漏材料的逆向分析。本文把本地整理稿只作为线索，不作为唯一证据。官方文档适合确认当前产品能力；工程文章适合确认沙箱、checkpoint、SDK 等正式路线；事故报道适合确认泄漏边界；社区逆向分析适合观察工业实现的取舍。

这个边界对代码精读很重要。AI 编程 agent 的可迁移价值主要来自控制面设计，而非某段具体业务源码。本文采用“模式抽象”的写法：保留系统设计、数据流、约束点和失败恢复思路，删除专有字符串、内部代号、完整 prompt、真实文件名与可还原实现。可以用于自研系统的是方法：如何拆 prompt，如何保证工具可验证，如何在长会话中保住上下文，如何在后台任务里隔离权限。

观察对象	可学习内容	落到自研系统的形式
官方 Claude Code 文档	hooks、permissions、memory、MCP、subagents、settings 层级	产品层 API 与配置模型
Anthropic 工程与产品文章	沙箱、checkpoint、IDE 集成、Agent SDK、自治任务边界	正式产品路线与安全边界
媒体和安全社区报道	sourcemap 外溢、npm 包版本、是否涉及客户数据、供应链教训	事故边界与发布安全 checklist
社区逆向分析	prompt cache、工具池排序、compaction、AsyncGenerator loop、权限链、feature flag 线索	工程架构与运行时策略
本地整理稿	模块划分、失败注释、上下文压缩细节、可疑功能名	只作为待复核线索，不能单独定论

外部复核：事实、强证据与线索

重新检索公开网络材料后，需要把“确定事实”和“社区热议说法”分开。Claude Code 的官方文档已经足够确认 permissions、memory、hooks、subagents、MCP 等控制面；事故报道和安全分析支持 sourcemap 外溢这个事件本身；大量更戏剧化的说法，例如隐藏代号、内部 roadmap、具体 feature flag 数量、Bash 安全检查行数或某个内部功能名，只能作为社区逆向线索处理。

可信度	可写入正文的内容	写作处理
官方已证实	Claude Code 有细粒度权限规则；deny、ask、allow 有明确优先级；CLAUDE.md 和 auto memory 会进入会话上下文；hooks 可在生命周期事件上执行；subagent 有独立上下文、工具限制和权限；prompt caching 按工具、system、messages 的前缀缓存工作。	作为架构基线写入正文，可直接抽象成自研设计。
多源交叉支持	2026-03-31 前后，Claude Code npm 包的 sourcemap / mapping artifact 被公开报道可用于重构相当规模的 TypeScript 源码；公开材料普遍把它归类为发布制品外溢，而非模型权重、客户仓库或云端凭证泄露。	作为发布安全案例写入，但避免复述泄漏源码细节。
社区逆向线索	具体代码行数、文件数、feature flag 数量、内部代号、反蒸馏策略、Undercover Mode、KAIROS、Bash 检查数量等说法在不同文章中口径不完全一致。	不作为确定事实；只在“可能的设计线索”层面讨论。
本地整理稿内容	更细的模块命名、失败注释、内部流程和具体实现细节。	除非能被官方文档或多方公开材料支撑，否则不进入正文定论。

复核后的架构图：模型之外的控制面

从官方文档和公开分析交叉看，Claude Code 的可迁移架构可以拆成六个平面。模型推理只是中间一层；上下文、工具、权限、记忆、扩展和发布安全共同决定系统是否可靠。

平面	核心问题	Claude Code 给出的工程启发
上下文平面	哪些信息进入模型，哪些信息压缩，哪些信息沉淀为记忆。	稳定前缀、动态后缀、CLAUDE.md、auto memory、subagent 独立上下文共同服务 token 预算和缓存命中。
工具平面	模型如何把意图变成可执行动作。	工具需要 schema、权限检查、执行函数、结果预算和审计事件；文件编辑和 Bash 需要比普通工具更强的约束。
权限平面	哪些动作可以自动执行，哪些必须询问，哪些永远阻断。	deny 优先、ask 次之、allow 最后；高风险模式只能放在容器、虚拟机或受控沙箱里。
扩展平面	团队如何把内部工具、安全规则和工作流接进 agent。	MCP、hooks、skills、plugins、custom subagents 分别改变工具来源、生命周期控制、任务知识和执行角色。
运行时平面	长任务如何流式输出、恢复失败、并行执行和回滚。	事件流、checkpoint、工具批处理、上下文 compaction、PromptTooLong 恢复链是核心结构。
发布安全平面	闭源 CLI 如何避免把调试制品、内部字符串或 roadmap 一起发布。	sourcemap 策略、sourcesContent 裁剪、敏感字符串扫描、feature flag 裁剪和制品审计必须进入 CI。

核心形态：一个受约束的 agent loop

AI 编程 agent 的主循环可以抽象为四步：收集上下文、调用模型、执行工具、把结果写回上下文。工业实现的复杂度主要来自“每一步都必须有边界”：上下文不能无限增长，工具不能无条件执行，写文件必须可校验，失败必须可恢复。

async def run_agent(session: SessionState, user_input: str) -> None:
    # 用户消息先进入会话状态；后续 prompt 装配会从这个状态读取。
    session.messages.append({"role": "user", "content": user_input})

    while True:
        # build_prompt 会装配系统规则、项目约束、工具 schema 和压缩摘要，而非只拼接字符串。
        prompt = build_prompt(session)

        # call_model 返回的可能是自然语言，也可能包含一个或多个工具调用。
        response = await call_model(prompt)
        session.messages.append(response.message)

        if not response.tool_calls:
            # 没有工具调用时，当前轮结束，输出可以交给 UI 渲染。
            return

        # 工具调用先进入权限与并发调度层，不直接执行。
        batches = plan_tool_batches(response.tool_calls, session.permissions)
        for batch in batches:
            results = await execute_checked_tools(batch, session)

            # 工具结果进入上下文前先做预算控制，避免一次 grep 或 cat 塞爆上下文。
            session.messages.extend(apply_result_budget(results))

        # 每轮工具执行后检查上下文预算，必要时做 micro compact 或 auto compact。
        session = compact_if_needed(session)

这段抽象代码的重点是职责分离。模型负责提出下一步动作，工具层负责把动作落到真实系统，权限层负责阻止越界，压缩层负责维持上下文可用。把这些职责混在一个巨大 prompt 里，系统很快会变成不可调试的黑箱。

Prompt 装配：稳定前缀与动态后缀

Claude Code 类产品的 prompt 往往远大于用户输入。固定系统规则、工具说明、代码风格、权限提示和已知失败模式约束都会进入请求。Anthropic prompt caching 文档明确说明，缓存对象是请求前缀，顺序覆盖 tools、system、messages，直到 cache breakpoint。因此，agent harness 的 prompt 装配应拆成稳定前缀和动态后缀：稳定前缀尽量保持逐字节一致，动态后缀承载当前目录、会话状态、最近文件、CLAUDE.md、临时规则和用户输入。

这种拆分同时服务三件事：成本控制、可维护性和行为稳定。稳定前缀越稳定，prompt cache 命中率越高；动态段越靠后，某次会话的时间戳、工作目录或临时文件列表就越不会破坏前面的缓存。官方文档还给出两个重要工程参数：默认缓存寿命是 5 分钟，另有 1 小时缓存选项；这意味着长任务循环要尽量保持热路径稳定，避免频繁重排工具和 system block。

def build_system_prompt(config: PromptConfig, session: SessionState) -> list[PromptPart]:
    # 固定规则放在最前面，版本不变时可以跨会话复用缓存。
    stable_parts = [
        load_core_instructions(config.version),
        load_code_editing_rules(config.version),
        load_tool_usage_rules(config.version),
    ]

    # 工具描述必须按确定性顺序注入。
    # 同一组工具如果顺序漂移，prompt cache key 会被无意义地打碎。
    stable_parts.extend(render_tools(sorted(session.visible_tools, key=lambda t: t.name)))

    # 显式边界让后续维护者知道：边界之后的内容会随会话变化。
    boundary = PromptPart(name="dynamic_boundary", content="--- dynamic session state ---")

    # 动态段承载当前会话状态；它应该尽量短，并且永远放在稳定段之后。
    dynamic_parts = [
        render_runtime_environment(session.env),
        render_project_memory(session.loaded_memory),
        render_recent_files(session.recent_files),
        render_user_message(session.pending_user_input),
    ]

    return stable_parts + [boundary] + dynamic_parts

这里的关键约束是“动态信息后移”。工具列表排序、MCP 工具分组、模式化 prompt 的注入位置，都应围绕缓存边界设计。一个看似普通的排序函数，在线上规模下会直接影响 API 输入成本。

查询引擎：用 AsyncGenerator 表达流式控制流

AI 编程 agent 的前端需要实时显示模型输出、工具调用、权限等待、测试日志和中断状态。普通的同步函数很难描述这种流式生命周期。社区逆向分析中反复提到的一个亮点，是把主查询过程写成可迭代事件流：模型 token、工具开始、工具完成、权限阻塞、压缩重试、最终回答都变成事件。

async def query_stream(session: SessionState, prompt: str):
    # QueryConfig 在入口处快照，避免长循环中途读取到变化的全局配置。
    config = snapshot_query_config(session)

    # 先产出用户可见的开始事件，UI 层可以立即进入 loading 状态。
    yield AgentEvent(type="start", session_id=session.id)

    while True:
        try:
            # 模型响应采用流式读取；上层可以边收 token 边渲染。
            async for delta in call_model_stream(config, session.messages):
                if delta.type == "text":
                    yield AgentEvent(type="assistant_delta", text=delta.text)

                if delta.type == "tool_use":
                    # 工具调用先进入执行器，执行器再决定并行、串行或等待权限。
                    async for event in execute_tool_stream(delta.tool_call, session):
                        yield event

            yield AgentEvent(type="done")
            return

        except PromptTooLongError:
            # prompt 超限是可恢复错误，先压缩上下文再重试当前轮。
            session = await reactive_compact(session)
            yield AgentEvent(type="retry", reason="reactive_compact")

        except MaxOutputTokensError:
            # 输出被截断时不应直接丢弃任务；可以追加 resume 指令继续生成。
            session.messages.append(make_resume_message())
            yield AgentEvent(type="retry", reason="resume_after_output_limit")

这种写法的优点是背压清晰。终端 UI、日志系统、权限弹窗、工具执行器都消费同一条事件流；中断、重试和恢复也能作为事件明确表达。对自研系统而言，AsyncGenerator 比回调嵌套更容易测试，也更适合把长任务拆成可观察的阶段。

工具契约：用 schema 限制模型的错误空间

Claude Code 类系统通常把工具定义成“模型可见说明 + 输入 schema + 权限检查 + 执行函数”的组合。这里最有价值的设计，是在工具入口用结构化参数约束模型，压缩自由生成命令文本带来的错误空间。

@dataclass
class Tool:
    name: str
    description: str
    schema: dict
    read_only: bool

    async def check_permissions(self, args: dict, context: ToolContext) -> PermissionResult:
        raise NotImplementedError

    async def call(self, args: dict, context: ToolContext) -> ToolResult:
        raise NotImplementedError


class FileEditTool(Tool):
    name = "file_edit"
    read_only = False
    schema = {
        "file_path": "absolute path",
        "old_str": "exact unique text to replace",
        "new_str": "replacement text",
    }

    async def call(self, args: dict, context: ToolContext) -> ToolResult:
        path = normalize_path(args["file_path"])
        old = args["old_str"]
        new = args["new_str"]

        # 精确唯一匹配是文件编辑工具的关键约束。
        # 模型必须证明自己知道要替换的原文，不能只给一个模糊位置。
        content = await read_text(path)
        if content.count(old) != 1:
            return ToolResult.error("old_str must match exactly once")

        # 真正写入前可以再做权限、路径、格式化或 diff 预览。
        await write_text(path, content.replace(old, new))
        return ToolResult.ok("file updated")

old_str

的精确唯一匹配非常关键。它把“模型觉得自己知道位置”变成“工具可以验证模型知道位置”。这个设计直接降低误改文件的概率，也让失败可以自然反馈给模型重新定位。

工具池：确定性排序、延迟加载与 MCP 分区

工具越多，prompt 越长，模型的选择空间也越大。Anthropic 的 Tool Search 文档把这个问题抽象成“动态发现工具”：系统先让模型搜索工具目录，再按需加载具体 schema，减少一次性展开所有工具定义的上下文成本。Claude Code 与 MCP 场景的公开分析也反复指向同一工程目标：内建工具、MCP 工具和低频扩展工具应分区排序和延迟加载，避免外部工具增删扰动核心工具的缓存前缀。

def assemble_tool_pool(
    builtins: list[Tool],
    mcp_tools: list[Tool],
    permission: PermissionContext,
) -> list[Tool]:
    # deny 规则命中的工具在装配阶段直接移除。
    # 模型看不到被禁止工具，就不会尝试绕过或反复请求。
    allowed_builtins = [t for t in builtins if not permission.denies(t.name)]
    allowed_mcp = [t for t in mcp_tools if not permission.denies(t.name)]

    # 内建工具先排序，形成稳定的核心前缀。
    # MCP 工具放在后面，外部扩展变化时只影响后缀。
    return sorted(allowed_builtins, key=lambda t: t.name) + sorted(allowed_mcp, key=lambda t: t.name)


def visible_tools_for_prompt(pool: list[Tool], task: str) -> list[Tool]:
    always_load = [t for t in pool if t.always_visible]
    deferred = [t for t in pool if not t.always_visible]

    # ToolSearch 是一个元工具：模型先描述自己需要什么能力，再展开匹配工具。
    search_tool = make_tool_search_index(deferred)

    # 初始 prompt 只暴露常用工具和搜索入口，减少 token 与选择噪声。
    return always_load + [search_tool]

延迟加载工具有两个收益。第一，低频工具不占初始 prompt；第二，工具集变化对缓存前缀的影响变小。对于接入大量内部 MCP 服务的团队，这个设计比单纯增加上下文窗口更实际。

权限链：静态规则、动态判断与人工确认

代码 agent 的危险动作集中在 Bash、文件写入、网络访问、MCP 外部工具和 Git 操作。Claude Code 官方权限文档给出的核心规则是 deny、ask、allow 分层决策，deny 规则优先级最高。工业系统应把权限做成运行时控制链，避免把安全边界完全交给 prompt 自律。

def check_permission(call: ToolCall, context: PermissionContext) -> PermissionDecision:
    # 第一层：静态规则最快，适合处理明确 allow / deny / ask 的场景。
    static = match_static_policy(call, context.policy)
    if static.is_final:
        return static

    # 第二层：把工具调用压缩成紧凑表示，再让分类器判断风险。
    # 输入里不应包含助手长篇解释，避免模型自我合理化污染风险判断。
    risk = classify_tool_risk(
        user_intent=context.last_user_message,
        tool_name=call.name,
        tool_args=project_safe_args(call.args),
    )
    if risk.should_block:
        return PermissionDecision.deny(risk.reason)

    if risk.requires_confirmation:
        # 第三层：有真实影响面的动作交给用户或外部审批系统确认。
        return ask_human(call, reason=risk.reason)

    return PermissionDecision.allow()

权限链的工程目标是把“是否执行”从模型输出里剥离出来。模型可以建议执行，系统负责判断能否执行。对 Bash 这类影响面极大的工具，静态规则、风险分类、交互确认和审计日志都应同时存在。

Sandboxing：把权限提示升级成执行边界

权限系统解决的是“能不能执行这个动作”，沙箱解决的是“即使执行了，动作能影响到哪里”。Claude Code 官方 sandboxing 文档和 Anthropic 工程文章都强调两个边界：filesystem isolation 和 network isolation。文件系统隔离缺少网络隔离时，恶意命令仍可能把敏感文件发出去；网络隔离缺少文件系统隔离时，恶意命令仍可能读取或破坏宿主机文件。企业级 AI 编程系统应把沙箱当成默认执行边界，减少对逐条 Bash 人工确认的依赖。

def choose_execution_boundary(call: ToolCall, context: RuntimeContext) -> ExecutionBoundary:
    # 只读文件工具通常不需要进入完整沙箱，但仍要走路径权限检查。
    if call.name in {"read_file", "grep", "glob"}:
        return ExecutionBoundary.host_readonly()

    # Bash 是最高风险工具，默认进入受控沙箱。
    if call.name == "bash":
        risk = classify_shell_command(call.args["command"])

        # 会访问网络或写文件的命令需要同时约束文件系统和网络。
        if risk.writes_files or risk.uses_network:
            return ExecutionBoundary.sandbox(
                # workspace 只暴露当前项目目录，避免读取用户 home 下的密钥。
                filesystem_root=context.workspace_root,
                # 网络默认关闭，只对白名单域名或内部代理开放。
                network_policy=context.network_policy,
                # 环境变量按 allowlist 传入，避免泄露 token。
                env=context.safe_environment,
            )

        # 纯只读命令也可以进入轻量沙箱，减少权限弹窗。
        return ExecutionBoundary.sandbox_readonly(context.workspace_root)

    # MCP 外部工具按服务级别决定边界；远程工具尤其需要审计。
    return ExecutionBoundary.external_service(policy=context.mcp_policy)

这个抽象的关键点是：permission prompt 只是一层交互确认。用户批准一次危险命令后，真正限制损害半径的是沙箱、网络策略、凭证裁剪和审计。自研系统如果支持 unattended mode 或后台 agent，沙箱优先级应高于“跳过权限提示”。

Checkpoint：把大改动变成可回滚事务

Claude Code 官方 checkpointing 文档说明，系统会跟踪文件编辑工具产生的修改，每个用户 prompt 形成新的 checkpoint，checkpoint 可跨恢复会话保存并按配置清理。这个能力对 AI 编程系统很关键：模型可以一次修改多个文件，用户也需要在错误方向上快速回滚，避免手工从 Git diff 里一点点撤销。

async def run_turn_with_checkpoint(session: SessionState, user_input: str) -> None:
    # 每个用户回合开始前创建 checkpoint，记录当前文件状态和会话元数据。
    checkpoint = await session.checkpoints.create(
        # prompt_id 用来把文件快照和用户意图绑定起来。
        prompt_id=session.next_prompt_id(),
        # 只追踪 agent 可能修改的 workspace，避免扫描整个磁盘。
        root=session.workspace_root,
    )

    try:
        # agent 可能执行多次 Edit、Write、Bash 和测试命令。
        await run_agent_turn(session, user_input)

        # 回合成功后把 checkpoint 标记为可回滚保存点。
        await checkpoint.mark_success()

    except Exception as exc:
        # 失败时不立即自动回滚，先把失败原因和 diff 交给用户或上层策略。
        await checkpoint.mark_failed(reason=str(exc))
        raise


async def rewind_to_checkpoint(session: SessionState, checkpoint_id: str) -> None:
    # restore 前先展示 diff，避免用户不知道会撤销哪些文件。
    diff = await session.checkpoints.diff(checkpoint_id)
    await present_rewind_diff(diff)
    # 用户确认后恢复文件系统状态和相关会话状态。
    await session.checkpoints.restore(checkpoint_id)

Checkpoint 和 Git 的职责不同。Git 负责长期版本控制和协作历史；checkpoint 负责 agent 会话内部的细粒度撤销。对于探索性重构、批量格式化、自动修复测试这类任务，checkpoint 是让模型敢于行动、用户敢于授权的基础设施。

Hooks：把软提示变成硬控制

Hooks 是 Claude Code 设计里最适合企业落地的一层。Prompt 和 CLAUDE.md 都属于模型可见指令，模型可能因为上下文拥挤或任务压力而漏遵守；hook 是运行时控制点，可以在工具执行前阻断、在工具执行后修正、在会话结束时归档，行为更接近 Git hooks 或 CI gate。官方 hooks 文档把事件分成 session、turn、tool-call 等节奏，包含 SessionStart、UserPromptSubmit、PreToolUse、PostToolUse、PostToolBatch、Notification、SubagentStart、Stop、StopFailure 等事件。

async def run_pre_tool_hooks(call: ToolCall, context: HookContext) -> HookDecision:
    for hook in context.hooks.for_event("PreToolUse"):
        # hook 输入只包含结构化工具信息，避免把整段对话暴露给外部脚本。
        payload = {
            "tool_name": call.name,
            "tool_input": redact_sensitive_fields(call.args),
            "cwd": context.cwd,
        }

        result = await hook.invoke(payload)

        if result.action == "block":
            # 安全 hook 可以直接阻断危险命令，例如删除根目录、泄露密钥或绕过测试。
            return HookDecision.block(reason=result.reason)

        if result.action == "rewrite_input":
            # rewrite 适合做路径规范化、补充默认参数或改写 MCP 工具输入。
            call.args = result.new_input

    return HookDecision.allow(call)

Hooks 的实用模式包括：Bash 执行前做命令白名单，Edit 之后自动格式化，Stop 阶段运行测试摘要，Notification 阶段推送桌面提醒，SessionStart 阶段注入环境说明。它们把“希望模型遵守”改成“系统一定执行”。

上下文管理：预算、压缩与长期记忆

长上下文并不同于可无限堆历史。AI 编程场景里，工具结果是上下文膨胀的主要来源：读文件、grep、运行测试、打印日志都会产生大量内容。Claude Code 类系统的经验是分级处理：先做低成本清理，再做结构化摘要，最后把跨会话信息沉淀到独立记忆系统。

层级	处理对象	工程意义
工具结果预算	单次 Bash / grep / read 的长输出	保留首尾和摘要，把完整内容落盘或省略，避免单个工具结果占满上下文
Micro Compact	已经被模型消化过的旧工具结果	用占位符替换低价值原文，尽量保持 prompt 前缀稳定
Auto Compact	接近上下文上限的完整会话	调用模型生成结构化摘要，保留任务、决策、文件状态和待办事项
长期记忆	跨会话仍有价值的项目规范、用户偏好、架构约束	从上下文窗口里移出，按需召回，避免每轮都把历史全塞回 prompt

def compact_if_needed(session: SessionState) -> SessionState:
    budget = estimate_tokens(session.messages)

    if budget < session.soft_limit:
        return session

    # 第一阶段只清理低价值工具原文，不改变关键用户意图和任务状态。
    session.messages = replace_old_tool_outputs(session.messages)
    if estimate_tokens(session.messages) < session.soft_limit:
        return session

    # 第二阶段才调用模型做结构化摘要，因为这一步成本更高，也可能失败。
    summary = summarize_session(
        messages=session.messages,
        required_sections=[
            "current_goal",
            "files_touched",
            "decisions_made",
            "pending_tasks",
            "known_failures",
        ],
    )

    # 摘要替换旧上下文后，还要把最近正在编辑的文件重新读回，避免模型失去局部细节。
    return rebuild_session_from_summary(summary, recent_files=session.recent_files)

上下文压缩要保留“继续工作的充分条件”。当前目标、已改文件、失败原因、未完成任务、用户约束和最近文件内容，比完整历史对话更重要。

错误恢复：PromptTooLong、输出截断与熔断

长会话里最常见的失败来自运行时预算耗尽：prompt 太长、输出 token 不够、工具结果过大、自动压缩失败、权限请求循环。工业级 agent 要把这些情况当成正常分支处理，避免把恢复成本转嫁给用户重开会话。

async def call_with_recovery(session: SessionState) -> ModelResponse:
    attempts = 0

    while attempts < 3:
        attempts += 1

        try:
            return await call_model(session.messages)

        except PromptTooLongError:
            # 第一次先做轻量裁剪，尽量保住 prompt cache 和最近上下文。
            session = microcompact_messages(session)

            if still_too_large(session):
                # 第二层再做结构化摘要；摘要失败时必须有硬上限，防止无限递归。
                session = await auto_compact_with_timeout(session, seconds=30)

        except MaxOutputTokensError:
            # 输出截断后追加 resume 指令，保留已有回答并继续完成任务。
            session.messages.append({
                "role": "user",
                "content": "Continue from the exact point where the previous answer stopped.",
            })

    raise AgentRuntimeError("model call failed after bounded recovery attempts")

这里的硬上限很重要。自动压缩本身也会调用模型；如果压缩失败后继续无界重试，就会形成成本和延迟的放大器。可恢复错误需要恢复链，可恢复链也需要熔断器。

记忆系统：CLAUDE.md、规则文件与自动记忆

Claude Code 的记忆设计可以按生命周期拆开：当前会话上下文负责短期状态，CLAUDE.md 和规则文件负责团队显式知识，auto memory 负责模型从用户纠正中沉淀出的个人或项目经验。官方 memory 文档明确区分 CLAUDE.md 和 auto memory：前者由用户维护，适合编码规范、工作流和项目架构；后者由 Claude 根据纠正和偏好自动积累。三者不要混用。构建自研系统时，最容易犯的错误是把所有东西都塞进一条 system prompt，导致规则难维护、缓存难命中、过期信息难清理。

def load_memory_for_session(project: ProjectState, request: UserRequest) -> list[MemoryBlock]:
    blocks: list[MemoryBlock] = []

    # 团队显式规则优先加载；它们通常来自仓库里的 CLAUDE.md 或类似文件。
    blocks.extend(read_markdown_rules(project.root / "CLAUDE.md"))

    # 路径规则只在相关文件命中时加载，适合 monorepo。
    for rule in project.path_rules:
        if rule.matches(request.touched_paths):
            blocks.append(read_markdown(rule.path))

    # 自动记忆先读轻量索引，再选择少量相关正文。
    # 这样比每次注入全部历史记忆更可控。
    candidates = read_memory_headers(project.auto_memory_dir)
    selected = select_relevant_memories(candidates, request.goal, limit=5)
    blocks.extend(read_memory_body(item.path) for item in selected)

    return blocks

自动记忆要有类型约束和过期提示。适合写入的内容包括用户偏好、调试结论、项目约定、反复出现的坑；不适合写入的内容包括一次性日志、临时 token、错误猜测和敏感数据。长期记忆进入下一次会话时，应标注来源和时间，避免模型把旧经验当成当前事实。

六层记忆体系：按生命周期拆开

社区文章把 Claude Code 的记忆系统概括成“六层记忆体系”。这个框架有参考价值，原因在于它把散落在官方文档、泄漏源码整理稿和逆向分析里的机制，重新按生命周期组织起来：哪些信息每轮都进上下文，哪些信息只在当前会话里滚动维护，哪些信息跨会话持久化，哪些信息只在上下文接近上限时参与压缩。

与本地泄漏源码整理稿交叉看，真正可迁移的结论有三条。第一，记忆系统应按生命周期拆分，避免统一塞进一个巨大的 memory prompt。第二，Context 压缩链路与长期 Memory 存储应物理分离，前者服务当前窗口可继续工作，后者服务跨会话知识沉淀。第三，压缩策略会受到 prompt cache 的强约束：能用低成本清理工具结果时，不应立即触发完整摘要；已有结构化会话笔记可复用时，也不应重复调用模型生成摘要。

具体内部名称、文件数量、阈值和模块代号仍按社区逆向线索处理。适合写入设计文档的是分层思想、数据流和工程边界；某个泄漏版本中的命名、阈值或目录结构，不适合作为长期稳定 API。

层级	生命周期	典型载体	工程意义	可信度处理
指令记忆	跨会话长期生效	CLAUDE.md 、规则文件、用户级/项目级/目录级配置	承载团队规范、项目架构、代码风格、测试方式和禁止事项。它更接近“操作手册”，由人维护，适合稳定规则。	官方 memory 文档可确认 CLAUDE.md 机制；更细的加载顺序、条件规则和递归引用按逆向线索处理。
短期记忆	当前会话	消息列表、工具结果、transcript	保存当前任务的原始对话和工具回执，是模型下一轮决策的直接输入。它信息最完整，也最容易膨胀。	消息数组、工具结果预算和 transcript 持久化属于强工程线索，可抽象为通用 agent runtime 设计。
工作记忆	当前会话内滚动更新	结构化 session note，例如 current state、files touched、errors、worklog	把原始消息流提炼成可继续工作的结构化状态。它既帮助模型找回任务主线，也能在压缩时直接充当摘要材料。	Session Memory 的具体模板和触发阈值来自社区逆向线索；“会话内结构化状态”本身具有明确工程价值。
长期记忆	跨会话持久化	Markdown memory 目录、索引文件、frontmatter、按主题拆分的记忆文件	记录无法从当前仓库状态直接推导的信息，例如用户偏好、已验证结论、外部系统入口、长期项目约束。	官方 auto memory 可确认自动记忆方向；memdir 目录、索引限制和召回细节按泄漏整理稿与逆向分析处理。
摘要记忆	上下文接近上限时触发	MicroCompact、Session Memory Compact、完整摘要	先清理旧工具结果，再复用工作记忆，最后才调用模型做完整摘要。分级压缩能降低成本、延迟和失败率。	compact 链路与失败恢复在本地整理稿中反复出现；具体阈值和内部 API 名称不宜当成稳定事实。
后台整合	空闲或跨会话阶段	后台记忆整理、去重、冲突修正、索引重建、团队同步	把零散记忆变成可检索、可维护、可共享的知识库，避免长期记忆不断堆积成噪声。	AutoDream、KAIROS、团队同步等命名属于社区逆向线索；后台整合这个架构角色值得吸收。

这套分层最有价值的地方，是把“记忆”拆成多个不同工程对象。短期消息追求完整，工作记忆追求可继续执行，长期记忆追求可复用，摘要记忆追求预算控制，后台整合追求质量治理。它们的读写频率、可信度、过期策略和权限边界都不同，因此应该有不同的数据结构和触发机制。

自研 AI 编程系统可以直接吸收三条原则。第一，长期记忆先读索引和 frontmatter，再按任务最多召回少量正文，避免每轮注入整座知识库。第二，压缩链路按成本分级：工具结果清理优先，结构化工作记忆复用其次，完整摘要兜底。第三，记忆写入要经过分类、去重、过期提示和敏感信息扫描；用户纠正、已验证流程和外部系统入口值得保存，一次性日志、临时调试输出和未验证猜测应及时丢弃。

并发执行：读可以并行，写必须保守

代码 agent 需要并发，否则读多个文件、跑多个只读搜索会很慢。并发策略的关键是按工具调用的实际输入判断安全性，避免给工具贴一个脱离输入的永久标签。

def partition_tool_calls(calls: list[ToolCall]) -> list[list[ToolCall]]:
    batches: list[list[ToolCall]] = []
    current_read_batch: list[ToolCall] = []

    for call in calls:
        if is_concurrency_safe(call):
            # 只读文件读取、glob、grep 通常可以进入同一批并行执行。
            current_read_batch.append(call)
            continue

        if current_read_batch:
            batches.append(current_read_batch)
            current_read_batch = []

        # 写文件、运行可能改状态的 shell 命令必须独占一个 batch。
        batches.append([call])

    if current_read_batch:
        batches.append(current_read_batch)
    return batches


def is_concurrency_safe(call: ToolCall) -> bool:
    if call.name in {"read_file", "glob", "grep"}:
        return True
    if call.name == "bash":
        # 同一个 Bash 工具要根据具体命令判断。
        # ls、pwd、git status 可并行；rm、mv、npm install、git commit 不应并行。
        return classify_shell_command(call.args["command"]).is_read_only
    return False

这个设计让系统既能利用并行，又不会把写操作打乱。更细的实现还会把 context modifier 延迟到所有并发结果结束后按原始顺序应用，避免并发工具同时修改会话状态。

Subagent：隔离上下文与隔离文件系统

复杂代码任务常常需要拆分：一个 agent 负责探索，一个 agent 负责实现，一个 agent 负责验证。Claude Code 官方 subagents 文档强调，每个 subagent 有自己的上下文窗口、custom system prompt、特定工具访问权限和独立权限。Subagent 的工程价值在于隔离上下文、工具权限、任务状态和文件修改范围，使并行协作不会互相污染。

模式	上下文关系	适合任务
fork	复制父上下文，适合复用 prompt cache	后台摘要、记忆提取、短探索任务
teammate	独立上下文，只返回结论	并行读代码、独立调研、互不污染判断的分析任务
worktree	独立上下文 + 独立文件系统视图	多个 worker 并行改代码，最后由主 agent 或用户合并

自研系统可以先实现最小可用的 teammate 模式：主 agent 只派发具体问题，subagent 只返回结构化结论。等任务开始涉及并行改文件，再引入 Git worktree 级隔离。

Feature Flag 与发布安全

多篇社区逆向材料提到 Claude Code 中存在大量 feature flag。具体数量和内部名称属于中等可信线索，正文不把它们当成确定事实；但 feature flag 对 AI 编程工具的工程意义很明确。它不仅服务灰度发布，还承担构建裁剪、内部功能隔离、实验开关、后台 agent 模式控制和风险回滚。尤其是 CLI 产品，发布包里包含什么、source map 是否包含源文本、内部字符串是否被剥离，都会变成安全边界的一部分。

def build_release_bundle(source: SourceTree, profile: BuildProfile) -> Bundle:
    # 编译期 feature gate 负责把内部能力从发布产物中物理移除。
    tree = strip_disabled_features(source, enabled=profile.public_features)

    # sourcemap 可以保留定位信息，但发布包不应内联完整 sourcesContent。
    maps = generate_source_maps(tree, include_source_content=False)

    # 发布前扫描内部代号、私有 URL、测试 token、员工专用配置等敏感字符串。
    violations = scan_for_forbidden_strings(tree, profile.forbidden_patterns)
    if violations:
        raise ReleaseBlocked(violations)

    # 最后再生成可发布制品，避免扫描对象和最终发布对象不一致。
    return package_for_distribution(tree, maps)

这类发布安全不属于“模型能力”，但直接决定 AI 工具是否能进入企业环境。自研 agent 只要包含内部工具、私有 MCP、实验模型代号或客户环境信息，就应把构建裁剪、敏感字符串扫描和 sourcemap 策略写进发布流水线。

对自研 AI 编程系统的启发

文件编辑工具要强制可验证定位，例如精确字符串匹配、AST 范围、patch 预览，不能让模型直接自由写整段文件。
Bash 工具要有独立安全体系，包含命令解析、静态规则、动态风险判断、用户确认、审计和输出预算。
上下文压缩要分级，先清工具结果，再做摘要，最后沉淀长期记忆。不要把所有历史长期塞进 prompt。
工具列表、prompt 片段和 MCP 工具排序要稳定，因为稳定前缀直接影响 prompt cache 成本。
Subagent 的价值在于隔离和并行。主 agent 应该拿结构化结论，避免继承所有中间噪声。
Hooks 和权限系统要进入运行时控制面。企业场景不能只靠 prompt 自律来阻止危险动作。
可恢复错误要有恢复链，恢复链也要有熔断器。PromptTooLong、输出截断和压缩失败都应成为显式分支。
发布包要按安全产品处理：feature flag、sourcemap、敏感字符串扫描和内部工具剥离都应纳入 CI。

NER知名算法

这一节按 NER 技术出现顺序阅读主流算法和框架：CRF、BIOES / BILOU（两种边界增强标签体系）、BiLSTM-CRF、Flair、BERT Token Classification、Boundary Head、Span-based NER、Span Proposal、Regex / Parser Proposal、Semi-CRF、Biaffine NER、GlobalPointer、W2NER、UIE、GLiNER，以及 spaCy、HanLP 这类工程框架。阅读重点固定为三件事：模型输出张量是什么，训练目标如何定义，解码阶段如何把分数还原成实体边界和实体类型。

路线	核心建模对象	典型优势	主要限制
CRF / BiLSTM-CRF	token 标签序列与标签转移路径	标签约束清晰，BIO/BIOES 解码稳定，适合小中型垂直数据	天然偏 flat NER，嵌套实体和不连续实体处理困难
BERT Token Classification	每个 token 的独立标签分布	实现简单，Transformers 生态最成熟，微调成本低	边界一致性依赖数据和后处理，长实体、嵌套实体不占优
Boundary Head	start / end / type 三组边界与类型分数	边界有独立监督，长实体不依赖连续 I 标签传递	start/end 组合会产生候选，需要 top-k、长度约束和后处理
Span-based / Biaffine / GlobalPointer	候选 span 或 token-pair 矩阵	能直接打分实体边界，适合嵌套实体和多实体并存	候选数量随长度增长，阈值、负例和矩阵 mask 需要仔细设计
Proposal + Classifier / Regex + Model	先产生候选 span，再由模型确认类型和置信度	适合 private key、JSON Web Token（JWT）、证书、URL 等长结构化个人可识别信息（Personally Identifiable Information, PII）	proposal 漏召回后分类器无法补救，hard negative 构造很关键
Semi-CRF / Segmental CRF	直接对 segment/span 序列建模	把实体作为整体片段打分，比 token 级 BIO 更自然	最大片段长度、动态规划复杂度和实现成本都更高
W2NER / UIE / GLiNER	词词关系网格、统一抽取 schema、标签文本条件 span	覆盖更复杂抽取形态，schema 扩展和开放类别能力更强	训练数据构造、解码和评估更复杂，工程调参与错误分析成本更高

CRF

条件随机场（Conditional Random Field, CRF）是一类用于结构化预测的判别式概率模型：它在给定输入 $\mathbf{x}$ 的条件下，对整组输出标签 $\mathbf{y}$ 建模，并显式刻画标签之间的依赖关系。经典机器学习部分已经系统讨论过 CRF 的建模思想、与 HMM / MEMM 的关系、标签偏置问题和动态规划推断；这里聚焦 NER 场景下的源码实现。

线性链（Linear-chain）指输出标签按时间步或 token 位置排成一条链，模型只显式建模相邻标签之间的转移关系，例如 $y_{t-1}\rightarrow y_t$。在 NER 中，这条链就是整句 token 的 BIO/BIOES 标签序列。线性链 CRF 解决的是标签路径约束问题：模型不再把每个 token 的标签当作彼此独立的分类结果，而是给整条标签路径打分。

工程实现上主要有两类路线：

torchcrf.CRF

代表常见的顺序动态规划接口，API 简单、容易接入 BERT；

torch_struct.LinearChainCRF

代表结构化预测库里的并行扫描实现，利用半环矩阵乘法把前向算法压成更少轮 GPU 计算。

\[\log p(\mathbf{y}\mid\mathbf{x})=\mathrm{score}(\mathbf{x},\mathbf{y})-\log\sum_{\mathbf{y}'}\exp(\mathrm{score}(\mathbf{x},\mathbf{y}'))\]

其中 $\mathrm{score}(\mathbf{x},\mathbf{y})$ 是某一条标签路径的总分，包含每个 token 的 emission score、相邻标签的 transition score、路径起点分数和路径终点分数。

torchcrf.CRF：顺序动态规划

torchcrf.CRF

的源码核心很集中：参数包含起始转移、结束转移和标签间转移；训练时计算“真实路径分数 - 所有路径 logsumexp 归一化”；推理时用 Viterbi 动态规划找最高分标签路径。它的优势是接口贴近 NER 业务代码：输入 emission、gold tags 和 mask，输出 log-likelihood 或最优路径。

# CRF 是 nn.Module，所以转移矩阵会跟随模型一起训练和保存。
class CRF(nn.Module):
    # num_tags 是 BIO/BIOES 标签总数，batch_first 控制输入维度顺序。
    def __init__(self, num_tags: int, batch_first: bool = False) -> None:
        # 标签数必须大于 0，否则转移矩阵没有定义。
        if num_tags <= 0:
            # 这里提前失败，比后面张量 shape 出错更容易定位。
            raise ValueError(f"invalid number of tags: {num_tags}")
        # 初始化 nn.Module 基类，后面 Parameter 才会被注册。
        super().__init__()
        # 保存标签数，后续校验 emissions 最后一维必须等于它。
        self.num_tags = num_tags
        # 保存输入布局约定；Transformers 通常用 batch_first=True。
        self.batch_first = batch_first
        # start_transitions[tag] 表示序列第一个标签为 tag 的起始分数。
        self.start_transitions = nn.Parameter(torch.empty(num_tags))
        # end_transitions[tag] 表示序列最后一个标签为 tag 的结束分数。
        self.end_transitions = nn.Parameter(torch.empty(num_tags))
        # transitions[i, j] 表示从标签 i 转移到标签 j 的分数。
        self.transitions = nn.Parameter(torch.empty(num_tags, num_tags))
        # 官方实现把三组转移参数初始化到 [-0.1, 0.1]。
        self.reset_parameters()

    # reset_parameters 只初始化 CRF 自己的转移参数。
    def reset_parameters(self) -> None:
        # 起始转移用小范围均匀分布，避免初始路径偏置过强。
        nn.init.uniform_(self.start_transitions, -0.1, 0.1)
        # 结束转移同样小范围初始化。
        nn.init.uniform_(self.end_transitions, -0.1, 0.1)
        # 标签间转移矩阵小范围初始化，训练中再学习合法转移偏好。
        nn.init.uniform_(self.transitions, -0.1, 0.1)

接入 BERT 时，BERT 负责产生每个 token 对每个标签的 emission score；CRF 负责把 token 级局部分数变成序列级路径分数。

# BERT + CRF 是序列标注里最常见的组合之一。
class BertCrfForNer(nn.Module):
    # model_name 是 Hugging Face encoder 名称，num_tags 是 BIO/BIOES 标签数。
    def __init__(self, model_name: str, num_tags: int) -> None:
        # 初始化 nn.Module 基类。
        super().__init__()
        # encoder 输出每个 token 的 contextual hidden state。
        self.encoder = AutoModel.from_pretrained(model_name)
        # hidden_size 决定分类头输入维度。
        hidden_size = self.encoder.config.hidden_size
        # classifier 把 [B, L, H] 映射成 [B, L, num_tags]。
        self.classifier = nn.Linear(hidden_size, num_tags)
        # batch_first=True 后，CRF 接收 [B, L, C]，与 Transformers 输出一致。
        self.crf = CRF(num_tags=num_tags, batch_first=True)

    # labels 为空时走解码路径，不为空时走训练 loss 路径。
    def forward(self, input_ids, attention_mask, labels=None):
        # encoder_out.last_hidden_state 形状是 [B, L, H]。
        hidden = self.encoder(input_ids=input_ids, attention_mask=attention_mask).last_hidden_state
        # emissions 是未归一化分数，不需要先 softmax。
        emissions = self.classifier(hidden)
        # mask 标识有效 token；padding 位置不会进入路径分数。
        mask = attention_mask.bool()
        # 训练路径：最大化真实标签路径的条件 log-likelihood。
        if labels is not None:
            # torchcrf.forward 返回 log-likelihood，训练要最小化负值。
            llh = self.crf(emissions=emissions, tags=labels, mask=mask, reduction="mean")
            # 返回 dict 便于接 Trainer 或自定义训练循环。
            return {"loss": -llh}
        # 推理路径：Viterbi 返回每个样本的最高分标签 id 序列。
        paths = self.crf.decode(emissions, mask=mask)
        # paths 是 Python list，长度会按 mask 去掉 padding。
        return {"predictions": paths}

torchcrf.forward

内部的核心分成 numerator 和 denominator。numerator 只沿真实标签路径加分；denominator 对所有可能路径做 log-sum-exp，等价于 CRF 的归一化常数。

# emissions: [T, B, C]，tags: [T, B]，mask: [T, B]。
def crf_log_likelihood(emissions, tags, mask):
    # numerator 是真实标签路径的总分。
    numerator = compute_gold_path_score(emissions, tags, mask)
    # denominator 是所有可能标签路径的 logsumexp 总分。
    denominator = compute_all_path_logsumexp(emissions, mask)
    # 条件 log-likelihood 等于真实路径分数减去归一化项。
    llh = numerator - denominator
    # 训练时通常取 -llh.mean()。
    return llh

_compute_score

对真实标签路径逐步加分。这个函数只看 gold path，不枚举其它标签序列，因此它是 CRF 分子的来源。

# 这个函数对应 torchcrf.CRF._compute_score 的主体逻辑。
def compute_gold_path_score(emissions, tags, mask, start_transitions, transitions, end_transitions):
    # emissions: [T, B, C]，T 是序列长度，B 是 batch，C 是标签数。
    seq_length, batch_size = tags.shape
    # mask 转成和 emissions 相同 dtype，后面可直接参与乘法。
    mask = mask.type_as(emissions)
    # 第一个 token 的路径分数由起始转移和第一个 emission 组成。
    score = start_transitions[tags[0]]
    # arange(batch_size) 让每个样本取自己的 gold tag emission。
    score = score + emissions[0, torch.arange(batch_size), tags[0]]

    # 从第二个 token 开始累加转移分数和 emission 分数。
    for i in range(1, seq_length):
        # tags[i - 1] -> tags[i] 是 gold path 的相邻标签转移。
        transition_score = transitions[tags[i - 1], tags[i]]
        # padding 位置 mask 为 0，不应影响真实路径分数。
        score = score + transition_score * mask[i]
        # 当前 token 的 gold tag emission 也只在有效 token 上累加。
        emission_score = emissions[i, torch.arange(batch_size), tags[i]]
        # 这里不做 softmax；CRF 全程在 score space 里计算。
        score = score + emission_score * mask[i]

    # 每个样本的有效长度可能不同，最后一个有效 token 要单独定位。
    seq_ends = mask.long().sum(dim=0) - 1
    # last_tags 是每个样本最后一个有效 token 的 gold tag。
    last_tags = tags[seq_ends, torch.arange(batch_size)]
    # 结束转移补上路径终点分数。
    score = score + end_transitions[last_tags]
    # 返回 [B]，每个样本一个真实路径总分。
    return score

_compute_normalizer

是分母。它把所有可能路径的分数做 log-sum-exp，得到条件概率里的归一化常数。

# 这个函数对应 torchcrf.CRF._compute_normalizer 的主体逻辑。
def compute_all_path_logsumexp(emissions, mask, start_transitions, transitions, end_transitions):
    # T 是 token 数，B 是 batch，C 是标签数。
    seq_length = emissions.size(0)
    # score[b, c] 表示样本 b 在当前位置以标签 c 结尾的所有路径 logsumexp 分数。
    score = start_transitions + emissions[0]

    # 逐 token 向前推进动态规划。
    for i in range(1, seq_length):
        # [B, C, 1]：历史路径以哪个旧标签结尾。
        broadcast_score = score.unsqueeze(2)
        # [B, 1, C]：当前 token 取哪个新标签。
        broadcast_emissions = emissions[i].unsqueeze(1)
        # [B, C, C]：旧标签、新标签两两组合后的路径候选。
        next_score = broadcast_score + transitions + broadcast_emissions
        # 对旧标签维度做 logsumexp，相当于把所有来源路径累加。
        next_score = torch.logsumexp(next_score, dim=1)
        # padding token 不推进动态规划，沿用上一时刻 score。
        score = torch.where(mask[i].unsqueeze(1), next_score, score)

    # 所有路径都要补上结束转移。
    score = score + end_transitions
    # 对最后标签再做一次 logsumexp，得到每个样本的总归一化项。
    return torch.logsumexp(score, dim=1)

Viterbi 解码把 denominator 里的 log-sum-exp 换成 max，并保存每一步的 argmax 来源。最后从最高分结束标签向前回溯，得到全局最高分路径。这个全局路径约束是 CRF 相比逐 token softmax 的核心价值。

CRF 的创新空间主要在约束层。业务规则可以转成转移约束、非法标签惩罚、领域词典软约束或后处理检查；在标签体系稳定、误报代价高的 NER 场景里，这条路线仍然有工程价值。

# 这个函数对应 torchcrf.CRF._viterbi_decode 的核心递推。
def viterbi_decode_core(emissions, mask, start_transitions, transitions, end_transitions):
    # score[b, c] 表示样本 b 当前以标签 c 结尾的最佳路径分数。
    score = start_transitions + emissions[0]
    # history 保存每一步“最佳新标签来自哪个旧标签”。
    history = []

    # 逐 token 做 max-product 动态规划。
    for i in range(1, emissions.size(0)):
        # [B, C, 1]：旧标签维度。
        broadcast_score = score.unsqueeze(2)
        # [B, 1, C]：新标签 emission。
        broadcast_emission = emissions[i].unsqueeze(1)
        # [B, C, C]：从任意旧标签转到任意新标签的候选分数。
        next_score = broadcast_score + transitions + broadcast_emission
        # 对旧标签取 max，indices 记录最佳来源。
        next_score, indices = next_score.max(dim=1)
        # padding 位置不更新 score。
        score = torch.where(mask[i].unsqueeze(1), next_score, score)
        # indices 用于后面从最后标签反向回溯。
        history.append(indices)

    # 加结束转移后，score 最大的标签就是路径终点。
    score = score + end_transitions
    # 完整解码会按每个样本的有效长度回溯 history。
    return score, history

torch-struct LinearChainCRF：并行扫描

torch_struct.LinearChainCRF

面向的抽象比

torchcrf.CRF

更底层。它不直接接收“emissions + transition matrix”这两个对象，而是接收已经合成好的边势能（edge potentials）：形状通常是 $[B,T-1,C,C]$，表示从位置 $t$ 的旧标签 $i$ 转到位置 $t+1$ 的新标签 $j$ 的总分。

这个设计把 CRF 前向算法改写成 log-semiring 上的矩阵连乘。普通前向算法按 token 顺序推进，时间方向有 $T-1$ 次递推；torch-struct 利用结合律，把相邻边势能两两合并，再把长度 2 的片段合并成长度 4，继续合并成长度 8。长度为 512 的序列只需要约 $\log_2 512=9$ 轮合并，每一轮都是大批量张量运算，更容易让 GPU 吃满。

它并没有改变 CRF 的概率模型。训练目标仍然是同一个 log-likelihood，分母仍然是所有路径的 log-sum-exp；变化发生在计算图组织方式上：顺序 for-loop 被替换成并行 scan。对长序列、大 batch 或 CRF 层成为瓶颈的场景，这条路线通常比

torchcrf.CRF

更快；对短序列、BERT encoder 本身占据绝大多数耗时的场景，收益可能被 encoder 前向掩盖。

# 这段代码展示 torch-struct LinearChain 的核心扫描思想。
# math 只用于根据序列长度计算需要多少轮二分合并。
import math

# log_potentials 的形状是 [B, T - 1, C, C]：
#   B 是 batch size；
#   T - 1 是相邻 token 间的边数量；
#   C 是标签数；
#   log_potentials[b, t, i, j] 是样本 b 从标签 i 转到标签 j 的边分数。
def parallel_linear_chain_scan(log_potentials, semiring):
    # chart 保存每条边当前代表的片段分数。
    # 初始时，每个 chart 单元只覆盖一个相邻标签转移。
    chart = log_potentials

    # 如果 T - 1 并非 2 的幂，实际实现会先 padding 到最近的 2 的幂。
    # log_N 是需要合并的轮数，例如 512 token 约 9 轮。
    log_N = math.ceil(math.log2(chart.size(1)))

    # 每一轮把相邻片段两两合并。
    for _ in range(log_N):
        # chart[:, 1::2] 取奇数位置片段，chart[:, 0::2] 取偶数位置片段。
        # semiring.matmul 在 log-semiring 下对应“路径分数相加 + 来源路径 logsumexp”。
        # 合并后，每个新片段覆盖的 token 范围翻倍。
        chart = semiring.matmul(chart[:, 1::2], chart[:, 0::2])

    # 最后一格包含整条序列的所有路径总分。
    # 再对起止标签维度做 semiring.sum，就得到 CRF 分母的 log-partition。
    return semiring.sum(semiring.sum(chart[:, 0]))

从普通 BERT-CRF 迁移到 torch-struct 的关键是构造 $[B,T-1,C,C]$ 边势能。设 emission 为 $E\in\mathbb{R}^{B\times T\times C}$，转移矩阵为 $A\in\mathbb{R}^{C\times C}$，其中 $E_{b,t,j}$ 是第 $b$ 个样本第 $t$ 个 token 取标签 $j$ 的局部分数，$A_{i,j}$ 是旧标签 $i$ 到新标签 $j$ 的转移分数，则边势能可写成：

\[\Phi_{b,t,i,j}=A_{i,j}+E_{b,t+1,j}\]

这里 $\Phi_{b,t,i,j}$ 是输入给

LinearChainCRF

的边分数；$t$ 对应从 token $t$ 到 token $t+1$ 的转移；$i$ 是前一个标签；$j$ 是后一个标签。起始转移、结束转移、mask 和 padding 还需要按 torch-struct 的事件形状额外处理，迁移工作会涉及势能构造、解码和数值等价测试。

维度	torchcrf.CRF	torch-struct LinearChainCRF
输入接口	emissions $[B,T,C]$、tags、mask、transition 参数由模块内部保存。	log_potentials $[B,T-1,C,C]$，调用方需要预先合成边势能。
前向计算	沿时间步顺序递推，源码里有显式 $T-1$ 次循环。	在 log-semiring 上做并行 scan，约 $\log_2 T$ 轮 batched matmul。
工程成熟度	NER 项目最常见，API 简单，decode 路径完整。	结构化预测能力更强，但接口偏学术库，需要自己适配 NER 数据形态和解码。
适用场景	短序列、普通 BIO/BIOES NER、希望快速接入 BERT/Flair/Stanza 的系统。	长序列、大 batch、CRF 层被 profile 证明是瓶颈、愿意重写势能构造和解码的系统。

因此，torch-struct 的算法实现确实更“高级”：它利用半环动态规划和并行 scan 改善了 CRF 前向的 GPU 利用率。工程结论要更克制：它更快的前提是 CRF 层已经成为可观瓶颈，并且项目愿意承担接口迁移、Viterbi 解码适配、数值等价测试和维护风险。对普通 NER baseline，

torchcrf.CRF

仍然是最省心的默认选择；对长序列或高吞吐训练，

torch_struct.LinearChainCRF

值得作为优化方向单独验证。

BIOES / BILOU

BIOES / BILOU 是 BIO 标签体系的边界增强版本。BIO 只区分 Begin、Inside、Outside：实体起点由 B 表示，实体内部由 I 表示，实体外部由 O 表示。BIOES 增加 End 和 Single，BILOU 增加 Last 和 Unit；两套命名不同，但语义几乎一致：显式标出实体结束位置和单 token 实体。

方案	标签含义	边界信息
BIO	B = Beginning，I = Inside，O = Outside	起点清晰，终点需要从下一个非 I 标签推断。
BIOES	B = Beginning，I = Inside，E = End，S = Single，O = Outside	起点、终点、单 token 实体都被显式监督。
BILOU	B = Beginning，I = Inside，L = Last，U = Unit，O = Outside	与 BIOES 等价地表达结束边界和单 token 实体。

以实体

John Smith

为例，BIO 会标成

B-PER I-PER

；BIOES / BILOU 会标成

B-PER E-PER

或

B-PER L-PER

。若实体只有一个 token，例如

Paris

，BIO 通常标成

B-LOC

，BIOES / BILOU 则标成

S-LOC

或

U-LOC

。这让模型直接看到“单 token 实体”和“多 token 实体起点”的差别。

在长实体里，BIO 的问题来自大量连续 I 标签。模型只要在中间某处把 I 断开，实体边界就会裂开；或者在结束位置继续输出 I，实体会被拖长。BIOES / BILOU 给结束边界单独监督，使 CRF 或 token classifier 能学习“实体应该在哪里结束”。它不能彻底解决长 span 建模，因为内部仍然有大量 I 标签，也不能自然表达嵌套实体；但如果系统继续沿用 BIO 序列标注，BIOES / BILOU 通常是更稳的标签方案。

# BIOES 解码时，E/S 标签让实体终点不再完全依赖“下一个标签”。
def bioes_to_spans(tags):
    # spans 保存解码出的实体，元素形如 (start, end, entity_type)。
    spans = []
    # active_start 记录当前多 token 实体的起点。
    active_start = None
    # active_type 记录当前实体类型。
    active_type = None

    # 逐 token 扫描标签序列。
    for idx, tag in enumerate(tags):
        # O 表示实体外；遇到 O 时应关闭任何未闭合实体。
        if tag == "O":
            # 非法残留实体直接丢弃或交给后处理修复。
            active_start = None
            active_type = None
            continue

        # prefix 是 B/I/E/S，entity_type 是 PER/ORG/PII 等类型名。
        prefix, entity_type = tag.split("-", 1)
        # S 表示单 token 实体，起点和终点都是当前位置。
        if prefix == "S":
            spans.append((idx, idx, entity_type))
            active_start = None
            active_type = None
        # B 表示多 token 实体开始。
        elif prefix == "B":
            active_start = idx
            active_type = entity_type
        # I 表示多 token 实体内部；类型不一致时可视为非法路径。
        elif prefix == "I":
            if active_type != entity_type:
                active_start = None
                active_type = None
        # E 表示多 token 实体结束，可以立即产出 span。
        elif prefix == "E":
            if active_start is not None and active_type == entity_type:
                spans.append((active_start, idx, entity_type))
            active_start = None
            active_type = None

    # 返回闭区间 span，后续再映射回字符边界。
    return spans

BiLSTM-CRF

BiLSTM-CRF 是深度学习序列标注时代的标准组合。BiLSTM 从左右两个方向读取句子，给每个 token 生成上下文化表示；线性层把表示映射成每个标签的 emission score；CRF 在 emission score 之上学习标签转移矩阵，输出整条 BIO/BIOES 标签路径。它把“上下文表示”和“全局标签约束”拆成两个清晰组件，因此长期成为 NER、小语种序列标注和工业规则增强系统的基线。

\[\mathrm{emissions}_{t,c}=W_c h_t+b_c\]

其中 $h_t$ 是第 $t$ 个 token 的 BiLSTM 输出， $c$ 是标签类别， $W_c$ 和 $b_c$ 是线性分类头参数。CRF 不直接处理原始词，它处理的是每个位置对每个标签的打分矩阵。

# 这个模块展示 BiLSTM-CRF 的标准工程分层。
class BiLstmCrfForNer(nn.Module):
    # vocab_size 是词表大小，num_tags 是 BIO/BIOES 标签数。
    def __init__(self, vocab_size: int, num_tags: int, emb_dim: int = 200, hidden_dim: int = 256):
        # 注册 PyTorch 模块状态，保证参数能被 optimizer 找到。
        super().__init__()
        # 词向量层把离散 token id 映射成可训练稠密向量。
        self.embedding = nn.Embedding(vocab_size, emb_dim, padding_idx=0)
        # 双向 LSTM 同时读左上下文和右上下文。
        self.encoder = nn.LSTM(
            # 每个时间步输入词向量维度。
            input_size=emb_dim,
            # 双向拼接后要得到 hidden_dim，因此单向设为 hidden_dim // 2。
            hidden_size=hidden_dim // 2,
            # NER 通常先用一层，数据大时再加层数和 dropout。
            num_layers=1,
            # 输入输出都采用 [B, L, H]，便于和 batch 数据对齐。
            batch_first=True,
            # 双向编码让当前位置能看到左右两侧上下文。
            bidirectional=True,
        )
        # emission 层把每个 token 的上下文表示映射到标签空间。
        self.classifier = nn.Linear(hidden_dim, num_tags)
        # CRF 接收 [B, L, C] 的 emission score，并学习标签转移约束。
        self.crf = CRF(num_tags=num_tags, batch_first=True)

    # lengths 用于 pack，mask 用于 CRF 屏蔽 padding。
    def forward(self, input_ids, mask, labels=None):
        # embedding 输出 [B, L, E]，padding token 对应 padding_idx。
        emb = self.embedding(input_ids)
        # pack 后 LSTM 不会在 padding 位置浪费计算，也能避免长度污染 hidden state。
        packed = nn.utils.rnn.pack_padded_sequence(
            emb,
            # CRF mask 的每行求和就是样本真实长度。
            mask.long().sum(dim=1).cpu(),
            # batch_first=True 对应 [B, L, E]。
            batch_first=True,
            # 数据加载阶段通常不强制按长度排序。
            enforce_sorted=False,
        )
        # LSTM 输出仍是 packed 格式。
        packed_out, _ = self.encoder(packed)
        # pad_packed_sequence 把输出还原成 [B, L, H]。
        encoded, _ = nn.utils.rnn.pad_packed_sequence(
            packed_out,
            # 输出维度保持 [B, L, H]。
            batch_first=True,
            # total_length 保证和原始 input_ids 对齐。
            total_length=input_ids.size(1),
        )
        # emissions 是 CRF 的局部证据，不需要先做 softmax。
        emissions = self.classifier(encoded)
        # 有标签时返回负 log-likelihood，训练目标是让 gold path 概率最大。
        if labels is not None:
            # CRF 返回 log p(y|x)，优化器需要最小化负值。
            return -self.crf(emissions, labels, mask=mask.bool(), reduction="mean")
        # 推理时使用 Viterbi，输出整条序列的最高分路径。
        return self.crf.decode(emissions, mask=mask.bool())

BiLSTM-CRF 仍适合几类场景：标注数据较少、标签体系稳定、业务要求显式 BIO 约束、线上模型需要轻量部署。它的主要瓶颈来自表示能力和实体形态：复杂跨句语义、嵌套实体、不连续实体、开放标签集合，通常需要 Transformer、span 矩阵或 label-conditioned 模型。

Flair

Flair 代表了 BERT 普及前后的另一条工程路线：用字符级语言模型、词向量和上下文 embedding 组合成 token 表示，再用序列标注分类器输出实体标签。它的价值在于对形态变化、拼写噪声、低资源语种更友好，且提供了较完整的数据集、embedding、训练器和推理 API。

from flair.data import Corpus, Sentence
from flair.datasets import CONLL_03
from flair.embeddings import FlairEmbeddings, StackedEmbeddings
from flair.models import SequenceTagger
from flair.trainers import ModelTrainer

# CONLL_03 会返回 train/dev/test 三份序列标注数据。
corpus: Corpus = CONLL_03()

# label_type 决定读取哪一列标签；NER 任务通常使用 "ner"。
label_type = "ner"

# label_dictionary 从训练语料中收集实体标签，保证分类头维度和数据一致。
label_dictionary = corpus.make_label_dictionary(label_type=label_type)

# 前向字符语言模型捕捉从左到右的拼写和上下文形态。
forward_lm = FlairEmbeddings("news-forward")

# 后向字符语言模型捕捉从右到左的后缀、边界和右上下文。
backward_lm = FlairEmbeddings("news-backward")

# StackedEmbeddings 把多种 token 表示拼接成最终输入表示。
embeddings = StackedEmbeddings([forward_lm, backward_lm])

# SequenceTagger 是 Flair 的 NER 主模型，hidden_size 控制内部序列编码容量。
tagger = SequenceTagger(
    hidden_size=256,
    embeddings=embeddings,
    tag_dictionary=label_dictionary,
    tag_type=label_type,
    use_crf=True,
)

# ModelTrainer 负责训练循环、评估、checkpoint 和日志。
trainer = ModelTrainer(tagger, corpus)

# 训练输出会保存在 resources/taggers/example-ner。
trainer.train(
    "resources/taggers/example-ner",
    learning_rate=0.1,
    mini_batch_size=32,
    max_epochs=10,
)

# 推理时 Sentence 保存 token、span 和预测标签。
sentence = Sentence("George Washington went to Washington.")

# predict 会把实体标签写回 sentence 内部。
tagger.predict(sentence)

# get_spans("ner") 返回实体级 span，适合直接进入实体级评估。
entities = sentence.get_spans("ner")

Flair 适合需要快速搭建传统 NER 管线、复用字符级上下文 embedding、处理拼写变化明显文本的场景。BERT/RoBERTa 之后，Flair 在通用榜单上不再是最强路线，但在低资源语言、医学/生物等领域仍常作为稳健基线或 embedding 组件出现。源码里的

SequenceTagger

路径非常清楚：embedding 写入

Sentence

，可选投影层统一维度，可选 RNN 提供序列上下文，线性层输出 emission score，可选 CRF 负责路径级解码。

# 精简自 Flair 的 SequenceTagger.forward 主路径。
self.embeddings.embed(sentences)
# Embeddings 直接写入 Sentence/Token 对象，模型后续读取统一的 token 表示。

lengths, sentence_tensor = self._make_padded_tensor_for_batch(sentences)
# batch 化时保留真实长度，RNN 和 CRF 都需要用它屏蔽 padding。

if self.reproject_embeddings:
    sentence_tensor = self.embedding2nn(sentence_tensor)
    # 投影层把多种 embedding 拼接后的向量压到统一任务空间。

if self.use_rnn:
    packed = pack_padded_sequence(sentence_tensor, lengths, batch_first=True)
    # pack 后 RNN 只处理真实 token，padding 不影响隐藏状态。

    rnn_output, hidden = self.rnn(packed)
    # BiLSTM/GRU 为每个 token 生成上下文相关表示。

    sentence_tensor, output_lengths = pad_packed_sequence(rnn_output, batch_first=True)
    # 还原 batch 张量，后续分类层逐 token 计算 emission。

features = self.linear(sentence_tensor)
# 线性层输出每个 token 对每个 BIO/BIOES 标签的 emission score。

if self.use_crf:
    features = self.crf(features)
    # CRF 层把局部分数和标签转移结合，用于 Viterbi loss 与 decode。

    scores = (features, lengths, self.crf.transitions)
    # decoder 同时需要 emission、真实长度和转移矩阵。
else:
    scores = self._get_scores_from_features(features, lengths)
    # 关闭 CRF 后退化为独立 token 分类，速度更轻。

BERT Token Classification

BERT Token Classification 是当前最常见的 NER 微调入口。它在每个 token 的 hidden state 上接一个线性分类头，用交叉熵训练 BIO/BIOES 标签。Hugging Face 的

BertForTokenClassification

源码很短，核心路径就是 encoder、dropout、linear、loss。

# 这个类来自 Transformers 中 BertForTokenClassification 的主路径。
class BertForTokenClassification(BertPreTrainedModel):
    # config.num_labels 决定 NER 标签集合大小。
    def __init__(self, config):
        # 初始化预训练模型基类，负责权重初始化和 config 保存。
        super().__init__(config)
        # 保存标签数，loss reshape 时需要用到。
        self.num_labels = config.num_labels
        # token classification 不需要 [CLS] pooled output。
        self.bert = BertModel(config, add_pooling_layer=False)
        # 优先使用任务专用 dropout，否则沿用 BERT hidden dropout。
        classifier_dropout = (
            config.classifier_dropout
            if config.classifier_dropout is not None
            else config.hidden_dropout_prob
        )
        # dropout 缓和小 NER 数据集上的过拟合。
        self.dropout = nn.Dropout(classifier_dropout)
        # 每个 token 的 hidden state 独立映射到标签 logits。
        self.classifier = nn.Linear(config.hidden_size, config.num_labels)
        # post_init 会按 Transformers 约定初始化新加的分类头。
        self.post_init()

    # labels 形状是 [B, L]，padding 或特殊 token 通常标成 -100。
    def forward(self, input_ids=None, attention_mask=None, token_type_ids=None, labels=None, **kwargs):
        # BERT 输出 last_hidden_state，形状是 [B, L, H]。
        outputs = self.bert(
            input_ids,
            attention_mask=attention_mask,
            token_type_ids=token_type_ids,
            return_dict=True,
            **kwargs,
        )
        # outputs[0] 就是所有 token 的上下文表示。
        sequence_output = outputs[0]
        # 只在任务头前做 dropout，不破坏 encoder 内部结构。
        sequence_output = self.dropout(sequence_output)
        # logits 形状是 [B, L, C]，C 是 BIO/BIOES 标签数。
        logits = self.classifier(sequence_output)
        # 没有 labels 时只返回 logits，供推理或自定义解码使用。
        loss = None
        # 训练时对每个有效 token 做交叉熵。
        if labels is not None:
            # PyTorch CrossEntropyLoss 默认忽略标签 -100。
            loss_fct = CrossEntropyLoss()
            # view(-1, C) 把 batch 和序列维展平，变成 token 级分类。
            loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))
        # TokenClassifierOutput 是 Transformers 标准返回结构。
        return TokenClassifierOutput(loss=loss, logits=logits)

Token Classification 的关键工程点是标签对齐。英文或多语模型常使用 WordPiece/BPE，一个原始词可能被切成多个 subword。官方示例通过 fast tokenizer 的

word_ids

把 subword 映射回原词，并用 $-100$ 屏蔽特殊 token 和不参与训练的子词。

# examples[text_column_name] 是按词切好的句子，例如 [["John", "lives", "in", "London"]]。
def tokenize_and_align_labels(examples):
    # is_split_into_words=True 告诉 tokenizer 输入已经是 word list。
    tokenized_inputs = tokenizer(
        examples[text_column_name],
        # padding 可选动态或 max_length，训练吞吐和显存占用会受影响。
        padding=padding,
        # 超长句子截断，避免超过 encoder 最大长度。
        truncation=True,
        # max_seq_length 要和模型、显存、实体长度分布共同决定。
        max_length=data_args.max_seq_length,
        # 保留 word 到 subword 的映射关系，这是 NER 对齐的关键。
        is_split_into_words=True,
    )
    # labels 保存 tokenized 后的标签序列。
    labels = []
    # 遍历 batch 内每个样本的原始 word 标签。
    for i, label in enumerate(examples[label_column_name]):
        # word_ids 会返回每个 subword 属于第几个原始词。
        word_ids = tokenized_inputs.word_ids(batch_index=i)
        # previous_word_idx 用来判断当前 subword 是否是同一个词的后续片段。
        previous_word_idx = None
        # label_ids 和 tokenized input 等长。
        label_ids = []
        # 逐 subword 决定训练标签。
        for word_idx in word_ids:
            # [CLS]、[SEP]、padding 等特殊 token 没有原始 word。
            if word_idx is None:
                # -100 会被 CrossEntropyLoss 自动忽略。
                label_ids.append(-100)
            # 新 word 的第一个 subword 继承原始词标签。
            elif word_idx != previous_word_idx:
                label_ids.append(label_to_id[label[word_idx]])
            # 同一个 word 的后续 subword 需要按策略处理。
            else:
                # label_all_tokens=True 时，后续 subword 也参与训练。
                if data_args.label_all_tokens:
                    # B-Xxx 后续片段应改成 I-Xxx，保持 BIO 合法性。
                    label_ids.append(b_to_i_label[label_to_id[label[word_idx]]])
                else:
                    # 常见做法是只训练第一个 subword，后续片段忽略。
                    label_ids.append(-100)
            # 更新上一个 word id，供下一轮判断边界。
            previous_word_idx = word_idx
        # 当前样本的 token 级标签写入 batch。
        labels.append(label_ids)
    # Trainer 会把 labels 传给模型 forward。
    tokenized_inputs["labels"] = labels
    # 返回可直接进入 Dataset.map 的字典。
    return tokenized_inputs

这条路线的优势是简单、生态成熟、可直接接

Trainer

、

seqeval

和模型 Hub。它的局限也很明确：逐 token 分类头没有显式建模 span 合法性，嵌套实体需要额外标签体系或换成 span/token-pair 模型；中文任务还要保证字符、词、subword 和原文 offset 的边界一致。

Boundary Head

Boundary Head 把 NER 拆成边界检测和类型判断。模型不再只输出每个 token 的 BIO 标签，而是显式预测哪些 token 是实体开始、哪些 token 是实体结束，以及某个 start-end 组合对应什么实体类型。常见结构包含三组头：start head 输出 $[B,L,C]$ 或 $[B,L]$ 起点分数，end head 输出终点分数，type head 对候选 span 分类。

这种建模特别适合 long PII。private key、JWT、证书块、长 URL、访问令牌等实体的内部 token 很长，BIO 会产生大量连续 I 标签；只要中间断掉，实体就裂开。Boundary Head 给开始和结束边界独立监督，模型可以直接学习“哪里开始”和“哪里结束”，不必靠一长串 I 标签把实体撑住。

训练时，start/end 可以使用 token 级二分类或多标签损失；type head 可以只在 gold span 或采样候选 span 上训练。若第 $i$ 个 token 是某类实体起点，则 $y^{start}_{i,c}=1$；若第 $j$ 个 token 是该实体终点，则 $y^{end}_{j,c}=1$。最直接的损失可以写成：

\[\mathcal{L}=\mathcal{L}_{start}+\mathcal{L}_{end}+\mathcal{L}_{type}\]

其中 $\mathcal{L}_{start}$ 监督起点，$\mathcal{L}_{end}$ 监督终点，$\mathcal{L}_{type}$ 监督候选 span 的实体类型。实体类型也可以放进 start/end 头里，形成每个类型一套边界分数；也可以先做类型无关边界检测，再对候选 span 做类型分类。

# Boundary Head 的最小结构：encoder 后接 start/end/type 三类头。
class BoundaryHeadNer(nn.Module):
    # hidden_size 是 encoder 输出维度，num_types 是实体类型数。
    def __init__(self, hidden_size: int, num_types: int):
        # 注册 PyTorch 模块。
        super().__init__()
        # start_head 预测每个 token 是否可作为某类实体起点。
        self.start_head = nn.Linear(hidden_size, num_types)
        # end_head 预测每个 token 是否可作为某类实体终点。
        self.end_head = nn.Linear(hidden_size, num_types)
        # type_head 对拼接后的 start/end 表示做 span 类型判断。
        self.type_head = nn.Linear(hidden_size * 2, num_types + 1)

    # hidden 形状是 [B, L, H]，来自 BERT/RoBERTa/DeBERTa 等 encoder。
    def forward(self, hidden, candidate_spans=None):
        # start_logits: [B, L, C]，C 是实体类型数。
        start_logits = self.start_head(hidden)
        # end_logits: [B, L, C]。
        end_logits = self.end_head(hidden)

        # 训练 type head 或推理确认候选时，需要显式传入候选 span。
        if candidate_spans is None:
            # 只返回边界分数，后处理阶段再组合 start/end。
            return start_logits, end_logits, None

        # candidate_spans: [B, S, 2]，每个候选包含 start 和 end。
        start_idx = candidate_spans[..., 0]
        end_idx = candidate_spans[..., 1]
        # batch_idx 确保每个样本只从自己的 hidden 中取表示。
        batch_idx = torch.arange(hidden.size(0), device=hidden.device).unsqueeze(1)
        # 取候选起点表示。
        start_repr = hidden[batch_idx, start_idx]
        # 取候选终点表示。
        end_repr = hidden[batch_idx, end_idx]
        # 拼接边界表示，交给 type head 判断实体类型或非实体。
        span_repr = torch.cat([start_repr, end_repr], dim=-1)
        # type_logits: [B, S, C+1]，额外 0 类通常表示非实体。
        type_logits = self.type_head(span_repr)
        # 返回三类输出，训练时分别接 BCE / CE。
        return start_logits, end_logits, type_logits

Boundary Head 的主要工程问题是候选组合。若每个高分 start 都和每个高分 end 配对，候选数会迅速膨胀；因此通常要加 top-k、最大长度、最小长度、同类型约束、标点/换行边界约束、重叠去重和置信度阈值。它的定位是 long PII 的模型化边界检测，尤其适合内部结构长、边界比内部 token 更关键的实体。

Span-based NER

Span-based NER 把候选实体定义成 $(start,end)$ 区间，再对每个候选区间分类。它避开了 BIO 标签序列的表达限制，能直接处理嵌套实体；代价是候选 span 数量通常为 $O(L^2)$，工程上需要最大实体长度、负例采样、mask 和高效 batch 化。

# 这个函数展示 span-based NER 的候选构造逻辑。
def build_candidate_spans(seq_len: int, max_width: int):
    # spans 保存所有合法的闭区间 [start, end]。
    spans = []
    # start 是实体起点 token index。
    for start in range(seq_len):
        # width 控制实体长度，限制 max_width 能显著降低负例数量。
        for width in range(1, max_width + 1):
            # end 是闭区间终点。
            end = start + width - 1
            # 超出句子长度的候选直接停止。
            if end >= seq_len:
                break
            # 候选 span 后续会被编码成向量并送入分类头。
            spans.append((start, end))
    # 返回的候选数量约为 seq_len * max_width。
    return spans

典型 span 表示会拼接起点向量、终点向量、池化后的内部表示和长度 embedding。分类头输出 $C+1$ 类，额外的 0 类表示“非实体”。在候选非常多时，负类远多于正类，loss 权重、hard negative mining 和候选长度上限会直接影响效果。

# hidden: [B, L, H]，spans: [B, S, 2]，S 是候选 span 数。
def span_classification_forward(hidden, spans, width_embeddings, classifier):
    # start/end index 分别取出，后续用于 gather。
    start_idx = spans[..., 0]
    end_idx = spans[..., 1]
    # batch_idx 让每个样本只在自己的 hidden 上取 span 边界。
    batch_idx = torch.arange(hidden.size(0), device=hidden.device).unsqueeze(1)
    # 起点表示 [B, S, H]。
    start_repr = hidden[batch_idx, start_idx]
    # 终点表示 [B, S, H]。
    end_repr = hidden[batch_idx, end_idx]
    # width 是实体长度，通常用于注入“人名/组织名常见长度”这类先验。
    width = end_idx - start_idx
    # width_embeddings 输出 [B, S, W]。
    width_repr = width_embeddings(width.clamp(max=width_embeddings.num_embeddings - 1))
    # 拼接边界和长度特征，形成每个候选 span 的表示。
    span_repr = torch.cat([start_repr, end_repr, width_repr], dim=-1)
    # logits 形状是 [B, S, C+1]，0 类通常表示非实体。
    logits = classifier(span_repr)
    # 解码时取非 0 类且超过阈值的 span。
    return logits

Span-based NER 的实用价值在嵌套实体和系统融合。多个模型输出的实体候选可以并入 span 候选集合，再由 span 分类器重新打分；这类路线适合把规则、词典、CRF、BERT token classifier 的候选统一到一个精排层。

Span Proposal + Span Classifier

Span Proposal + Span Classifier 是两阶段 NER。第一阶段只负责提出候选 span，第二阶段对这些 span 做类型分类或拒绝。它和普通 Span-based NER 的区别在候选空间：普通 span-based 方法通常枚举所有长度不超过上限的 $(start,end)$；proposal 路线先用规则、边界头、词典、标点边界、滑动窗口或轻量模型筛掉大部分不可能的区间，再把有限候选交给分类器。

这条路线适合 private key、JWT、证书、长 URL、访问 token、日志路径、云资源 ID 等长结构化 PII。此类实体往往有明显外形，但真实数据里也存在大量相似负例：像 JWT 的普通字符串、像密钥的随机 ID、文档里的示例 token、被截断的证书块、没有敏感参数的 URL。proposal 负责高召回地把“可疑片段”找出来，分类器负责判断它是否真是目标类型。

可以把候选生成写成集合函数：

\[\mathcal{C}(x)=\mathrm{Proposal}(x)\]

其中 $x$ 是输入文本，$\mathcal{C}(x)$ 是候选 span 集合。分类器对每个候选 $(s,e)$ 输出类型分布：

\[\hat{y}_{s,e}=\arg\max_{c\in\{0,1,\ldots,C\}}p_\theta(c\mid x,s,e)\]

这里 $s$ 是候选起点，$e$ 是候选终点，$c=0$ 通常表示非实体，$C$ 是实体类型数。训练数据必须包含 hard negative。若只喂正例和普通随机负例，模型会学成“proposal 命中就接受”，无法处理结构相似但语义错误的假阳性。

# Span proposal 的核心目标是“高召回、可控数量”。
def merge_span_proposals(regex_spans, boundary_spans, window_spans, max_candidates):
    # 用 set 去重，避免同一个候选被 regex 和 boundary head 重复提交。
    merged = set()

    # regex_spans 通常覆盖 JWT、PEM（Privacy-Enhanced Mail）块、URL 这类结构化强的候选。
    for start, end, source in regex_spans:
        # source 保留候选来源，方便后续错误分析和分源阈值。
        merged.add((start, end, source))

    # boundary_spans 来自模型边界头，能补上 regex 找不到的自然语言实体。
    for start, end, source in boundary_spans:
        # 这里假设 boundary 阶段已经做过最小长度和最大长度过滤。
        merged.add((start, end, source))

    # window_spans 用来兜底覆盖固定长度附近的结构片段。
    for start, end, source in window_spans:
        # 滑窗候选数量容易膨胀，因此通常只保留业务上高风险的长度区间。
        merged.add((start, end, source))

    # 排序让训练和推理结果稳定，避免 set 遍历顺序影响后处理。
    spans = sorted(merged, key=lambda item: (item[0], item[1], item[2]))

    # max_candidates 是推理延迟保护阈值，防止异常长日志触发候选爆炸。
    return spans[:max_candidates]


# hard negatives 应该来自“非常像实体但不是实体”的样本。
def build_hard_negative_spans(candidates, gold_spans):
    # gold_lookup 只保存边界，实际训练也可以把类型纳入匹配条件。
    gold_lookup = {(start, end) for start, end, _type in gold_spans}
    # hard_negatives 保存候选生成器命中、但标注中不存在的 span。
    hard_negatives = []

    for start, end, source in candidates:
        # proposal 命中但 gold 没有覆盖，是最有训练价值的负例。
        if (start, end) not in gold_lookup:
            # 分类器必须学习拒绝这些候选，避免把 proposal 命中直接等同于实体。
            hard_negatives.append((start, end, "O", source))

    # 返回的负例可以和 gold span 一起组成 span classifier 的训练 batch。
    return hard_negatives

这套设计的上限由 proposal recall 决定。候选阶段漏掉的实体，后面的分类器无法凭空恢复；因此 proposal 通常要宁可多给一些候选，再让分类器、阈值和后处理控制精度。评估时需要分开看三组指标：proposal recall、classifier precision/recall、最终实体级 F1。只看最终 F1 容易掩盖“候选漏召回”和“分类器误接受”这两类完全不同的问题。

Regex / Parser Proposal + 模型确认

Regex / Parser Proposal + 模型确认是 Span Proposal 的实用工程版本。第一步用复杂正则、语法解析器或专用 parser 找候选；第二步用模型确认候选类型和置信度；第三步用规则修边界、去重、合并和冲突消解。对 private key、JWT、证书、URL、数据库连接串、云密钥这类结构明显的 PII，这条路线通常比纯 token classification 更稳。

这种架构把任务拆成两个更清楚的问题。规则层解决“候选在哪里”，模型层解决“这个候选是否真的敏感”。模型的主要职责是拒绝假阳性：示例 JWT、被遮蔽的 token、普通通用唯一标识符（Universally Unique Identifier, UUID）、文档模板、单元测试 fixture、无敏感参数的 URL，都应作为负例进入训练。

import re
from urllib.parse import urlparse, parse_qs

# JWT 由三段 base64url-like 字符串组成，中间用两个点分隔。
JWT_RE = re.compile(r"\b[A-Za-z0-9_-]{20,}\.[A-Za-z0-9_-]{20,}\.[A-Za-z0-9_-]{20,}\b")

# PEM 块有明确的 BEGIN/END 边界，DOTALL 允许中间跨多行。
PEM_RE = re.compile(r"-----BEGIN [A-Z ]+-----.*?-----END [A-Z ]+-----", re.DOTALL)

# URL 先用宽松正则定位，再交给 urlparse 检查结构。
URL_RE = re.compile(r"https?://[^\s\"'<>]+")


def propose_structured_pii(text):
    # proposals 统一使用闭区间 [start, end] 和候选类型。
    proposals = []

    # JWT 的边界通常非常清楚，regex 召回质量较高。
    for match in JWT_RE.finditer(text):
        # end 使用闭区间，便于和 token span 或字符 span 对齐。
        proposals.append((match.start(), match.end() - 1, "JWT", "regex"))

    # PEM/private key/cert 更依赖多行块级边界。
    for match in PEM_RE.finditer(text):
        # 多行实体不适合靠 BIO 的连续 I 标签维持边界。
        proposals.append((match.start(), match.end() - 1, "PEM_BLOCK", "parser"))

    # URL 候选需要进一步解析 query、path 和 host。
    for match in URL_RE.finditer(text):
        # urlparse 能过滤一部分正则误捕获的非法 URL。
        parsed = urlparse(match.group(0))
        # 没有 scheme 或 host 的片段不进入模型确认阶段。
        if not parsed.scheme or not parsed.netloc:
            continue
        # query 中出现 token/key/secret 等字段时，风险更高。
        query = parse_qs(parsed.query)
        # has_secret_query 是给模型的辅助特征，也可用于分层阈值。
        has_secret_query = any(k.lower() in {"token", "key", "secret", "sig"} for k in query)
        # metadata 保存规则侧证据，模型确认时可拼成特征。
        metadata = {"has_secret_query": has_secret_query, "host": parsed.netloc}
        # URL 仍要经过模型确认，因为普通文档链接不一定是 PII。
        proposals.append((match.start(), match.end() - 1, "URL", "parser", metadata))

    # 返回候选后，模型负责确认类型、置信度和是否保留。
    return proposals

模型确认阶段可以复用 span classifier。输入不只包含 span 的上下文表示，还可以包含 proposal 来源、正则类型、字符长度、是否跨行、URL host、query key、PEM block 类型等手工特征。这些特征不替代模型判断，但能帮助模型把“结构相似”和“真实敏感”区分开。

# confirmed_candidates 是最终进入业务结果的实体列表。
def confirm_candidates(text, candidates, encoder, span_classifier, thresholds):
    # encoder 把原文或切片转成上下文表示；真实系统需要处理超长文本分块。
    hidden = encoder(text)
    # results 保存模型确认后的实体。
    results = []

    for candidate in candidates:
        # 前三个字段是字符级边界和候选类型。
        start, end, proposal_type = candidate[:3]
        # source 记录候选来源，便于后续按 regex/parser/boundary 分析误报。
        source = candidate[3]

        # span_classifier 应把字符 span 对齐到 token span，再输出类型概率。
        probs = span_classifier(hidden, start=start, end=end, proposal_type=proposal_type)
        # best_type 是模型认为最可信的实体类型。
        best_type = probs.argmax()
        # confidence 是该类型的概率或校准后分数。
        confidence = probs[best_type].item()
        # 不同类型可以使用不同阈值；private key 通常宁可高召回，普通 URL 要更保守。
        threshold = thresholds.get(best_type, 0.5)

        # 低置信度候选被拒绝，避免 regex 命中直接变成实体。
        if confidence < threshold:
            continue

        # 修边界阶段去掉首尾引号、逗号、右括号等常见粘连字符。
        fixed_start, fixed_end = trim_punctuation(text, start, end)
        # 结果保留 source，方便线上回溯是规则命中还是模型边界命中。
        results.append((fixed_start, fixed_end, best_type, confidence, source))

    # resolve_overlaps 负责处理重叠实体，通常保留高置信度或更长的结构化 PII。
    return resolve_overlaps(results)

这条路线的维护成本在 parser 和数据。结构化 PII 类型变化快，正则需要版本化；模型训练必须持续加入线上误报样本作为 hard negatives；评估集也要保留“长得像但不是”的负例。它的收益同样明确：对超长结构化实体，规则给出高召回边界，模型把精度拉回来，后处理保证边界可解释。

Semi-CRF / Segmental CRF

半马尔可夫条件随机场（Semi-Markov Conditional Random Field, Semi-CRF），也常称为 Segmental CRF，把输出单位从 token 标签改成 segment/span。线性链 CRF 给每个 token 分配一个 BIO/BIOES 标签；Semi-CRF 直接把句子切成若干片段，并给每个片段分配标签。片段可以是实体，也可以是非实体背景。

一条 segment 路径可以写成 $z=\{(s_m,e_m,c_m)\}_{m=1}^{M}$。其中 $m$ 是第几个片段，$s_m$ 是片段起点，$e_m$ 是片段终点，$c_m$ 是片段标签。模型给整条 segment 路径打分：

\[\mathrm{score}(x,z)=\sum_{m=1}^{M}\psi_\theta(x,s_m,e_m,c_m)+\sum_{m=2}^{M}A_{c_{m-1},c_m}\]

这里 $\psi_\theta(x,s_m,e_m,c_m)$ 是模型对第 $m$ 个片段的局部分数，可以包含起止边界表示、片段内部池化、长度特征、字符模式和规则特征；$A_{c_{m-1},c_m}$ 是相邻片段标签转移分数。条件概率仍然是 CRF 的形式：

\[p(z\mid x)=\frac{\exp(\mathrm{score}(x,z))}{\sum_{z'}\exp(\mathrm{score}(x,z'))}\]

Semi-CRF 的优势来自片段级建模。模型可以把整个 private key、组织名、医学术语或法律条款作为一个单位打分，不需要让每个内部 token 都输出 I 标签。它也能把 span 长度、字符形状、是否跨行、是否匹配 parser 等特征放进同一个片段分数里。

# segment_scores[t, w, c] 表示“以 t 为终点、长度为 w+1、类型为 c”的片段分数。
# transition[c_prev, c] 表示前一个片段类型到当前片段类型的转移分数。
def semi_crf_forward(segment_scores, transition, max_width):
    # T 是 token 数，K 是最大 segment 长度，C 是片段标签数。
    T, K, C = segment_scores.shape
    # alpha[t, c] 表示覆盖到 token t，且最后一个片段类型为 c 的所有路径总分。
    alpha = segment_scores.new_full((T, C), float("-inf"))

    # 初始化第一个片段：它必须从句首开始并结束在 end。
    for end in range(T):
        # width_idx 是长度减 1，便于从 segment_scores 取值。
        width_idx = end
        # 初始片段长度不能超过 max_width。
        if width_idx >= max_width:
            break
        # 从 0 到 end 的片段不需要接前一个片段转移。
        alpha[end] = torch.logaddexp(alpha[end], segment_scores[end, width_idx])

    # 动态规划枚举当前片段终点。
    for end in range(T):
        # width 控制当前片段长度，真实实现通常从 1 到 max_width。
        for width in range(1, max_width + 1):
            # start 是当前片段起点。
            start = end - width + 1
            # start 小于 0 时，这个片段越过句首。
            if start < 0:
                continue
            # 当前片段的长度索引是 width - 1。
            local_score = segment_scores[end, width - 1]
            # start 等于 0 的情况已经由初始化覆盖。
            if start == 0:
                continue
            # prev_alpha 是前一个片段结束在 start-1 的路径分数。
            prev_alpha = alpha[start - 1]
            # [C_prev, C]：所有前一类型转到当前类型的候选路径。
            candidate = prev_alpha.unsqueeze(1) + transition + local_score.unsqueeze(0)
            # 对前一类型做 logsumexp，得到当前片段类型下的总路径分数。
            merged = torch.logsumexp(candidate, dim=0)
            # 同一个 end/type 可能由不同 width 到达，需要继续 logaddexp 合并。
            alpha[end] = torch.logaddexp(alpha[end], merged)

    # 对最后一个片段类型求 logsumexp，得到所有 segment 路径的配分函数。
    return torch.logsumexp(alpha[T - 1], dim=0)

这段伪代码展示的是 Semi-CRF 的计算代价来源：每个终点要枚举最多 $K$ 种片段长度，还要处理标签转移。若序列长度为 $L$，最大片段长度为 $K$，标签数为 $C$，带显式转移的实现通常会出现 $L\times K\times C^2$ 级别的计算或内存压力；去掉部分转移或做向量化后可以降低常数，但复杂度仍明显高于普通 token classifier。

Semi-CRF 的定位很清楚：理论上优雅，适合需要全局归一化、片段级特征和标签转移约束的 NER；工程上要付出实现、训练速度和最大片段长度选择的成本。对 private key、JWT、cert、long URL 这类可能极长的结构化 PII，Semi-CRF 的最大长度上限可能成为硬限制；Regex / Parser Proposal + 模型确认通常更容易落地。对长度可控、片段特征重要、需要全局路径一致性的任务，Semi-CRF 仍值得作为高级基线。

Biaffine NER

Biaffine NER 把实体边界建模成两个位置之间的成对打分。编码器先产生每个 token 的表示，再把每个位置投影成 start role 和 end role，最后用双仿射函数为 $(i,j)$ 打分。它和依存句法里的 Biaffine Parser 同源，区别在于这里的 token pair 表示实体区间，而句法分析里表示 head-dependent 弧。

\[s_{i,j,c}=h_i^\top U_c h_j+W_c[h_i;h_j]+b_c\]

其中 $h_i$ 是候选起点表示， $h_j$ 是候选终点表示， $U_c$ 是类别 $c$ 的双线性权重， $W_c$ 和 $b_c$ 提供仿射修正。

# 这个 Biaffine 层来自 W2NER 源码中的通用双仿射打分结构。
class Biaffine(nn.Module):
    # n_in 是输入表示维度，n_out 是输出类别数。
    def __init__(self, n_in, n_out=1, bias_x=True, bias_y=True):
        # 注册模块状态。
        super(Biaffine, self).__init__()
        # 保存输入维度，便于 extra_repr 和权重 shape 构造。
        self.n_in = n_in
        # 每个输出通道对应一个实体类型或关系类型。
        self.n_out = n_out
        # bias_x 为起点表示补一个常数 1，用来表达仿射项。
        self.bias_x = bias_x
        # bias_y 为终点表示补一个常数 1，用来表达仿射项。
        self.bias_y = bias_y
        # 权重形状是 [C, H+1, H+1]，每个类别一张 pairwise 打分矩阵。
        weight = torch.zeros((n_out, n_in + int(bias_x), n_in + int(bias_y)))
        # Xavier 初始化适合这类双线性权重，避免初始分数方差过大。
        nn.init.xavier_normal_(weight)
        # 注册为可训练参数。
        self.weight = nn.Parameter(weight, requires_grad=True)

    # x/y 通常分别是 start/end 角色表示，形状都是 [B, L, H]。
    def forward(self, x, y):
        # 给 x 追加常数 1，使模型能学习起点侧偏置。
        if self.bias_x:
            x = torch.cat((x, torch.ones_like(x[..., :1])), -1)
        # 给 y 追加常数 1，使模型能学习终点侧偏置。
        if self.bias_y:
            y = torch.cat((y, torch.ones_like(y[..., :1])), -1)
        # einsum 计算所有 token pair、所有类别的双仿射分数。
        s = torch.einsum("bxi,oij,byj->boxy", x, self.weight, y)
        # 转成 [B, L, L, C]，更适合后续和 span 标签矩阵对齐。
        s = s.permute(0, 2, 3, 1)
        # 返回每个起点、终点、类别的分数。
        return s

Biaffine NER 与 GlobalPointer 都会产出 token-pair 矩阵。Biaffine 更强调 start/end 两个角色的双线性交互；GlobalPointer 更强调 query/key 点积、RoPE 位置编码和多标签 span loss。实际选型时，Biaffine 适合需要和依存句法、关系抽取共享 pairwise head 的系统；GlobalPointer 更适合中文嵌套实体、医疗实体等 span 密集场景。

GlobalPointer

Efficient GlobalPointer：span 矩阵与 RoPE

Efficient GlobalPointer 的源码把实体识别建模成 token-pair 打分。给定 encoder 输出 $[B,L,H]$，模型产出 $[B,C,L,L]$，其中 $C$ 是实体类型数，矩阵位置 $(i,j)$ 表示从 token $i$ 到 token $j$ 是否构成该类实体。

# Efficient GlobalPointer 保留 encoder，替换掉 BIO 分类头。
class EffiGlobalPointer(nn.Module):
    # encoder 通常是 BERT/RoBERTa，ent_type_size 是实体类型数，inner_dim 是 span 打分维度。
    def __init__(self, encoder, ent_type_size: int, inner_dim: int, RoPE: bool = True):
        # 初始化 nn.Module 基类。
        super().__init__()
        # 保存文本 encoder，它负责输出 [B, L, H]。
        self.encoder = encoder
        # 实体类型数决定最终 logits 的 C 维。
        self.ent_type_size = ent_type_size
        # inner_dim 是 query/key 的内部维度。
        self.inner_dim = inner_dim
        # hidden_size 从 encoder config 读取，避免手工写死。
        self.hidden_size = encoder.config.hidden_size
        # RoPE 控制是否把位置信息旋转进 query/key。
        self.RoPE = RoPE
        # dense_1 只产生一组共享 qw/kw，参数量少于每个实体类型单独投影。
        self.dense_1 = nn.Linear(self.hidden_size, self.inner_dim * 2)
        # dense_2 给每个实体类型产生 start/end bias。
        self.dense_2 = nn.Linear(self.hidden_size, self.ent_type_size * 2)

Efficient 版本的关键优化是共享 token-pair 主打分，再用每个实体类型的 start/end bias 区分类型。这样比原始 GlobalPointer 的 $C$ 组 query/key 投影更省参数。

# input_ids、attention_mask、token_type_ids 直接来自 tokenizer batch。
def forward(self, input_ids, attention_mask, token_type_ids):
    # 记录当前设备，位置编码和 mask 都要放在同一设备。
    self.device = input_ids.device
    # encoder 输出包含 last_hidden_state。
    context_outputs = self.encoder(input_ids, attention_mask, token_type_ids)
    # last_hidden_state 形状是 [B, L, H]。
    last_hidden_state = context_outputs.last_hidden_state
    # dense_1 输出 [B, L, 2D]，交错拆成 qw 和 kw。
    outputs = self.dense_1(last_hidden_state)
    # qw 取偶数位，形状 [B, L, D]。
    qw = outputs[..., ::2]
    # kw 取奇数位，形状 [B, L, D]。
    kw = outputs[..., 1::2]
    # RoPE 把相对位置信息注入 query/key，使 span 边界对位置敏感。
    if self.RoPE:
        # pos 形状是 [B, L, D]，由 sin/cos 位置编码生成。
        pos = SinusoidalPositionEmbedding(self.inner_dim, "zero")(outputs)
        # cos_pos 取 cos 通道并扩展到偶奇维对齐。
        cos_pos = pos[..., 1::2].repeat_interleave(2, dim=-1)
        # sin_pos 取 sin 通道并扩展到偶奇维对齐。
        sin_pos = pos[..., ::2].repeat_interleave(2, dim=-1)
        # qw2 是 qw 的旋转副本，对应二维旋转中的 [-y, x]。
        qw2 = torch.stack([-qw[..., 1::2], qw[..., ::2]], 3)
        # reshape 回 [B, L, D]，便于和 qw 逐元素组合。
        qw2 = torch.reshape(qw2, qw.shape)
        # RoPE 旋转后的 qw。
        qw = qw * cos_pos + qw2 * sin_pos
        # kw2 是 kw 的旋转副本。
        kw2 = torch.stack([-kw[..., 1::2], kw[..., ::2]], 3)
        # reshape 回 [B, L, D]。
        kw2 = torch.reshape(kw2, kw.shape)
        # RoPE 旋转后的 kw。
        kw = kw * cos_pos + kw2 * sin_pos
    # 主 token-pair 打分，输出 [B, L, L]。
    logits = torch.einsum("bmd,bnd->bmn", qw, kw)
    # 除以 sqrt(D) 控制点积方差，避免 logits 过大。
    logits = logits / self.inner_dim ** 0.5
    # dense_2 输出 [B, L, 2C]，再转成 [B, 2C, L]。
    bias = torch.einsum("bnh->bhn", self.dense_2(last_hidden_state)) / 2
    # 偶数通道作为 start bias，奇数通道作为 end bias。
    logits = logits[:, None] + bias[:, ::2, None] + bias[:, 1::2, :, None]
    # padding 和下三角区域都要屏蔽掉。
    logits = self.add_mask_tril(logits, mask=attention_mask)
    # 返回 [B, C, L, L]。
    return logits

add_mask_tril

是 GlobalPointer 工程实现里最容易漏掉的部分。padding token 不能参与 span，且实体的终点不能早于起点；这两个约束都通过大负数 mask 直接压到 logits 上。

# logits: [B, C, L, L]，attention_mask: [B, L]。
def add_mask_tril(logits, attention_mask):
    # mask dtype 要和 logits 一致，避免混合精度下隐式类型问题。
    if attention_mask.dtype != logits.dtype:
        # attention_mask 从 bool/int 转成 float/bfloat16。
        attention_mask = attention_mask.type(logits.dtype)
    # start 维度 mask：起点落在 padding 上的 span 直接无效。
    start_mask = attention_mask[:, None, :, None]
    # end 维度 mask：终点落在 padding 上的 span 直接无效。
    end_mask = attention_mask[:, None, None, :]
    # 两个维度任一无效，logit 减去极大值，sigmoid 后近似 0。
    logits = logits * start_mask * end_mask - (1 - start_mask * end_mask) * 1e12
    # 下三角表示 end < start，这类区间没有实体语义。
    lower_triangle = torch.tril(torch.ones_like(logits), diagonal=-1)
    # 将非法反向 span 的分数压到极小。
    logits = logits - lower_triangle * 1e12
    # 返回已经带结构约束的 span logits。
    return logits

GlobalPointer 的标签也是 $[B,C,L,L]$。正例 span 置为 1，所有其它合法 span 是负例。训练常用多标签交叉熵；softmax 只适合互斥类别，而同一文本里可以同时存在多个实体、多个类型、甚至嵌套实体。它的创新空间主要在 span 层：实体长度先验、类别相关阈值、边界对比学习、span hard negative mining、嵌套实体优化，都可以直接落到 $[B,C,L,L]$ 分数矩阵上。

# y_pred 和 y_true 都会被展平成 [B*C, L*L]。
def multilabel_categorical_crossentropy(y_true, y_pred):
    # 正例位置乘 -1，负例位置乘 1，统一成“希望越小越好”的形式。
    y_pred = (1 - 2 * y_true) * y_pred
    # 正例位置从负类 logsumexp 里屏蔽掉。
    y_pred_neg = y_pred - y_true * 1e12
    # 负例位置从正类 logsumexp 里屏蔽掉。
    y_pred_pos = y_pred - (1 - y_true) * 1e12
    # 拼一个 0，保证没有正例或没有负例时 logsumexp 仍稳定。
    zeros = torch.zeros_like(y_pred[..., :1])
    # 负类候选集合追加稳定项。
    y_pred_neg = torch.cat([y_pred_neg, zeros], dim=-1)
    # 正类候选集合追加稳定项。
    y_pred_pos = torch.cat([y_pred_pos, zeros], dim=-1)
    # 对所有负类候选做 logsumexp。
    neg_loss = torch.logsumexp(y_pred_neg, dim=-1)
    # 对所有正类候选做 logsumexp。
    pos_loss = torch.logsumexp(y_pred_pos, dim=-1)
    # 正负两部分相加，再对 batch/entity 类型求平均。
    return (neg_loss + pos_loss).mean()

解码：从矩阵位置还原实体

解码阶段很直接：在 $[B,C,L,L]$ 中找大于阈值的位置，每个位置就是一个实体候选。工程上要把 token span 映射回原文字符区间，并处理特殊 token、子词边界和阈值。

# logits 是模型输出，threshold 通常从验证集调出来。
def decode_global_pointer(logits: torch.Tensor, threshold: float = 0.0):
    # torch.where 返回所有大于阈值的位置索引。
    batch_ids, label_ids, starts, ends = torch.where(logits > threshold)
    # entities 保存结构化候选，后续再映射到字符级 span。
    entities = []
    # zip 前先转 list，减少后续逐个 tensor.item() 的写法。
    for b, c, s, e in zip(batch_ids.tolist(), label_ids.tolist(), starts.tolist(), ends.tolist()):
        # start/end 是 token 级闭区间，是否转成字符区间取决于 tokenizer offset_mapping。
        entities.append({
            # batch 内第几个样本。
            "batch": b,
            # 预测到的实体类型 id。
            "label_id": c,
            # 实体起点 token index。
            "start": s,
            # 实体终点 token index。
            "end": e,
        })
    # 返回候选列表，业务侧可继续做阈值、去重或映射。
    return entities

W2NER

W2NER 把命名实体识别建模为词对关系分类。设句子长度为 $L$，模型输出 $[B,L,L,C]$，其中每个位置 $(i,j)$ 表示第 $i$ 个词和第 $j$ 个词之间的关系类型。源码里的标签语义分成三类：0 表示无关系或 padding，1 表示 NNW（Next-Neighboring-Word），用于连接实体内部相邻词；大于 1 的标签表示 THW（Tail-Head-Word）并携带实体类型，即实体 tail 指向实体 head。

这个表示把实体拆成“内部链路 + 类型闭环”。连续实体是一条连续链；嵌套实体可以共享局部 token；不连续实体可以通过非连续 token index 链恢复。W2NER 因此适合复杂实体结构，但 $L\times L$ 网格会带来二次复杂度，长文本显存和解码成本都高于 token classification。

张量	形状	说明
bert_inputs	[B,L']	BERT subword token id，含特殊 token。
pieces2word	[B,L,L']	word 到 subword 的布尔对齐矩阵，用于把 subword hidden state 池化回词级表示。
grid_labels	[B,L,L]	每个词对的关系标签，是 W2NER 的监督核心。
dist_inputs	[B,L,L]	词对距离桶，给二维网格注入相对位置线索。
outputs	[B,L,L,C]	每个有效词对的多类关系 logits。

# 精简自 W2NER 的 data_loader.py::process_bert。
_grid_labels = np.zeros((length, length), dtype=np.int)
# 每个词对默认无关系；实体链路和实体类型会写入这个二维矩阵。

_pieces2word = np.zeros((length, len(_bert_inputs)), dtype=np.bool)
# 记录 word 到 BERT subword 的对齐关系，后续把 subword 表示聚合成 word 表示。

_dist_inputs = np.zeros((length, length), dtype=np.int)
# 词对距离会被离散成桶，帮助模型区分近邻、远距离和方向。

_grid_mask2d = np.ones((length, length), dtype=np.bool)
# 真实词对区域为 1，padding 词对不会进入训练 loss。

_pieces2word[i, pieces[0] + 1:pieces[-1] + 2] = 1
# BERT 输入前面有 CLS，所以 subword 位置整体右移一位。

_dist_inputs[k, :] += k
# 先写入第 k 个词相对所有列词的位置基准。

_dist_inputs[:, k] -= k
# 再得到有方向的 i-j 距离，左侧词和右侧词会落入不同桶。

_dist_inputs[i, j] = dis2idx[_dist_inputs[i, j]]
# 距离离散化能控制位置特征规模，避免长距离值过稀疏。

_grid_labels[index[i], index[i + 1]] = 1
# 实体内部相邻 token 写入 NNW 关系，用来恢复实体 token 链。

_grid_labels[index[-1], index[0]] = vocab.label_to_id(entity["type"])
# tail 指向 head 的 THW 边承载实体类型，也标识一条实体链闭合。

模型前向分成五步。BERT 先产生 subword 表示；

pieces2word

做 max pooling 得到 word 表示；BiLSTM 继续编码词序列；条件 LayerNorm 把每个词对扩成 pair representation；距离 embedding、区域 embedding 和 pair representation 拼接后进入膨胀卷积；最后由 biaffine 分数和 CNN 分数相加得到词对关系 logits。

# 精简自 W2NER 的 model.py::Model.forward。
bert_embs = self.bert(input_ids=bert_inputs, attention_mask=bert_inputs.ne(0).float())
# 预训练 encoder 输出 subword 级上下文表示。

bert_embs = torch.stack(bert_embs[2][-4:], dim=-1).mean(-1)
# 融合最后四层，兼顾语义、边界和局部结构信息。

_bert_embs = bert_embs.unsqueeze(1).expand(-1, length, -1, -1)
# 为每个 word 槽位复制一份 subword 表示，准备按 pieces2word 选择对应片段。

_bert_embs = torch.masked_fill(_bert_embs, pieces2word.eq(0).unsqueeze(-1), min_value)
# 不属于当前 word 的 subword 被压成极小值，避免 max pooling 取到错误片段。

word_reps, _ = torch.max(_bert_embs, dim=2)
# word 表示由所属 subword 表示池化得到，形状变成 [B,L,H]。

packed_embs = pack_padded_sequence(word_reps, sent_length.cpu(), batch_first=True, enforce_sorted=False)
# pack 后 BiLSTM 不会在 padding 词上推进状态。

packed_outs, _ = self.encoder(packed_embs)
# BiLSTM 进一步编码 word 级序列上下文。

word_reps, _ = pad_packed_sequence(packed_outs, batch_first=True, total_length=sent_length.max())
# 还原成 batch 张量，后续二维网格需要统一长度。

cln = self.cln(word_reps.unsqueeze(2), word_reps)
# 条件 LayerNorm 以一个词表示为条件，构造每个词对的 pair 表示。

dis_emb = self.dis_embs(dist_inputs)
# 距离 embedding 提供相对位置归纳偏置。

reg_emb = self.reg_embs(reg_inputs)
# 区域 embedding 区分上三角、下三角和有效区域。

conv_inputs = torch.cat([dis_emb, reg_emb, cln], dim=-1)
# 二维卷积输入同时包含位置、方向和语义 pair 信息。

conv_outputs = self.convLayer(conv_inputs)
# 膨胀卷积在 L×L 网格上聚合局部结构，捕捉实体链几何模式。

outputs = self.predictor(word_reps, word_reps, conv_outputs)
# biaffine 负责词对全局交互，CNN 特征补充局部网格模式。

训练阶段只在有效词对上计算交叉熵：

loss = criterion(outputs[grid_mask2d], grid_labels[grid_mask2d])
# outputs[grid_mask2d] 是 [N,C]，grid_labels[grid_mask2d] 是 [N]。
# N 是 batch 内有效词对数量；padding 区域和无效区域不贡献梯度。

解码阶段先找 THW 边确定实体 head、tail 和类型，再沿 NNW 边从 head 搜索到 tail，恢复实体 token index 序列。单 token 实体可由 head 等于 tail 的 THW 边直接输出。W2NER 的创新空间主要在网格关系层：关系标签设计、局部关系纠错、图搜索约束、长文本切分和不连续实体后处理都会直接影响最终实体级 F1。

UIE

UIE（Universal Information Extraction）把 NER、关系抽取和事件抽取统一成 prompt-conditioned span extraction。PaddleNLP 的经典 UIE 输入形式是 $[\mathrm{CLS}]\ \mathrm{prompt}\ [\mathrm{SEP}]\ \mathrm{content}\ [\mathrm{SEP}]$。模型输出两个位置概率向量：

start_prob

和

end_prob

。一个 schema 节点对应一个 prompt，答案 span 来自原文。

训练数据使用统一格式：

content

是原文，

prompt

是抽取字段，

result_list

是该 prompt 下的答案 span。

convert_example

通过 tokenizer offset mapping 把字符级标注映射到 token 级

start_positions

和

end_positions

。loss 是起点 BCE 和终点 BCE 的平均值，因此同一个 prompt 下可以有多个答案。

# 精简自 PaddleNLP UIE Taskflow 的单阶段预测流程。
encoded_inputs = tokenizer(
    text=[example["prompt"]],
    # text_pair 是被抽取的正文，prompt 与正文共同进入 encoder。
    text_pair=[example["text"]],
    # offset_mapping 是 token span 回到字符 span 的关键。
    return_offsets_mapping=True,
)

start_prob, end_prob = predictor.run(None, input_dict)
# UIE 头输出两个 [B,S] 概率向量，分别表示每个 token 做起点/终点的概率。

start_ids_list = get_bool_ids_greater_than(
    start_prob,
    # 阈值越低召回越高，误报也越多。
    limit=position_prob,
    # 返回概率，后续用来计算 span 置信度。
    return_prob=True,
)

end_ids_list = get_bool_ids_greater_than(
    end_prob,
    # 终点独立筛选，允许一个 prompt 下出现多个答案。
    limit=position_prob,
    return_prob=True,
)

span_set = get_span(start_ids, end_ids, with_prob=True)
# 将候选起点和终点配对成 span，形式接近抽取式问答。

sentence_id, prob = get_id_and_prob(span_set, offset_map)
# token 级 span 通过 offset map 转回原文字符区间。

prob.append(start[1] * end[1])
# span 置信度常用起点概率与终点概率相乘。

results = convert_ids_to_results(short_inputs, sentence_ids, probs)
# 输出包含 text、start、end、probability 的业务结果。

results = auto_joiner(results, short_input_texts, input_mapping)
# 长文本切片后，需要把局部 offset 修正回原文坐标。

多阶段 UIE 把 schema 组织成树。第一层 prompt 抽主实体、事件触发词或根字段；子节点会用父节点文本构造新 prompt，例如中文关系 prompt 可以写成“父实体文本 + 的 + 子属性名”，英文关系 prompt 可以写成“子属性名 + of + 父实体文本”。这让同一个 start/end 模型支持 NER、属性抽取、关系抽取和事件论元抽取。

UIE 的工程优势是 schema 变化成本低、输出来自原文、阈值和错误定位直观。复杂 schema 会带来推理次数膨胀；start/end 独立打分对复杂嵌套、多答案配对和跨句关系表达有限。它适合中文业务抽取、表单字段抽取和中等复杂度的信息抽取系统。

GoLLIE

GoLLIE 代表 guideline-following LLM information extraction 路线。它把 schema 写成 Python dataclass，把实体定义、字段约束和标注指南写进 docstring 与字段注释。输入里包含 label guideline、原文

text = "..."

，以及

result = [

开头；模型续写 Python annotation 对象列表。NER 中，每个实体类型对应一个类，每个预测实体对应一个类实例。

# 精简自 GoLLIE 的 prompt/result 训练思想。
model_inputs = tokenizer(
    text=example,
    # 完整 prompt+result 可能很长，需要显式截断。
    max_length=max_length,
    truncation=True,
    padding=False,
    add_special_tokens=True,
)

model_inputs["labels"] = model_inputs["input_ids"].copy()
# decoder-only 训练预测下一个 token，结构约束来自 prompt 格式和样本分布。

prompt = example.split("result =")[0] + "result ="
# prompt 区域包含 guideline、原文和结果开头，结果区域才是主要监督对象。

loss_weight_mask = np.ones(len(model_inputs["labels"]), dtype=np.float32)
# 默认所有 token 都有损失权重。

for i in range(prompt_token_count):
    loss_weight_mask[i] = prompt_token_weight
    # prompt token 被降权，模型仍学习读懂指南，但主要梯度落在 annotation 生成上。

GoLLIE 的灵活性来自自然语言指南和类型系统。新实体类型可以通过 dataclass 和注释加入，不需要固定分类头；复杂标注规范可以直接写进 prompt。工程风险也集中在生成式输出：解析失败、未知类名、span 幻觉、实体文本不在原文、延迟和成本都需要治理。它适合 schema 探索、弱标注生成、低吞吐高灵活抽取，不适合直接替代高并发闭集 NER 服务。

GLiNER

GLiNER（Generalist model for Named Entity Recognition）把实体类型写成标签文本，并在推理时把目标标签集合传给模型。传统 token classification 的类别空间固定在训练时；GLiNER 的类别空间由当前输入的

labels

决定，因此适合开放标签、跨领域迁移和快速扩类。官方源码主入口是

gliner/model.py

，常见 NER 路线是

UniEncoderSpanGLiNER

：文本和标签提示由同一个 encoder 编码，候选 span 表示与标签表示做匹配。

安装与 QuickStart

from gliner import GLiNER

# 从 Hugging Face Hub 加载官方 checkpoint。
model = GLiNER.from_pretrained("urchade/gliner_medium-v2.1")

# 原始文本不需要预先写死实体类型。
text = "Cristiano Ronaldo won five Ballon d'Or awards."

# labels 是本次推理的实体类型集合，也就是运行时类别空间。
labels = ["person", "award"]

# threshold 控制 span-label 候选过滤，通常需要在验证集上调。
entities = model.predict_entities(text, labels, threshold=0.5)

# 返回结果包含字符级 start/end、实体文本、标签和置信度。
for entity in entities:
    print(entity["text"], entity["label"], entity["score"])

predict_entities

是单样本包装，内部仍走 batch 推理路径：分词、构造标签提示、collate 成张量、模型前向、decoder 阈值过滤，再把 token span 映射回原文字符区间。训练依赖可通过

pip install gliner[training]

安装；训练数据至少包含

tokenized_text

和

ner

，其中

ner

是

[start_idx, end_idx, entity_type]

三元组列表。

标签文本条件下的 span 分类

GLiNER 官方源码是一组可切换架构，覆盖 uni-encoder、bi-encoder、span/token、decoder、relation extraction、ONNX 路线。NER 精读最重要的路径是 span 模型：文本 encoder 产出 token/word 表示，span representation layer 产出候选 span 表示，label encoder 或 prompt representation 产出标签表示，最后用 $\mathrm{einsum}$ 做 span-label 匹配。

GLiNER 的创新空间主要在标签语义层。标签描述生成、同义标签融合、跨语言 label 对齐、领域标签 prompt search，都能在不改固定分类头的情况下尝试。它也适合作为开放类别召回器，再接 GlobalPointer 或 CRF 做领域精排和约束解码，把开放类别召回能力和垂直领域精度结合起来。

# predict_entities 是单条文本入口，本质上转发到 inference。
def predict_entities(
    self,
    text: str,
    labels: list[str],
    flat_ner: bool = True,
    threshold: float = 0.5,
    multi_label: bool = False,
    return_class_probs: bool = False,
    **kwargs,
):
    # text 被包装成长度为 1 的 batch。
    batch_texts = [text]
    # labels 是运行时输入，决定这一轮要抽取哪些实体类型。
    batch_labels = labels
    # inference 负责预处理、模型前向、sigmoid、decode 和后处理。
    predictions = self.inference(
        batch_texts,
        batch_labels,
        flat_ner=flat_ner,
        threshold=threshold,
        multi_label=multi_label,
        return_class_probs=return_class_probs,
        **kwargs,
    )
    # 单条输入只返回第 0 个样本的实体列表。
    return predictions[0]

GLiNER 的 span 前向可以压缩成下面这条路径。源码中的

UniEncoderSpanModel.forward

会先拿到文本与标签表示，再构造候选 span 表示，最后计算 $[B,L,K,C]$ 分数，其中 $K$ 是最大 span 宽度。

# 这是 GLiNER span 模型 forward 的核心路径抽象。
def gliner_span_forward(
    self,
    input_ids,
    attention_mask,
    words_mask,
    text_lengths,
    span_idx,
    span_mask,
    labels=None,
    **kwargs,
):
    # get_representations 返回标签 prompt 表示、文本 word 表示和对应 mask。
    prompts_embedding, prompts_mask, words_embedding, word_mask = self.get_representations(
        input_ids,
        attention_mask,
        text_lengths,
        words_mask,
        **kwargs,
    )
    # span_idx 的第二维通常是 L*K，因此可以反推出当前 batch 的 word 长度。
    target_words = span_idx.size(1) // self.config.max_width
    # 文本表示被 pad/truncate 到和 span_idx 一致的长度。
    words_embedding, word_mask = self._fit_length(words_embedding, word_mask, target_words)
    # 无效 span 的 start/end index 置 0，避免 gather 越界或读到无意义位置。
    span_idx = span_idx * span_mask.unsqueeze(-1)
    # span_rep 形状是 [B, L, K, H]。
    span_rep = self.span_rep_layer(words_embedding, span_idx)
    # 标签数以 prompt embedding 为准；训练时还要兼容 labels 的最后一维。
    target_classes = prompts_embedding.size(1)
    # 如果 labels 更宽，说明 batch 内 label padding 更长。
    if labels is not None:
        # 取两者最大值，保证 logits 和 labels 能对齐。
        target_classes = max(target_classes, labels.size(-1))
    # prompt 表示被 pad/truncate 到 target_classes。
    prompts_embedding, prompts_mask = self._fit_length(prompts_embedding, prompts_mask, target_classes)
    # prompt_rep_layer 对标签表示再投影，得到用于匹配的 label embedding。
    prompts_embedding = self.prompt_rep_layer(prompts_embedding)
    # scores 形状是 [B, L, K, C]，每个 span 对每个 label 都有一个分数。
    scores = torch.einsum("BLKD,BCD->BLKC", span_rep, prompts_embedding)
    # 没有 labels 时就是纯推理前向。
    loss = None
    # 有 labels 时计算多标签 span classification loss。
    if labels is not None:
        # loss 内部会结合 prompts_mask 和 span_mask 屏蔽无效标签/无效 span。
        loss = self.loss(scores, labels, prompts_mask, span_mask, **kwargs)
    # 返回 logits/loss 以及中间表示，便于训练和推理复用。
    return GLiNERBaseOutput(logits=scores, loss=loss)

GLiNER 的 scorer 路线还可以用 token-label 交互理解：token 表示和 label 表示分别投影，再拼接 token、label、逐元素乘积，最后用 MLP 输出 start/end/score 等分数。

# Scorer 计算 token 与 label 的兼容性。
class Scorer(nn.Module):
    # hidden_size 是 token/label 表示维度。
    def __init__(self, hidden_size: int, dropout: float = 0.1):
        # 初始化 nn.Module 基类。
        super().__init__()
        # token 投影到 2H，后面拆成两组特征。
        self.proj_token = nn.Linear(hidden_size, hidden_size * 2)
        # label 同样投影到 2H，保证和 token 可交互。
        self.proj_label = nn.Linear(hidden_size, hidden_size * 2)
        # MLP 输入是 token、label、token*label 三部分拼接。
        self.out_mlp = nn.Sequential(
            # 3H 到 4H，先扩大表达能力。
            nn.Linear(hidden_size * 3, hidden_size * 4),
            # dropout 缓和过拟合。
            nn.Dropout(dropout),
            # ReLU 引入非线性。
            nn.ReLU(),
            # 输出 3 个分数，通常对应 start、end 和整体兼容性。
            nn.Linear(hidden_size * 4, 3),
        )

    # token_rep: [B, L, H]，label_rep: [B, C, H]。
    def forward(self, token_rep: torch.Tensor, label_rep: torch.Tensor) -> torch.Tensor:
        # 取出 batch、序列长度和隐藏维。
        batch_size, seq_len, hidden_size = token_rep.shape
        # C 是当前 batch 中参与预测的标签数。
        num_classes = label_rep.shape[1]
        # token 投影并 reshape 成 [B, L, 1, 2, H]。
        token_rep = self.proj_token(token_rep).view(batch_size, seq_len, 1, 2, hidden_size)
        # label 投影并 reshape 成 [B, 1, C, 2, H]。
        label_rep = self.proj_label(label_rep).view(batch_size, 1, num_classes, 2, hidden_size)
        # token 扩展到每个 label，变成 [2, B, L, C, H]。
        token_rep = token_rep.expand(-1, -1, num_classes, -1, -1).permute(3, 0, 1, 2, 4)
        # label 扩展到每个 token，变成 [2, B, L, C, H]。
        label_rep = label_rep.expand(-1, seq_len, -1, -1, -1).permute(3, 0, 1, 2, 4)
        # 拼接 token 特征、label 特征和逐元素乘积。
        features = torch.cat([token_rep[0], label_rep[0], token_rep[1] * label_rep[1]], dim=-1)
        # 输出 [B, L, C, 3]。
        return self.out_mlp(features)

解码：阈值、span 合法性与重叠处理

GLiNER 的 decoder 会先对 logits 做概率化，再找超过阈值的 span-label 候选。候选 span 还要通过长度检查，并用 greedy search 去掉不允许的重叠。这个流程对业务非常关键：阈值决定召回/精度，

flat_ner

决定是否允许嵌套实体，

multi_label

决定同一个 span 是否允许多个类型。

# probs_i 形状是 [L, K, C]，表示单个样本所有 span/label 概率。
def decode_one_gliner_item(probs_i, tokens_i, id_to_class, threshold, flat_ner=True):
    # torch.where 找出所有超过阈值的候选。
    start_idx, width_idx, class_idx = torch.where(probs_i > threshold)
    # 当前样本文本被切成多少个 word/token。
    num_tokens = len(tokens_i)
    # span 终点是 start + width + 1，必须不超过文本长度。
    valid = (start_idx + width_idx + 1) <= num_tokens
    # 过滤非法 span 起点。
    start_idx = start_idx[valid]
    # 过滤非法 span 宽度。
    width_idx = width_idx[valid]
    # 过滤非法 label id。
    class_idx = class_idx[valid]
    # 一次性取出候选分数，减少循环里频繁 GPU 到 CPU 同步。
    scores = probs_i[start_idx, width_idx, class_idx].tolist()
    # 保存候选实体。
    spans = []
    # zip 后逐个构造结构化实体。
    for s, w, c, score in zip(start_idx.tolist(), width_idx.tolist(), class_idx.tolist(), scores):
        # end 是开区间，便于和 Python 切片保持一致。
        end = s + w + 1
        # id_to_class 把模型内部 label id 映射回业务标签文本。
        label = id_to_class.get(c + 1, f"class_{c}")
        # 保存 span、标签和置信度。
        spans.append({"start": s, "end": end, "label": label, "score": score})
    # flat_ner=True 时，后处理会按分数贪心去掉重叠 span。
    return greedy_remove_overlaps(spans) if flat_ner else spans

GLiNER 官方 decoder 的

greedy_search

会按置信度从高到低保留 span。这个设计让高置信候选优先占用区间，低置信重叠候选被丢弃；嵌套 NER 和 flat NER 的差异由重叠检测函数控制。

NER 评估必须按实体级看 precision、recall、F1。token accuracy 容易掩盖边界错误，尤其在实体很短、O 标签占比很高的数据集里。对 GLiNER 和 GlobalPointer 这类 span 模型，阈值调优也应围绕实体级指标，token 级准确率只适合作为辅助信号。

# spans 是 Span 对象列表，每个对象包含 start、end、entity_type、score。
def greedy_search(spans, flat_ner=True, multi_label=False):
    # flat NER 不允许任意重叠，nested NER 允许包含式嵌套。
    has_overlap = has_overlapping if flat_ner else has_overlapping_nested
    # 没有候选时直接返回，避免后面排序和循环。
    if not spans:
        return []

    # selected 保存最终实体对象。
    selected = []
    # selected_keys 保存已占用 span，用于快速检查重叠。
    selected_keys = []
    # 高分优先，保证冲突时优先保留模型更确信的实体。
    ranked_spans = sorted(spans, key=lambda x: -x.score)

    # 逐个尝试把候选加入最终结果。
    for span in ranked_spans:
        # entity_type 放进 key，multi_label=True 时同区间多类型可被允许。
        current = (span.start, span.end, span.entity_type)
        # 默认当前候选没有和已选实体冲突。
        blocked = False
        # 与所有已选实体检查冲突。
        for existing in selected_keys:
            # overlap 函数封装了 flat/nested/multi-label 规则。
            if has_overlap(current, existing, multi_label=multi_label):
                # 一旦冲突，当前低分候选被丢弃。
                blocked = True
                break
        # 没有冲突才写入最终结果。
        if not blocked:
            # 保存实体对象，后续返回给业务层。
            selected.append(span)
            # 保存轻量 key，供下一轮候选做重叠判断。
            selected_keys.append(current)

    # 输出按文本顺序排列，比按置信度排列更适合渲染和评估。
    selected.sort(key=lambda x: x.start)
    # 返回过滤后的实体列表。
    return selected

spaCy

spaCy 是面向生产的 NLP pipeline 框架。它的 NER 结果统一写入

Doc.ents

，每个实体是一个

Span

，包含 token 边界、字符边界和实体标签。它适合 flat NER、规则增强、离线文本加工、搜索字段抽取和中小型自训练任务；嵌套实体、多标签 span、复杂 span 矩阵打分任务通常更适合 GlobalPointer、W2NER 或 GLiNER。

spaCy 默认

ner

组件是 transition-based EntityRecognizer。源码在

spacy/pipeline/ner.pyx

中把

EntityRecognizer

继承自 parser，并使用

BiluoPushDown

transition system。工程上可以把它理解为“通过动作序列生成实体边界和类型”的模型，输出机制不同于简单的 $[B,L,C]$ token 分类头。

# 精简自 spaCy 的 ner factory 与 EntityRecognizer 主体。
Language.factory(
    "ner",
    # 组件运行后会写入这些 NLP 注解，pipeline 可据此做依赖检查。
    assigns=["doc.ents", "token.ent_iob", "token.ent_type"],
    default_config={
        # moves 会从训练数据初始化，实体类型变化时不用手写动作表。
        "moves": None,
        # 长句训练时切分 oracle 序列，控制 transition learner 的搜索长度。
        "update_with_oracle_cut_size": 100,
        # 默认模型是 transition-based parser 架构，state_type 固定为 ner。
        "model": DEFAULT_NER_MODEL,
        # 可接入负 span 约束，支持把业务禁区传给训练过程。
        "incorrect_spans_key": None,
        # 评估器按实体级 precision、recall、F1 计算。
        "scorer": {"@scorers": "spacy.ner_scorer.v1"},
    },
)(make_ner)

class EntityRecognizer(Parser):
    # BILUO 动作系统负责表达实体开始、内部、结尾、单 token 实体和 O。
    TransitionSystem = BiluoPushDown

    @property
    def labels(self):
        # move_names 是内部动作名，需要去掉 B/I/L/U 前缀还原业务实体类型。
        labels = set(
            remove_bilu_prefix(move)
            for move in self.move_names
            if move[0] in ("B", "I", "L", "U")
        )
        # 稳定排序便于模型元数据、调试输出和测试复现。
        return tuple(sorted(labels))

import spacy

# 生产服务中通常每个进程加载一次 pipeline，并复用 nlp 对象。
nlp = spacy.load("en_core_web_sm")

# nlp(text) 会依次执行 tokenizer、tok2vec、tagger、parser、ner 等组件。
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

# doc.ents 是实体 Span 列表，适合直接进入业务字段抽取或实体级评估。
for ent in doc.ents:
    print(ent.text, ent.label_, ent.start_char, ent.end_char)

spaCy 的规则组件常用于 NER 冷启动和召回补强。

EntityRuler

把词典、token pattern、产品名、组织名和合规术语直接写入

Doc.ents

。它既可以单独作为规则抽取器，也可以和训练型

ner

组件组合。

import spacy

# 空白语言对象只包含 tokenizer 和语言规则，不加载统计模型。
nlp = spacy.blank("en")

# entity_ruler 会按 pattern 产生实体 Span。
ruler = nlp.add_pipe("entity_ruler")

# 规则集中管理，便于版本控制和业务审计。
ruler.add_patterns([
    {"label": "ORG", "pattern": "OpenAI"},
    {"label": "PRODUCT", "pattern": "ChatGPT"},
])

# 规则命中的 Span 会进入 doc.ents。
doc = nlp("OpenAI released ChatGPT.")

# 输出结果可以和训练型 NER 的输出使用同一套 Span 消费逻辑。
print([(ent.text, ent.label_) for ent in doc.ents])

spaCy v3 训练以

config.cfg

为中心。训练数据通常用

DocBin

保存成

.spacy

文件。字符级实体边界必须能和 tokenizer 输出对齐；

doc.char_span

返回空值时，说明标注边界落在 token 内部，训练前需要修正分词或标注。

import spacy
from spacy.tokens import DocBin

# 训练数据转换阶段必须使用和训练/推理一致的 tokenizer。
nlp = spacy.blank("en")

# DocBin 是 spaCy 训练命令常用的数据容器。
doc_bin = DocBin()

# 示例使用字符级实体标注。
text = "Apple bought a startup in London."

# make_doc 只做 tokenization，避免训练数据转换时运行完整 pipeline。
doc = nlp.make_doc(text)

# char_span 把字符边界转换成 token Span。
span = doc.char_span(0, 5, label="ORG")

# 边界无法对齐时应提前失败，避免训练时静默丢实体。
if span is None:
    raise ValueError("Entity boundary does not align with tokenizer output")

# doc.ents 是训练型 ner 组件学习的实体监督。
doc.ents = [span]

# 写入 DocBin，后续交给 spacy train。
doc_bin.add(doc)

# .spacy 文件保留 Doc 的 token、span 和实体注释。
doc_bin.to_disk("train.spacy")

spaCy 的 NER 组件强调 pipeline 工程和 flat span 管理。它的核心价值不在于某一个最新神经结构，而在于数据格式、规则组件、训练配置、批处理和部署抽象稳定。需要快速做可审计的实体抽取系统时，spaCy 经常比手写 PyTorch 模型更省工程成本。

HanLP

HanLP 是中文和多语言 NLP 工程框架。NER 在 HanLP 里既可以作为单任务模型出现，也可以作为多任务 pipeline 的一个组件，和分词、词性标注、依存句法、语义角色标注等任务共享前端处理。中文 NER 的关键问题是分词与实体边界耦合：同一段文本在不同分词策略下会得到不同 token 边界，实体 span 的训练和评估必须和 pipeline tokenizer 保持一致。

import hanlp

# 预训练 multitask pipeline 同时包含分词、词性、NER 等组件。
pipeline = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH)

# 中文输入会先经过 pipeline 内部 tokenizer，再进入 NER 等下游组件。
doc = pipeline("2024年苹果公司在上海发布新品。")

# HanLP 返回结构化字典，NER 字段通常按实体 span 和类型组织。
entities = doc["ner"]

# 实体结果可直接进入中文搜索、知识图谱入库或字段抽取。
print(entities)

HanLP 的工程位置更接近“中文 NLP 全家桶”。如果项目同时需要分词、词性、依存、语义角色和 NER，并且希望多个组件由同一套 pipeline 管理，HanLP 很合适。若只做开放标签 NER 或需要 label-conditioned 抽取，GLiNER/UIE 更直接；若需要嵌套实体矩阵打分，GlobalPointer/W2NER 更贴近模型结构本身。

Stanza

Stanza 是 Stanford NLP 的 Python pipeline，覆盖 tokenization、MWT、POS、lemma、dependency parsing、NER 等处理器。它的 NER 适合需要多语言传统 NLP pipeline、依存句法和实体识别一起输出的场景。源码中的

stanza/models/ner/model.py

使用 word embedding、BERT、char model、BiLSTM 和 CRF loss 组合，是典型 pipeline NER 工程实现。

import stanza

# download 会拉取指定语言和 processor 的模型文件。
stanza.download("en", processors="tokenize,ner")

# processors 控制 pipeline 只加载 tokenization 和 NER，减少无关组件开销。
nlp = stanza.Pipeline("en", processors="tokenize,ner")

# 调用 pipeline 后，文档会被切成 sentence/token，并附带 NER 标签。
doc = nlp("Barack Obama was born in Hawaii.")

# Stanza 的实体结果保存在 doc.ents。
for ent in doc.ents:
    print(ent.text, ent.type, ent.start_char, ent.end_char)

Stanza NER 的源码结构仍然体现 CRF 时代的工程稳健性：多种输入特征可以拼接，BiLSTM 处理序列上下文，线性层输出标签分数，CRF 负责路径级 loss 和解码。它适合多语言标准 NLP pipeline；面向高并发单一 NER 服务时，需要评估模型体积、加载时间和 Python pipeline 开销。

附录

常见陷阱与排障速查

这一节只覆盖 ref-6 正文里已经出现过的栈：PyTorch / Transformers / Accelerate / PEFT / TRL / DeepSpeed / vLLM / RAG 向量组件，以及常见的日志与实验跟踪工具（TensorBoard、W&B、MLflow、Langfuse）。每条都给“现象→快速检查→修复动作”。

环境与依赖（安装层）

现象	快速检查	常见根因	修复动作
ImportError: Using device_map requires Accelerate	看代码是否启用了 device_map="auto"	Transformers 需要 accelerate 提供 device map / offload 运行时	pip install -U accelerate ，或移除 device_map 并手动 model.to(device)
DeepSpeed 安装成功但首次训练很慢	跑环境报告/查看是否在编译 ops	DeepSpeed ops 走 JIT 编译，首次运行会编译 CUDA/C++ 扩展	把编译链（gcc/g++/ninja）与 CUDA toolkit 固定到镜像；或使用预编译/缓存编译产物
bitsandbytes/FlashAttention/xFormers 安装失败	核对 torch.__version__ 与 CUDA/驱动	二进制 wheel 与 CUDA/torch 组合不匹配，退回源码编译	优先选“官方支持矩阵”内的 torch+CUDA 组合；必要时换到对应 wheel 或统一用容器镜像
huggingface_hub 下载慢/缓存爆盘	检查缓存路径与磁盘配额	默认缓存落在 home 盘；大模型/多版本重复下载	设置 HF_HOME / HF_HUB_CACHE 到大盘；固定模型版本，避免反复下载

训练侧（脚本、分布式与 checkpoint）

现象	快速检查	常见根因	修复动作
训练 loss 正常，但 eval 指标不动或波动异常	检查 eval 集是否固定、是否数据泄漏、是否用错 metric	数据切分不稳定；指标与 loss 不一致（例如二分类用 F1 优先）	固定 eval 集与随机种子；按任务选择 monitor（生成任务常用 token acc/下游指标；分类任务多用 F1/acc）
同样配置多次训练结果差异大	检查是否固定 seed；是否启用非确定性算子	并行归约顺序、不同 kernel、随机种子未固定	固定 seed；能用 deterministic kernel 的框架启用 deterministic；记录环境/依赖版本到 run_meta
断点续训后 learning rate/step 计数异常	检查是否从正确的 checkpoint 恢复 optimizer/scheduler	只恢复了模型权重，没恢复优化器状态；或切换了 batch size/accumulation	统一用框架提供的 resume 机制；恢复后不随意改动 batch/accumulation；把超参固化在 run_meta
LoRA 训练完线上加载无效果	确认线上是否真的挂载了 adapter；是否用对 base	base checkpoint 不一致；adapter 没加载或没 set_active	把 base_model_id 写入 adapter 元信息；上线前做“base+adapter”一致性 smoke test
DeepSpeed/多机训练 hang 或极慢	打开 NCCL 日志；检查网卡选择	NCCL 走错网络接口；IB/PCIe 拓扑或防火墙	设置 NCCL 环境变量并固定网卡；必要时禁用 IB/P2P 作为定位手段

export NCCL_DEBUG=INFO
export NCCL_DEBUG_SUBSYS=INIT,NET
export NCCL_SOCKET_IFNAME=eth0

推理侧（vLLM / OpenAI 兼容服务）

现象	快速检查	常见根因	修复动作
服务启动成功但客户端 404 / model not found	GET /v1/models 看 model 名	服务端模型名与客户端 model= 不一致	vLLM 启动加 --served-model-name ，客户端统一用该名称
服务 QPS 低或频繁 OOM	看 /metrics ，关注 KV cache 与并发	context 过长、KV cache 预算过大、GPU mem utilization 过高	降低最大上下文/并发；保留显存余量；把流量打到多副本；按模型大小重新估算 token budget
temperature=0 仍有轻微不一致	确认是否完全禁用采样；是否跨硬件/多实例	服务端并行归约/调度带来非确定性	禁用所有采样相关选项；尽量固定推理硬件与 kernel；把“强确定性”作为服务 SLA 单独约束
端口占用 / 启动失败	lsof -i :8000	端口被旧进程占用	停止旧进程或换端口；把启动/回滚写成脚本并纳入进程管理器

curl -sf http://127.0.0.1:8000/v1/models
curl -sf http://127.0.0.1:8000/metrics | head

RAG 与向量组件（FAISS / pgvector / Qdrant / Milvus / TCVectorDB）

现象	快速检查	常见根因	修复动作
召回结果明显变差（无规律）	检查是否混入不同 embedding 模型版本	同一 collection 混用不同 embedding space	把 embedding_model_id 写入 metadata；版本迁移时重建或双写新集合
cosine 相似度排序不符合预期	检查向量是否归一化；检查 metric 设置	cosine 与 inner product/l2 使用不一致	统一策略：归一化 + inner product（或显式 cosine metric）；写入与查询必须一致
pgvector 查询报错：vector 扩展不存在	SELECT extname FROM pg_extension;	未启用扩展	CREATE EXTENSION IF NOT EXISTS vector;
Qdrant 可用但安全风险	检查是否启用鉴权，端口是否暴露公网	默认 Docker QuickStart 无认证	启用 API key/鉴权；仅暴露内网；生产环境用 Helm/Cloud 并加网络策略
Milvus/TCVectorDB 连接失败	检查 endpoint/token/TLS	网络不可达、鉴权不匹配、TLS 配置问题	先用最小 client 读写验证；把 endpoint/token/TLS 作为运行时配置（环境变量/密钥管理）

框架/引擎选型原则（工程视角）

需求	优先选	理由	不适合时的信号
想要最短路径微调 LLM（SFT/DPO/GRPO）	TRL + (Transformers + PEFT) + Accelerate	方法流程化、接口稳定、与 HF 生态耦合最深	需要高度自定义训练循环/复杂多任务调度，且团队已有自研训练框架
通用训练循环（分类/NER/CV）且团队多人复用	Transformers Trainer 或 PyTorch Lightning 或 MMEngine	训练工程样板收敛到统一入口；callbacks/loggers/checkpoint 更标准	训练逻辑高度非标准（例如特殊采样/复杂图结构），框架抽象反而增加阻力
大模型训练显存吃紧，需要参数/优化器分片	DeepSpeed ZeRO 或 PyTorch FSDP（常经由 Accelerate）	把显存压力从“模型/优化器/梯度”三个维度拆开	集群/网络不稳定；团队缺少分布式排障经验；checkpoint 迁移频繁
需要高吞吐服务化推理（OpenAI API 兼容）	vLLM（ vllm serve ）	continuous batching、KV cache 管理、指标/观测与并行策略更贴近生产	只需离线小批推理且依赖纯 Transformers；或模型结构/算子不被 vLLM 支持
RAG 召回（单机/单租户/延迟极低）	FAISS	部署简单、延迟低、索引可控	需要多租户、过滤、持久化、高可用与在线扩缩容
RAG 召回（已有 Postgres 体系）	pgvector	事务/权限/JOIN/备份沿用 Postgres，治理成本低	超大规模向量 + 高 QPS；需要专用 ANN 系统能力
RAG 召回（专用向量数据库能力）	Qdrant / Milvus / 托管向量库（TCVectorDB）	过滤、持久化、分布式扩展与运维能力更完整	团队没有运维能力（自建风险高）；对迁移性要求极强（托管绑定风险）

训练与推理栈术语对照

术语	训练侧含义	推理/服务侧含义	落点（代码/命令）
base / adapter	base 是大权重 checkpoint；adapter 是 LoRA 等增量参数	服务端加载 base 后挂载 adapter，或提前 merge 导出	PEFT： PeftModel.from_pretrained / merge_and_unload
checkpoint	训练过程中的可恢复状态（含 optimizer/scheduler 视框架而定）	上线时通常只需要“可加载权重目录”（artifact）	Transformers/TRL： output_dir/checkpoint-*
artifact（模型包）	训练导出的可交付目录	推理服务直接加载的路径	save_pretrained 目录结构
device_map	训练/推理加载时的设备放置策略	服务端决定权重落 GPU/CPU/offload 的方式	Transformers： device_map="auto"
torch_dtype	训练计算 dtype（fp16/bf16/fp32）	推理加载 dtype（影响显存与速度）	Transformers： torch_dtype="auto"
TTFT / TPOT	训练不直接出现	首 token 延迟 / 每 token 延迟，衡量推理体验	vLLM： /metrics + 业务侧统计
topK / rerank	训练侧用于召回模型/排序模型的训练	RAG 检索阶段：ANN 召回 topK，reranker 取 topN	向量库 search + Cross-Encoder rerank

目录/产物/命令速查表

常见目录与产物

类型	路径模式	说明
HF Datasets / PyTorch 训练输入	data/processed/train.jsonl	离线预处理脚本产出的标准化样本文件，通常交给 datasets.load_dataset 或自定义 Dataset / DataLoader 消费。
Trainer / TRL checkpoint	outputs/runs//checkpoint-*/	由 Hugging Face Trainer 或 TRL Trainer 自动产出，目录内常见 trainer_state.json 、优化器状态和分步权重，用于断点续训、best checkpoint 选择和实验回溯。
DeepSpeed ZeRO 分片 checkpoint	outputs/runs//global_step/mp_rank_/	由 DeepSpeed 产出的分片状态目录，内部常见 rank 级别的模型和优化器状态文件，主要用于 ZeRO 恢复和后续权重聚合，不能直接拿给 vLLM 或纯 Transformers 推理。
PEFT adapter 目录	adapters//{adapter_config.json,adapter_model.safetensors}	由 PEFT 的 save_pretrained 产出，只保存 LoRA/adapter 增量参数；推理时需要先加载对应 base model，再用 PeftModel.from_pretrained 挂载。
Transformers 模型包	models/registry/model_vXXXX/{config.json,tokenizer.json,model*.safetensors}	由 Transformers 的 save_pretrained 或 PEFT merge 导出脚本产出，是最通用的可部署目录；可直接被 Transformers、vLLM、TGI 等推理框架加载。
服务加载指针	models/prod -> models/registry/model_vXXXX/	这核心是服务编排层给 vLLM、TGI、Transformers API 服务提供的稳定加载入口；切换软链接即可完成上线与回滚。
FAISS 本地索引	indexes/faiss/.faiss	由 faiss.write_index 产出，服务于单机/嵌入式 ANN 检索；通常还要配一份外部 metadata 文件保存 doc_id、chunk_id 与原文偏移。
Qdrant 持久化目录	qdrant_storage/	由 Qdrant Docker 或 standalone 进程维护，是 collection、payload 与索引文件的持久化卷；开发环境常直接挂到本地目录，生产环境通常挂载独立数据盘或云盘。

常用命令

命令/API/函数

accelerate config / accelerate launch train.py

说明
多卡启动训练。用于 Accelerate 路线的多卡训练启动。第一条命令生成分布式配置，第二条命令按配置拉起同一份 PyTorch 训练脚本。

示例

accelerate config
accelerate launch train.py

命令/API/函数

deepspeed --num_gpus=8 train.py --deepspeed ds_config.json

说明
DeepSpeed 启动训练。用于 DeepSpeed 训练入口。

ds_config.json

固化 ZeRO、offload、AMP 与通信策略，适合大模型显存压缩场景。

示例

deepspeed --num_gpus=8 train.py --deepspeed ds_config.json

命令/API/函数

vllm serve /abs/path/to/models/prod

说明
启动 vLLM 服务。用于启动 OpenAI-compatible 的 vLLM 服务。固定

--served-model-name

后，客户端就不需要感知底层真实模型目录。

示例

vllm serve /abs/path/to/models/prod \
  --host 0.0.0.0 --port 8000 \
  --served-model-name prod \
  --api-key token-abc123

命令/API/函数

curl -sf http://127.0.0.1:8000/v1/models / curl -sf http://127.0.0.1:8000/metrics | head

说明
检查服务与指标。最小 smoke test。第一条检查模型是否已注册，第二条确认 Prometheus 指标端点是否可用。

示例

curl -sf http://127.0.0.1:8000/v1/models
curl -sf http://127.0.0.1:8000/metrics | head

命令/API/函数

docker run -p 6333:6333 -v "$(pwd)/qdrant_storage:/qdrant/storage:z" qdrant/qdrant

说明
启动 Qdrant（开发）。用于本地开发环境拉起 Qdrant。挂载卷保存索引和 payload；默认没有鉴权，生产环境必须补安全配置。

示例

docker run -p 6333:6333 -v "$(pwd)/qdrant_storage:/qdrant/storage:z" qdrant/qdrant

命令/API/函数

psql -d your_db -c "CREATE EXTENSION IF NOT EXISTS vector;"

说明
启用 pgvector。用于在 PostgreSQL 中启用 pgvector 扩展。只有扩展启用后，后续的向量列、HNSW/IVFFlat 索引和相似度查询语法才可用。

示例

psql -d your_db -c "CREATE EXTENSION IF NOT EXISTS vector;"

命令/API/函数

pip install -U openmim / mim install mmengine

说明
安装 OpenMMLab 训练底座。用于安装 OpenMMLab 生态的统一底座。后续安装 MMDetection、MMPreTrain、MMSegmentation 等仓库时，都会复用这套基础设施。

示例

pip install -U openmim
mim install mmengine

The post 人工智能知识 - 编程（二） appeared first on 绿色记忆.

人工智能知识 - 编程（一）

Alex — Fri, 17 Apr 2026 08:10:51 +0000

这一篇专门处理 AI 训练、微调、推理与部署中的编程栈问题。前几篇分别讲了机器学习基础、任务版图、Transformer 与上下文工程；这一篇转向“代码层面的真实系统”：从 NumPy、数据管线、训练框架、分布式组件，到推理引擎、向量检索、服务化接口与工程辅助库，梳理一条从实验脚本到线上推理系统的完整技术链。

语言与数值计算底座

训练与推理系统最终都会落到“把数据变成数组/张量，然后在有限内存和带宽下完成大量数值运算”。这一层底座看起来朴素，但它决定了三个硬指标：吞吐（Throughput）、内存占用（Memory Footprint）与拷贝次数（Copy Count）。NumPy/Arrow/Parquet 一类组件在工程上通常承担训练数据管线、离线特征、评测集加工与推理输入输出的基础角色。

Python 语言层与文本编码底座

AI 工程里的 Python 主要承担编排角色：读取配置、组织数据、调用数值库、封装训练入口、记录日志、连接服务和文件系统。大规模矩阵计算通常下沉到 NumPy、PyTorch、JAX、BLAS、CUDA kernel 或推理引擎；Python 层的职责是让这些组件以可复现、可检查、可恢复的方式组合起来。

这一层最常见的质量问题集中在隐式全局状态、路径不稳定、编码不明确、配置不可追溯、异常被吞掉、日志缺少样本上下文，以及文本字段在 JSON/CSV/Parquet 之间反复损坏。训练数据和推理请求进入数值层之前，先要在语言层把结构、编码和边界处理稳。

Python 在 AI 系统中的分工

层次	Python 负责	下沉组件负责
实验脚本	解析参数、固定随机种子、加载配置、组织训练/评估流程。	PyTorch/JAX 执行张量前向、反向和优化器更新。
数据预处理	读取文件、解析 JSONL、清洗文本、构造样本对象、写入 shard。	NumPy/Arrow/Polars 执行批量转换、列式扫描和向量化计算。
推理服务	请求校验、路由、批处理队列、日志、异常边界和响应封装。	vLLM/TensorRT-LLM/ONNX Runtime 执行模型推理。
评估与分析	读取预测结果、按任务聚合指标、输出报告和失败样本。	NumPy/scikit-learn/SciPy 执行统计、矩阵运算和指标计算。

类型、配置与样本对象

训练脚本里的配置对象应承担两个任务：把输入参数收口成明确 schema，并把会影响实验结果的字段写进日志和 checkpoint 元数据。简单项目可以用

dataclasses

；复杂项目再升级到 Hydra、Pydantic 或框架自带配置系统。

from dataclasses import asdict, dataclass
from pathlib import Path
import json


@dataclass(frozen=True)
class TrainConfig:
    # 模型路径会影响 tokenizer、权重和 chat template，必须进入实验记录。
    model_name_or_path: str

    # 数据路径使用 Path，减少字符串拼接导致的跨平台路径问题。
    train_file: Path

    # seed 统一控制切分、采样和初始化，便于复现实验。
    seed: int = 42

    # batch_size 属于训练语义，不应散落在脚本多个位置。
    batch_size: int = 32


cfg = TrainConfig(
    model_name_or_path="bert-base-chinese",
    train_file=Path("data/train.jsonl"),
)

# asdict 把 dataclass 转成普通 dict，便于写入 JSON 元数据。
metadata = asdict(cfg)

# Path 属于 Python 对象，写 JSON 元数据前显式转成字符串。
metadata["train_file"] = str(metadata["train_file"])

# ensure_ascii=False 保留中文可读性，避免日志里出现大量 \uXXXX。
Path("runs/exp001").mkdir(parents=True, exist_ok=True)
Path("runs/exp001/config.json").write_text(
    json.dumps(metadata, ensure_ascii=False, indent=2),
    encoding="utf-8",
)

JSONL、Unicode 与文本边界

大规模 NLP/LLM 数据常用 JSONL：一行一个样本，便于流式读取、失败恢复和 shard 合并。文本字段应固定 UTF-8，读写时显式声明编码；清洗阶段只做可解释的规范化，不在数据管线里随意改写语义。

import json
import unicodedata
from pathlib import Path


def normalize_text(text: str) -> str:
    # NFKC 会把全角英数、兼容字符等规整到更稳定的形式。
    # 它适合搜索、去重和规则匹配；严肃标注任务要先确认不会破坏标签边界。
    text = unicodedata.normalize("NFKC", text)

    # 只压缩首尾空白，避免改写正文内部的格式信息。
    return text.strip()


def iter_jsonl(path: Path):
    # encoding 明确写 utf-8，避免不同机器的 locale 影响读取结果。
    with path.open("r", encoding="utf-8") as f:
        for line_no, line in enumerate(f, start=1):
            # 空行直接跳过，减少人工编辑数据时留下的噪声。
            if not line.strip():
                continue

            try:
                row = json.loads(line)
            except json.JSONDecodeError as exc:
                # 报错带上行号，便于定位坏样本所在 shard。
                raise ValueError(f"Bad JSON at {path}:{line_no}") from exc

            # 文本字段在入口处统一收口，后续 tokenizer 才能面对稳定输入。
            row["text"] = normalize_text(row["text"])
            yield row

脚本入口、日志与异常边界

训练和评估脚本应把入口逻辑放在

main()

中，并在最外层保留异常栈。长期任务还应把关键配置、数据路径、样本数、依赖版本和输出目录写入日志，便于几天后追查某个 checkpoint 的来源。

import argparse
import logging
from pathlib import Path


def parse_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser()

    # 输入文件和输出目录放在命令行参数里，便于调度系统覆盖。
    parser.add_argument("--input", type=Path, required=True)
    parser.add_argument("--output", type=Path, required=True)

    # seed 和 batch-size 直接影响实验结果，应进入命令行和日志。
    parser.add_argument("--seed", type=int, default=42)
    parser.add_argument("--batch-size", type=int, default=128)
    return parser.parse_args()


def main() -> None:
    args = parse_args()
    args.output.mkdir(parents=True, exist_ok=True)

    # 日志同时写控制台和文件，训练失败后仍能从输出目录恢复上下文。
    logging.basicConfig(
        level=logging.INFO,
        format="%(asctime)s %(levelname)s %(message)s",
        handlers=[
            logging.StreamHandler(),
            logging.FileHandler(args.output / "run.log", encoding="utf-8"),
        ],
    )

    logging.info("input=%s output=%s seed=%d", args.input, args.output, args.seed)

    # 真实训练/评估逻辑放在 main 内部，避免 import 文件时直接启动任务。
    rows = list(iter_jsonl(args.input))
    logging.info("loaded_samples=%d", len(rows))


if __name__ == "__main__":
    main()

数组与科学计算

NumPy

NumPy（Numerical Python）定义了 Python 生态里最通用的数组语义：shape / stride / dtype / broadcasting。训练脚本里大量“数据预处理、采样、拼接、统计、离线特征生成、指标计算”都在直接使用这些概念，即使模型训练本身在 PyTorch/JAX 上完成。

安装通常直接用

pip install numpy

。生产/研究环境常用 conda-forge 统一 BLAS 与二进制依赖，以减少 ABI 问题。

常用API

命令/API/函数

np.array

说明
显式创建新数组，适合需要确定 dtype、并允许拷贝一份独立数据的入口。

示例

import numpy as np

x = np.array([1, 2, 3], dtype=np.int32)

命令/API/函数

np.asarray

说明
尽量复用已有内存，常用于把 Python 列表或上游数组接进预处理链，同时避免不必要拷贝。

示例

x = np.asarray([1, 2, 3], dtype=np.int32)

命令/API/函数

np.frombuffer

说明
直接把 bytes 或共享内存解释成数组视图，适合二进制数据解码和零拷贝接入。

示例

buf = b"\x01\x00\x00\x00\x02\x00\x00\x00"
y = np.frombuffer(buf, dtype=np.int32)

命令/API/函数

ndarray.reshape

说明
调整视图形状，常用于把扁平 buffer 重组成 batch、序列或通道布局；多数情况下是 O(1) 视图。

示例

a = np.arange(12).reshape(3, 4)

命令/API/函数

ndarray.transpose

说明
重排维度顺序，常见于 NHWC/NCHW、batch-first/seq-first 互换；通常只改 stride，不立即拷贝。

示例

a = np.arange(12).reshape(3, 4)
at = a.transpose(1, 0)

命令/API/函数

np.moveaxis / np.swapaxes

说明
按“挪动某一维”或“交换两维”的方式改布局；在图像和语音预处理中往往比手写完整 transpose 更可读。

示例

x = np.zeros((224, 224, 3), dtype=np.uint8)  # HWC
y = np.moveaxis(x, -1, 0)                    # CHW

命令/API/函数

np.concatenate

说明
沿既有轴拼接 batch 或分片结果，常见于离线特征合并；会分配新数组并产生拷贝。

示例

a = np.ones((2, 4))
b = np.concatenate([a, a], axis=0)

命令/API/函数

np.stack

说明
新增一个维度后再拼接，适合把多个样本或多路特征堆成 batch 张量。

示例

x = np.stack([np.ones(4), np.zeros(4)], axis=0)

命令/API/函数

np.random.default_rng

说明
创建现代随机数生成器对象。它比直接调用全局

np.random.*

更容易做可复现实验，也更适合把采样逻辑封装进数据预处理函数。

示例

# 把随机状态显式收进 rng，避免函数内部偷偷污染全局随机数流。
rng = np.random.default_rng(seed=42)
batch = rng.integers(low=0, high=1000, size=(8, 128), dtype=np.int32)

命令/API/函数

ndarray.astype

说明
显式转换 dtype，常用于把离线存储格式转成训练框架需要的精度。

示例

x = np.random.randn(1024).astype(np.float32)
x16 = x.astype(np.float16)

命令/API/函数

np.squeeze / np.expand_dims

说明
删除或插入长度为 1 的维度，常见于模型输入输出的 batch 维、channel 维和时间维修整。

示例

x = np.zeros((1, 80, 300), dtype=np.float32)
y = np.squeeze(x, axis=0)
z = np.expand_dims(y, axis=0)

命令/API/函数

np.ravel / ndarray.flatten

说明
都能把数组摊平；

ravel

尽量返回视图，

flatten

总是分配新数组。

示例

x = np.arange(12).reshape(3, 4).T
a = x.ravel()    # 尽量复用底层内存
b = x.flatten()  # 一定新分配

命令/API/函数

np.ascontiguousarray

说明
把非连续视图显式转成 C contiguous 布局，减少后续 kernel 的隐式拷贝和性能抖动。

示例

x = np.arange(12).reshape(3, 4).T
y = np.ascontiguousarray(x)

命令/API/函数

np.asfortranarray / np.isfortran

说明
显式转成列优先（Fortran-order）布局，或检测数组是否按 Fortran contiguous 存放；用于把 “contiguous” 说准确。

示例

x = np.asfortranarray(np.arange(12).reshape(3, 4))
print(np.isfortran(x))

命令/API/函数

np.copy

说明
主动复制一份独立数据，适合需要切断共享底层 buffer、避免原地修改串扰的场景。

示例

y = np.copy(x)

命令/API/函数

ndarray.flags

说明
检查连续性、可写性等底层属性，用于排查性能问题和隐式拷贝来源。

示例

print(x.flags["C_CONTIGUOUS"])

命令/API/函数

np.newaxis

说明
通过索引语法插入长度为 1 的维度，常用于广播对齐；和

expand_dims

表达的是同一件事。

示例

mu = X.mean(axis=0)
X0 = X - mu[np.newaxis, :]

命令/API/函数

np.broadcast_to

说明
把小数组按广播规则视图扩展到目标 shape，适合调试广播布局或生成只读重复视图。

示例

mask = np.broadcast_to(np.array([1, 0]), (4, 2))

命令/API/函数

np.pad

说明
在指定维度两侧补边，常见于序列 padding、图像边界补零和卷积前预处理。

示例

x = np.array([1, 2, 3])
y = np.pad(x, (2, 1), mode="constant")

命令/API/函数

np.clip / np.where

说明
前者做范围裁剪，后者做条件选择；都高频出现于归一化、掩码和后处理。

示例

score = np.clip(score, 0.0, 1.0)
label = np.where(score > 0.5, 1, 0)

命令/API/函数

np.einsum / np.dot

说明
显式写出张量收缩或矩阵乘法。做离线 attention 对照实验、相似度计算、线性投影验证时，经常比手写多重循环更清楚。

示例

q = np.random.randn(2, 16, 64).astype(np.float32)
k = np.random.randn(2, 16, 64).astype(np.float32)

# "bth,bsh->bts" 表示 batch 内每个 query token 与 key token 做点积。
scores = np.einsum("bth,bsh->bts", q, k)

命令/API/函数

np.flip

说明
翻转指定维度；常用于图像增强，但它返回的往往是负 stride 视图，跨框架时需要特别小心。

示例

x = np.arange(6).reshape(2, 3)
y = np.flip(x, axis=1)

命令/API/函数

ndarray.base / itemsize / nbytes / ndim

说明
排查视图关系、单元素字节数、总内存占用与维度数的最小调试集合。

示例

print(x.base is None, x.itemsize, x.nbytes, x.ndim)

命令/API/函数

np.from_dlpack

说明
通过 DLPack 在 NumPy 与 PyTorch/JAX/CuPy 间交换数组，构建跨框架零拷贝路径。

示例

arr = np.from_dlpack(x)

统计、索引、线性代数与 IO API 补充

命令/API/函数

np.zeros / np.ones / np.full / np.empty

说明
预分配数组。训练前处理常用它们创建 mask、缓存、特征矩阵和中间 buffer；

empty

不初始化内容，只适合后续会完整覆盖的场景。

示例

import numpy as np

batch_size = 32
seq_len = 128

# attention_mask 默认全 0，后面再把有效 token 位置写成 1。
attention_mask = np.zeros((batch_size, seq_len), dtype=np.int8)

# labels 用 -100 填充，和 PyTorch CrossEntropyLoss 的 ignore_index 对齐。
labels = np.full((batch_size, seq_len), fill_value=-100, dtype=np.int64)

命令/API/函数

np.arange / np.linspace

说明
构造索引轴、时间轴、阈值网格和绘图横轴。

arange

适合离散位置，

linspace

适合固定数量的连续采样点。

示例

# position_ids 是 Transformer 输入里常见的位置索引。
position_ids = np.arange(seq_len, dtype=np.int32)

# 阈值扫描常用于二分类模型选择最佳 F1 或业务收益点。
thresholds = np.linspace(0.05, 0.95, num=19, dtype=np.float32)

命令/API/函数

np.sum / np.mean / np.std / np.argmax

说明
归约操作的关键参数是

axis

和

keepdims

。保留维度能让后续 broadcasting 更明确，减少 shape 靠脑补对齐。

示例

# hidden 的形状是 [batch, seq, hidden]。
hidden = np.random.randn(4, 128, 768).astype(np.float32)

# 沿 token 维求均值，同时保留长度为 1 的 seq 维。
# keepdims=True 让 pooled 可以直接和 hidden 做广播运算。
pooled = hidden.mean(axis=1, keepdims=True)

# logits 的最后一维是类别维，argmax(axis=-1) 得到每个样本的预测类别。
logits = np.random.randn(4, 10).astype(np.float32)
pred = np.argmax(logits, axis=-1)

命令/API/函数

np.take / np.take_along_axis

说明
按索引从数组中取值。分类、检索和 beam search 后处理里，先得到 top-k 索引，再用

take_along_axis

取回对应分数。

示例

logits = np.random.randn(8, 50000).astype(np.float32)

# argpartition 只保证 top-k 集合正确，成本低于完整 argsort。
topk_idx = np.argpartition(logits, kth=-5, axis=-1)[:, -5:]

# 根据 top-k 索引取回分数，保持 [batch, k] 形状。
topk_score = np.take_along_axis(logits, topk_idx, axis=-1)

# 再对 k 个候选内部排序，得到真正从高到低的 top-k。
order = np.argsort(topk_score, axis=-1)[:, ::-1]
topk_idx = np.take_along_axis(topk_idx, order, axis=-1)
topk_score = np.take_along_axis(topk_score, order, axis=-1)

命令/API/函数

np.nonzero / np.argwhere / np.where

说明
三者都常用于 mask，但返回形态不同：

nonzero

返回每个轴的索引元组，

argwhere

返回坐标矩阵，

where

可做条件选择。

示例

mask = np.array([[True, False, True], [False, True, False]])

# nonzero 适合直接用于高级索引。
rows, cols = np.nonzero(mask)

# argwhere 适合把坐标当作样本列表继续处理。
coords = np.argwhere(mask)

# where 用于按 mask 选择值，常见于 padding 位置填充大负数。
scores = np.random.randn(2, 3).astype(np.float32)
masked_scores = np.where(mask, scores, -1e9)

命令/API/函数

np.shares_memory / np.may_share_memory

说明
检查两个数组是否共享底层内存，比直接看

.base

更适合排查 view/copy。训练前处理里共享内存意味着原地修改可能影响另一个变量。

示例

x = np.arange(12).reshape(3, 4)
view = x[:, 1:]
copy = x[[0, 2]]

# 切片通常共享内存，fancy indexing 通常分配新数组。
print(np.shares_memory(x, view))
print(np.shares_memory(x, copy))

命令/API/函数

np.isfinite / np.nan_to_num / np.errstate

说明
处理 NaN、Inf 和数值警告。训练前应在数据管线处阻断坏特征，避免异常值进入模型后才表现为 loss 爆炸。

示例

features = np.array([0.0, np.nan, np.inf, -np.inf], dtype=np.float32)

# isfinite 找到可以安全进入模型的数值位置。
valid_mask = np.isfinite(features)

# nan_to_num 把异常值收口到明确范围，便于后续记录和告警。
features = np.nan_to_num(features, nan=0.0, posinf=1e6, neginf=-1e6)

with np.errstate(divide="ignore", invalid="ignore"):
    # where 避免对分母为 0 的位置执行无意义除法。
    ratio = np.divide(features, 10.0, out=np.zeros_like(features), where=valid_mask)

命令/API/函数

np.linalg.norm / np.matmul / @

说明
向量归一化、余弦相似度和 embedding 检查的最小组合。检索评测、聚类前处理和向量库入库前经常先用 NumPy 做 sanity check。

示例

query = np.random.randn(4, 768).astype(np.float32)
docs = np.random.randn(1000, 768).astype(np.float32)

# 按行归一化，避免向量长度主导余弦相似度。
query = query / np.linalg.norm(query, axis=1, keepdims=True)
docs = docs / np.linalg.norm(docs, axis=1, keepdims=True)

# [num_query, hidden] @ [hidden, num_docs] -> [num_query, num_docs]
sim = query @ docs.T

命令/API/函数

np.linalg.solve / np.linalg.lstsq

说明
线性方程与最小二乘。工程上优先

solve

或

lstsq

，避免显式求逆带来的数值和性能问题。

示例

A = np.array([[3.0, 1.0], [1.0, 2.0]], dtype=np.float64)
b = np.array([9.0, 8.0], dtype=np.float64)

# 求解 A x = b，不显式计算 inv(A)。
x = np.linalg.solve(A, b)

# 最小二乘适合离线校准、小规模线性回归或 sanity check。
coef, residuals, rank, singular_values = np.linalg.lstsq(A, b, rcond=None)

命令/API/函数

np.linalg.svd / np.linalg.eigh

说明
SVD 用于低秩近似、PCA 和 embedding/权重矩阵分析；

eigh

适合对称矩阵或协方差矩阵。

示例

X = np.random.randn(1000, 128).astype(np.float64)

# centered 后的 SVD 可用于观察特征矩阵的有效秩。
X0 = X - X.mean(axis=0, keepdims=True)
U, S, Vt = np.linalg.svd(X0, full_matrices=False)

# 取前 16 个方向构造低维表示。
X16 = X0 @ Vt[:16].T

命令/API/函数

np.save / np.load / np.savez

说明
NumPy 原生数组持久化。

.npy

保存单数组且保留 shape/dtype；

.npz

适合小中规模多数组缓存。

示例

input_ids = np.zeros((128, 512), dtype=np.int32)
attention_mask = np.ones((128, 512), dtype=np.int8)
labels = np.full((128,), fill_value=0, dtype=np.int64)

# npz 适合保存评测缓存或小型样本包。
np.savez("eval_batch.npz", input_ids=input_ids, attention_mask=attention_mask, labels=labels)

# mmap_mode="r" 让大数组按需读入，多个进程可共享 OS page cache。
loaded = np.load("eval_batch.npz")
ids = loaded["input_ids"]

命令/API/函数

np.lib.format.open_memmap

说明
创建可增量写入的

.npy

memory map。离线抽 embedding 时，可以按 batch 写入磁盘，避免把所有向量留在内存里。

示例

num_samples = 1_000_000
hidden = 768

# 预先声明完整 shape 和 dtype，后续按切片写入。
emb = np.lib.format.open_memmap(
    "embeddings.npy",
    mode="w+",
    dtype=np.float32,
    shape=(num_samples, hidden),
)

start = 0
batch_vec = np.random.randn(1024, hidden).astype(np.float32)
end = start + len(batch_vec)

# 每个 batch 写入固定区间，避免不断 concatenate 造成 O(n^2) 拷贝。
emb[start:end] = batch_vec
emb.flush()

NumPy 工程示例：从文本特征到模型输入

下面的例子把 NumPy 的 shape、dtype、padding、mask 和内存布局串起来。它处理的是 token id 已经生成后的阶段：如何把变长序列整理成训练框架可以稳定消费的 batch。

import numpy as np


def build_token_batch(sequences: list[list[int]], pad_id: int, max_len: int):
    # batch_size 由输入样本数决定，后续所有数组都围绕同一 batch 维构造。
    batch_size = len(sequences)

    # input_ids 用 int32 足够承载大多数词表 id，能比 int64 节省一半内存。
    input_ids = np.full((batch_size, max_len), fill_value=pad_id, dtype=np.int32)

    # attention_mask 用 int8 表示 0/1，存储体积小，进入框架前可再转目标 dtype。
    attention_mask = np.zeros((batch_size, max_len), dtype=np.int8)

    for row, seq in enumerate(sequences):
        # 截断策略必须显式写出，避免长样本偷偷撑爆 batch。
        clipped = np.asarray(seq[:max_len], dtype=np.int32)

        # 当前样本有效 token 数，用于同时写 input_ids 和 mask。
        length = clipped.shape[0]

        # 只写有效区间；padding 区间保持 pad_id。
        input_ids[row, :length] = clipped

        # mask 的 1 表示真实 token，0 表示 padding。
        attention_mask[row, :length] = 1

    return input_ids, attention_mask

SciPy

SciPy（Scientific Python）在深度学习训练主循环中出现频率不高，但它在三个位置仍很常见：离线优化与拟合（例如曲线拟合、数值优化）、稀疏矩阵与图算法（构图、归一化、谱方法）、统计分布与检验（评测与数据分析）。工程上，SciPy 更适合被当作“离线数值工具箱”，不适合作为在线训练链路的核心依赖。

常用API

命令/API/函数

scipy.optimize.minimize

说明
通用数值优化入口。做温度缩放、后处理参数拟合、校准曲线估计时，经常直接把目标函数交给它求解。

示例

from scipy.optimize import minimize

def objective(w):
    # 这里把离线校准误差写成标量目标；minimize 负责外层搜索。
    return ((w[0] * logits + w[1] - labels) ** 2).mean()

res = minimize(objective, x0=[1.0, 0.0], method="L-BFGS-B")

命令/API/函数

scipy.sparse.csr_array

说明
压缩稀疏行格式。大规模 one-hot、图邻接矩阵和稀疏特征拼接更适合先停留在 CSR，避免过早转成 dense 阵列。

示例

from scipy.sparse import csr_array

# 三元组形式先构图，再交给 CSR 做高效存储与乘法。
x = csr_array(([1.0, 1.0, 1.0], ([0, 1, 2], [3, 1, 0])), shape=(3, 4))

命令/API/函数

scipy.sparse.linalg.cg

说明
共轭梯度法求解稀疏线性系统。检索、图正则化和某些二次型问题的离线求解经常会走这一路。

示例

from scipy.sparse.linalg import cg

# A 通常来自稀疏图 Laplacian 或正规方程；cg 返回近似解与收敛状态。
solution, info = cg(A, b, rtol=1e-6, atol=0.0)

命令/API/函数

scipy.fft.fft / scipy.signal.convolve / scipy.stats

说明
分别对应频域变换、经典信号卷积与统计分布/检验。语音前处理、时间序列特征和实验分析都还会用到这几类接口。

示例

from scipy import fft, signal, stats

spec = fft.fft(waveform)
smoothed = signal.convolve(score, kernel, mode="same")
z = stats.norm.cdf(1.96)

数组元信息与计算语义

训练与推理中常见的性能与正确性问题，经常来自数组元信息被误解：隐式拷贝、错误广播或错误 dtype 会在数据规模上来后被迅速放大。下列四个概念决定了“这块数据在内存里是什么形状、如何被解释、算子如何访问”。

shape

shape 是每一维的长度。训练数据的 shape 规划通常先于模型：batch 维、序列维、通道维的放置会直接影响 broadcasting、拼接策略与 kernel 访问模式。

import numpy as np

x = np.zeros((batch, seq_len, hidden), dtype=np.float32)

布局缩写与轴顺序

很多代码不会写“第 0 维是 batch、第 1 维是 channel”，会直接写缩写。视觉、音频和 ONNX/推理框架里最常见的是：

缩写	含义	典型场景
HWC	Height / Width / Channel	单张图像在 OpenCV / PIL / NumPy 中的常见布局
CHW	Channel / Height / Width	单张图像进入深度学习框架前常转成此布局
NHWC / BHWC	Batch / Height / Width / Channel	TensorFlow、部分 ONNX 图和前处理流水线常见
NCHW / BCHW	Batch / Channel / Height / Width	PyTorch 和多数卷积 kernel 的默认语义布局

channels_first

与

channels_last

描述的是通道维放在哪一侧。它们首先是轴顺序约定，其次才会进一步牵涉到底层 stride 和 memory format。

img = np.zeros((224, 224, 3), dtype=np.uint8)    # HWC
x = np.moveaxis(img, -1, 0)                      # CHW
xb = np.expand_dims(x, axis=0).astype(np.float32)  # BCHW

stride

stride 描述“沿每一维移动 1 步，需要在底层 buffer 上跳过多少字节”。它解释了为什么很多 reshape/transpose 是 O(1) 视图，以及为什么某些看似简单的切片会导致后续算子不得不拷贝成 contiguous。stride 也是 DLPack 协议定义的核心之一。

import numpy as np

a = np.arange(12, dtype=np.int32).reshape(3, 4)
print(a.shape, a.strides)    # (3, 4) (16, 4)  以 int32 为例，步长单位是字节

at = a.T
print(at.shape, at.strides)  # (4, 3) (4, 16)  转置后 stride 对调

contiguous、order 与 view/copy

工程里最容易混淆的是：shape 一样，不代表内存布局一样；“没有显式写 copy”，也不代表没有分配新内存。这里至少要区分四件事：

view：只改元信息（shape/stride/offset），底层 buffer 仍共享。
copy：分配新内存并写入数据，也可称 materialize。
C contiguous：按 row-major 方式连续存放，
```
flags["C_CONTIGUOUS"]
```
为真。
F contiguous：按 column-major 方式连续存放，
```
flags["F_CONTIGUOUS"]
```
为真。

切片通常返回 view，而花式索引（fancy indexing）和布尔索引通常会 materialize。

transpose

、

moveaxis

往往只是改 stride；

concatenate

、

stack

、

flatten

则更常真的分配新数组。

x = np.arange(12).reshape(3, 4)
y = x[:, 1:]           # 典型 view
z = x[[0, 2]]          # 典型 copy（fancy indexing）

print(y.base is x, z.base is x)
print(x.flags["C_CONTIGUOUS"], x.flags["F_CONTIGUOUS"])

order="C"

、

order="F"

、

order="K"

等参数，会影响 reshape/ravel/copy 时如何解释或保留现有内存顺序。多数 AI 工程默认围绕 C contiguous 工作；只有明确知道下游需要列优先布局时，才主动引入 Fortran-order。

dtype

dtype 决定了每个元素的解释方式与字节数。训练与推理中，dtype 的作用不止“精度高低”，还包括：IO 体积、缓存命中率、向量化指令路径、以及与下游框架的类型兼容性。实践上常见的约束是：数据管线侧用更紧凑的整型/字节型存储，进入训练前再一次性转换到框架需要的 dtype。

import numpy as np

# 例：原始 token id 通常用 int32 或更小的无符号整型存储
ids = np.array([1, 2, 3, 4], dtype=np.int32)

broadcasting

broadcasting 是“不同 shape 的数组做逐元素运算时，如何对齐维度并隐式扩展”。它是把 Python 循环消掉的关键机制，但也可能引入隐藏的大中间张量或错误对齐。广播规则的工程实践通常围绕两件事：显式插入维度（None/newaxis）与显式对齐最后几维。

import numpy as np

# (B, T, H) - (H,) -> (B, T, H)
X = np.random.randn(2, 3, 4).astype(np.float32)
mu = X.mean(axis=(0, 1))           # (H,)
X0 = X - mu                        # broadcasting

# 显式插维更直观
mu2 = mu[None, None, :]            # (1, 1, H)
X1 = X - mu2

广播只在“维度相等”或“其中一边等于 1”时成立。写复杂代码时，推荐先把意图写成显式插维，让每个对齐维度都能从代码里直接读出来。

img = np.zeros((2, 224, 224, 3), dtype=np.float32)  # NHWC
mean = np.array([0.485, 0.456, 0.406], dtype=np.float32)
img = img - mean[None, None, None, :]

表格与列式数据

Pandas

Pandas 在训练/推理工程里的定位更接近“数据分析与小中规模表格处理”。它擅长做数据清洗、统计分析、对齐 join、特征表合并，以及输出可审计的中间结果（CSV/Parquet）。当数据规模接近或超过内存时，工程上通常会转向 Arrow/Polars 的流式与列式路径。

常用API

命令/API/函数

pd.read_csv

说明
训练前最常见的“原始表输入”入口。高频实践是把

dtype

、时间列解析和缺失值策略显式写死，避免不同机器自动推断出不同 schema。

示例

import pandas as pd

df = pd.read_csv(
    "events.csv",
    dtype={"user_id": "int64", "label": "int8"},
    parse_dates=["ts"],
)

命令/API/函数

pd.read_parquet

说明
读取 Parquet 到 DataFrame，适合分析型脚本和中小规模表处理；大规模数据更适合转向 Polars 或 Arrow dataset。

示例

import pandas as pd
df = pd.read_parquet("train.parquet")

命令/API/函数

DataFrame.merge / merge_asof

说明
把用户表、曝光表、标签表按键或按时间邻近对齐，是特征表组装里的主入口。

merge_asof

特别适合“找某个时间点之前最近一次状态”的时序特征。

示例

feat = clicks.merge(users, on="user_id", how="left")

# merge_asof 要求时间列先排序，再按最近历史状态对齐。
feat = pd.merge_asof(
    feat.sort_values("ts"),
    profile.sort_values("ts"),
    on="ts",
    by="user_id",
    direction="backward",
)

命令/API/函数

DataFrame.groupby().agg()

说明
按实体聚合统计特征。它是表格特征工程里最常见的“从明细表到样本表”的变换。

示例

user_feat = (
    df.groupby("user_id", as_index=False)
      .agg(clicks=("clicked", "sum"), avg_score=("score", "mean"))
)

命令/API/函数

pd.to_datetime / pd.date_range

说明
统一时间列语义。训练集切分、回测窗口和特征对齐如果没有先把时间转成明确 dtype，后面几乎一定会出错。

示例

df["ts"] = pd.to_datetime(df["ts"], utc=True)
calendar = pd.date_range("2026-01-01", periods=7, freq="D", tz="UTC")

命令/API/函数

DataFrame.to_parquet

说明
把清洗后的中间表、特征表或评测样本落盘为列式文件，便于后续批处理复用。

示例

df.to_parquet("out.parquet", index=False)

命令/API/函数

DataFrame.to_numpy

说明
把表格列送进 NumPy/模型前处理链。copy=False 不保证零拷贝，混合 dtype 往往仍会触发类型提升和拷贝。

示例

x = df[["a", "b"]].to_numpy(dtype="float32", copy=False)

Polars

Polars 的优势在于其 lazy 执行与 streaming：把计算表达成查询计划，先做优化（projection/predicate pushdown），再以批方式执行。对训练数据预处理而言，这意味着可以在不把全量数据 materialize 到内存的情况下完成筛选、投影、采样、分桶、写回 Parquet。

常用API

命令/API/函数

pl.scan_parquet

说明
lazy 方式扫描 Parquet，不立即 materialize

示例

import polars as pl
lf = pl.scan_parquet("data/*.parquet")

命令/API/函数

pl.col

说明
Polars 表达式系统的核心入口。列选择、类型转换、条件分支和聚合，几乎都从

pl.col(...)

开始。

示例

expr = (
    pl.col("score")
      .cast(pl.Float32)
      .fill_null(0.0)
      .alias("score_f32")
)

命令/API/函数

LazyFrame.with_columns / group_by().agg()

说明
在 lazy 计划里做表达式变换和聚合。很多“加特征列再按实体汇总”的任务都能在这一层一次写完。

示例

agg = (
    lf.with_columns(pl.col("score").cast(pl.Float32))
      .group_by("user_id")
      .agg(pl.col("score").mean().alias("avg_score"))
)

命令/API/函数

LazyFrame.collect / sink_parquet

说明
前者把 lazy 计划真正执行成内存结果，后者把结果直接落到 Parquet。大规模离线预处理更常优先

sink_parquet

，避免中间结果全落进 Python 进程内存。

示例

out = (
    lf.filter(pl.col("lang") == "zh")
      .select(["text", "label"])
      .collect(streaming=True)
)

lf.sink_parquet("out.parquet")

PyArrow

PyArrow 是 Python 对 Arrow 内存格式与生态能力的主要入口。对 AI 训练/推理工程而言，Arrow 的核心价值是统一列式内存表示，并在 Pandas、Parquet、HF Datasets 与各种 IPC 路径之间提供高效桥梁。训练数据若最终要落成 Arrow/Parquet，通常建议在预处理阶段就尽量保留 Arrow Table / RecordBatch 语义，避免频繁在 Python 对象列表与 DataFrame 之间来回转换。

常用API

命令/API/函数

pa.table / pa.array

说明
把 Python 容器显式转成 Arrow 列式对象。只有真正进入 Arrow 数组或表，后续 schema、Parquet、IPC 和 dataset 能力才会完整接上。

示例

import pyarrow as pa

ids = pa.array([1, 2, 3], type=pa.int32())
tbl = pa.table({"x": [1, 2, 3], "y": ["a", "b", "c"]})

命令/API/函数

pa.schema / pa.field

说明
显式声明列名和类型契约。训练数据一旦要跨作业、跨机器和跨语言复用，schema-first 往往比“让库自动猜类型”稳定得多。

示例

schema = pa.schema([
    pa.field("text", pa.string()),
    pa.field("label", pa.int8()),
])

命令/API/函数

pyarrow.parquet.read_table

说明
读 Parquet 为 Table

示例

import pyarrow.parquet as pq
tbl = pq.read_table("train.parquet", columns=["text", "label"])

命令/API/函数

pyarrow.dataset.dataset

说明
把一批分区文件组织成统一 dataset 入口。训练语料若已经按日期、语言、split 分目录存放，这通常比手写 glob 再逐文件读取更干净。

示例

import pyarrow.dataset as ds

train_ds = ds.dataset("corpus/", format="parquet", partitioning="hive")

命令/API/函数

pyarrow.compute

说明
对 Arrow 列直接做向量化变换，避免为了一个简单筛选或 cast 把数据先搬回 Pandas。

示例

import pyarrow.compute as pc

mask = pc.equal(tbl["label"], 1)
pos = tbl.filter(mask)

命令/API/函数

pyarrow.parquet.write_table

说明
把列式结果稳定写回 Parquet，作为下游训练或评估作业的输入产物。

示例

import pyarrow.parquet as pq

pq.write_table(tbl, "train.parquet")

命令/API/函数

Table.to_pandas

说明
转 Pandas

示例

df = tbl.to_pandas()

Parquet

Parquet 是面向分析与批处理的列式文件格式。训练数据落盘选择 Parquet 的理由通常是：压缩比高、列裁剪成本低、能按列读取并减少 IO、天然支持 row group 作为大文件分块单位。工程上最常见的实践是：把可训练字段放在少数列里，并显式按任务选择 columns 读取，避免把无关字段搬进内存。

import pyarrow.parquet as pq

tbl = pq.read_table(
  "train.parquet",
  columns=["text", "label"],   # 列裁剪
)

PyArrow IPC 与 memory_map

IPC（Inter-Process Communication）格式用于把 Arrow 的内存表示序列化为文件或流，并支持高效读写。对训练数据管线而言，一个关键工程点是：若输入源支持零拷贝读取（例如 memory map），则读出来的 batch 可以保持零拷贝路径，从而显著降低 CPU 端的内存分配与拷贝开销。

import pyarrow as pa

# 以 memory map 方式打开文件，避免额外 read() 复制
source = pa.memory_map("dataset.arrow", mode="r")
reader = pa.ipc.open_file(source)

# IPC 文件通常按 RecordBatch 组织；这里只取第 0 个 batch 演示零拷贝读取路径。
batch0 = reader.get_batch(0)
# 需要和下游 Arrow API 对接时，再把若干 batch 重新拼成 Table。
tbl = pa.Table.from_batches([batch0])

序列化与权重格式

通用序列化格式

训练与推理系统里最常见的序列化对象是：配置、元数据、索引与权重。配置层常见 JSON/YAML；权重层需要关注安全性与加载速度；跨进程/跨服务通信则常用 protobuf 这类 IDL 驱动格式。

JSON

JSON 适合可读性强的元数据与小体量配置，常用于数据集 manifest、评测记录与简单索引。

YAML

YAML 常用于训练配置，但它过于通用，本文只把它视为“配置载体”。具体配置系统（Hydra/OmegaConf）在后续章节展开。

pickle

pickle 能序列化 Python 对象，但它不适合用于不可信来源的权重与模型文件，因为反序列化会执行对象构造逻辑。工程上如果需要“安全的张量权重格式”，通常会优先选择 safetensors。

protobuf

protobuf 的优势是 schema 驱动与跨语言：用

.proto

定义消息结构，由

protoc

生成多语言代码。它常用于模型服务、日志/Tracing、任务队列与数据交换协议。

定义 schema，例如在
```
.proto
```
中声明
```
message Foo { ... }
```
。
运行
```
protoc --python_out=. foo.proto
```
生成 Python 绑定代码。
在 Python 中导入
```
foo_pb2
```
，再按生成的消息类读写数据。

safetensors

safetensors 是面向模型权重的安全、快速格式，设计目标是替代基于 pickle 的不安全权重存储。它的工程优势主要体现在三点：加载速度、零拷贝读取路径、以及避免反序列化执行任意代码。若训练产物需要在多环境分发或上线部署，safetensors 往往是默认优先选项。

常用API

命令/API/函数

safetensors.torch.save_file

说明
保存 tensor dict

示例

from safetensors.torch import save_file
import torch

tensors = {"w": torch.randn(2, 3)}
save_file(tensors, "model.safetensors")

命令/API/函数

safetensors.torch.load_file

说明
加载为 CPU tensor dict

示例

from safetensors.torch import load_file

tensors = load_file("model.safetensors")

命令/API/函数

safetensors.safe_open

说明
按需读取，支持只取部分 key

示例

from safetensors import safe_open

with safe_open("model.safetensors", framework="pt", device="cpu") as f:
    w = f.get_tensor("w")

GGUF

GGUF（GGML Universal File）是 llama.cpp 生态的权重文件格式，目标是单文件、可扩展、可 memory-map，并携带足够的 KV 元数据支持推理 runtime 直接加载。若部署路线包含 llama.cpp / Ollama 一类本地推理栈，训练产物通常需要在 Hugging Face 权重与 GGUF 之间做一次转换与量化。

# llama.cpp 仓库提供 convert_*.py 脚本把 Hugging Face 权重转换为 GGUF
python convert_hf_to_gguf.py --outfile out.gguf /path/to/hf_model_dir

数据管线与预处理组件

训练与推理系统的性能瓶颈经常不在模型前向，而在输入：数据从磁盘/对象存储进入进程、被解码与清洗、被分词与组 batch、再进入 GPU。一个可用的数据管线需要同时满足三件事：吞吐（喂满设备）、一致性（可复现、可回放）、可运维（能增量、能恢复、能追溯）。

本节把数据管线拆成四层：读取抽象（Dataset/DataLoader）、存储与后端（Arrow/Parquet/WebDataset/LMDB/HDF5/mmap）、文本入口（tokenizer 与中文预处理）、以及离线预处理模式（多进程 + shard 流式写入）。每一层都以“如何写代码把数据喂进训练/推理”为主线。

数据集抽象与读取方式

PyTorch 数据接口

PyTorch 的数据读取围绕两个 Dataset 协议展开：map-style（可随机访问）与 iterable-style（顺序流式）。DataLoader 负责把 Dataset 变成可迭代的 batch 流，并提供多进程 worker、prefetch、pin memory 等机制。实践中，Dataset 负责“怎样得到一个样本”，DataLoader 负责“怎样并行、怎样组批、怎样把样本送进设备”。

安装：

pip install torch

Dataset

map-style Dataset 的约束很简单：实现

__getitem__

与

__len__

。它适合“样本天然有索引”的存储，例如：一个样本一行的 Parquet/Arrow、固定条目 LMDB、按文件名索引的图像文件夹。

from torch.utils.data import Dataset

class MyDataset(Dataset):
    def __init__(self, paths):
        # map-style Dataset 通常先把“样本索引”准备好，真正读取留给 __getitem__
        self.paths = paths

    def __len__(self):
        # DataLoader 需要长度信息来做 epoch 边界、shuffle 和 sampler 计算
        return len(self.paths)

    def __getitem__(self, idx):
        # idx 只是索引入口，真正的样本内容可以来自文件、KV 或远端缓存
        path = self.paths[idx]
        with open(path, "rb") as f:
            # 这里读取原始二进制；解码可以放在这里，也可以延后到 collate_fn
            blob = f.read()
        # 返回 dict/tuple 都可以，关键是下游 collate_fn 知道怎么拼 batch
        return {"path": path, "blob": blob}

IterableDataset

IterableDataset 只要求实现

__iter__

，更适合训练数据远大于本地磁盘、需要顺序扫描或在线生成的场景（对象存储流式、Kafka/队列、WebDataset tar 流、动态合成数据）。使用多 worker 时，必须自行做切分（worker shard），否则每个 worker 都会重复遍历同一份流。

import torch
from torch.utils.data import IterableDataset

class LineStream(IterableDataset):
    def __init__(self, filename):
        # iterable-style 数据集更像“流”，通常只保存数据源句柄或路径
        self.filename = filename

    def __iter__(self):
        # 多 worker 下需要知道自己是第几个 worker
        worker = torch.utils.data.get_worker_info()
        wid = 0 if worker is None else worker.id
        wnum = 1 if worker is None else worker.num_workers

        with open(self.filename, "r", encoding="utf-8") as f:
            for i, line in enumerate(f):
                if (i % wnum) != wid:
                    continue  # 用取模切分行号，保证多个 worker 不会重复消费同一行
                # 逐条产出样本，避免一次性把整份文件读进内存
                yield {"text": line.rstrip("\n")}

DataLoader

DataLoader 的关键价值在于把“批处理策略”和“并行读取策略”显式化。它的典型参数包括：

batch_size

、

shuffle

、

num_workers

、

collate_fn

、

pin_memory

、

prefetch_factor

、

persistent_workers

。这些参数共同决定吞吐、延迟、内存占用与稳定性。

命令/API/函数

torch.utils.data.DataLoader

说明
把 Dataset/IterableDataset 变成 batch 流。关键参数：

batch_size

num_workers

collate_fn

pin_memory

示例

from torch.utils.data import DataLoader

loader = DataLoader(
    dataset,
    batch_size=64,           # 每次交给模型 64 条样本；它直接影响吞吐、显存占用和梯度噪声
    shuffle=True,            # 训练集通常打乱，避免数据顺序相关性影响收敛
    # 8 个 worker 并发准备样本；太小喂不满 GPU，太大又会放大 CPU/内存开销
    num_workers=8,
    pin_memory=True,         # batch 会先落在 page-locked 内存，拷到 GPU 时更快
    persistent_workers=True, # 跨 epoch 复用 worker 进程，减少频繁拉起带来的抖动
)

命令/API/函数

torch.utils.data.get_worker_info

说明
在 IterableDataset 中分片。关键参数：worker.id / worker.num_workers

示例

worker = torch.utils.data.get_worker_info()
wid = 0 if worker is None else worker.id
wnum = 1 if worker is None else worker.num_workers

复现性：worker_init_fn + generator

DataLoader 的随机性并不只来自主进程的

torch.manual_seed

。一旦打开多 worker，每个 worker 还会各自使用 Python、NumPy 和 PyTorch 的随机数源。官方文档给出的稳定做法是：主进程显式传入一个

torch.Generator

，再在

worker_init_fn

里把 worker 级种子同步到 NumPy 和 Python 随机库。

import random

import numpy as np
import torch
from torch.utils.data import DataLoader

def seed_worker(worker_id):
    # PyTorch 已经给每个 worker 分配了独立种子；
    # 这里把它同步给 NumPy 和 Python random，避免三套 RNG 彼此漂移。
    worker_seed = torch.initial_seed() % 2**32
    np.random.seed(worker_seed)
    random.seed(worker_seed)

# 主进程自己的 DataLoader 随机源；
# shuffle、random_split、带 generator 的 sampler 都可以围绕它保持可复现。
g = torch.Generator()
g.manual_seed(3407)

loader = DataLoader(
    dataset,
    batch_size=32,
    shuffle=True,                # 打乱顺序时最需要把随机源显式固定下来
    num_workers=8,
    worker_init_fn=seed_worker,  # 负责把 worker 内部的 NumPy/Python RNG 也种好
    generator=g,                 # 主进程侧的采样顺序由这份 generator 控制
)

分布式训练下，这套做法仍然成立，但还需要配合

DistributedSampler.set_epoch(epoch)

。原因是多 rank 不只要“每次都随机”，还要“所有 rank 对同一轮 shuffle 的理解一致”。

collate_fn：把样本级对象真正拼成 batch

DataLoader 默认的拼 batch 逻辑只适合“每个样本都已经是规则张量”的情况。文本、语音、检测框这类变长任务里，真正决定 batch 结构的通常是自定义

collate_fn

：padding 多长、保留哪些原始字段、哪些字段进 GPU、哪些字段只保留给评估与对齐。

import torch
from torch.nn.utils.rnn import pad_sequence

def collate_batch(samples):
    # 先把每条样本里真正要进模型的 token 序列取出来。
    input_ids = [torch.tensor(s["input_ids"], dtype=torch.long) for s in samples]
    labels = torch.tensor([s["label"] for s in samples], dtype=torch.long)

    # 变长序列在这里统一 pad；不要在 Dataset.__getitem__ 里把所有样本都 pad 到全局最大长度。
    input_ids = pad_sequence(input_ids, batch_first=True, padding_value=0)
    # attention_mask 应和 padding 规则同步生成，否则模型会把 pad token 也当成有效上下文。
    attention_mask = input_ids.ne(0).long()

    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels,
    }

loader = DataLoader(
    dataset,
    batch_size=32,
    num_workers=8,
    collate_fn=collate_batch,    # 真正定义“一个 batch 长什么样”
    pin_memory=True,
)

工程边界非常清楚：Dataset 负责拿到单条样本，collate_fn 负责把一批样本拼成模型输入。如果把 padding、随机 mask、目标对齐全部塞进

__getitem__

，后续切 batch 策略、切 tokenizer 或切任务头时会很难维护。

Hugging Face Datasets

Datasets 把“数据集”抽象成 Arrow-backed 的

Dataset

DatasetDict

，并提供统一的加载（Hub/本地/通用 builder）、变换（map/filter）、以及落盘（save_to_disk / parquet）的工具链。它在大模型训练管线中的典型用法是：用一次离线 map 把清洗与分词做掉，输出可 memory-map 的 Arrow/Parquet，再用 PyTorch DataLoader 做高吞吐训练。

安装：

pip install datasets

加载：支持 Hub 数据集、目录内 CSV/JSON/Parquet 文件、以及通用 builder（例如

json

parquet

webdataset

）。

from datasets import load_dataset

# 直接从 Hub 取公开数据集，适合快速验证预处理与训练脚本
ds = load_dataset("allenai/c4", "en", split="train")

ds = load_dataset(
    "parquet",
    data_files={"train": ["./data/train-*.parquet"]},
)["train"]  # 本地 parquet 目录是最常见的离线预处理产物之一

ds_stream = load_dataset(
    "json",
    data_files="s3://bucket/data.jsonl",
    streaming=True,
)["train"]  # streaming=True 不把全量数据落本地，适合超大规模语料或对象存储直读

命令/API/函数

datasets.load_dataset

说明
加载 Hub / 本地 / 通用 builder。关键参数：

data_files

split

streaming

num_proc

示例

ds = load_dataset(
    "json",
    data_files="train.jsonl",  # 告诉 builder 真正要读取哪份原始文件
    split="train",             # 直接拿 train split，省去再从 DatasetDict 里二次索引
    num_proc=8,                # 解析 JSONL 时开多进程，提高大文件导入速度
)

命令/API/函数

Dataset.map

说明
清洗/分词/特征工程。关键参数：

batched

num_proc

remove_columns

示例

def tok(batch):
    # map 阶段把原始文本转成 token id，训练时就不用每 step 再做字符串处理
    return tokenizer(batch["text"])

ds2 = ds.map(
    tok,
    batched=True,               # tokenizer 批量跑通常更快，也更接近真实训练吞吐
    num_proc=8,                 # 把 CPU 密集的分词并行化
    # 处理完就删掉原始文本列，减少后续数据体积和 batch 搬运成本
    remove_columns=["text"],
)

命令/API/函数

Dataset.save_to_disk

说明
保存 Arrow 数据集目录。关键参数：输出目录

示例

ds2.save_to_disk("./out/ds_tok")

命令/API/函数

datasets.load_from_disk

说明
恢复已保存数据集。关键参数：输入目录

示例

from datasets import load_from_disk
ds2 = load_from_disk("./out/ds_tok")

Features：把 schema 明确写出来

当数据不再只是“纯文本 + label”时，显式声明

Features

会比依赖自动推断更稳。它的价值在于：列类型固定、序列列有明确嵌套结构、图像/音频列知道该如何延迟解码，后续 cast 与格式转换也更可控。

from datasets import Audio, ClassLabel, Features, Sequence, Value

features = Features(
    {
        # 原始文本列；后续仍可保留用于 debug 或重跑 tokenizer
        "text": Value("string"),
        # 把离散标签显式收成受控枚举，避免字符串标签到处漂
        "label": ClassLabel(names=["neg", "pos"]),
        # token id 序列是“变长整型列表”，并非随手塞进 object 列
        "input_ids": Sequence(Value("int32")),
        # 音频列会在访问时自动解码/重采样到 16kHz
        "audio": Audio(sampling_rate=16000),
    }
)

with_format / set_format / with_transform：决定样本怎么交给训练框架

Datasets 的底层存储与“取一条样本时返回什么对象”是两件事。

with_format

返回一个带格式视图的新数据集，

set_format

则原地修改；

with_transform

更进一步，允许在取样时做惰性张量化或轻量预处理。

ds_torch = ds.with_format(
    "torch",
    # 只把训练真正需要的列转成 tensor，减少无关列搬运
    columns=["input_ids", "attention_mask", "label"],
)

# 原地修改；适合临时实验，不适合在多人脚本里到处传同一个对象
ds.set_format("torch", columns=["label"])

def encode_on_the_fly(batch):
    # with_transform 适合“想保持原始文本，又不想提前全量落盘 token”的场景
    return tokenizer(batch["text"], truncation=True)

ds_lazy = ds.with_transform(encode_on_the_fly)

列操作与切分：remove / rename / cast / select / filter / shuffle

大多数真实数据清洗都离不开列级操作。这里的关键不仅 API 名字，还理解哪些操作在 schema 演进时最常见：删掉原始大字段减小数据体积、统一字段命名、把 label 从字符串 cast 到枚举、按稳定 seed 打乱并切分训练/验证集。

from datasets import ClassLabel, Value

# 先统一字段命名，后续 tokenizer/map 才不用为不同数据源写分支
ds = ds.rename_column("sentence", "text")
# 清洗后不再需要的大字段尽早删掉，减少 Arrow/Parquet 体积
ds = ds.remove_columns(["raw_html"])
# 把字符串或整数标签收敛成受控类别空间
ds = ds.cast_column("label", ClassLabel(names=["neg", "pos"]))
# 显式修正数值精度，避免跨库时 int32/int64 不一致
ds = ds.cast_column("idx", Value("int64"))
# 训练/验证切分前先固定随机种子，保证实验可复现
ds = ds.shuffle(seed=42)
# 把切分动作放进数据管线，避免散落在业务代码里
splits = ds.train_test_split(test_size=0.02, seed=42)
train_ds = splits["train"].select(range(100000))       # 只抽一个稳定子集做快速回归测试
# filter 更适合写成显式数据约束，训练循环只消费已清洗样本
train_ds = train_ds.filter(lambda x: len(x["text"]) > 0)

多源拼接与 cache/fingerprint 语义

预训练、SFT 和数据增强任务经常要把多份语料混到一起。Datasets 已提供

concatenate_datasets

与

interleave_datasets

，前者是顺序拼接，后者更适合多语料轮转采样。另一件必须知道的事是 fingerprint：map/filter 的缓存是否复用，取决于数据内容、函数与参数共同生成的指纹，文件名相同不代表缓存一定可复用。

from datasets import concatenate_datasets, interleave_datasets

mix = concatenate_datasets([news_ds, qa_ds])           # 适合直接做“先 A 后 B”的顺序拼接
round_robin = interleave_datasets(
    # 更适合多源混训，让不同语料在样本流里交错出现
    [news_ds, qa_ds],
    stopping_strategy="all_exhausted",
)

tokenized = mix.map(
    tok,
    batched=True,
    # 默认会尽量复用缓存；函数或参数一变，fingerprint 也会变
    load_from_cache_file=True,
)

排查“为什么

map()

没有重跑”时，先看缓存目录与 fingerprint；排查“为什么无缘无故重跑了”时，也先看函数闭包、参数和依赖对象是否变了。

大规模数据读取后端

当单机磁盘与单个文件格式无法满足吞吐或并行度时，训练数据会落到“更工程化的后端”。最常见的三类：tar shard（WebDataset）、KV store（LMDB）、块存储/层次结构（HDF5）。它们的核心是“更匹配训练读取模式”。

WebDataset

WebDataset 以 tar shard 作为基本载体，强调流式读取与链式 pipeline。它常用于大规模图像/视频/音频/多模态训练：样本被打包成许多 tar 文件（shard），训练时按 shard 流式拉取、解码、组 batch。安装：

pip install webdataset

命令/API/函数

webdataset.WebDataset

说明
构建数据管线（DataPipeline + 流式操作）

示例

import webdataset as wds

dataset = (
    # shard 模式让数据集按 tar 文件流式展开，避免训练前把全部样本解包到本地。
    wds.WebDataset("shards/data-{000000..000127}.tar")
      .shuffle(10000)
      .decode("pil")
      .to_tuple("jpg", "txt")
      .batched(64)
)

命令/API/函数

FluidInterface.with_epoch

说明
限制一个 epoch 的样本数（类似 islice）

示例

dataset = dataset.with_epoch(1_000_000)

ShardWriter：把离线数据写成 tar shard

WebDataset 的写入侧通常比读取侧更值得标准化。常见约定是：同一个样本共享一份

__key__

，不同模态或字段作为不同扩展名文件写进 tar。这让读取侧可以按 key 自动把图片、文本、JSON 元信息重新组回一条样本。

import io
import webdataset as wds

with wds.ShardWriter("shards/data-%06d.tar", maxcount=10000) as sink:
    for i, sample in enumerate(samples):
        sink.write(
            {
                "__key__": f"{i:08d}",       # 同一条样本的所有字段都靠这个 key 关联
                "txt": sample["text"],       # 文本字段直接写成 txt/json 之类扩展名
                "json": sample["meta"],      # 元数据可单独保留，方便检索和排错
                # 图像/音频/视频通常写原始字节，解码推迟到训练读取阶段
                "jpg": sample["image_bytes"]
            }
        )

分布式读取：split_by_node / split_by_worker

WebDataset 在多机多 worker 训练里最容易犯的错误是“每个 worker 都在读同一批 tar”。解决思路和 IterableDataset 类似：先按节点切 shard，再按 worker 切 shard。否则表面上吞吐很高，实际上样本被重复消费。

dataset = (
    wds.WebDataset("shards/data-{000000..000127}.tar")
      .split_by_node()   # 先按节点分 shard，避免多机重复消费同一批 tar
      .split_by_worker() # 再按 DataLoader worker 进一步切分
      .decode("pil")
      .to_tuple("jpg", "txt")
)

LMDB

LMDB 是 memory-mapped 的 KV store，优势是读性能稳定、并发读友好，适合“样本就是 key->value”的训练数据（尤其是大量小对象）。LMDB 的关键约束是事务：读写必须在 transaction 内进行，并且从 LMDB 返回的值可能直接指向 mmap 区域，transaction 结束后不可继续使用该指针。

安装：

pip install lmdb

命令/API/函数

lmdb.open

说明
打开/创建环境（Environment）

示例

import lmdb
env = lmdb.open(
    "./data.lmdb",
    map_size=1024**4,  # 预留 1TB 虚拟地址空间；LMDB 达到上限后需要手动扩容
    subdir=False,      # 把 ./data.lmdb 当成单文件模式的 LMDB 环境
    readonly=False,    # 写入场景必须关闭只读；离线建库完再切只读更稳
    lock=True,         # 多进程写入需要文件锁保证事务一致性
)

命令/API/函数

Environment.begin

说明
开启事务（Transaction）

示例

with env.begin(write=True) as txn:
    txn.put(b"k", b"v")

命令/API/函数

Transaction.get / put

说明
读写 KV

示例

with env.begin(write=False) as txn:
    v = txn.get(b"k")

命令/API/函数

Transaction.cursor

说明
迭代遍历

示例

with env.begin() as txn:
    with txn.cursor() as cur:
        for k, v in cur:
            ...

HDF5

HDF5 适合块状数组与层次结构数据。训练里常见于科学计算数据、时序/医疗影像、以及需要 chunked 存储与压缩的场景。Python 侧最常用的是 h5py。安装：

pip install h5py

命令/API/函数

h5py.File

说明
打开/创建文件

示例

import h5py
f = h5py.File("data.h5", "r")

命令/API/函数

Group.create_dataset

说明
创建 dataset（可设 chunks/compression）

示例

d = f.create_dataset(
    "x",
    shape=(0, 4096),        # 初始为空；第一维表示样本数，后续按 batch 追加
    maxshape=(None, 4096),  # 第一维允许无限增长，否则 resize 会失败
    chunks=(1024, 4096),    # 以 1024 行为一个块，兼顾顺序写入与顺序读取
    dtype="int32",          # token id/离散特征常用整数类型，避免默认 int64 浪费空间
)

命令/API/函数

Dataset.resize

说明
追加写入（配合 maxshape）

示例

n = d.shape[0]
d.resize((n + batch.shape[0], 4096))
d[n:] = batch

命令/API/函数

Group.require_dataset

说明
“如果不存在就创建，存在就复用”的 dataset 入口。长流程作业做增量写入或多阶段预处理时，比手写存在性判断更稳。

示例

tokens = f.require_dataset(
    "tokens",
    shape=(0, 4096),
    maxshape=(None, 4096),
    chunks=(1024, 4096),
    dtype="int32",
)

命令/API/函数

Dataset.asstr / h5py.string_dtype

说明
把字符串 dataset 明确当作文本处理，并统一文本元数据、路径和标签名的字符串语义，减少跨 Python 版本和跨平台读取问题。

示例

meta = f.create_dataset(
    "doc_id",
    data=["a", "b", "c"],
    dtype=h5py.string_dtype(encoding="utf-8"),
)

doc_ids = meta.asstr()[:]

内存映射

memory map 的价值在于把“磁盘 IO + 反序列化”变成“按页缺页加载”：进程只在访问到某段数据时才触发读取，并允许多个进程共享同一份文件缓存。它常用于 Arrow IPC、NumPy 的大数组、以及只读数据集的多 worker 读取。

import numpy as np

# 以 memmap 读一个巨大 float32 数组（示例）
arr = np.memmap("x.bin", dtype=np.float32, mode="r")
# arr[i] 的访问才会触发对应页的加载

MosaicML Streaming

MosaicML Streaming 把“超大语料存放在对象存储上、训练时按需拉取”做成专用库。它的定位和 WebDataset 有交集，但更强调多节点训练时的正确性、确定性与 just-in-time 混合采样。对于“数据不想整份预拉到本地 NVMe”的预训练任务，它是值得单独了解的一条路线。

pip install mosaicml-streaming

from streaming import StreamingDataset

dataset = StreamingDataset(
    remote="s3://bucket/my-corpus",  # 远端对象存储是真正的数据源，训练时按 shard 增量拉取
    local="/tmp/streaming-cache",    # 本地目录只做工作集缓存，不保存全量镜像
    shuffle=True,                    # 把远端 shard 流按训练需要做确定性 shuffle
    # 某些 streaming 路线会把 batch 语义前移到数据层，便于控制采样顺序
    batch_size=8,
)

文本分词与 tokenizer 组件

分词（Tokenization）有两种工程形态：在线分词（推理时对用户输入分词）与离线分词（训练前把语料转成 token id）。离线分词的目标是把训练阶段的 CPU 开销外移：训练时直接读取

input_ids

attention_mask

之类张量，避免每步都做字符串处理。

tokenizers

Tokenizers 是 Rust 实现的 tokenizer 库，提供训练、编码、解码以及 padding/truncation 等预处理步骤。它面向生产：同一套 tokenizer 可以被训练脚本、离线预处理作业与线上服务复用。

安装：

pip install tokenizers

命令/API/函数

tokenizers.Tokenizer

说明
tokenizer 管线对象

示例

from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

tok = Tokenizer(BPE(unk_token="[UNK]"))  # 先定义底层分词模型；未知词会回退到 [UNK]
tok.pre_tokenizer = Whitespace()         # 先按空白切粗粒度片段，再在片段内学习 BPE merge
trainer = BpeTrainer(
    vocab_size=32000,  # 词表大小直接影响 embedding 尺寸、OOV 粒度和序列长度
    # 训练阶段先把特殊 token 固定进词表，避免后面再补导致 id 漂移
    special_tokens=["[UNK]", "[PAD]", "[BOS]", "[EOS]"],
)
# 从语料文件训练 tokenizer；产出的 merge 规则和 vocab 可供训练/推理共用
tok.train(["corpus.txt"], trainer)

命令/API/函数

Tokenizer.encode / encode_batch

说明
编码为 token id

示例

enc = tok.encode("hello world")
ids = enc.ids

encs = tok.encode_batch(["a", "b"])
batch_ids = [e.ids for e in encs]

命令/API/函数

Tokenizer.decode / decode_batch

说明
解码

示例

text = tok.decode(ids)
texts = tok.decode_batch(batch_ids)

tokenizer pipeline：normalizer / pre-tokenizer / post-processor

现代 tokenizer 并非“一个黑盒 encode()”。它通常由四段组成：normalizer 负责文本标准化，pre-tokenizer 负责粗切分，model 负责真正的子词编码，post-processor 负责补特殊 token 与 sequence pair 结构。把这条 pipeline 拆开理解，排查 token 边界、special token 或 pair 输入错乱时会快很多。

from tokenizers.normalizers import NFKC
from tokenizers.pre_tokenizers import ByteLevel
from tokenizers.processors import TemplateProcessing

tok.normalizer = NFKC()  # 先做 Unicode 规范化，减少全角/兼容字符造成的词表噪声
tok.pre_tokenizer = ByteLevel()  # ByteLevel 适合需要 byte-level 稳定覆盖的 tokenizer 路线
tok.post_processor = TemplateProcessing(
    # 单句输入如何补特殊 token，由 post-processor 决定
    single="[BOS] $A [EOS]",
    pair="[BOS] $A [EOS] $B:1 [EOS]:1",    # :1 表示 sequence B 的 type_id=1
    special_tokens=[("[BOS]", 1), ("[EOS]", 2)],
)

Encoding.offsets：span 对齐与可解释性排查

做 NER、高亮、引用定位、chunk 边界回溯时，单看 token id 不够，还需要字符级对齐信息。

Encoding.offsets

与相关映射方法，正是把“token 第几个”重新映射回“原文本的哪一段”。

enc = tok.encode("Hello, how are you?")
start, end = enc.offsets[2]  # offsets[i] 给出第 i 个 token 在原始字符串中的字符区间
span = "Hello, how are you?"[start:end]

SentencePiece

SentencePiece 既是一套 tokenizer 算法（BPE / Unigram LM），也是训练与推理工具链。它的工程优势在于“直接在原始文本上训练”，不依赖预分词，对无空格语言更友好。

安装：

pip install sentencepiece

命令/API/函数

sentencepiece.SentencePieceTrainer.Train

说明
训练 spm 模型

示例

import sentencepiece as spm

spm.SentencePieceTrainer.Train(
    input="corpus.txt",          # 原始训练语料；SentencePiece 直接在未预分词文本上学习
    model_prefix="spm",          # 会生成 spm.model 和 spm.vocab 两个文件
    vocab_size=32000,            # 词表大小决定分词粒度与 embedding 尺寸
    model_type="bpe",            # 这里选 BPE；也可换成 unigram，适合不同语言与语料分布
    character_coverage=0.9995,   # 尽量覆盖高频字符；中文/日文场景通常会把这个值设得较高
)

命令/API/函数

sentencepiece.SentencePieceProcessor

说明
加载并编码/解码

示例

import sentencepiece as spm

# Processor 负责加载训练好的 .model，并提供 encode/decode 接口
sp = spm.SentencePieceProcessor()
sp.load("spm.model")
# out_type=int 直接返回 token id，方便接训练或推理张量化流程
ids = sp.encode("你好世界", out_type=int)
# decode 用于调试分词质量、还原输出或做可读性检查
text = sp.decode(ids)

id、piece 与采样

SentencePiece 的工程排查经常落在两个问题上：某个 token id 到底对应什么 piece，以及训练或数据增强时是否要启用采样。SentencePiece 用

▁

表示词边界，这一点在日志或调试输出里经常会出现。

piece = sp.id_to_piece(42)        # 直接查看某个 id 对应的 piece，定位奇怪 token 时很常用
pid = sp.piece_to_id("▁hello")    # ▁ 表示词边界；这类 piece 在英文模型里很常见
bos = sp.bos_id()                 # 特殊 token id 应在训练前就确认，避免和模型配置不一致
eos = sp.eos_id()

sampled = sp.encode(
    "你好世界",
    out_type=int,
    enable_sampling=True,         # unigram 路线常用采样做子词正则化；推理阶段通常关闭
    nbest_size=-1,
    alpha=0.1,
)

tiktoken

tiktoken 是 OpenAI 开源的 BPE tokenizer 实现，常用于与 OpenAI 模型兼容的 token 计数与编码。它提供按 encoding 名称或按模型名选择 encoding 的接口。

安装：

pip install tiktoken

命令/API/函数

tiktoken.get_encoding

说明
按 encoding 名称获取

示例

import tiktoken
enc = tiktoken.get_encoding("o200k_base")

命令/API/函数

tiktoken.encoding_for_model

说明
按模型名获取

示例

enc = tiktoken.encoding_for_model("gpt-4o")

命令/API/函数

Encoding.encode / decode

说明
编码/解码

示例

ids = enc.encode("hello world")
text = enc.decode(ids)

special token 策略与聊天计数

tiktoken 在工程里最常用的核心是做 token 预算与费用估算。这里最容易踩的坑是 special token：有的调用希望严格禁止特殊 token 混进普通文本，有的调用则明确允许它们出现。

ids = enc.encode_ordinary("hello world")  # 只按普通文本编码，不去识别特殊 token 片段

ids = enc.encode(
    "<|endoftext|>hello",
    # 只有显式允许的特殊 token 才会被当成特殊符号处理
    allowed_special={"<|endoftext|>"},
)

聊天计数时，真正计费的通常是模板化后的整段输入。因此更稳的做法是：先按目标 SDK/服务端的消息模板把 system/user/tool 消息串成最终文本，再统一送进 tokenizer 计数，避免逐条消息单独估算后相加。

中文文本预处理与分词工具

在大模型训练中，中文通常直接走子词/字节级 tokenizer；但在传统 NLP、搜索、实体抽取、以及“数据清洗与规范化”阶段，中文分词与繁简转换仍是高频工程环节。

jieba

安装：

pip install jieba

命令/API/函数

jieba.cut

说明
分词（generator）

示例

import jieba
tokens = list(jieba.cut("我爱自然语言处理"))

命令/API/函数

jieba.lcut

说明
分词（list）

示例

tokens = jieba.lcut("我爱自然语言处理")

命令/API/函数

jieba.cut_for_search

说明
搜索引擎模式（更细粒度）

示例

tokens = list(jieba.cut_for_search("南京市长江大桥"))

命令/API/函数

jieba.add_word

说明
动态加入词典

示例

jieba.add_word("大语言模型")

命令/API/函数

jieba.load_userdict

说明
加载用户词典

示例

jieba.load_userdict("userdict.txt")

opencc-python

opencc-python 是早期 OpenCC 的 Python wrapper，版本较旧。现代工程更常用维护更活跃的

OpenCC

包。这里保留两条安装路径：兼容旧 wrapper 与直接使用 OpenCC。

# 旧 wrapper（较旧）
pip install opencc-python

# 推荐：OpenCC（维护更活跃）
pip install OpenCC

# OpenCC 示例：繁转简
from opencc import OpenCC
cc = OpenCC("t2s")
out = cc.convert("今天天氣不錯")

spaCy：NLP 管线与结构化抽取框架

spaCy 是面向生产的 NLP pipeline 框架。它在训练与推理工程中的价值，是把原始文本稳定转成带 token、span、实体、句子、词性、依存和分类结果的结构化

Doc

。离线预处理、实体抽取、搜索字段加工、标注数据转换、规则兜底和小中型 NLP 任务训练，都是它的高频位置。

它和 Hugging Face tokenizer、LLM 推理引擎的职责不同。tokenizer 负责把文本切成模型输入 token；vLLM/Transformers 负责生成或模型前向；spaCy 更像一条可配置的文本加工管线，把 NLP 注释统一挂在

Doc

、

Token

和

Span

上，方便下游业务逻辑消费。

安装与 QuickStart

# 安装 spaCy 主包。
pip install -U spacy

# 下载英文小型 trained pipeline，包含 tokenizer、tagger、parser、ner 等组件。
python -m spacy download en_core_web_sm

# 需要 transformer pipeline 时安装对应 extra，再下载 _trf pipeline。
pip install -U "spacy[transformers]"
python -m spacy download en_core_web_trf

import spacy

# nlp 是 Language pipeline 对象，生产服务中通常每个进程加载一次并复用。
nlp = spacy.load("en_core_web_sm")

# 调用 nlp(text) 会先 tokenize，再按 pipeline 顺序运行组件。
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

# doc.ents 是实体 Span 序列；每个 Span 保留原文区间和实体标签。
for ent in doc.ents:
    print(ent.text, ent.label_, ent.start_char, ent.end_char)

对象模型：nlp / Doc / Token / Span

对象	工程含义	常用入口
nlp	Language 管线对象，持有 tokenizer、共享词表、语言数据、组件、权重和配置。	spacy.load 、 spacy.blank 、 nlp.pipe
Doc	整段文本与注释的容器，保留 token 序列、实体、句子、分类结果和原文对齐。	doc.ents 、 doc.sents 、 doc.cats
Token	单个 token 的视图，持有词性、依存、实体 IOB、lemma、向量等属性。	token.text 、 token.pos_ 、 token.ent_type_
Span	连续 token 区间，NER 实体、句子、规则匹配结果和候选短语通常都用它表示。	doc[start:end] 、 span.label_ 、 span.start_char

# 空白语言对象只提供 tokenizer 和语言规则，不包含预训练统计组件。
nlp = spacy.blank("en")

# make_doc 只做 tokenization，适合构造训练数据或做规则前处理。
doc = nlp.make_doc("Only tokenization runs here.")

# Token 是 Doc 上的视图；Span 是连续 token 区间。
first_token = doc[0]
first_span = doc[0:2]

print(first_token.text)
print(first_span.text)

Pipeline components

spaCy pipeline 的组件按顺序接收并返回

Doc

。常见内置组件包括

tok2vec

、

transformer

、

tagger

、

parser

、

ner

、

entity_ruler

、

entity_linker

、

textcat

、

sentencizer

和

lemmatizer

。

批量处理用

nlp.pipe

。推理时只加载和运行需要的组件，能明显降低 CPU/GPU 开销。

import spacy

texts = [
    "Net income was $9.4 million.",
    "Revenue exceeded twelve billion dollars.",
]

# exclude 表示组件不加载进内存，适合明确用不到 parser/lemmatizer 的抽取任务。
nlp = spacy.load("en_core_web_sm", exclude=["parser", "lemmatizer"])

# nlp.pipe 会把多条文本批处理，比 Python 循环逐条 nlp(text) 更适合离线预处理。
for doc in nlp.pipe(texts, batch_size=128):
    # 这里只消费 NER 结果，避免运行无关组件。
    entities = [(ent.text, ent.label_) for ent in doc.ents]
    print(entities)

规则组件与结构化抽取

entity_ruler

、

span_ruler

和 matcher 系列组件适合把业务词典、正则模式、产品名、地名、合规术语写成可复现规则。它们常用于冷启动 NER、补充统计模型漏召回、构造弱标注数据和搜索字段加工。

import spacy

nlp = spacy.blank("en")

# entity_ruler 会把规则命中的文本写入 doc.ents。
# 放在训练型 ner 前后会影响覆盖关系，生产中要固定 pipeline 顺序。
ruler = nlp.add_pipe("entity_ruler")

# patterns 是可版本化的业务词典，比散落在代码里的 if/regex 更容易审计。
ruler.add_patterns([
    {"label": "ORG", "pattern": "OpenAI"},
    {"label": "PRODUCT", "pattern": "ChatGPT"},
])

doc = nlp("OpenAI released ChatGPT.")
print([(ent.text, ent.label_) for ent in doc.ents])

训练与 config.cfg

spaCy v3 的训练以

config.cfg

为中心。配置文件定义语言、tokenizer、pipeline components、模型结构、路径、初始化资源、训练循环和优化器。训练产物会携带最终配置，便于复现实验。

# 先生成基础配置，再填充默认值，避免手写缺失字段。
python -m spacy init config base_config.cfg --lang en --pipeline ner --optimize efficiency
python -m spacy init fill-config base_config.cfg config.cfg

# debug data 在正式训练前检查标签、切分、实体边界和数据格式。
python -m spacy debug data config.cfg

# 训练数据通常使用 .spacy 格式，内部由 DocBin 保存带注释的 Doc。
python -m spacy train config.cfg \
  --output ./output \
  --paths.train ./train.spacy \
  --paths.dev ./dev.spacy

# GPU 训练通过 --gpu-id 指定设备。
python -m spacy train config.cfg --gpu-id 0

import spacy
from spacy.tokens import DocBin

nlp = spacy.blank("en")
doc_bin = DocBin()

# 示例数据使用字符级实体边界。
# 真实项目应在转换阶段检查 char_span 是否为空，避免 tokenizer 边界不一致。
text = "Apple bought a startup in London."
doc = nlp.make_doc(text)
span = doc.char_span(0, 5, label="ORG")

if span is None:
    raise ValueError("Entity boundary does not align with tokenizer output")

doc.ents = [span]
doc_bin.add(doc)

# .spacy 文件是 spaCy 训练命令的常用输入格式。
doc_bin.to_disk("train.spacy")

中文、多语言与 Transformers

中文 pipeline 的关键是 tokenizer 配置。spaCy 中文语言类支持字符级分词、jieba 和 pkuseg 路线；训练、评测和线上推理必须使用同一 tokenizer 设置，否则实体边界和 span 对齐会漂移。多语言或语言中立 pipeline 通常使用

xx

语言 ID。

spaCy 的 transformer 支持以

transformer

组件进入 pipeline，为

ner

、

textcat

等组件提供上下文表示，并把输出写入

Doc._.trf_data

。这条路线提高准确率，但训练和推理成本更高。

import spacy

# transformer pipeline 通常以 _trf 结尾，内部包含 transformer component。
nlp = spacy.load("en_core_web_trf")
doc = nlp("This sentence is processed with a transformer-backed pipeline.")

# transformer 输出挂在 Doc 扩展字段上，下游组件共享这份上下文表示。
trf_data = doc._.trf_data
print(type(trf_data))

NER 工程边界

spaCy 的默认

ner

组件适合 flat NER：实体是非重叠 labelled spans，结果写入

Doc.ents

和 token 的实体属性。嵌套实体、多标签 span、需要大量候选 span 打分的任务，更适合后文的 GlobalPointer、GLiNER 或自定义 span 分类路线。

批处理构造与样本拼接

batch 构造的关键目标是把“变长样本”转成“规则张量”，并尽量减少无效计算。四个高频机制：collator（怎么把样本列表变成 batch）、padding（对齐长度）、packing（把多个短样本拼到一个长序列里）、masking（构造 loss 的可学习位置）。

batch 构造机制

collator

collator 通常以

collate_fn

形式接入 DataLoader，负责把

List[sample]

转为张量 batch。

padding

padding 的核心是把不同长度序列补齐，并同步产生

attention_mask

。对于 encoder 任务，padding 的位置通常 mask 掉注意力；对于 decoder 任务，还要考虑因果 mask 与 label mask。

packing

packing 把多个短序列拼接到固定长度 block 中，减少 padding 浪费。它适合预训练与指令微调中的“很多短样本”场景，但需要正确构造 label 与分段边界（例如用 special token 分隔）。

masking

masking 用来指定 loss 只在哪些位置计算，例如 causal LM 的 label shift、MLM 的随机 mask、SFT 中把提示词部分的 label 设为 ignore。

多模态样本组织与 processor

多模态模型往往通过 processor 把文本 tokenizer 与视觉/音频预处理封装在一起。工程上需要保证：离线预处理与线上推理使用同一套 processor 配置，避免“训练时的输入分布”和“推理时的输入分布”不一致。

合成数据与数据增强工具

合成数据通常用来补齐边界覆盖，并不替代真实数据：格式多样性、语言多样性、脏数据模式、罕见实体组合、以及隐私合规场景下的脱敏替身。合成数据要能回放：生成种子、版本、配置都要进入产物元数据。

结构化合成数据生成

Faker

安装：

pip install Faker

names-dataset

安装：

pip install names-dataset

pycountry

安装：

pip install pycountry

命令/API/函数
Faker

说明

Faker

Faker.seed

示例

from faker import Faker
Faker.seed(42)
fake = Faker(locale="zh_CN")
row = {"name": fake.name(), "addr": fake.address()}

命令/API/函数
names-dataset

说明

NameDataset

示例

from names_dataset import NameDataset
nd = NameDataset()
info = nd.search("Zoe")

命令/API/函数
pycountry

说明

pycountry.countries

lookup

示例

import pycountry
cn = pycountry.countries.lookup("China")
langs = pycountry.languages.get(alpha_2="zh")

语言识别与类型检测库

语言识别与类型检测经常用于预处理阶段的路由：多语言混杂数据的分桶、代码/文档/日志的分流、以及不同清洗规则的选择。工程重点是“低成本、可解释、可复现”，检测逻辑应服务数据路由和清洗策略。

自然语言识别

命令/API/函数
langdetect：

detect

detect_langs

DetectorFactory.seed

说明

安装方式如下。

pip install langdetect

示例

from langdetect import detect, detect_langs, DetectorFactory
DetectorFactory.seed = 0
lang = detect("Hello world")
langs = detect_langs("Otec matka syn.")

命令/API/函数
fastText lid：

fasttext.load_model

model.predict

说明

安装方式如下。

pip install fasttext

示例

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(
    # 直接从 Hub 下载语言识别模型，不必手工管理二进制文件
    repo_id="facebook/fasttext-language-identification",
    filename="model.bin",
)
# fastText 的 lid 模型加载后即可直接做短文本语言预测
model = fasttext.load_model(model_path)
# 返回标签和置信度，适合做数据清洗前的语言分桶
labels, probs = model.predict("Hello, world!")

命令/API/函数
lingua-language-detector：

LanguageDetectorBuilder

说明

安装方式如下。

pip install lingua-language-detector

示例

from lingua import LanguageDetectorBuilder
detector = LanguageDetectorBuilder.from_all_languages().build()
lang = detector.detect_language_of("Hello world")

文件类型检测

文件类型检测的目标是“尽量早发现二进制/压缩/不支持格式”，避免把不可解析内容送进后续清洗链路。python-magic 依赖底层 libmagic，需要系统依赖到位。

命令/API/函数
python-magic：

magic.from_file

magic.from_buffer

magic.Magic

说明

安装方式如下。

pip install python-magic
# Debian/Ubuntu:
sudo apt-get install libmagic1

示例

import magic
mime = magic.from_file("a.pdf", mime=True)
sig = magic.from_buffer(open("a.pdf", "rb").read(2048))

源码语言检测

源码语言检测用于代码数据集清洗（按语言分桶、去除 vendored/generated）与语法级预处理（解析 AST、提取符号）。Pygments 偏启发式 lexer；tree-sitter 提供结构化解析（AST）。

命令/API/函数
Pygments：

get_lexer_for_filename

get_lexer_by_name

说明

安装方式如下。

pip install pygments

示例

from pygments.lexers import get_lexer_for_filename
lexer = get_lexer_for_filename("a.py")

命令/API/函数
tree-sitter：

Language

Parser

说明

安装方式如下。

pip install tree-sitter tree-sitter-python

示例

from tree_sitter import Language, Parser
import tree_sitter_python as tspython

# 把 Python 语法定义编译成 tree-sitter 可消费的 Language 对象
PY_LANGUAGE = Language(tspython.language())
parser = Parser(PY_LANGUAGE)                 # parser 会按这套语法把源码切成 AST
# parse 需要字节串输入，产物可继续拿去做节点遍历和结构化抽取
tree = parser.parse(b"print('hi')\n")

“Linguist 类方案”通常指 GitHub Linguist 的启发式：文件扩展名 + shebang + 内容特征 + 语言冲突消歧规则。实际工程里常把这类规则作为“分桶的第一步”，再对少量不确定样本做更重的解析。

大规模离线预处理模式

离线预处理的目标是把昂贵的 CPU 工作（解析、清洗、分词、格式规范化）集中到一次批处理作业中，并把结果写成稳定、可复用、可 memory-map 的 shard。一个可运维的离线预处理作业至少要具备：可重跑、可断点续跑、单 shard 失败不影响全局、输出具备 manifest。

多进程 Pool

多进程的核心收益在于绕过 Python GIL，把 CPU 密集的分词与解析并行化。进程间传输大对象会迅速放大序列化开销，因此更稳妥的做法是把输入切成可流式读取的小对象，把输出写成 shard。

shard 流式写入

shard 是离线预处理的基本单元：每个 shard 控制大小（例如 512MB~2GB）、可单独校验、可单独重跑。WebDataset 的 shard 是 tar；HF Datasets/Arrow 的 shard 是 parquet/arrow 文件集合；LMDB/HDF5 则是数据库/容器文件。

内存安全与失败恢复

import json
import os
from multiprocessing import Pool

def process_line(line: str) -> str:
    obj = json.loads(line)              # 每个 worker 只处理一行，避免跨进程传大对象
    obj["text"] = obj["text"].strip()   # 这里放清洗、规范化或轻量分词逻辑
    # 重新写回 JSONL，保持下游训练管线最常见的输入格式
    return json.dumps(obj, ensure_ascii=False)

def write_shards(in_path: str, out_dir: str, shard_lines: int = 200_000, workers: int = 8):
    os.makedirs(out_dir, exist_ok=True)  # 先保证输出目录存在，方便失败后重跑

    def shard_path(i: int) -> str:
        # shard 编号固定宽度，后续排序和恢复更稳定
        return os.path.join(out_dir, f"shard-{i:06d}.jsonl")

    with open(in_path, "r", encoding="utf-8") as f, Pool(processes=workers) as pool:
        shard_idx = 0
        buf = []  # 先在内存里累计一批处理结果，再整 shard 落盘，减少小文件写入抖动
        for out in pool.imap(process_line, f, chunksize=256):
            buf.append(out)
            if len(buf) >= shard_lines:
                tmp = shard_path(shard_idx) + ".tmp"
                with open(tmp, "w", encoding="utf-8") as wf:
                    wf.write("\n".join(buf) + "\n")
                # 先写 .tmp 再原子替换，避免中途中断留下半成品
                os.replace(tmp, shard_path(shard_idx))
                buf.clear()
                shard_idx += 1

        if buf:
            tmp = shard_path(shard_idx) + ".tmp"
            with open(tmp, "w", encoding="utf-8") as wf:
                wf.write("\n".join(buf) + "\n")
            os.replace(tmp, shard_path(shard_idx))

基础训练框架

基础训练框架（Foundational Training Framework）提供三类不可替代的底座能力：张量与设备执行（Tensor & Device Execution）、自动求导（Automatic Differentiation）、以及训练循环所需的基础组件（模块、优化器、数据加载、序列化）。上层训练框架可以封装流程，但底层的梯度、显存与 kernel 行为最终仍由这一层决定。

PyTorch

PyTorch 的编程模型是“Python 先行的动态图（Dynamic Graph）+ 胶带式自动求导（Tape-based Autograd）”。这使训练循环天然可调试：前向是普通 Python 代码，反向由 autograd 记录并回放。工程上更重要的是：PyTorch 生态已经把训练、分布式、编译优化与部署衔接做成了一套可组合部件，既能写研究型循环，也能写生产训练栈。

安装建议遵循官方安装页的选择器：CPU-only 与 CUDA 版本的 pip/conda 命令需要与目标机器驱动、CUDA 版本匹配。CPU 环境通常可以直接

pip install torch

；GPU 环境应按官方给出的 index-url 安装对应 CUDA wheel。安装后验证建议至少覆盖两点：能创建张量以及GPU 可见（如适用）。

# CPU (typical)
# CPU 机器直接安装官方 wheel 即可，不需要额外的 CUDA index-url。
pip install -U torch

# CUDA: use the command generated by https://pytorch.org/get-started/locally/
# It typically looks like:
# pip install -U torch --index-url https://download.pytorch.org/whl/cu12x

import torch
print(torch.__version__)
x = torch.randn(2, 3)
print(x.shape)
print("cuda_available:", torch.cuda.is_available())

核心抽象

三件事决定 PyTorch 训练代码的结构：张量（Tensor）承载数据与参数、autograd 负责梯度、

nn.Module

组织可训练子图并提供参数与缓冲区的可追踪结构。

Tensor

Tensor 是所有计算的基本载体。训练相关的关键元信息有四类：形状（shape）、数值类型（dtype）、设备（device）与梯度开关（requires_grad）。其中设备与 dtype 会直接改变 kernel 路径与显存占用；requires_grad 决定该张量是否会成为计算图的一部分。

命令/API/函数

torch.tensor

说明
从 Python 对象构造张量

示例

x = torch.tensor([[1, 2], [3, 4]], dtype=torch.float32)

命令/API/函数

torch.randn

说明
随机初始化（参数/输入常用）

示例

w = torch.randn(768, 768, device="cuda")

命令/API/函数

Tensor.to

说明
设备/精度迁移

示例

x = x.to(device="cuda", dtype=torch.bfloat16)

命令/API/函数

Tensor.requires_grad_

说明
把张量标为需要梯度

示例

x = x.requires_grad_(True)

命令/API/函数

torch.no_grad

说明
推理/评估时关闭梯度跟踪

示例

with torch.no_grad():
    y = model(x)

命令/API/函数

torch.inference_mode

说明
比

no_grad

更强的推理模式（更少开销）

示例

with torch.inference_mode():
    y = model(x)

autograd

autograd 的编程要点是“图从前向构建，梯度在反向回传”。多数训练代码只用到

loss.backward()

optimizer.step()

，但当需要更复杂的梯度形态（如多目标、梯度惩罚、二阶项）时，就会显式使用

torch.autograd.grad

。

命令/API/函数

Tensor.backward

说明
反向传播，累计梯度到 leaf 参数

示例

optimizer.zero_grad(set_to_none=True)
loss.backward()
optimizer.step()

命令/API/函数

torch.autograd.grad

说明
函数式求梯度，返回梯度张量而不写入 .grad

示例

grads = torch.autograd.grad(loss, model.parameters(), create_graph=False)

命令/API/函数

torch.autograd.Function

说明
自定义前向/反向（自定义算子或特殊梯度）

示例

# 定义可复用的类。
class MyFn(torch.autograd.Function):
    @staticmethod
    def forward(ctx, x): ...
    @staticmethod
    def backward(ctx, grad_out): ...

nn.Module

nn.Module

把“可训练参数 + 前向逻辑 + 子模块拓扑”打包成可组合单元。训练与部署的关键接口是

state_dict()

：它让参数与 buffer 的保存/加载成为稳定约定，从而把“代码结构”与“权重文件”解耦。

import torch
import torch.nn as nn

class MLP(nn.Module):
    def __init__(self, in_dim: int, hidden: int, out_dim: int):
        super().__init__()
        # 顺序堆叠层能把“线性层 + 激活 + 线性层”打包成一个可保存子模块。
        self.net = nn.Sequential(
            nn.Linear(in_dim, hidden),
            nn.GELU(),
            nn.Linear(hidden, out_dim),
        )

    def forward(self, x):
        return self.net(x)

执行与编译

PyTorch 的默认执行是 eager；编译与优化通过

torch.compile

把前向（以及可捕获的反向）分段转换成可优化子图，再由后端生成更高效的执行计划。实践中它最适合用于“训练循环稳定、算子形态固定”的热点路径；高度动态的 Python 控制流与形状多态会降低捕获与复用效果。

动态图

动态图让训练循环具备“逐步可观察性”：每一步前向的张量都可以被打印、断点或插桩；复杂条件分支也能自然表达。这种表达力的代价是：若不做编译或算子融合，小算子密集的模型可能被 Python 调度开销限制。

训练循环

训练循环的工程要点集中在三个地方：梯度清零策略、设备放置与数据搬运、以及异常时可恢复的 checkpoint。下面是一段最小可用的循环骨架。

import torch
from torch.utils.data import DataLoader

# 训练开始前先确定 device；后面模型、输入和标签都要落到同一设备上。
device = "cuda" if torch.cuda.is_available() else "cpu"
model = MLP(128, 256, 10).to(device)
# 优化器和损失函数在循环外初始化，避免每个 step 重建对象。
opt = torch.optim.AdamW(model.parameters(), lr=3e-4)
loss_fn = torch.nn.CrossEntropyLoss()

# DataLoader 负责批处理、shuffle 和 pinned memory。
loader = DataLoader(dataset, batch_size=64, shuffle=True, num_workers=4, pin_memory=True)

# 切到训练模式后，dropout / batchnorm 等模块会走训练态分支。
model.train()
for step, (x, y) in enumerate(loader):
    # non_blocking=True 和 pin_memory 配合使用时，CPU->GPU 拷贝延迟更低。
    x = x.to(device, non_blocking=True)
    y = y.to(device, non_blocking=True)

    # 标准训练 step：清梯度、前向、算 loss、反向、更新参数。
    opt.zero_grad(set_to_none=True)
    logits = model(x)
    loss = loss_fn(logits, y)
    loss.backward()
    opt.step()

torch.compile

最常见的接入方式是在训练开始前包一层：

model = torch.compile(model)

。在大模型场景下，编译往往与 AMP、FlashAttention、FSDP/ZeRO 等一起协作：编译负责降低算子调度与 kernel 生成开销，其它组件负责显存、带宽与通信。

model = MLP(128, 256, 10).to(device)
model = torch.compile(model)  # compile after moving to device

训练基础设施

训练基础设施是把“能跑”变成“可长期迭代”的关键层：数据加载决定吞吐上限，AMP 决定显存与速度，checkpoint 决定可恢复性；而 CRF layer 代表一类“训练框架之外的结构化输出层”组件，常见于序列标注。

DataLoader

DataLoader 是 PyTorch 数据管线的核心抽象：负责 batch、shuffle、collate、多进程加载与 pinned memory。它与 Dataset 的分工边界清晰：Dataset 负责“样本怎样被索引/生成”，DataLoader 负责“样本如何被并发读取并组织成 batch”。

参数	作用	经验用法
batch_size	每步样本数	受显存与序列长度影响，常与 gradient accumulation 联动
num_workers	数据加载进程数	CPU 预处理重时提高；过高会导致调度/内存压力
pin_memory	将 batch 放入 pinned memory	GPU 训练通常打开，配合 non_blocking=True
collate_fn	自定义 batch 拼接	NLP 里常做 padding/packing；多模态里做对齐与打包

AMP

自动混合精度（Automatic Mixed Precision, AMP）通过在合适的算子上使用 FP16/BF16，并在数值敏感的算子上保留 FP32，换取吞吐与显存的提升。PyTorch 提供

autocast

与

GradScaler

组合来降低接入成本。

# GradScaler 负责缩放 loss，降低 fp16 路径下梯度下溢的风险。
scaler = torch.cuda.amp.GradScaler()

for x, y in loader:
    # 数据搬运逻辑和普通训练循环一致。
    x = x.to(device, non_blocking=True)
    y = y.to(device, non_blocking=True)
    opt.zero_grad(set_to_none=True)

    # autocast 让矩阵乘、卷积等算子自动走更省显存的混合精度路径。
    with torch.cuda.amp.autocast(dtype=torch.float16):
        logits = model(x)
        loss = loss_fn(logits, y)

    # backward / step / update 必须和 scaler 协同使用。
    scaler.scale(loss).backward()
    scaler.step(opt)
    scaler.update()

checkpoint

PyTorch 的 checkpoint 约定是保存

state_dict

：至少包含模型参数与优化器状态，必要时加上 scheduler、步数与随机种子。训练恢复的核心是把“运行状态”视为数据，单独保存权重文件不足以恢复完整训练。

# 把恢复训练最少需要的状态集中到一个字典里。
ckpt = {
    "step": step,
    "model": model.state_dict(),
    "optimizer": opt.state_dict(),
}
# 中间态 checkpoint 通常直接用 torch.save 写成单文件。
torch.save(ckpt, "ckpt.pt")

# 恢复时先把 checkpoint 读回当前设备。
ckpt = torch.load("ckpt.pt", map_location=device)
# 先恢复模型参数，再恢复优化器状态，这样学习率和动量都能续上。
model.load_state_dict(ckpt["model"])
opt.load_state_dict(ckpt["optimizer"])
step = ckpt["step"]

CRF layer

线性链条件随机场（Linear-chain Conditional Random Field, CRF）是序列标注（Sequence Labeling）里常见的结构化输出层：它不改变 encoder 的表示学习方式，但把标签预测从“逐 token 独立分类”改成“序列级全局最优路径”，以显式建模相邻标签转移约束。

pytorch-crf / torchcrf

pytorch-crf

是常见的第三方 CRF layer 实现，API 以一个

CRF

模块为中心：前向返回 log-likelihood，训练时通常取负作为 loss；解码使用

decode

输出最优标签序列。

pip install pytorch-crf

import torch
from torchcrf import CRF

num_tags = 5
# CRF 层负责在标签转移层面建模，逐 token softmax 会独立预测每个位置
crf = CRF(num_tags)

seq_len, batch = 3, 2
# 每个位置对每个标签的发射分数，通常来自 BiLSTM/BERT 编码器
emissions = torch.randn(seq_len, batch, num_tags)
# 监督标签形状必须和 (seq_len, batch) 对齐
tags = torch.tensor([[0, 1], [2, 4], [3, 1]], dtype=torch.long)

# 返回整条标签路径的对数似然，逐 token 独立概率不包含转移约束
log_likelihood = crf(emissions, tags)
loss = -log_likelihood                  # 训练时通常最小化负对数似然

# Viterbi 解码得到最优标签序列，适合 NER/POS 这类结构化预测任务
best_paths = crf.decode(emissions)

TensorFlow

TensorFlow 的核心执行模型是 eager + graph：默认 eager 便于调试与交互，

@tf.function

将 Python 函数 trace 编译成图执行以提升性能与可移植性。训练循环的两条主线分别是：Keras

Model.fit

的高层接口，以及基于

tf.GradientTape

的自定义循环。

# CPU-only
pip install -U tensorflow-cpu

# Default package (CPU/GPU depends on platform; follow the official pip install guide)
pip install -U tensorflow

import tensorflow as tf
print(tf.__version__)
print(tf.config.list_physical_devices("GPU"))

TensorFlow 计算图与 tf.data

tf.data.Dataset

是 TensorFlow 的输入管线中心：通过

map

、

batch

、

shuffle

、

prefetch

把数据处理做成可并行、可流式的图。生产训练中，输入管线经常成为 GPU 利用率的上限瓶颈，因此应优先把可并行预处理移入

tf.data

体系内。

import tensorflow as tf

# 先把内存中的特征和标签包装成 tf.data 流
ds = tf.data.Dataset.from_tensor_slices((features, labels))
# 打乱顺序，避免样本排列对训练造成偏置
ds = ds.shuffle(10000)
# 把预处理并行化，尽量让输入管线跟上 GPU
ds = ds.map(preprocess_fn, num_parallel_calls=tf.data.AUTOTUNE)
# 固定 batch 形状更利于图编译和设备执行
ds = ds.batch(128, drop_remainder=True)
# 让 CPU 预处理和 GPU 训练重叠，减少设备空转
ds = ds.prefetch(tf.data.AUTOTUNE)

import tensorflow as tf

@tf.function
def train_step(x, y):
    with tf.GradientTape() as tape:
        # training=True 会打开 dropout、batch norm 更新等训练态行为
        logits = model(x, training=True)
        # loss_fn 负责把标签和 logits 对齐成可反传的标量目标
        loss = loss_fn(y, logits)
    # 从 tape 中回放计算图，求出每个可训练变量的梯度
    grads = tape.gradient(loss, model.trainable_variables)
    # TensorFlow 中显式把 (grad, var) 配对后交给优化器
    optimizer.apply_gradients(zip(grads, model.trainable_variables))
    return loss

分布式与断点续训

TensorFlow 多机训练的关键入口是

tf.distribute

与

TF_CONFIG

。单机多卡常用

MirroredStrategy

；多机训练则更常用

MultiWorkerMirroredStrategy

。恢复训练时，真正应该恢复的是“模型参数 + 优化器状态 + 当前步数”，因此标准做法通常是

tf.train.Checkpoint

搭配

CheckpointManager

；只导出 SavedModel 不足以恢复训练过程。

import tensorflow as tf

# 单机多卡可换成 MirroredStrategy；多机时由 TF_CONFIG 描述集群拓扑。
strategy = tf.distribute.MultiWorkerMirroredStrategy()

with strategy.scope():
    model = build_model()
    optimizer = tf.keras.optimizers.Adam(3e-4)

# checkpoint 负责恢复完整训练状态，覆盖权重、优化器和步数。
ckpt = tf.train.Checkpoint(model=model, optimizer=optimizer)
manager = tf.train.CheckpointManager(ckpt, directory="ckpt_tf", max_to_keep=3)

latest = manager.latest_checkpoint
if latest:
    # 这一句会同时恢复模型参数、优化器状态和全局步数。
    ckpt.restore(latest)

Keras 3

Keras 3 是多后端（Multi-backend）深度学习框架：同一份 Keras 代码可以运行在 TensorFlow、JAX、PyTorch 后端上；后端通过

KERAS_BACKEND

环境变量或本地配置文件选择，并且必须在 import Keras 之前确定。对工程而言，这一设计把“模型代码”与“执行后端”分离：可以在同一套高层 API 下切换后端能力，例如在 JAX 上获得更强的编译与 SPMD 体系，或在 PyTorch 上复用既有生态。

pip install -U keras

import os
os.environ["KERAS_BACKEND"] = "jax"  # or "tensorflow" / "torch"

import keras
print("backend:", keras.backend.backend())

import keras
from keras import layers

model = keras.Sequential([
    # 第一层先把输入映射到隐藏空间，并用 GELU 保持 Transformer 风格的非线性
    layers.Dense(256, activation="gelu"),
    # 最后一层直接输出 10 类 logits；不加 softmax，交给 loss 统一处理
    layers.Dense(10),
])
model.compile(
    # AdamW 是现代深度学习最常见的默认优化器之一
    optimizer=keras.optimizers.AdamW(learning_rate=3e-4),
    # 告诉 loss 输入是 logits，不要再假设已做 softmax
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    # 训练中同步记录分类准确率，便于和 loss 一起看
    metrics=[keras.metrics.SparseCategoricalAccuracy()],
)
# fit 会统一接管 epoch 循环、日志和验证
model.fit(train_x, train_y, batch_size=128, epochs=3)

Keras 3 的多后端架构

多后端意味着一组实践约束：后端不能在 import 后热切换；部分底层行为（例如随机数、分布式、数值细节）仍由后端决定；性能调优最终仍会落回后端的编译器与 kernel 体系。Keras 3 更适合承担“统一建模接口”，性能工程仍要回到底层后端处理。

命令/API/函数

keras.layers

说明
层与算子组合

示例

x = layers.LayerNormalization()(x)

命令/API/函数

keras.Model

说明
可训练模型单元

示例

class MyModel(keras.Model): ...

命令/API/函数

keras.ops

说明
后端无关算子层（多后端 API）

示例

y = keras.ops.matmul(a, b)

命令/API/函数

keras.optimizers

说明
优化器族

示例

opt = keras.optimizers.AdamW(3e-4)

callbacks 与自定义 train_step

Keras 的工程优势不只在

fit()

，还在于 callbacks 体系和可覆写的

train_step

。前者接管 best checkpoint、early stopping 与 TensorBoard 日志；后者允许在保留 Keras 训练外壳的同时，插入自定义损失、梯度裁剪或多任务逻辑。

import keras
import tensorflow as tf

class MyModel(keras.Model):
    def train_step(self, data):
        x, y = data
        with tf.GradientTape() as tape:
            # 这里仍然让 forward 保持 Keras Model 风格，便于继续复用 fit/evaluate 生态。
            logits = self(x, training=True)
            loss = self.compiled_loss(y, logits)
        grads = tape.gradient(loss, self.trainable_variables)
        self.optimizer.apply_gradients(zip(grads, self.trainable_variables))
        self.compiled_metrics.update_state(y, logits)
        return {m.name: m.result() for m in self.metrics}

callbacks = [
    keras.callbacks.ModelCheckpoint("best.keras", save_best_only=True, monitor="val_loss"),
    keras.callbacks.EarlyStopping(monitor="val_loss", patience=3, restore_best_weights=True),
    keras.callbacks.TensorBoard(log_dir="tb_logs"),
]

JAX

JAX 的训练编程模型是“纯函数（Pure Function）+ 变换（Transformation）+ 编译（XLA Compilation）”。训练代码通常写成不带副作用的函数，然后用

jit

grad

vmap

pmap

把函数变成可微、可并行、可编译的高性能版本。对工程而言，这意味着：参数与 optimizer state 需要显式放入状态对象；更新步骤常用

jit(value_and_grad(...))

组织成单一的编译热点。

# CPU-only
pip install -U jax

# NVIDIA GPU (example, CUDA 13)
pip install -U "jax[cuda13]"

函数变换

JAX 的高频核心 API 集中在“函数变换”上。它们本质上都是高阶函数：输入是 Python 函数，输出是新的函数；输出函数具备更强的可微、可并行或可编译特性。

命令/API/函数

jax.jit

说明
把函数编译成 XLA 可执行版本（并缓存编译结果）

示例

step = jax.jit(step_fn)

命令/API/函数

jax.grad

说明
对标量输出函数求梯度（反向模式 AD）

示例

g = jax.grad(loss_fn)

命令/API/函数

jax.value_and_grad

说明
一次性返回 (value, grad)，减少重复前向

示例

vg = jax.value_and_grad(loss_fn)

命令/API/函数

jax.vmap

说明
自动向量化，把“单样本函数”提升为“批函数”

示例

batched_loss = jax.vmap(loss_fn, in_axes=(None, 0, 0))

命令/API/函数

jax.pmap

说明
跨多设备 SPMD 并行（常用于数据并行）

示例

pstep = jax.pmap(step_fn, axis_name="data")

jit

jit

的工程要点是“可 trace 的纯函数”：Python 侧的动态分支、不可哈希的静态参数、以及频繁变化的输入形状都会导致重新 trace 或重新编译，从而出现性能抖动。训练代码通常会把 step 函数写成固定签名，并把配置项通过静态参数或闭包固定。

grad

grad

适用于标量 loss。多输出或同时需要 aux（例如 metrics）时，通常配合

value_and_grad(has_aux=True)

。

vmap

vmap

把 batch 维度“隐式传播”到计算图里，常用于 per-example gradients、对比学习的 pairwise 计算、以及把 Python for-loop 从热点路径挪走。

pmap

pmap

以 named axis 组织跨设备 collectives（如

jax.lax.psum

），适合以“每个设备一份副本”的方式做数据并行。更通用的分片（sharding）体系通常落在 pjit/mesh 路线，但训练代码层面仍常见以 pmap 组织最小多卡并行示例。

编译式执行

JAX 执行模型

JAX 训练 step 的典型形态是：“状态输入 → 计算 loss → 求梯度 → 用 optimizer 更新状态”。状态一般用 PyTree 组织（字典、元组、dataclass 等嵌套结构），并作为函数参数显式传递。

import jax
import jax.numpy as jnp

def loss_fn(params, batch):
    x, y = batch
    # JAX 里前向通常写成纯函数：参数显式传入，函数内部不改全局状态
    logits = model_apply(params, x)
    loss = cross_entropy(logits, y)
    return loss

@jax.jit
def step(params, opt_state, batch):
    # 一次前向同时拿到 loss 和梯度，减少重复计算
    loss, grads = jax.value_and_grad(loss_fn)(params, batch)
    # 优化器状态也是显式对象，需要手动传入传出
    updates, opt_state = optimizer.update(grads, opt_state, params)
    # JAX/Optax 不原地改参数，改为返回更新后的新参数树
    params = optax.apply_updates(params, updates)
    return params, opt_state, loss

XLA

XLA 是 JAX 性能的核心来源：它把 Python 层的计算表达编译成设备侧可执行程序，并做算子融合与内存规划。训练工程里，减少 recompile 与控制输入形状稳定通常比微观优化更有效。

Mesh / NamedSharding / jax.distributed.initialize

JAX 的新一代分片主线围绕

Mesh

、

PartitionSpec

与

NamedSharding

展开。它比早期只靠

pmap

更通用，也更适合显式描述参数分片与输入布局。多进程训练时，通常还需要先调用

jax.distributed.initialize()

让各进程加入同一 JAX 集群。

import jax
import numpy as np
from jax.sharding import Mesh, NamedSharding, PartitionSpec as P

# 多机时要先建立全局进程组；单机调试通常可以省略。
jax.distributed.initialize()

devices = np.array(jax.devices())
mesh = Mesh(devices, axis_names=("data",))
sharding = NamedSharding(mesh, P("data"))

# 显式把 batch 按 data 轴切到多个设备，避免依赖隐式复制。
x = jax.device_put(np.ones((len(devices) * 8, 1024), dtype=np.float32), sharding)

Flax

Flax 是基于 JAX 的神经网络库，常见入口是 Linen API：以

Module

表达参数化结构，以

init/apply

显式分离“参数创建”和“前向应用”。训练循环通常围绕

TrainState

把 params 与 optimizer state 统一管理。

pip install -U flax

命令/API/函数

flax.linen.Module

说明
参数化模块定义

示例

import flax.linen as nn

class MLP(nn.Module):
    @nn.compact
    def __call__(self, x):
        x = nn.Dense(256)(x)  # compact 允许在前向里直接声明子层，Flax 会自动跟踪参数树
        x = nn.gelu(x)        # 非线性激活放在中间层，提升表达能力
        return nn.Dense(10)(x)  # 输出 10 维 logits，后续交给 loss 或任务头解释

命令/API/函数

Module.init

说明
给定 rng 与输入 shape，初始化参数

示例

params = model.init(jax.random.key(0), x)["params"]

命令/API/函数

Module.apply

说明
给定参数执行前向

示例

logits = model.apply({"params": params}, x)

命令/API/函数

flax.training.train_state.TrainState

说明
统一管理 step/params/opt_state

示例

from flax.training.train_state import TrainState
state = TrainState.create(apply_fn=model.apply, params=params, tx=optimizer)

Flax checkpoint：checkpoints 与 Orbax

Flax 训练里最常见的恢复接口是

flax.training.checkpoints

；更现代、更通用的保存体系则逐渐转向 Orbax。前者上手更快，后者更适合复杂 PyTree、异步写盘和大规模分片状态。

from flax.training import checkpoints

# 直接把 TrainState 存成 checkpoint，便于断点续训。
checkpoints.save_checkpoint("ckpt_flax", target=state, step=state.step, keep=3)
state = checkpoints.restore_checkpoint("ckpt_flax", target=state)

import orbax.checkpoint as ocp

checkpointer = ocp.PyTreeCheckpointer()
# Orbax 适合更复杂的树状状态与显式的保存策略。
checkpointer.save("orbax_ckpt", {"state": state})

PaddlePaddle

PaddlePaddle 的训练编程覆盖动态图（Dynamic Graph）与静态图（Static Graph）两种执行路径：动态图强调易用与调试；静态图强调编译优化、部署与稳定性能。官方 API 通过

paddle.enable_static()

显式切换到静态图模式。

# CPU
pip install -U paddlepaddle

# GPU
pip install -U paddlepaddle-gpu

import paddle
print(paddle.__version__)
paddle.utils.run_check()

执行模式与工具链

动态图

动态图是默认模式，常见训练代码以

paddle.nn.Layer

组织模型，以

paddle.optimizer

更新参数。

静态图

静态图用于追求更强的图级优化与更稳定的部署路径。切换到静态图通常意味着：需要显式构建 program/graph，并使用对应的 executor/engine 执行。实践里更常见的策略是：训练仍以动态图为主，部署阶段再导出静态图或使用官方推理引擎。

产业化工具链

工程体系上，Paddle 生态通常把“训练、推理、部署、端侧”做成一套配套工具链。若目标是快速把模型落到生产场景（OCR、CV、NLP 服务或端侧），这条生态链会显著降低工程摩擦。

Fleet

Fleet 是 Paddle 的分布式训练统一 API：通过

fleet.init

初始化分布式环境，并用

fleet.distributed_optimizer

把普通 optimizer 包装成分布式 optimizer。工程上最常见的是 collective 路线。

import paddle
import paddle.distributed.fleet as fleet

# 让当前进程加入 collective 通信组；多卡启动器会提前准备好 rank/world size。
fleet.init(is_collective=True)
# 示例里只放一个线性层，占位说明 Fleet 接的是“普通 Paddle 模型”。
model = paddle.nn.Linear(10, 10)
optimizer = paddle.optimizer.SGD(learning_rate=1e-3, parameters=model.parameters())
# DistributedStrategy 是分布式策略入口；真实项目会继续在这里打开 AMP/重算等选项。
strategy = fleet.DistributedStrategy()
# 包装后返回的仍是 optimizer 语义，但 step/backward 会走 Fleet 的分布式实现。
optimizer = fleet.distributed_optimizer(optimizer, strategy=strategy)

PaddleNLP

PaddleNLP 是 PaddlePaddle 生态里的 NLP 与大模型套件。它和 Transformers 的角色有相似之处：提供模型库、tokenizer、Trainer、Taskflow、数据处理、微调与推理工具；差异在于它深度绑定 PaddlePaddle、Paddle Fleet、Paddle Inference 与国产硬件适配链路，更适合已经采用百度飞桨生态或需要落到 Paddle 产业工具链的团队。

安装

pip install -U paddlenlp

Taskflow 与 LLM 套件

Taskflow 更偏“任务 API”：分词、信息抽取、情感分析、文本生成等任务可以通过统一入口快速验证；LLM 套件则覆盖预训练、SFT、PEFT、对齐、量化、推理和统一 checkpoint。选 PaddleNLP 的主要理由通常是训练、推理、压缩和部署都留在 Paddle 生态内，减少跨框架模型转换、算子适配与部署链路割裂。

from paddlenlp import Taskflow

# Taskflow 会按任务名装配模型、tokenizer 与后处理，适合先快速验证任务闭环。
seg = Taskflow("word_segmentation")
print(seg("我爱自然语言处理"))

MindSpore

MindSpore 是华为主导的深度学习训练/推理框架，核心特色是与昇腾（Ascend）AI 处理器和全栈工具链协同。它支持动态图与静态图思想下的训练编程，也提供自动并行、图优化、端边云部署等能力。工程上，MindSpore 的选型通常和硬件平台绑定：如果目标环境以 Ascend NPU 为主，MindSpore / MindSpeed / CANN 这条链路的集成度更高。

安装与验证

MindSpore 的安装方式与设备类型强相关。CPU、GPU、Ascend 对应不同 wheel 与运行时依赖；Ascend 环境还需要匹配 CANN、驱动和固件版本。实际项目里应优先按官方安装矩阵固定版本，不建议只凭

pip install

猜测。

# CPU 环境可用于语法验证和轻量实验；Ascend/GPU 环境需按官方矩阵安装对应 wheel。
pip install mindspore

import mindspore as ms

# context 决定执行设备和模式；Ascend 环境通常把 device_target 设为 "Ascend"。
ms.set_context(mode=ms.GRAPH_MODE, device_target="CPU")
print(ms.__version__)

特色与选型边界

MindSpore 的特色是围绕图编译、自动并行和 Ascend 硬件协同建立一整套工程路径。它适合长期运行在昇腾集群、需要使用 CANN / MindSpeed / MindSpore ModelZoo / MindFormers 生态的项目；若团队已有大量 PyTorch/Transformers/DeepSpeed 资产，迁移成本需要单独评估。

OneFlow

OneFlow 是国产深度学习框架，设计重点在分布式训练抽象。它提出的 SBP（Split / Broadcast / Partial）语义把张量在设备网格上的放置方式显式化：某个维度可以切分（Split），某个张量可以复制（Broadcast），归约前的部分值可以处于 Partial 状态。这个设计让数据并行、模型并行和混合并行都能统一表达。

Global Tensor 与 SBP

OneFlow 的 Global Tensor 把多设备集群抽象成一个统一计算空间。开发者声明 placement 与 sbp，框架负责把张量切到对应设备并插入必要通信。它更适合研究分布式张量布局、训练系统和国产框架生态；普通 LLM 微调项目若主要使用 Hugging Face 生态，PyTorch 路线的工程摩擦通常更小。

import oneflow as flow

placement = flow.placement("cuda", ranks=[0, 1])
# sbp.split(0) 表示把第 0 维按设备切分，常用于 batch 维数据并行。
x = flow.randn(8, 1024, placement=placement, sbp=flow.sbp.split(0))
print(x.placement, x.sbp)

基础训练框架怎么选

框架	核心特色	优先选择场景
PyTorch	生态最大、动态图体验强、Transformers/PEFT/vLLM/DeepSpeed/FSDP 集成最完整	LLM 训练、微调、推理服务和研究原型的默认起点。
TensorFlow / Keras 3	生产部署、SavedModel、TF Serving、Keras 高层 API 与多后端建模体验	已有 TensorFlow 资产、移动端/服务端部署链路成熟，或团队偏好 Keras 训练接口。
JAX / Flax	函数式编程、XLA 编译、显式 sharding、适合大规模研究系统	需要强编译优化、SPMD 分片、研究型训练系统或 TPU/JAX 生态。
PaddlePaddle / PaddleNLP	中文产业生态、Paddle Fleet、NLP/视觉/OCR/推理部署工具链完整	企业已经采用飞桨生态，或希望训练、压缩、推理、部署沿同一国产工具链落地。
MindSpore / MindSpeed	Ascend 亲和、图优化、自动并行、CANN 与昇腾硬件栈深度协同	目标算力主要是华为昇腾，且团队需要利用 Ascend 原生训练/推理优化。
OneFlow	SBP 分布式张量语义、分布式训练抽象清晰	研究分布式框架、国产训练系统，或已有 OneFlow 生态资产。

经典机器学习工程框架

这类库不属于大模型主线，但在特征工程、表格任务、以及小模型 baseline 中仍然高频存在。它们的接口几乎都围绕

fit

predict

predict_proba

，工程上更强调数据清洗与特征一致性。

主流库怎么分工

经典机器学习工程的主线可以按职责拆成五层：scikit-learn 负责统一 API 和基线建模，XGBoost / LightGBM / CatBoost 负责高性能表格树模型，statsmodels 负责统计建模与显著性分析，imbalanced-learn 负责类别不均衡处理，Optuna / SHAP / joblib 负责调参、解释和交付。它们覆盖的是表格、稀疏特征、小中型监督学习、聚类、异常检测和可解释建模。

库 / 框架	核心定位	最适合的任务	选型边界
scikit-learn	经典 ML 的统一 estimator API、预处理、Pipeline、模型选择、指标	逻辑回归、SVM、随机森林、KMeans、PCA、IsolationForest、表格 baseline	中小规模 CPU 任务最稳；超大规模训练和 GPU 深度学习任务应转向专门框架。
XGBoost	成熟的梯度提升树实现，正则化、缺失值处理和 GPU 路线完整	表格分类/回归、风控、排序、特征工程强的业务模型	资料和生态最成熟；类别特征需额外处理，训练速度未必总是最快。
LightGBM	高速 GBDT，直方图算法、leaf-wise 生长和大规模稀疏特征支持突出	大样本表格、CTR/CVR、广告预估、需要快速迭代的树模型	速度优势明显；leaf-wise 生长需要控制叶子数、深度和早停，避免过拟合。
CatBoost	对类别特征友好的 GBDT，内置类别处理和 ordered boosting 思路	类别列多、类别基数高、手写 target encoding 风险大的表格任务	类别特征路径稳定；极简数值特征任务上未必优于 LightGBM/XGBoost。
statsmodels	统计建模、公式接口、参数估计、置信区间、显著性检验	线性回归、Logit、时间序列统计模型、可解释分析报告	更偏统计推断；生产预测 pipeline 通常仍由 scikit-learn 或 GBDT 承担。
imbalanced-learn	类别不均衡处理，与 scikit-learn Pipeline 协同	欺诈检测、风控、罕见病识别、告警分类等少数类极少的任务	重采样必须只发生在训练 fold 内；把重采样放在全量数据前处理会造成数据泄漏。
Optuna	自动超参数优化，define-by-run 搜索空间，支持 pruning	GBDT、scikit-learn pipeline、深度学习训练脚本的调参	调参预算有限时优先；前提是验证集和目标指标可信。
SHAP	模型解释，尤其适合树模型的 TreeExplainer	特征贡献分析、风控审计、业务解释、模型回归排查	解释结果依赖数据分布和特征相关性；不能把 SHAP 当因果结论。
joblib / skops	模型持久化与安全交付	保存 scikit-learn pipeline、离线推理、批处理服务	pickle/joblib 要控制加载来源；跨组织交付更应考虑更安全的格式或导出方案。

统一安装

# scikit-learn 提供经典 estimator、Pipeline、交叉验证和预处理。
# XGBoost/LightGBM/CatBoost 是表格任务常用的 GBDT 工程库。
pip install -U scikit-learn xgboost lightgbm catboost

# statsmodels 服务统计推断；imbalanced-learn 处理不均衡采样。
# Optuna 做超参数搜索；SHAP 做模型解释；joblib 保存 sklearn 制品。
pip install -U statsmodels imbalanced-learn optuna shap joblib

任务到主流库选择

任务	优先库	推荐起点	升级路线
二分类 / 多分类 baseline	scikit-learn	LogisticRegression、RandomForestClassifier、Pipeline	指标稳定后再切 XGBoost / LightGBM / CatBoost。
表格强特征分类/回归	LightGBM / XGBoost / CatBoost	LightGBM 快速迭代，XGBoost 做稳健对照，类别列多时试 CatBoost	加入 Optuna 调参、SHAP 解释、特征选择和校准。
类别极不均衡	imbalanced-learn + scikit-learn / GBDT	class_weight、阈值调优、PR-AUC，再评估 SMOTE 等重采样	引入代价敏感学习、分层抽样、hard negative 采样。
统计解释 / 显著性分析	statsmodels	OLS、Logit、公式接口、summary 报告	预测系统再转成 scikit-learn pipeline 或 GBDT。
聚类 / 分群 / 探索	scikit-learn	PCA + KMeans，或 DBSCAN / AgglomerativeClustering	聚类结果经人工命名和业务验证后，再作为特征或标签候选。
异常检测	scikit-learn	IsolationForest、OneClassSVM、LocalOutlierFactor	将异常检测作为召回层，再接人工审核或监督分类器。
调参	Optuna	围绕业务指标定义 objective，控制 n_trials 和搜索边界	加入 pruning、多进程/数据库存储、分阶段搜索。
解释与审计	SHAP	TreeExplainer 解释 GBDT，全局 summary + 局部 top features	结合漂移监控、特征稳定性和业务规则审查。

scikit-learn

scikit-learn 是经典机器学习工程的默认 baseline 工具。它把预处理、特征组合、模型训练、交叉验证、指标评估统一在一套 estimator API 下：所有模型基本都遵循

fit

、

predict

、

predict_proba

、

score

这些入口。对 AI 工程来说，它最重要的价值是快速建立强 baseline，并把特征工程写成可复现 pipeline。

# 安装 scikit-learn 主包；它依赖 numpy/scipy/joblib/threadpoolctl。
pip install -U scikit-learn

常用API

命令/API/函数

train_test_split

说明
把数据切成训练集和验证/测试集。真实项目里要固定

random_state

，并在分类任务中使用

stratify

保持标签比例。

示例

from sklearn.model_selection import train_test_split

X_train, X_valid, y_train, y_valid = train_test_split(
    X,
    y,
    test_size=0.2,
    stratify=y,       # 分类任务保持正负样本比例，避免验证集分布漂移。
    random_state=42,  # 固定切分，保证实验可复现。
)

命令/API/函数

Pipeline

说明
把预处理和模型训练串成单个 estimator。这样交叉验证、保存模型和线上推理都会走同一条特征处理路径，减少训练/推理特征不一致。

示例

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

pipe = Pipeline(
    steps=[
        # 标准化器会在 fit 阶段只读取训练集统计量，避免验证集信息泄漏。
        ("scale", StandardScaler()),
        # max_iter 给逻辑回归更多迭代步，减少复杂特征下未收敛的概率。
        ("clf", LogisticRegression(max_iter=1000)),
    ]
)
# fit 会按顺序训练 scale 和 clf 两个步骤。
pipe.fit(X_train, y_train)
# 第二列是正类概率，常用于 AUC、阈值选择和概率校准。
proba = pipe.predict_proba(X_valid)[:, 1]

命令/API/函数

ColumnTransformer

说明
按列类型应用不同预处理：数值列做标准化，类别列做 one-hot，文本列可接 TF-IDF。表格任务中这是把特征工程写进模型产物的关键接口。

示例

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

preprocess = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), ["age", "income"]),
        # handle_unknown="ignore" 让线上遇到新类别时不直接报错。
        ("cat", OneHotEncoder(handle_unknown="ignore"), ["country", "device"]),
    ]
)

命令/API/函数

cross_val_score / GridSearchCV

说明
交叉验证与网格搜索评估的是整条 pipeline；预处理步骤会在每个 fold 内重新 fit，避免验证信息泄漏进训练。

示例

from sklearn.model_selection import GridSearchCV

search = GridSearchCV(
    # estimator 可以是单个模型，也可以是包含预处理的完整 Pipeline。
    estimator=pipe,
    # 双下划线表示进入 Pipeline 中名为 clf 的步骤，再调它的 C 参数。
    param_grid={"clf__C": [0.1, 1.0, 10.0]},
    # roc_auc 使用概率排序质量，比固定阈值 accuracy 更适合二分类筛选。
    scoring="roc_auc",
    # 每个 fold 都会重新 fit 预处理器，验证 fold 不参与特征统计。
    cv=5,
)
search.fit(X_train, y_train)
print(search.best_params_, search.best_score_)

scikit-learn 的工程边界也很清楚：它适合中小规模表格数据、传统特征工程、快速 baseline 和可解释小模型。大规模深度学习训练、GPU 分布式训练、LLM 微调和在线生成服务，应切到 PyTorch/Transformers/DeepSpeed/vLLM 等栈。

经典算法到 sklearn 类名的映射

算法	常用类	工程使用要点
逻辑回归（Logistic Regression）	sklearn.linear_model.LogisticRegression	强 baseline；数值特征通常需要标准化；类别不均衡时关注 class_weight 、阈值和 AUC/F1。
支持向量机（SVM）	sklearn.svm.SVC 、 LinearSVC	小中型特征空间表现稳定；核 SVM 训练成本高，线性 SVM 更适合高维稀疏文本特征。
决策树（Decision Tree）	sklearn.tree.DecisionTreeClassifier	可解释性强；单树容易过拟合，通常用深度、叶子样本数和剪枝参数控制复杂度。
随机森林（Random Forest）	sklearn.ensemble.RandomForestClassifier	通过 bagging 降低方差；适合表格 baseline 和特征重要性分析，推理延迟随树数量增长。
k 近邻（KNN）	sklearn.neighbors.KNeighborsClassifier	训练几乎没有成本，推理依赖距离搜索；特征尺度必须处理好，高维空间容易退化。
朴素贝叶斯（Naive Bayes）	MultinomialNB 、 GaussianNB 、 BernoulliNB	文本分类和小数据 baseline 很常见；根据特征分布选择多项式、连续高斯或二值 Bernoulli 版本。

ref-2 算法到工程入口总覆盖表

ref-2 的机器学习算法在工程上可以落到下表。这里强调可执行入口和项目边界；算法原理仍放在 ref-2 的理论章节中讲。

ref-2 算法 / 方法	主流工程入口	使用边界
感知机（Perceptron）	sklearn.linear_model.Perceptron 、 SGDClassifier(loss="perceptron")	线性可分 baseline、在线学习教学和大规模稀疏特征起点。
逻辑回归 / 最大熵（MaxEnt）	LogisticRegression 、 SGDClassifier(loss="log_loss")	分类强 baseline；最大熵在工程中通常对应多项逻辑回归。
线性回归、Ridge、Lasso、Elastic Net	LinearRegression 、 Ridge 、 Lasso 、 ElasticNet	回归、可解释建模、低延迟服务和强规则特征。
朴素贝叶斯（Naive Bayes）	MultinomialNB 、 ComplementNB 、 BernoulliNB 、 GaussianNB	文本分类、小样本 baseline、离散计数特征；ComplementNB 更适合不均衡文本。
k 近邻（KNN）	KNeighborsClassifier 、 KNeighborsRegressor 、 NearestNeighbors	距离检索、小规模分类回归、近邻图构建；高维场景需要降维或向量索引。
决策树 / 随机森林	DecisionTreeClassifier 、 DecisionTreeRegressor 、 RandomForestClassifier 、 RandomForestRegressor	表格 baseline、非线性特征交互、特征重要性；单树需限制复杂度。
支持向量机（SVM）	SVC 、 LinearSVC 、 SVR 、 OneClassSVM	中小规模分类回归、文本线性分类、异常检测；核方法训练成本高。
线性判别分析 / 二次判别分析	LinearDiscriminantAnalysis 、 QuadraticDiscriminantAnalysis	LDA 可做分类和监督降维；QDA 更灵活，也更依赖样本量。
GBDT、XGBoost、LightGBM、CatBoost	GradientBoosting* 、 XGB* 、 LGBM* 、 CatBoost*	表格强模型、CTR/CVR、风控、排序和强特征业务任务。
聚类分析	KMeans 、 MiniBatchKMeans 、 DBSCAN 、 OPTICS 、 Birch 、 AgglomerativeClustering 、 SpectralClustering	分群、语料探索、样本去重和近邻图分析；簇编号需要业务解释。
概率密度估计 / 异常检测	GaussianMixture 、 KernelDensity 、 IsolationForest 、 LocalOutlierFactor 、 OneClassSVM	密度评分、软聚类、异常候选召回和数据质量检查。
降维与可视化	PCA 、 TruncatedSVD 、 TSNE 、 umap.UMAP	PCA/SVD 可进入生产特征链路；t-SNE/UMAP 更常用于探索和可视化。
主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation, LDA）	sklearn.decomposition.LatentDirichletAllocation 、gensim	无监督主题发现；缩写 LDA 与线性判别分析相同，语境决定含义。
HMM、CRF、MEMM、结构化感知机	hmmlearn、sklearn-crfsuite、torchcrf、seqlearn、pystruct、自定义动态规划	序列标注、词法分析、NER、状态序列；深度模型常把 CRF 作为解码层。
半监督 / 弱监督 / 主动学习	SelfTrainingClassifier 、 LabelPropagation 、Snorkel、Cleanlab、modAL、scikit-activeml	少标注数据、伪标签、规则标签融合、样本挑选和标注闭环。
通用强化学习	Gymnasium、Stable-Baselines3、CleanRL、Ray RLlib、PettingZoo	Q-Learning、SARSA、DQN、PPO、Actor-Critic、多智能体环境；LLM RL 另见 OpenRLHF 和 verl。

感知机、最大熵与在线线性模型

ref-2 中的感知机、最大熵模型和浅层线性模型，在工程上通常走

linear_model

。最大熵分类器对应逻辑回归；在线学习场景可用

SGDClassifier

的

partial_fit

分批更新。

from sklearn.linear_model import Perceptron, SGDClassifier
from sklearn.metrics import classification_report
from sklearn.preprocessing import StandardScaler

# 感知机只学习线性分界面，适合做在线线性分类的最小 baseline。
perceptron = Perceptron(
    max_iter=20,
    tol=1e-3,
    random_state=42,
)
perceptron.fit(X_train, y_train)
print(classification_report(y_valid, perceptron.predict(X_valid)))

# 最大熵模型在 sklearn 中通常写成 log_loss 线性分类器。
# average=True 会对 SGD 权重做平均，常能提升线上稳定性。
maxent_online = SGDClassifier(
    loss="log_loss",
    penalty="l2",
    alpha=1e-5,
    learning_rate="optimal",
    average=True,
    random_state=42,
)

# partial_fit 支持分批训练；第一批必须给出完整类别集合。
classes = sorted(set(y_train))
for X_batch, y_batch in stream_training_batches():
    maxent_online.partial_fit(X_batch, y_batch, classes=classes)

# 输出正类概率，便于后续做阈值选择、校准和业务路由。
proba = maxent_online.predict_proba(X_valid)[:, 1]

线性模型族：LinearRegression、Ridge、Lasso 与 ElasticNet

ref-2 中提到的线性回归、L1/L2 正则化和 Elastic Net，在工程上主要落到 scikit-learn 的

linear_model

模块。它们适合做可解释 baseline、低延迟模型、强特征表格任务和高维稀疏文本分类。

算法	scikit-learn 类	工程使用要点
线性回归	LinearRegression	最小二乘 baseline；特征共线性强时系数不稳定。
岭回归（Ridge）	Ridge 、 RidgeClassifier	L2 正则化让系数更稳定，适合多重共线性或高维特征。
Lasso	Lasso	L1 正则化产生稀疏系数，常用于特征选择和解释。
Elastic Net	ElasticNet	混合 L1/L2，适合相关特征成组出现的表格任务。
SGD 线性模型	SGDClassifier 、 SGDRegressor	适合超大规模稀疏特征和流式训练，但学习率与正则化更敏感。

from sklearn.linear_model import ElasticNet, Ridge
from sklearn.metrics import mean_absolute_error
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# 线性模型的系数直接受特征尺度影响，标准化必须进入 Pipeline。
ridge_pipe = Pipeline(
    steps=[
        # StandardScaler 只在 fit 阶段从训练集估计均值和方差。
        ("scale", StandardScaler()),
        # alpha 是 L2 正则强度；值越大，系数越保守，方差越低。
        ("model", Ridge(alpha=1.0)),
    ]
)

elastic_pipe = Pipeline(
    steps=[
        ("scale", StandardScaler()),
        # alpha 控制总正则强度；l1_ratio 控制 L1 在正则项中的比例。
        # l1_ratio 越接近 1，越容易把弱特征系数压成 0。
        ("model", ElasticNet(alpha=0.01, l1_ratio=0.5, max_iter=5000)),
    ]
)

# fit 会依次训练标准化器和 Ridge；验证集只调用 transform，不重新估计统计量。
ridge_pipe.fit(X_train, y_train)
pred = ridge_pipe.predict(X_valid)
print("MAE:", mean_absolute_error(y_valid, pred))

监督降维与判别分析：LDA / QDA

线性判别分析（Linear Discriminant Analysis, LDA）在 ref-2 中有两个身份：分类器，以及利用标签信息做监督降维的线性方法。它假设各类别共享协方差矩阵，因此决策边界是线性的；二次判别分析（Quadratic Discriminant Analysis, QDA）允许每类有不同协方差矩阵，边界更灵活，也更容易受样本量影响。

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
from sklearn.metrics import accuracy_score

# LDA 可以直接作为分类器使用。
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)
print("LDA acc:", accuracy_score(y_valid, lda.predict(X_valid)))

# n_components 控制监督降维后的维度，上限受类别数限制。
# 这个表示可以继续交给可视化、聚类或轻量分类器。
projector = LinearDiscriminantAnalysis(n_components=2)
X_train_lda = projector.fit_transform(X_train, y_train)
X_valid_lda = projector.transform(X_valid)

# QDA 边界更灵活，样本少或特征维高时更需要正则化。
qda = QuadraticDiscriminantAnalysis(reg_param=0.1)
qda.fit(X_train, y_train)

分类与回归 estimator 对照补充

算法族	分类入口	回归 / 相关入口
SVM	SVC 、 LinearSVC 、 NuSVC	SVR 、 LinearSVR 、 OneClassSVM
kNN	KNeighborsClassifier	KNeighborsRegressor 、 NearestNeighbors
决策树	DecisionTreeClassifier	DecisionTreeRegressor
随机森林	RandomForestClassifier	RandomForestRegressor
朴素贝叶斯	MultinomialNB 、 ComplementNB 、 BernoulliNB 、 GaussianNB	主要服务分类；连续目标通常改用线性/树模型。

ComplementNB

常用于类别不均衡的文本分类；

LinearSVC

适合高维稀疏 TF-IDF；核

SVC

更适合中小样本。SVM、KNN 和线性模型通常都需要标准化或合适的特征缩放。

常见分类器家族快速基线

经典分类任务可以先跑一组轻量 baseline：朴素贝叶斯检验文本/计数特征是否已经足够强，线性 SVM 检验高维稀疏边界，KNN 检验距离度量，决策树与随机森林检验非线性特征交互。

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score
from sklearn.naive_bayes import ComplementNB, GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import LinearSVC
from sklearn.tree import DecisionTreeClassifier

baseline_models = {
    # ComplementNB 适合非负计数/TF-IDF 文本特征，常作为文本分类强 baseline。
    "complement_nb": ComplementNB(alpha=1.0),
    # GaussianNB 假设连续特征在每个类别内近似高斯分布，适合小数据快速试探。
    "gaussian_nb": GaussianNB(),
    # LinearSVC 适合高维稀疏特征；它默认不给 predict_proba，评估时常看 decision_function。
    "linear_svm": LinearSVC(C=1.0, class_weight="balanced"),
    # KNN 的效果取决于特征尺度和距离定义，使用前通常需要标准化或归一化。
    "knn": KNeighborsClassifier(n_neighbors=15, weights="distance"),
    # 单棵树可解释性强，max_depth 用来限制树记住训练集噪声。
    "tree": DecisionTreeClassifier(max_depth=8, min_samples_leaf=20, random_state=42),
    # 随机森林通过多棵树投票降低方差，n_jobs=-1 使用本机所有 CPU 核。
    "forest": RandomForestClassifier(n_estimators=300, class_weight="balanced", n_jobs=-1, random_state=42),
}

for name, estimator in baseline_models.items():
    # 每个模型都遵循 fit/predict 协议，便于统一接入评估脚本。
    estimator.fit(X_train, y_train)
    pred = estimator.predict(X_valid)
    # macro F1 给每个类别相同权重，适合观察少数类是否被模型忽略。
    print(name, f1_score(y_valid, pred, average="macro"))

监督学习完整 Pipeline

经典机器学习项目最容易出问题的位置通常在特征处理。推荐把数值列、类别列、文本列的预处理写进

ColumnTransformer

，再和模型一起封装为

Pipeline

。这样训练、交叉验证、保存和线上推理会使用同一条特征路径。

import joblib
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler

# parquet 常用于离线特征表；读入后先显式声明标签列和特征列。
df = pd.read_parquet("train.parquet")
target = "label"
numeric_cols = ["age", "income", "days_since_signup"]
categorical_cols = ["country", "device"]
text_col = "comment"

# X 只包含模型可见特征；y 单独保存，避免把标签误放进特征工程。
X = df[numeric_cols + categorical_cols + [text_col]]
y = df[target]

X_train, X_valid, y_train, y_valid = train_test_split(
    X,
    y,
    test_size=0.2,
    # stratify 保持正负样本比例，避免验证指标受切分偶然性影响。
    stratify=y,
    random_state=42,
)

numeric_pipe = Pipeline(
    steps=[
        # 中位数填补对极端值更稳，适合作为数值特征的默认起点。
        ("impute", SimpleImputer(strategy="median")),
        # 线性模型和 SVM 对尺度敏感，标准化能让优化更稳定。
        ("scale", StandardScaler()),
    ]
)

categorical_pipe = Pipeline(
    steps=[
        # most_frequent 给缺失类别一个稳定替代值，避免 one-hot 阶段报错。
        ("impute", SimpleImputer(strategy="most_frequent")),
        # 线上出现新类别时忽略该列，保证服务不会因未知枚举直接失败。
        ("onehot", OneHotEncoder(handle_unknown="ignore")),
    ]
)

preprocess = ColumnTransformer(
    transformers=[
        # 三个子管线会并行处理不同列，最后拼成同一个特征矩阵。
        ("num", numeric_pipe, numeric_cols),
        ("cat", categorical_pipe, categorical_cols),
        # 文本列直接走 TF-IDF，适合短文本 baseline 和工单/评论类特征。
        ("txt", TfidfVectorizer(max_features=50000, ngram_range=(1, 2)), text_col),
    ]
)

pipe = Pipeline(
    steps=[
        ("prep", preprocess),
        # class_weight="balanced" 按类别频率自动加权，缓解正负样本不均衡。
        ("clf", LogisticRegression(max_iter=1000, class_weight="balanced")),
    ]
)

# fit 会训练预处理器和分类器；验证集不会参与任何参数估计。
pipe.fit(X_train, y_train)
# predict_proba 的第二列是正类概率，适合 AUC、阈值路由和校准分析。
proba = pipe.predict_proba(X_valid)[:, 1]
# 0.5 只是默认阈值；生产阈值应按召回、精度或成本函数单独选择。
pred = (proba >= 0.5).astype(int)

print("AUC:", roc_auc_score(y_valid, proba))
print(classification_report(y_valid, pred))

# 保存整条 pipeline，线上推理才能复用同样的填补、编码和向量化规则。
joblib.dump(pipe, "logreg_pipeline.joblib")

回归任务 Pipeline

回归任务和分类任务共享大部分预处理逻辑，差异在模型头与指标。线性回归适合解释性和强 baseline；随机森林回归能捕捉非线性；GBDT 通常是表格回归的强默认项。

from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder

# 回归任务的标签是连续值；这里用房价作为目标变量。
X = df[["area", "bedrooms", "city", "building_type"]]
y = df["price"]

X_train, X_valid, y_train, y_valid = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42,
)

preprocess = ColumnTransformer(
    transformers=[
        # 类别列 one-hot；未知城市或楼型在推理时忽略，避免线上报错。
        ("cat", OneHotEncoder(handle_unknown="ignore"), ["city", "building_type"]),
    ],
    # 数值列 area、bedrooms 直接透传给随机森林。
    remainder="passthrough",
)

model = Pipeline(
    steps=[
        ("prep", preprocess),
        # 树模型对单调变换和特征尺度不敏感，适合先做非线性回归 baseline。
        ("reg", RandomForestRegressor(n_estimators=300, random_state=42, n_jobs=-1)),
    ]
)

# fit 同时保存 one-hot 类别映射和随机森林的树结构。
model.fit(X_train, y_train)
pred = model.predict(X_valid)
# MAE 更接近平均绝对业务误差；RMSE 会放大大额预测错误。
print("MAE:", mean_absolute_error(y_valid, pred))
print("RMSE:", mean_squared_error(y_valid, pred, squared=False))

XGBoost、LightGBM、CatBoost

这三类库都属于梯度提升树（Gradient Boosted Decision Trees, GBDT）工程栈，常用于表格数据、排序、广告预估、风控、CTR/CVR 预估、特征工程强的业务模型。它们和神经网络的差异在于：模型由大量树组成，训练过程围绕残差/梯度逐轮加树，特征缺失、离散特征、非线性组合和小中型表格数据通常处理得很强。

库	特色	优先选择场景
XGBoost	生态成熟、正则化与缺失值处理稳定，CPU/GPU 训练路径都常见。	需要强 baseline、比赛/工业表格任务、希望模型行为和资料最容易查证。
LightGBM	训练速度快，直方图算法、leaf-wise 生长和大规模稀疏特征支持强。	样本量或特征量较大、需要快速迭代、CTR/排序/广告预估类任务。
CatBoost	类别特征处理能力强，对 target leakage 和类别编码有专门设计。	类别特征很多、类别基数高、希望减少手写 target encoding 的表格任务。

# 三个库都提供 sklearn 风格 API，也各自保留原生训练接口。
pip install -U xgboost lightgbm catboost

统一的 sklearn 风格训练骨架

from catboost import CatBoostClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.metrics import roc_auc_score

models = {
    "xgb": XGBClassifier(
        # n_estimators 是最多加多少棵树；后面可再配合 early stopping。
        n_estimators=500,
        # max_depth 限制单棵树复杂度，越大越容易记住训练集细节。
        max_depth=6,
        # learning_rate 越小，每棵树贡献越小，通常需要更多树。
        learning_rate=0.05,
        # subsample 和 colsample_bytree 做行/列采样，降低过拟合和训练成本。
        subsample=0.8,
        colsample_bytree=0.8,
        eval_metric="logloss",
    ),
    "lgbm": LGBMClassifier(
        n_estimators=500,
        # num_leaves 控制 leaf-wise 树的容量，常比 max_depth 更关键。
        num_leaves=63,
        learning_rate=0.05,
        subsample=0.8,
        colsample_bytree=0.8,
    ),
    "cat": CatBoostClassifier(
        # CatBoost 使用 iterations 表示树的轮数，语义接近 n_estimators。
        iterations=500,
        depth=6,
        learning_rate=0.05,
        loss_function="Logloss",
        # 训练日志由外层实验系统记录时，示例里关闭逐轮输出。
        verbose=False,
    ),
}

for name, model in models.items():
    # 三个库都提供 sklearn 风格接口，便于统一纳入 pipeline 和评估脚本。
    model.fit(X_train, y_train)
    # 二分类业务通常看正类概率，再按 AUC、F1 或业务阈值评估。
    proba = model.predict_proba(X_valid)[:, 1]
    auc = roc_auc_score(y_valid, proba)
    print(name, auc)

CatBoost 的类别特征入口

CatBoost 的关键优势之一是直接接收类别列。工程上应显式列出类别特征列，避免把类别 ID 误当连续数值处理。

from catboost import CatBoostClassifier, Pool

# cat_features 必须使用原始类别列名或列索引，不能提前错误地转成连续数值。
cat_features = ["country", "device", "campaign_id"]

train_pool = Pool(
    data=train_df[feature_cols],
    label=train_df["label"],
    # 这些列会走 CatBoost 的有序目标统计和类别特征处理路径。
    cat_features=cat_features,
)
valid_pool = Pool(
    data=valid_df[feature_cols],
    label=valid_df["label"],
    # 训练集和验证集必须使用同一套类别特征声明。
    cat_features=cat_features,
)

model = CatBoostClassifier(
    iterations=1000,
    learning_rate=0.03,
    depth=8,
    loss_function="Logloss",
    eval_metric="AUC",
    # 每 100 轮打印一次，便于观察验证集是否平台化。
    verbose=100,
)
# use_best_model=True 会保留验证集指标最好的迭代，避免固定使用最后一轮。
model.fit(train_pool, eval_set=valid_pool, use_best_model=True)

这些库和深度学习栈经常共存：GBDT 负责表格强特征 baseline 或线上轻量模型，深度模型负责文本、图像、序列、多模态或大规模表示学习。推荐系统和广告预估里也常见两阶段组合：GBDT 生成强 tabular baseline，深度模型再处理 embedding、序列行为和复杂交互。

GBDT 早停与验证集

树模型训练时也需要早停。早停不应只看训练集指标；必须准备独立验证集，让模型在验证集指标不再改善时停止加树。不同库 API 细节不同，但工程原则一致：验证集来自训练切分，测试集只用于最终报告。

from lightgbm import LGBMClassifier, early_stopping, log_evaluation
from sklearn.metrics import roc_auc_score

lgbm = LGBMClassifier(
    # n_estimators 设大一些，把停止点交给验证集 early stopping 决定。
    n_estimators=5000,
    learning_rate=0.03,
    # num_leaves 是 LightGBM 控制树容量的核心参数。
    num_leaves=63,
    # 行采样和列采样降低树之间的相关性。
    subsample=0.8,
    colsample_bytree=0.8,
    random_state=42,
)

lgbm.fit(
    X_train,
    y_train,
    eval_set=[(X_valid, y_valid)],
    eval_metric="auc",
    # 100 轮无提升就停止，避免盲目把树继续叠深。
    callbacks=[early_stopping(100), log_evaluation(100)],
)

proba = lgbm.predict_proba(X_valid)[:, 1]
print("AUC:", roc_auc_score(y_valid, proba))
print("best_iteration:", lgbm.best_iteration_)

XGBoost 原生 DMatrix 路线

XGBoost 的 sklearn API 适合快速接入；原生

DMatrix

路线更适合复杂训练参数、缺失值处理、ranking objective 和更接近底层的调优。

import xgboost as xgb
from sklearn.metrics import roc_auc_score

# DMatrix 是 XGBoost 的原生数据容器，会保存特征矩阵、标签和缺失值信息。
dtrain = xgb.DMatrix(X_train, label=y_train)
dvalid = xgb.DMatrix(X_valid, label=y_valid)

params = {
    # binary:logistic 输出正类概率，适合二分类 AUC/F1/阈值评估。
    "objective": "binary:logistic",
    # eval_metric 决定 early stopping 观察哪个验证指标。
    "eval_metric": "auc",
    # max_depth 控制单棵树深度，直接影响模型容量和过拟合风险。
    "max_depth": 6,
    # eta 是 XGBoost 原生接口中的学习率。
    "eta": 0.03,
    # 行采样和列采样让每轮树看到不同子空间，提升泛化。
    "subsample": 0.8,
    "colsample_bytree": 0.8,
    # hist 使用直方图算法，通常是 CPU 大表格任务的高效默认项。
    "tree_method": "hist",
}

booster = xgb.train(
    params=params,
    dtrain=dtrain,
    # 轮数上限设大一些，真实停止点由验证集 early stopping 决定。
    num_boost_round=5000,
    # 同时打印 train/valid，便于区分欠拟合、过拟合和指标噪声。
    evals=[(dtrain, "train"), (dvalid, "valid")],
    early_stopping_rounds=100,
    verbose_eval=100,
)

# 预测时只使用验证集最优轮数以内的树，避免把过拟合轮次带入评估。
proba = booster.predict(dvalid, iteration_range=(0, booster.best_iteration + 1))
print("AUC:", roc_auc_score(y_valid, proba))

半监督、弱监督与主动学习工程库

ref-2 中的半监督学习、弱监督学习和主动学习，在工程上通常表现为一套“少量人工标签 + 大量未标注数据 + 伪标签/弱标注/标注预算”的流程。scikit-learn 提供半监督 baseline；Snorkel、Cleanlab、modAL 等库更偏标签治理和标注闭环。

方向	常用库 / 类	工程定位
Self-Training	sklearn.semi_supervised.SelfTrainingClassifier	用高置信预测给未标注样本打伪标签，再迭代训练。
图半监督	LabelPropagation 、 LabelSpreading	在样本相似图上传播少量标签，适合流形结构明显的小中规模数据。
Co-Training	两套 view + 两个分类器 + 高置信伪标签循环	scikit-learn 没有核心类；通常在文本 view、结构化 view、图像 view 之间手写编排。
半监督 SVM	历史/专用实现，自定义 Transductive SVM 路线	现代工程里较少作为默认项，更多被伪标签、图传播和深度半监督方法替代。
弱监督	Snorkel、Cleanlab	管理弱标注函数、标签噪声、疑似错标样本和数据质量问题。
主动学习	modAL、scikit-activeml	根据不确定性或多样性挑选最值得人工标注的样本。
多实例学习（MIL）	深度 MIL 自定义训练、PyTorch 生态实现	bag-level 标签训练 instance-level 表示，常见于医学影像、文档包和弱标注检测。

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.semi_supervised import SelfTrainingClassifier
from sklearn.metrics import classification_report

# y_train 中 -1 表示未标注样本，这是 sklearn 半监督接口的约定。
y_semi = y_train.copy()
y_semi[unlabeled_mask] = -1

base = LogisticRegression(max_iter=1000)

# threshold 控制伪标签进入训练集的置信度门槛。
# 门槛过低会把错误伪标签放大，门槛过高则利用不了未标注数据。
model = SelfTrainingClassifier(
    estimator=base,
    threshold=0.95,
    max_iter=10,
)

model.fit(X_train, y_semi)
pred = model.predict(X_valid)
print(classification_report(y_valid, pred))

from sklearn.semi_supervised import LabelSpreading
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

label_pipe = Pipeline(
    steps=[
        # 图半监督依赖样本距离，标准化能避免大尺度特征主导相似度图。
        ("scale", StandardScaler()),
        # kernel="rbf" 根据样本间距离构图；gamma 控制近邻影响范围。
        # alpha 越大，模型越相信传播后的软标签；越小，越贴近初始标签。
        ("label", LabelSpreading(kernel="rbf", gamma=0.2, alpha=0.2, max_iter=30)),
    ]
)

# y_semi 同样使用 -1 标记未标注样本。
label_pipe.fit(X_train, y_semi)
pred = label_pipe.predict(X_valid)

弱监督和主动学习要单独记录标签来源。每个样本应能追溯是人工标签、规则标签、伪标签、模型标签还是冲突融合标签。没有标签血缘，后续发现模型异常时很难判断问题来自数据、规则还是训练。

类别不均衡：imbalanced-learn

欺诈、风控、故障告警、罕见病识别等任务经常面临少数类极少的问题。重采样必须放在交叉验证或训练 pipeline 内部，只对训练 fold 生效；如果先对全量数据做 SMOTE 再切分，验证集会被合成样本污染。

from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline as ImbPipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import average_precision_score
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.preprocessing import StandardScaler

imb_pipe = ImbPipeline(
    steps=[
        # 先标准化再做 SMOTE，保证近邻搜索不被大尺度特征支配。
        ("scale", StandardScaler()),
        # SMOTE 只在 fit 阶段生成少数类合成样本，验证 fold 不会被重采样。
        ("smote", SMOTE(k_neighbors=5, random_state=42)),
        # LogisticRegression 读取重采样后的训练 fold，验证 fold 保持原始分布。
        ("clf", LogisticRegression(max_iter=1000)),
    ]
)

# StratifiedKFold 保持每折标签比例，适合极不均衡分类。
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
scores = cross_val_score(
    imb_pipe,
    X,
    y,
    cv=cv,
    # average_precision 对少数类召回和精度更敏感，适合欺诈/告警类任务。
    scoring="average_precision",
)
print("PR-AUC:", scores.mean(), scores.std())

类别极不均衡时，PR-AUC 通常比 ROC-AUC 更敏感。ROC-AUC 可能在负样本极多时显得很好，但实际正例召回和精度并不满足业务要求。

无监督学习：聚类、降维与异常检测

scikit-learn 的无监督工具常用于数据探索、样本分桶、异常点发现和可视化前处理。生产系统中要谨慎解释聚类标签：聚类编号没有天然语义，通常需要人工命名、业务校验或后续监督模型承接。

任务	常用类	工程用途
降维	PCA 、 TruncatedSVD	压缩高维特征、可视化前处理、稀疏文本特征降维。
聚类	KMeans 、 MiniBatchKMeans 、 DBSCAN 、 OPTICS 、 Birch 、 AgglomerativeClustering 、 SpectralClustering	样本分桶、用户分群、语料探索、去重前的粗聚合。
异常检测	IsolationForest 、 OneClassSVM 、 LocalOutlierFactor	离群样本筛查、数据质量检查、告警候选召回。

from sklearn.cluster import KMeans, MiniBatchKMeans, OPTICS
from sklearn.decomposition import PCA
from sklearn.ensemble import IsolationForest
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

cluster_pipe = Pipeline(
    steps=[
        ("scale", StandardScaler()),
        # PCA 先压缩噪声维度，减少 KMeans 被高维噪声牵引。
        ("pca", PCA(n_components=20, random_state=42)),
        # n_clusters 需要由轮廓系数、业务分群可解释性和人工验收共同决定。
        ("kmeans", KMeans(n_clusters=8, n_init="auto", random_state=42)),
    ]
)
cluster_id = cluster_pipe.fit_predict(X_numeric)

# MiniBatchKMeans 用小批量近似全量 KMeans，适合样本量很大的粗分群。
mini_kmeans = MiniBatchKMeans(n_clusters=50, batch_size=4096, random_state=42)
large_cluster_id = mini_kmeans.fit_predict(X_numeric)

# OPTICS 能处理不同密度的簇，并输出噪声点，适合先探索簇结构。
optics_id = OPTICS(min_samples=20, xi=0.05).fit_predict(X_numeric)

detector = Pipeline(
    steps=[
        ("scale", StandardScaler()),
        # contamination 是预期异常比例，应该来自业务验收或历史告警比例。
        ("iso", IsolationForest(contamination=0.02, random_state=42)),
    ]
)
is_normal = detector.fit_predict(X_numeric)
# IsolationForest 约定 -1 表示异常候选，1 表示正常样本。
anomaly_mask = is_normal == -1

无监督算法扩展：GMM、HDBSCAN、t-SNE、UMAP 与图社区

ref-2 的无监督算法版图比 KMeans/DBSCAN/PCA 更宽。工程上可以按任务拆：GMM/KDE 用于密度估计，HDBSCAN 用于变密度聚类，t-SNE/UMAP 用于可视化与局部结构展示，Leiden/Louvain 用于图社区发现。

算法 / 工具	Python 入口	工程用途
GMM	sklearn.mixture.GaussianMixture	软聚类、密度估计、异常候选分数。
KDE	sklearn.neighbors.KernelDensity	非参数密度估计，小中规模异常分析。
MiniBatchKMeans	sklearn.cluster.MiniBatchKMeans	大样本 KMeans 近似训练，适合先做粗聚类。
OPTICS	sklearn.cluster.OPTICS	变密度聚类探索，不需要提前指定全局半径。
Birch	sklearn.cluster.Birch	层次化增量聚类，适合较大样本的预聚合。
SpectralClustering	sklearn.cluster.SpectralClustering	基于相似图的非凸簇发现，样本量大时成本较高。
HDBSCAN	hdbscan.HDBSCAN	密度不均、簇数未知、含噪声样本的聚类任务。
t-SNE	sklearn.manifold.TSNE	局部结构可视化，不适合作为稳定生产特征。
UMAP	umap.UMAP	可视化、近邻结构探索、部分场景下的低维表示。
Leiden / Louvain	igraph 、 leidenalg 、 networkx	基于 kNN 图或关系图的社区发现。

# scikit-learn 覆盖 GMM、KDE、TSNE；HDBSCAN/UMAP/Leiden 需要额外库。
pip install -U scikit-learn hdbscan umap-learn igraph leidenalg networkx

from sklearn.mixture import GaussianMixture
from sklearn.neighbors import KernelDensity
from sklearn.manifold import TSNE

# GMM 给出每个样本属于各高斯成分的概率，适合软聚类和密度分析。
gmm = GaussianMixture(n_components=8, covariance_type="full", random_state=42)
# fit_predict 返回最可能的成分编号；predict_proba 可得到软归属概率。
cluster_prob = gmm.fit_predict(X_numeric)
# score_samples 是每个样本的对数密度，值越低越像异常候选。
log_density = gmm.score_samples(X_numeric)

# KDE 估计连续密度；带宽 bandwidth 是最关键超参数。
kde = KernelDensity(kernel="gaussian", bandwidth=0.5)
kde.fit(X_numeric)
anomaly_score = -kde.score_samples(X_numeric)

# t-SNE 主要用于二维可视化，结果对随机种子和超参数敏感。
# perplexity 近似控制局部邻域大小，样本量变化时需要重新调。
vis2d = TSNE(n_components=2, perplexity=30, random_state=42).fit_transform(X_numeric)

import hdbscan
import umap

# UMAP 先把高维 embedding 压到较低维，便于聚类和可视化探索。
# n_neighbors 控制局部结构范围，min_dist 控制可视化紧凑程度。
reducer = umap.UMAP(n_neighbors=30, min_dist=0.05, random_state=42)
X_umap = reducer.fit_transform(embeddings)

# HDBSCAN 不要求预先指定簇数，并能把低密度点标成 -1 噪声。
clusterer = hdbscan.HDBSCAN(min_cluster_size=30, metric="euclidean")
cluster_id = clusterer.fit_predict(X_umap)

主题模型：Latent Dirichlet Allocation

主题模型里的 LDA 指隐含狄利克雷分布（Latent Dirichlet Allocation），和前文线性判别分析（Linear Discriminant Analysis）的缩写相同。工程上它通常接在词袋或词频矩阵之后，用来发现语料中的潜在主题，并输出“文档-主题分布”和“主题-词分布”。

from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer

# LDA 主题模型需要非负词频计数；这里使用 CountVectorizer，不使用 TF-IDF。
vectorizer = CountVectorizer(
    max_features=50000,
    min_df=5,
    max_df=0.8,
    stop_words="english",
)
X_counts = vectorizer.fit_transform(documents)

lda_topic = LatentDirichletAllocation(
    # n_components 是主题数量，需要结合困惑度、主题可解释性和人工验收选择。
    n_components=20,
    learning_method="online",
    batch_size=1024,
    random_state=42,
)
# doc_topic 的每一行是一个文档在各主题上的概率分布。
doc_topic = lda_topic.fit_transform(X_counts)

# components_ 的每一行对应一个主题，每一列对应词表中的一个词。
terms = vectorizer.get_feature_names_out()
for topic_id, weights in enumerate(lda_topic.components_[:3]):
    top_ids = weights.argsort()[-10:][::-1]
    top_terms = [terms[i] for i in top_ids]
    print(topic_id, top_terms)

序列标注与概率图模型工程库

HMM、CRF、MEMM、结构化感知机和概率图模型在 ref-2 中属于经典序列建模与结构化预测。ref-6 的深度学习章节已经有

torchcrf

，这里补工程库边界：HMM 可用

hmmlearn

做经典序列隐状态建模；CRF 可用

sklearn-crfsuite

做特征模板路线，也可用

torchcrf

接深度 encoder；贝叶斯网络和因子图可看

pgmpy

、

pomegranate

、Pyro/NumPyro。

模型 / 方法	工程入口	使用边界
HMM	hmmlearn 、 pomegranate	隐状态序列、简单语音/行为状态、金融 regime；特征表达能力弱于深度模型。
CRF	sklearn-crfsuite 、 torchcrf	序列标签全局解码，适合 NER、分词、词性标注等标签转移约束明显的任务。
MEMM / 结构化感知机	seqlearn、pystruct、教学代码、自定义结构化预测	工业新项目较少直接选用，更多作为理解 CRF、Viterbi 和结构化学习的过渡。
贝叶斯网络 / 因子图	pgmpy 、 pomegranate	结构化不确定性、可解释概率依赖、小中规模推断。
可编程概率模型	Pyro、NumPyro	变分推断、MCMC、贝叶斯深度学习和复杂潜变量模型。

# 经典序列与概率图模型常用扩展库。
pip install -U hmmlearn sklearn-crfsuite pgmpy pomegranate pyro-ppl numpyro

import numpy as np
from hmmlearn.hmm import GaussianHMM

# X 是连续观测序列，例如行为特征、声学特征或传感器特征。
# lengths 告诉 HMM 多条序列在拼接矩阵中的边界。
X = np.random.randn(300, 4).astype(np.float64)
lengths = [100, 120, 80]

# n_components 是隐状态数量，需要结合业务解释和验证集选择。
model = GaussianHMM(n_components=3, covariance_type="diag", random_state=42)
model.fit(X, lengths=lengths)

# predict 使用 Viterbi 找最可能的隐状态路径。
hidden_state = model.predict(X, lengths=lengths)

统计建模：statsmodels

statsmodels 更适合需要解释系数、置信区间、p 值和统计报告的场景。它常用于分析报告、经济/金融建模、A/B 分析和可解释性要求高的线性模型。生产预测时，scikit-learn pipeline 的工程封装通常更方便；统计解释时，statsmodels 的 summary 更直接。

import statsmodels.formula.api as smf

# statsmodels 的公式接口要求把标签和解释变量放在同一个 DataFrame 中。
train_df = df[["label", "age", "income", "country", "device"]].dropna()

model = smf.logit(
    # C(country) 和 C(device) 表示把类别变量展开为虚拟变量。
    formula="label ~ age + income + C(country) + C(device)",
    data=train_df,
)
# fit 做极大似然估计，返回带统计检验信息的结果对象。
result = model.fit()

# summary 给出系数、标准误、z 值和置信区间，适合做统计分析报告。
print(result.summary())

# predict 输出正类概率，可继续接阈值策略或校准分析。
train_df["score"] = result.predict(train_df)

自动调参：Optuna

Optuna 适合在验证集可靠、搜索预算明确时做自动调参。调参目标应直接对应业务指标，例如 AUC、PR-AUC、F1、RMSE 或 NDCG。搜索空间不宜过宽；先用人工经验给出合理边界，再让 Optuna 在边界内搜索。

import optuna
from lightgbm import LGBMClassifier, early_stopping
from sklearn.metrics import roc_auc_score

def objective(trial):
    params = {
        # n_estimators 给足上限，实际轮数由 early stopping 选择。
        "n_estimators": 3000,
        # learning_rate 跨数量级搜索，用 log=True 更符合调参经验。
        "learning_rate": trial.suggest_float("learning_rate", 0.01, 0.1, log=True),
        # num_leaves 决定单棵树可表达的叶子数量，是 LightGBM 的核心容量参数。
        "num_leaves": trial.suggest_int("num_leaves", 31, 255),
        # min_child_samples 越大，每个叶子需要更多样本，模型越保守。
        "min_child_samples": trial.suggest_int("min_child_samples", 10, 200),
        # 行采样和列采样用于控制方差，也能降低训练时间。
        "subsample": trial.suggest_float("subsample", 0.6, 1.0),
        "colsample_bytree": trial.suggest_float("colsample_bytree", 0.6, 1.0),
        "random_state": 42,
    }
    model = LGBMClassifier(**params)
    model.fit(
        X_train,
        y_train,
        eval_set=[(X_valid, y_valid)],
        eval_metric="auc",
        # 每个 trial 内部也要早停，避免无效参数浪费完整训练轮数。
        callbacks=[early_stopping(100, verbose=False)],
    )
    proba = model.predict_proba(X_valid)[:, 1]
    # objective 的返回值必须和 direction 一致；这里越大越好。
    return roc_auc_score(y_valid, proba)

# direction="maximize" 表示 Optuna 会寻找 AUC 最大的参数组合。
study = optuna.create_study(direction="maximize")
study.optimize(objective, n_trials=50)

print(study.best_value)
print(study.best_params)

模型解释：SHAP

SHAP 常用于解释树模型预测：全局看哪些特征最重要，局部看某个样本为什么被打成高风险。解释代码应和训练时的特征列顺序严格一致，否则解释结果会错位。

import shap

# TreeExplainer 针对树模型做过优化，适合 XGBoost/LightGBM/CatBoost。
explainer = shap.TreeExplainer(lgbm)
# 解释样本不宜过大；通常抽取验证集子集做离线报告。
sample = X_valid.iloc[:1000]
# shap_values 的列顺序必须和训练矩阵特征顺序一致。
shap_values = explainer.shap_values(sample)

# summary_plot 适合离线分析报告；线上服务通常只保存数值结果和 top features。
shap.summary_plot(shap_values, sample, show=False)

# 单样本解释适合排查某个高风险预测由哪些特征推动。
row = X_valid.iloc[[0]]
row_values = explainer.shap_values(row)
print(row_values)

SHAP 值表示特征对模型输出的贡献分解。它解释的是模型行为，不自动等价于现实因果关系。若业务需要因果结论，还需要实验设计、因果图或反事实分析。

模型持久化与交付

经典 ML 模型上线时应保存完整 pipeline，最终 estimator 只是其中一部分。否则线上会丢失缺失值填补、类别编码、标准化、文本向量化等预处理状态。joblib 是最常见的 Python 内部持久化方式；跨团队或不可信来源加载时，需要额外考虑安全边界。

import joblib

# 保存完整 pipeline，包含预处理器、特征映射和模型参数。
joblib.dump(pipe, "model_pipeline.joblib")

# 加载方必须来自可信制品仓库；pickle/joblib 反序列化不适合加载未知来源文件。
loaded = joblib.load("model_pipeline.joblib")
score = loaded.predict_proba(X_valid.iloc[:5])[:, 1]
print(score)

交付目录应同时保存模型文件、训练数据 schema、特征列顺序、标签映射、评估报告、训练配置和依赖版本。经典 ML 的线上事故很大一部分来自特征列顺序变化、类别编码变化或训练/推理缺失值处理不一致。

通用强化学习框架与 LLM RL 的边界

ref-2 中的 Q-Learning、SARSA、DQN、Policy Gradient、Actor-Critic、PPO 和多智能体 RL，属于通用强化学习算法版图。它们通常围绕环境接口、状态、动作、奖励和 episode 展开；后文的 OpenRLHF/verl 则面向语言模型后训练，把 token 生成当作动作，把 reward function 或 reward model 当作奖励来源。

框架	覆盖算法 / 能力	工程定位
Gymnasium	环境接口标准， reset / step / observation / action / reward。	定义和测试 RL 环境，常作为算法库的环境层。
Stable-Baselines3	DQN、PPO、A2C、SAC、TD3 等经典 baseline。	单机实验、教学、控制任务和中小规模 baseline。
CleanRL	单文件算法实现，覆盖 DQN、PPO、SAC 等。	阅读算法细节、复现实验、修改 loss 和训练循环。
Ray RLlib	分布式采样、分布式训练、多算法、多环境。	大规模通用 RL 和需要 Ray 调度的环境交互任务。
PettingZoo	多智能体环境 API。	多智能体博弈、协作、竞争和环境基准。

# 通用 RL 环境与 baseline。
pip install -U gymnasium stable-baselines3 cleanrl "ray[rllib]" pettingzoo

import gymnasium as gym
from stable_baselines3 import PPO

# Gymnasium 环境提供 reset/step 接口。
# observation 是状态，action 是智能体动作，reward 是环境反馈。
env = gym.make("CartPole-v1")

# PPO 这里是通用 RL 算法，处理离散动作控制任务。
# LLM RL 中的 PPO 形式相似，但 action 变成 token，rollout 由语言模型生成。
model = PPO(
    policy="MlpPolicy",
    env=env,
    learning_rate=3e-4,
    n_steps=2048,
    batch_size=64,
    verbose=1,
)

# total_timesteps 表示环境交互步数，语义和 epoch 不同。
model.learn(total_timesteps=100_000)
model.save("ppo_cartpole")

通用 RL 框架适合控制、游戏、仿真、多智能体和环境交互任务。语言模型后训练通常选择 TRL、OpenRLHF、verl 或 OpenRLHF/vLLM/DeepSpeed 组合，因为它们内置 tokenizer、rollout engine、KL、reference model、reward function、长序列 batch 和 LLM checkpoint 语义。

语言模型训练框架

语言模型训练框架负责把“模型、数据、训练循环、分布式运行时、评估、保存与导出”组织成可复用的工程入口。本节只做框架地图：说明每类工具解决什么问题、适合什么场景、和后文专章的关系。涉及具体 API、完整脚本、参数语义和排障细节的内容，放到后面的 Transformers、PEFT、语言模型强化学习、DeepSpeed、vLLM 等专章中展开。

框架/工具	工程定位	选择依据
Transformers	统一模型加载、tokenizer/processor、Trainer、generate 与 Hub 交付格式。	通用 LLM/NLP 微调、推理、导出都应优先熟悉这条主线；细节见后文 Transformers 详解。
Accelerate	把自定义 PyTorch 脚本接到单卡、多卡、FSDP、DeepSpeed、混合精度等运行时。	已有训练循环，但需要减少分布式样板代码时使用；它常作为 Transformers、LLaMA-Factory、Axolotl 的底层启动与运行时胶水。
PEFT	管理 LoRA、QLoRA、IA3、Prompt Tuning 等 adapter 的注入、保存、加载、合并与多 adapter 生命周期。	大模型微调默认优先考虑；adapter 细节、merge 语义和量化边界见后文 PEFT 与微调技术详解。
TRL	提供 SFT、RewardTrainer、DPO、PPO、GRPO 等后训练 Trainer。	适合 Hugging Face 生态内做 SFT、偏好优化和中小规模 RL 算法验证；RL 训练细节见后文语言模型强化学习。
OpenRLHF	用 Ray + DeepSpeed + vLLM 编排 actor、critic、reference、reward、rollout 多角色在线 RLHF。	当 rollout、reward、训练和推理需要拆成多个进程或多个 GPU 池时，比单脚本 Trainer 更适合。
verl	面向 LLM RL 后训练的多算法框架，强调统一资源池、HybridFlow 和 Actor-Rollout-Ref Worker。	需要在 PPO、GRPO、RLOO、ReMax、REINFORCE++ 等算法间切换，并保持一套资源管理和 rollout 架构。
Unsloth	面向单卡/少卡高效微调的工作台，常用于快速 LoRA/QLoRA 实验和本地部署验证。	适合低显存、快速试验、导出到本地推理格式；不适合替代大规模分布式训练系统。
LLaMA-Factory	用 YAML、CLI 和 WebUI 组织 SFT、DPO、RM、PPO、导出等流程。	团队希望把常见 LLM 微调流程配置化，减少手写脚本维护成本时使用。
Axolotl	现代 LLM 微调配方库，覆盖 QLoRA、FSDP、DPO、GRPO、sample packing 与 vLLM 协作。	适合复杂 YAML 配方、批量实验、多种后训练路线组合，以及希望显式控制训练语义的团队。
ModelScope	中文模型/数据 Hub、SDK、pipeline 与 Trainer 工作台。	中文生态、魔搭模型、平台化模型获取与任务 pipeline 更重要时使用；底层训练后端取决于具体模型和脚本。
GLiNER / sentence-transformers / SetFit	面向特定任务的高层框架，分别覆盖 span-based NER、embedding/reranker 训练、少样本文本分类等场景。	任务结构明确、希望少写底层训练循环时使用；它们通常仍依赖 PyTorch/Transformers 作为底座。
Lightning / MMEngine	训练流程组织框架，强调 Runner/Trainer、Hook、Callback、Logger、Checkpoint 与配置系统。	团队需要统一训练规范、可复用实验工程、CV 项目管理或复杂 hook 生命周期时使用。

Hugging Face 训练主线

这一章里的框架分处不同抽象层：底座生态、后训练系统、配方工作台、任务封装和训练流程控制层。选型时先判断自己缺的是哪一层能力，再决定引入哪个库。

抽象层	负责什么	典型库
底座生态	模型、tokenizer、dataset、metric、训练循环、adapter 和后训练 Trainer 的基础 API。	Transformers、Datasets、Evaluate、Accelerate、PEFT、TRL
RL 后训练系统	actor、critic、reference、reward、rollout、Ray、vLLM、DeepSpeed/FSDP 的多角色编排。	verl、OpenRLHF
配方工作台	把模型、数据、模板、LoRA、量化、训练参数和导出路径写进 YAML/CLI/WebUI。	Unsloth、LLaMA-Factory、Axolotl、ModelScope
任务封装	围绕 NER、embedding、reranker、少样本分类等任务封装数据格式、模型头、loss 和评估。	GLiNER、sentence-transformers、SetFit
流程控制	统一训练生命周期、配置、hook、callback、logger、checkpoint、runner 和分布式策略。	Lightning、Fabric、MMEngine、OpenMMLab

Hugging Face 生态的常见组合是 Transformers + Datasets + Evaluate + Accelerate + PEFT + TRL。Transformers 管模型与 tokenizer，Datasets 管数据表与流式读取，Evaluate 管指标，Accelerate 管运行时，PEFT 管 adapter，TRL 管 SFT、偏好优化和 RL 后训练。真实项目里很少只使用其中一个库，更多是按任务阶段组合使用。

这条主线的设计重点是统一接口：

from_pretrained

负责装载，

save_pretrained

负责交付，

Trainer

或专用 Trainer 负责训练循环，

generate

负责生成式推理。这里给出最低可用入口，后文专章再展开完整 API、工程参数和排障。

Transformers：安装与 QuickStart

pip install -U transformers torch

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "Qwen/Qwen2.5-0.5B-Instruct"

# tokenizer 决定文本如何切成 token，必须和模型权重来自同一套仓库。
tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    # 让 Transformers 按模型配置和硬件能力选择加载精度。
    torch_dtype="auto",
    # QuickStart 阶段交给库自动放置设备；正式训练再切到显式分布式配置。
    device_map="auto",
)

messages = [{"role": "user", "content": "用一句话解释 LoRA。"}]

# chat template 把结构化 messages 渲染成模型训练时熟悉的对话文本。
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)

outputs = model.generate(
    **inputs,
    # 用 max_new_tokens 约束回复长度，避免 max_length 把 prompt 长度也算进去。
    max_new_tokens=64,
)

print(tokenizer.batch_decode(outputs, skip_special_tokens=True)[0])

Datasets 与 Evaluate：安装与 QuickStart

pip install -U datasets evaluate

from datasets import load_dataset
import evaluate

# Datasets 负责下载、缓存、切分和列式访问数据集。
dataset = load_dataset("glue", "sst2")

# Evaluate 把指标对象和计算逻辑独立出来，方便训练脚本复用。
accuracy = evaluate.load("accuracy")

predictions = [1, 0, 1]
references = [1, 1, 1]

# 指标输入要和任务语义对齐；分类任务通常传类别 id。
result = accuracy.compute(predictions=predictions, references=references)
print(result)

Accelerate：安装与 QuickStart

pip install -U accelerate
accelerate config
accelerate test

from accelerate import Accelerator

accelerator = Accelerator()

# prepare 会把模型、优化器和 dataloader 包进当前运行时。
model, optimizer, train_loader = accelerator.prepare(model, optimizer, train_loader)

for batch in train_loader:
    outputs = model(**batch)
    loss = outputs.loss

    # 使用 accelerator.backward，才能兼容混合精度、梯度累积和分布式后端。
    accelerator.backward(loss)

    optimizer.step()
    optimizer.zero_grad()

accelerate launch train.py

PEFT：安装与 QuickStart

pip install -U peft

from peft import LoraConfig, TaskType, get_peft_model

peft_config = LoraConfig(
    # Causal LM 表示 decoder-only 自回归语言模型。
    task_type=TaskType.CAUSAL_LM,
    # rank 控制 LoRA 分支容量。
    r=16,
    # alpha 控制 LoRA 更新量缩放。
    lora_alpha=32,
    # dropout 只作用在 LoRA 分支，用来缓和小数据过拟合。
    lora_dropout=0.05,
    # 注入点必须匹配模型源码里的线性层名字。
    target_modules=["q_proj", "v_proj"],
)

# base_model 通常来自 Transformers.from_pretrained。
model = get_peft_model(base_model, peft_config)

# 先打印可训练参数，确认训练对象被限制在 adapter 上。
model.print_trainable_parameters()

TRL：安装与 QuickStart

pip install -U trl

from datasets import load_dataset
from trl import SFTConfig, SFTTrainer

dataset = load_dataset("trl-lib/Capybara", split="train")

config = SFTConfig(
    output_dir="out_sft",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,
    learning_rate=2e-5,
    num_train_epochs=1,
)

trainer = SFTTrainer(
    # 可以传模型 id，也可以传已经加载好的 Transformers/PEFT 模型对象。
    model="Qwen/Qwen2.5-0.5B-Instruct",
    args=config,
    train_dataset=dataset,
)

trainer.train()

强化学习后训练框架

verl 和 OpenRLHF 负责完整 RL 后训练系统。它们处理 actor、critic、reference、reward model、rollout engine、资源池、权重同步和 checkpoint 链路。TRL 适合先验证算法和 reward；verl / OpenRLHF 更适合把 RLHF 扩展到多 GPU、多进程和多角色系统。

verl：安装与 QuickStart

git clone https://github.com/volcengine/verl.git
cd verl
pip install -e .

python3 -m verl.trainer.main_ppo \
  algorithm.adv_estimator=grpo \
  data.train_files=./data/train.parquet \
  data.val_files=./data/val.parquet \
  data.prompt_key=prompt \
  actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct \
  actor_rollout_ref.actor.strategy=fsdp \
  actor_rollout_ref.rollout.name=vllm \
  actor_rollout_ref.rollout.n=4 \
  trainer.n_gpus_per_node=1 \
  trainer.nnodes=1 \
  trainer.project_name=verl_quickstart \
  trainer.experiment_name=qwen_grpo

这条命令体现了 verl 的基本结构：训练数据给 prompt，actor 用 FSDP 更新策略，rollout 用 vLLM 生成候选，GRPO 用组内奖励估计 advantage。正式项目还需要补 reward function、日志、保存策略和多节点资源配置。

OpenRLHF：安装与 QuickStart

pip install -U openrlhf

ray start --head --num-gpus 1

openrlhf.cli.train_ppo_ray \
  --actor.model_name_or_path ./sft_model \
  --reward.model_name_or_path ./reward_model \
  --data.prompt_dataset ./prompts.jsonl \
  --actor_learning_rate 1e-6 \
  --critic_learning_rate 5e-6 \
  --micro_train_batch_size 1 \
  --train_batch_size 16 \
  --micro_rollout_batch_size 1 \
  --rollout_batch_size 32 \
  --zero_stage 2 \
  --bf16 \
  --save_path ./openrlhf_ppo_actor

OpenRLHF 的 QuickStart 先看角色边界：actor 负责被更新的策略，critic 负责价值估计，reward model 负责打分，Ray 负责调度角色，DeepSpeed 负责训练态显存和优化器状态管理。多卡生产训练通常再接 vLLM rollout engine。

大模型微调工作台

Unsloth、LLaMA-Factory 和 Axolotl 的共同目标是把大模型微调从“手写 Python 脚本”推进到“配置化训练配方”。三者的差异在重心：Unsloth 偏单卡效率和快速导出，LLaMA-Factory 偏一站式工作台和易用配置，Axolotl 偏复杂训练配方和现代后训练组合。

工具	适合场景	边界
Unsloth	单卡/少卡 LoRA、QLoRA、快速 SFT、导出到本地推理制品。	关注效率和落地速度；复杂多角色 RLHF 与大规模分布式训练通常需要别的系统承接。
LLaMA-Factory	用 YAML/CLI/WebUI 管理 SFT、RM、DPO、PPO 和导出流程。	强项是把常见路径产品化；极端自定义训练循环仍会回到 Transformers、Accelerate、DeepSpeed 或自写脚本。
Axolotl	QLoRA、FSDP、sample packing、DPO、GRPO、vLLM 协作等复杂配方。	配置能力强，但需要读懂每个字段对应的训练语义，不能把 YAML 当作黑盒。

Unsloth：安装与 QuickStart

pip install -U unsloth

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    "unsloth/Meta-Llama-3.1-8B",
    # QuickStart 先给出明确上下文预算，方便估算显存。
    max_seq_length=2048,
    # 4bit 加载用于降低底座显存，训练时只更新 LoRA。
    load_in_4bit=True,
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    lora_alpha=16,
    lora_dropout=0.05,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)

LLaMA-Factory：安装与 QuickStart

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

# sft 表示监督微调阶段。
stage: sft

# 使用 LoRA adapter，避免全参更新。
finetuning_type: lora

# 底座模型路径或 Hub id。
model_name_or_path: Qwen/Qwen2.5-0.5B-Instruct

# 数据集名称由 LLaMA-Factory 的 dataset_info 管理。
dataset: identity

# 模板必须匹配目标模型的对话格式。
template: qwen

# 输出目录保存 adapter、日志和配置快照。
output_dir: saves/qwen_quickstart/lora/sft

# QuickStart 先跑小 batch，验证链路。
per_device_train_batch_size: 1
gradient_accumulation_steps: 4
learning_rate: 2.0e-4
num_train_epochs: 1.0

llamafactory-cli train llamafactory_quickstart.yaml

Axolotl：安装与 QuickStart

pip install -U axolotl

# 底座模型身份。
base_model: Qwen/Qwen2.5-0.5B-Instruct

# tokenizer 类型显式写出，避免模型仓库默认配置不完整。
tokenizer_type: AutoTokenizer

# LoRA adapter 训练。
adapter: lora

datasets:
  # QuickStart 使用 alpaca 风格数据。
  - path: tatsu-lab/alpaca
    type: alpaca

# 模板决定训练文本如何拼接。
chat_template: chatml

# 先用短上下文跑通流程。
sequence_len: 1024
micro_batch_size: 1
gradient_accumulation_steps: 4
learning_rate: 2.0e-4
output_dir: ./outputs/axolotl_quickstart

axolotl train axolotl_quickstart.yml

ModelScope：安装与 QuickStart

pip install -U modelscope

from modelscope.pipelines import pipeline

word_segmentation = pipeline(
    "word-segmentation",
    # 显式指定模型，避免默认模型版本变化影响结果。
    model="damo/nlp_structbert_word-segmentation_chinese-base",
)

result = word_segmentation("语言模型训练框架需要区分底座生态和配方工作台。")
print(result)

任务特定训练框架

任务特定框架把某类任务的模型头、损失函数、数据格式和评估方式封装起来。GLiNER 适合开放标签 NER 与 span-based NER；sentence-transformers 适合 embedding、相似度、检索和 reranker；SetFit 适合少样本文本分类。这类框架的优势是快速形成可用 baseline，代价是底层训练循环的自由度较低。

GLiNER：安装与 QuickStart

pip install -U gliner

from gliner import GLiNER

model = GLiNER.from_pretrained("urchade/gliner_medium-v2.1")

text = "John works at Google and lives in Paris."

# GLiNER 的标签来自自然语言列表，适合快速扩展新实体类型。
labels = ["person", "organization", "location"]

entities = model.predict_entities(
    text,
    labels,
    # threshold 控制召回和精度平衡，正式任务需要按验证集调。
    threshold=0.5,
)

print(entities)

sentence-transformers：安装与 QuickStart

pip install -U sentence-transformers

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

sentences = [
    "A dog is playing in the park.",
    "A puppy runs outside.",
]

# encode 输出可直接用于相似度、聚类、检索或向量数据库写入。
embeddings = model.encode(sentences, normalize_embeddings=True)

similarity = embeddings[0] @ embeddings[1]
print(float(similarity))

SetFit：安装与 QuickStart

pip install -U setfit

from datasets import load_dataset
from setfit import SetFitModel, Trainer, TrainingArguments

dataset = load_dataset("SetFit/sst2")

model = SetFitModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")

args = TrainingArguments(
    batch_size=16,
    num_epochs=1,
)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=dataset["train"].select(range(64)),
    eval_dataset=dataset["validation"].select(range(64)),
)

trainer.train()
metrics = trainer.evaluate()
print(metrics)

训练流程组织框架

Lightning、Fabric、MMEngine、OpenMMLab 这类框架关注训练工程的组织方式。它们处理 callback、hook、logger、checkpoint、runner、配置和分布式策略，让团队把研究代码、训练规范和实验产物放进统一结构。对于长期维护的 CV 项目、多模型实验平台或跨团队训练规范，这类框架比临时脚本更稳。

Lightning 与 Fabric：安装与 QuickStart

pip install -U lightning

import lightning as L
import torch
import torch.nn.functional as F
from torch import nn

class LitClassifier(L.LightningModule):
    def __init__(self):
        super().__init__()
        self.net = nn.Linear(10, 2)

    def training_step(self, batch, batch_idx):
        x, y = batch
        logits = self.net(x)
        loss = F.cross_entropy(logits, y)
        self.log("train_loss", loss)
        return loss

    def configure_optimizers(self):
        return torch.optim.AdamW(self.parameters(), lr=3e-4)

trainer = L.Trainer(
    max_epochs=1,
    accelerator="auto",
    devices="auto",
)

trainer.fit(LitClassifier(), train_dataloaders=train_loader)

from lightning import Fabric

fabric = Fabric(accelerator="auto", devices="auto")
fabric.launch()

# Fabric 保留自定义训练循环，只接管设备、精度和分布式运行时。
model, optimizer = fabric.setup(model, optimizer)
train_loader = fabric.setup_dataloaders(train_loader)

MMEngine：安装与 QuickStart

pip install -U openmim
mim install mmengine

import torch.nn.functional as F
import torchvision
from mmengine.model import BaseModel

class MMResNet50(BaseModel):
    def __init__(self):
        super().__init__()
        self.backbone = torchvision.models.resnet50(num_classes=2)

    def forward(self, imgs, labels=None, mode="loss"):
        logits = self.backbone(imgs)

        if mode == "loss":
            # MMEngine 的 Runner 期望 loss 模式返回 dict，便于统一日志和反传。
            return {"loss": F.cross_entropy(logits, labels)}

        # predict 模式把结果交给 evaluator 或可视化流程。
        return logits

OpenMMLab：安装与 QuickStart

pip install -U openmim
mim install mmengine
mim install mmdet

# 下载配置和 checkpoint 后，可以先用 demo 验证推理链路。
python demo/image_demo.py \
  demo/demo.jpg \
  configs/faster_rcnn/faster-rcnn_r50_fpn_1x_coco.py \
  checkpoints/faster_rcnn_r50_fpn_1x_coco.pth \
  --out-file result.jpg

OpenMMLab 的 QuickStart 通常围绕具体任务仓库展开，例如 MMDetection、MMSegmentation、MMPose。MMEngine 是底层训练引擎，OpenMMLab 各任务库在它之上提供模型、数据集、配置和评估流程。

训练场景代码模板

第 4 篇从理论和策略角度讨论了任务特定语言模型、embedding 训练、继续预训练、分类微调、序列标注、条件生成、生成模型 SFT、拒绝采样、DPO 和蒸馏等训练场景。本节把这些场景落到工程代码：同一个训练目标，先判断应该使用表示模型、embedding 模型还是生成模型，再选择 Transformers、sentence-transformers、SetFit、PEFT/TRL 等框架入口。

训练场景到框架入口

训练场景	主要框架	核心代码入口	产物形态
小数据集分类微调	Transformers + PEFT	AutoModelForSequenceClassification 、 Trainer 、 LoraConfig	分类模型目录或 LoRA adapter
表示模型继续预训练	Transformers	AutoModelForMaskedLM 、 DataCollatorForLanguageModeling	领域化 encoder checkpoint
embedding 训练与检索微调	sentence-transformers	SentenceTransformerTrainer 、 MultipleNegativesRankingLoss	embedding 模型目录
基于表示模型的重排训练	sentence-transformers	CrossEncoder 、query-document-label、hard negatives	cross-encoder reranker
少样本文本分类	SetFit	SetFitModel 、 Trainer	sentence-transformer body + 分类头
生成模型 SFT / QLoRA	Transformers + PEFT + TRL	SFTTrainer 、 BitsAndBytesConfig 、 LoraConfig	LoRA adapter 或合并后的 Causal LM
拒绝采样回写 SFT	vLLM / Transformers + TRL	多候选生成、规则/模型评分、JSONL 回写、 SFTTrainer	筛选后的 SFT 数据 + 新 adapter
DPO 偏好调优	TRL + PEFT	DPOTrainer 、chosen/rejected 数据	DPO adapter 或合并模型
Token 级序列标注 / NER	Transformers	AutoModelForTokenClassification 、word_ids 对齐、 DataCollatorForTokenClassification	token classification 模型目录
T5 / BART 条件生成	Transformers	AutoModelForSeq2SeqLM 、 DataCollatorForSeq2Seq 、 Seq2SeqTrainer	摘要、翻译、改写、text-to-text 分类模型
冻结表示模型 + 轻量分类器	Transformers + scikit-learn	encoder 特征抽取、 LogisticRegression	特征化分类 pipeline
嵌入零样本分类	sentence-transformers	标签描述向量、文本向量、余弦相似度	无需训练的标签匹配器
LLM 教师蒸馏到 Encoder-only 学生	LLM API / 本地生成 + Transformers	弱标注、置信度过滤、学生分类器微调	低延迟线上分类器
DoRA / Q-DoRA 高容量微调	PEFT + TRL	LoraConfig(use_dora=True) 、QLoRA 量化底座	更高容量 adapter

小数据集分类微调：Transformers + LoRA

小数据集分类任务应先限制可训练容量，再观察验证集和尾部样本。BERT、RoBERTa、DeBERTa 这类 encoder 模型适合闭集分类；LoRA 可把更新集中到注意力投影层，降低过拟合和显存压力。

# transformers 提供模型、tokenizer 和 Trainer。
# datasets 负责读取 CSV 并生成 DatasetDict。
# evaluate 提供 F1 等指标实现。
# peft 提供 LoRA adapter 注入。
# accelerate 是 Trainer 运行单卡/多卡/混合精度的底层运行时。
pip install -U transformers datasets evaluate peft accelerate

# evaluate 用来加载可复用指标，避免自己手写 F1 细节。
import evaluate
# numpy 用来把 logits 转成类别 id。
import numpy as np
# load_dataset 读取本地 CSV 并返回 train/validation 两个 split。
from datasets import load_dataset
# LoraConfig 定义 adapter；TaskType 告诉 PEFT 当前是序列分类任务。
# get_peft_model 把 LoRA adapter 挂到已有 Transformers 模型上。
from peft import LoraConfig, TaskType, get_peft_model
# AutoModelForSequenceClassification 会自动加载带分类头的 encoder。
# AutoTokenizer 保证分词规则和底座模型一致。
from transformers import AutoModelForSequenceClassification, AutoTokenizer
# DataCollatorWithPadding 在组 batch 时动态 padding。
# Trainer / TrainingArguments 负责训练循环和训练参数。
from transformers import DataCollatorWithPadding, Trainer, TrainingArguments

# 底座模型 id；这里选择 DeBERTa encoder，适合闭集文本分类。
model_id = "microsoft/deberta-v3-base"
# data_files 显式声明训练集和验证集文件，DatasetDict 会生成对应 split。
dataset = load_dataset("csv", data_files={"train": "train.csv", "validation": "valid.csv"})
# 从训练集收集标签名，并排序保证 label id 可复现。
label_names = sorted(set(dataset["train"]["label"]))
# label2id 把业务标签映射成模型 loss 需要的整数类别。
label2id = {name: i for i, name in enumerate(label_names)}
# id2label 写回模型配置，推理输出时能还原成人类可读标签。
id2label = {i: name for name, i in label2id.items()}

# tokenizer 必须和 model_id 一致，否则 token id 会和 embedding 表错位。
tokenizer = AutoTokenizer.from_pretrained(model_id)

def preprocess(batch):
    # 文本列名要和业务数据保持一致；truncation 防止异常长文本撑爆 batch。
    encoded = tokenizer(batch["text"], truncation=True, max_length=256)
    # Trainer 约定监督标签字段叫 labels。
    encoded["labels"] = [label2id[x] for x in batch["label"]]
    return encoded

# batched=True 让 tokenizer 批量处理样本，吞吐更高。
# remove_columns 删除原始 text/label 列，只保留模型 forward 能消费的字段。
tokenized = dataset.map(preprocess, batched=True, remove_columns=dataset["train"].column_names)
model = AutoModelForSequenceClassification.from_pretrained(
    # 从同一个底座加载 encoder 和分类头初始化配置。
    model_id,
    # 分类头输出维度必须等于标签数量。
    num_labels=len(label_names),
    # 把 id -> 标签名写入 config，便于推理和保存后复用。
    id2label=id2label,
    # 把标签名 -> id 写入 config，便于 pipeline 或下游工具识别。
    label2id=label2id,
)

lora = LoraConfig(
    # SEQ_CLS 告诉 PEFT 当前任务是序列级分类。
    task_type=TaskType.SEQ_CLS,
    # rank 越小，可训练容量越低；小数据分类先用较小 rank 控制过拟合。
    r=8,
    # alpha 控制 LoRA 更新幅度，通常和 rank 配套调整。
    lora_alpha=16,
    # dropout 只作用在 LoRA 分支，降低小数据上过度记忆的风险。
    lora_dropout=0.05,
    # DeBERTa 注意力投影层常见命名；真实项目应先打印模块名确认。
    target_modules=["query_proj", "value_proj"],
)
# 包装后模型主体冻结，训练主要更新 LoRA 参数和必要的分类头参数。
model = get_peft_model(model, lora)

# 加载 macro F1 指标；长尾分类比 accuracy 更能暴露少数类退化。
metric = evaluate.load("f1")

def compute_metrics(eval_pred):
    # Trainer 传入的是 numpy logits 和 labels。
    logits, labels = eval_pred
    # 分类任务取最大 logit 对应的类别 id。
    preds = np.argmax(logits, axis=-1)
    # macro F1 能暴露长尾类别退化，比单看 accuracy 更稳。
    return metric.compute(predictions=preds, references=labels, average="macro")

args = TrainingArguments(
    # checkpoint、日志、trainer_state.json 都写入这个目录。
    output_dir="./cls_lora",
    # LoRA 可训练参数少，学习率通常高于全参微调。
    learning_rate=2e-4,
    # 训练 batch 控制显存占用；小数据也不宜开得过大。
    per_device_train_batch_size=16,
    # 验证不反传，batch 可以比训练更大。
    per_device_eval_batch_size=32,
    # 小数据任务应结合验证集早停；这里给出上限 epoch。
    num_train_epochs=5,
    # 每个 epoch 结束跑一次验证集，避免只看训练 loss。
    eval_strategy="epoch",
    # 每个 epoch 保存一次，和评估节奏对齐。
    save_strategy="epoch",
    # 训练结束自动恢复验证指标最优的 checkpoint。
    load_best_model_at_end=True,
    # Trainer 会寻找 eval_f1；它来自 compute_metrics 返回的 f1。
    metric_for_best_model="eval_f1",
    # F1 越大越好，不能按 loss 的“越小越好”逻辑处理。
    greater_is_better=True,
    # fp16 降低显存并提高吞吐；老卡或数值不稳时可关闭。
    fp16=True,
)

trainer = Trainer(
    # 已经注入 LoRA 的分类模型。
    model=model,
    # 训练超参数和保存/评估策略。
    args=args,
    # tokenized train split，字段应包含 input_ids/attention_mask/labels。
    train_dataset=tokenized["train"],
    # validation split 用于选 best checkpoint。
    eval_dataset=tokenized["validation"],
    # 动态 padding，避免所有样本都补到 max_length。
    data_collator=DataCollatorWithPadding(tokenizer),
    # 把 logits 转成 F1 等业务指标。
    compute_metrics=compute_metrics,
)
# 启动训练；Trainer 会自动执行评估、保存和 best model 恢复。
trainer.train()
# 保存最终可加载模型目录；如果是 PEFT 模型，产物主要是 adapter。
trainer.save_model("./cls_lora/best")

DeBERTa 的注意力层命名常见为

query_proj

value_proj

；BERT/RoBERTa 常见为

query

value

。实际项目应先打印模块名，再设置

target_modules

。

Token 级序列标注：NER / Slot Filling

Token 级序列标注适合 NER、槽位填充、关键词边界识别等任务。它和句子分类的差异在输出形态：句子分类是一段文本一个标签，token classification 是每个 token 一个标签。工程难点集中在 word-level 标注与 subword token 之间的对齐。

# transformers 提供 token classification 模型与 Trainer。
# datasets 读取 tokens/tags 形式的数据。
# seqeval 提供实体级 precision/recall/F1。
pip install -U transformers datasets evaluate seqeval accelerate

# evaluate 加载 seqeval，按实体边界计算 NER 指标。
import evaluate
# load_dataset 读取 JSONL 中的 tokens 和 ner_tags 字段。
from datasets import load_dataset
# AutoModelForTokenClassification 加载每个 token 输出标签 logits 的模型。
# AutoTokenizer 提供 is_split_into_words 和 word_ids 对齐能力。
from transformers import AutoModelForTokenClassification, AutoTokenizer
# DataCollatorForTokenClassification 会动态 padding input_ids 和 labels。
# Trainer / TrainingArguments 负责训练循环、评估和保存。
from transformers import DataCollatorForTokenClassification, Trainer, TrainingArguments

# Encoder-only 模型适合高吞吐 NER。
model_id = "microsoft/deberta-v3-base"
# 数据每行应包含 tokens: List[str] 和 ner_tags: List[str]。
dataset = load_dataset("json", data_files={"train": "ner_train.jsonl", "validation": "ner_valid.jsonl"})

# 从训练集收集标签集合，并排序保证 id 映射可复现。
label_names = sorted({tag for row in dataset["train"]["ner_tags"] for tag in row})
# label2id 把 BIO/IOBES 字符串标签转成整数。
label2id = {name: i for i, name in enumerate(label_names)}
# id2label 写入模型配置，便于推理输出还原。
id2label = {i: name for name, i in label2id.items()}

# tokenizer 必须和底座模型一致。
tokenizer = AutoTokenizer.from_pretrained(model_id)

def tokenize_and_align_labels(batch):
    # is_split_into_words=True 表示输入已经是词列表，不让 tokenizer 再按空格猜词边界。
    tokenized = tokenizer(
        batch["tokens"],
        is_split_into_words=True,
        truncation=True,
        max_length=256,
    )

    aligned_labels = []
    # 逐条样本对齐，因为每条样本的 word_ids 都不同。
    for sample_index, tags in enumerate(batch["ner_tags"]):
        # word_ids 把每个 subword token 映射回原始第几个 word。
        word_ids = tokenized.word_ids(batch_index=sample_index)
        previous_word_id = None
        label_ids = []

        for word_id in word_ids:
            if word_id is None:
                # 特殊 token 和 padding 不参与 loss，统一设为 -100。
                label_ids.append(-100)
            elif word_id != previous_word_id:
                # 一个 word 的首个 subword 继承原始标签。
                label_ids.append(label2id[tags[word_id]])
            else:
                # 非首个 subword 忽略，避免一个实体词被重复计算 loss。
                label_ids.append(-100)
            previous_word_id = word_id

        aligned_labels.append(label_ids)

    # Trainer 约定 token 级监督字段仍叫 labels。
    tokenized["labels"] = aligned_labels
    return tokenized

# batched=True 批量处理；remove_columns 删除原始 tokens/tags，避免 Trainer forward 收到无关字段。
tokenized = dataset.map(tokenize_and_align_labels, batched=True, remove_columns=dataset["train"].column_names)

model = AutoModelForTokenClassification.from_pretrained(
    model_id,
    # 输出维度等于 BIO/IOBES 标签数量。
    num_labels=len(label_names),
    # 写入 id -> label，便于 pipeline 和保存后推理。
    id2label=id2label,
    # 写入 label -> id，便于加载后保持标签语义。
    label2id=label2id,
)

# seqeval 按实体边界评估，比 token accuracy 更可靠。
seqeval = evaluate.load("seqeval")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    # 对每个 token 取最高 logit 对应的标签。
    predictions = logits.argmax(axis=-1)

    true_predictions = []
    true_labels = []
    for pred_row, label_row in zip(predictions, labels):
        pred_tags = []
        gold_tags = []
        for pred_id, label_id in zip(pred_row, label_row):
            if label_id == -100:
                # -100 位置包括特殊 token、padding 和被忽略的 subword。
                continue
            pred_tags.append(id2label[int(pred_id)])
            gold_tags.append(id2label[int(label_id)])
        true_predictions.append(pred_tags)
        true_labels.append(gold_tags)

    scores = seqeval.compute(predictions=true_predictions, references=true_labels)
    return {
        # overall_f1 是实体级 F1，适合做 best checkpoint 指标。
        "f1": scores["overall_f1"],
        "precision": scores["overall_precision"],
        "recall": scores["overall_recall"],
    }

args = TrainingArguments(
    # 输出模型、日志和 checkpoint。
    output_dir="./ner_deberta",
    # token classification 通常可以从 2e-5 或 3e-5 起步。
    learning_rate=3e-5,
    # 训练 batch 控制显存；长文本 NER 应适当减小。
    per_device_train_batch_size=16,
    # 验证不反传，batch 可以更大。
    per_device_eval_batch_size=32,
    # NER 数据较小时先给出上限 epoch，再按验证 F1 选最优。
    num_train_epochs=5,
    # 每轮评估一次实体级指标。
    eval_strategy="epoch",
    # 保存节奏和评估节奏对齐。
    save_strategy="epoch",
    # 训练结束恢复实体级 F1 最优 checkpoint。
    load_best_model_at_end=True,
    # compute_metrics 返回 f1，Trainer 会映射成 eval_f1。
    metric_for_best_model="eval_f1",
    # F1 越大越好。
    greater_is_better=True,
)

trainer = Trainer(
    # token classification 模型。
    model=model,
    # 训练参数。
    args=args,
    # 对齐后的训练集。
    train_dataset=tokenized["train"],
    # 对齐后的验证集。
    eval_dataset=tokenized["validation"],
    # 动态 padding input_ids 和 labels。
    data_collator=DataCollatorForTokenClassification(tokenizer),
    # 实体级指标计算函数。
    compute_metrics=compute_metrics,
)

# 启动 NER 微调。
trainer.train()
# 保存最佳 token classification 模型目录。
trainer.save_model("./ner_deberta/best")

T5 / BART 条件生成：摘要、翻译与 Text-to-Text 分类

T5、BART 这类 Encoder-Decoder 模型适合“输入文本到输出文本”的条件生成任务，包括摘要、翻译、改写、问答和 text-to-text 分类。它们的训练重点是同时处理输入侧 tokenization、输出侧 label tokenization，以及生成式评估。

# transformers 提供 Seq2SeqTrainer 和 Encoder-Decoder 模型。
# datasets 读取 source/target 数据。
# evaluate 可加载 ROUGE、BLEU 等生成任务指标。
pip install -U transformers datasets evaluate accelerate sentencepiece

# load_dataset 读取 JSONL 中的 source 和 target 字段。
from datasets import load_dataset
# AutoModelForSeq2SeqLM 加载 T5/BART 这类条件生成模型。
# AutoTokenizer 处理输入和输出两侧文本。
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
# DataCollatorForSeq2Seq 会动态 padding 输入和 labels。
# Seq2SeqTrainer 支持 predict_with_generate 生成式评估。
from transformers import DataCollatorForSeq2Seq, Seq2SeqTrainer, Seq2SeqTrainingArguments

# T5 适合 text-to-text 任务；中文任务可换成对应中文/多语 T5。
model_id = "google/flan-t5-small"
# 数据应包含 source_text 和 target_text 两列。
dataset = load_dataset("json", data_files={"train": "seq2seq_train.jsonl", "validation": "seq2seq_valid.jsonl"})

# tokenizer 同时服务 encoder 输入和 decoder 标签。
tokenizer = AutoTokenizer.from_pretrained(model_id)
# 加载条件生成模型，forward 会根据 labels 自动计算 seq2seq loss。
model = AutoModelForSeq2SeqLM.from_pretrained(model_id)

def preprocess(batch):
    # prefix 把任务写进输入，T5 常用这种方式区分摘要、翻译、分类等任务。
    inputs = ["summarize: " + text for text in batch["source_text"]]
    # 输入侧长度上限控制 encoder 成本。
    model_inputs = tokenizer(inputs, max_length=512, truncation=True)

    # text_target 表示 tokenizer 正在处理 decoder 目标文本。
    labels = tokenizer(text_target=batch["target_text"], max_length=128, truncation=True)
    # Trainer 约定 labels 保存 decoder 目标 token id。
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

# 删除原始文本列，保留模型可消费字段。
tokenized = dataset.map(preprocess, batched=True, remove_columns=dataset["train"].column_names)

collator = DataCollatorForSeq2Seq(
    # collator 需要 tokenizer 做动态 padding。
    tokenizer=tokenizer,
    # 传入 model 后，collator 可更好地准备 decoder_input_ids。
    model=model,
)

args = Seq2SeqTrainingArguments(
    # 输出 checkpoint、日志和生成评估结果。
    output_dir="./flan_t5_seq2seq",
    # 输入到输出任务通常显存开销较高，先用小 batch 起步。
    per_device_train_batch_size=4,
    # 验证生成也占显存，batch 可与训练保持一致。
    per_device_eval_batch_size=4,
    # 通过累积增加有效 batch。
    gradient_accumulation_steps=4,
    # Seq2Seq 微调常用 1e-4 到 5e-5 量级学习率。
    learning_rate=5e-5,
    # 示例跑 1 轮；正式任务按 ROUGE/BLEU/业务指标判断。
    num_train_epochs=1,
    # 评估时调用 generate，指标更贴近真实生成质量。
    predict_with_generate=True,
    # 生成摘要或标签的最大长度。
    generation_max_length=128,
    # 每个 epoch 评估一次。
    eval_strategy="epoch",
    # 每个 epoch 保存一次。
    save_strategy="epoch",
)

trainer = Seq2SeqTrainer(
    # 条件生成模型。
    model=model,
    # Seq2Seq 训练参数。
    args=args,
    # 训练集。
    train_dataset=tokenized["train"],
    # 验证集。
    eval_dataset=tokenized["validation"],
    # 动态 padding 输入和 labels。
    data_collator=collator,
    # tokenizer 保存进输出目录，部署时保持预处理一致。
    tokenizer=tokenizer,
)

# 启动条件生成微调。
trainer.train()
# 保存 T5/BART 风格的 text-to-text 模型。
trainer.save_model("./flan_t5_seq2seq/final")

表示模型继续预训练：MLM

表示模型继续预训练适合企业文档、医学、金融、法律等领域语料。训练目标通常是掩码语言模型（Masked Language Modeling, MLM）：随机遮住一部分 token，让 encoder 根据上下文恢复它们。产物仍是 encoder checkpoint，后续可继续做分类、NER、检索或 reranker。

# load_dataset 负责读取纯文本语料，并产出 Hugging Face Dataset。
from datasets import load_dataset
# AutoModelForMaskedLM 加载带 MLM 预测头的 encoder。
# AutoTokenizer 保证分词规则和底座模型一致。
from transformers import AutoModelForMaskedLM, AutoTokenizer
# DataCollatorForLanguageModeling 在组 batch 时动态随机 mask token。
# Trainer / TrainingArguments 负责训练循环、日志和保存。
from transformers import DataCollatorForLanguageModeling, Trainer, TrainingArguments

# 中文 BERT 是继续做中文领域 MLM 的常见起点。
model_id = "bert-base-chinese"
# text loader 会把每一行或文本块读入 text 字段。
dataset = load_dataset("text", data_files={"train": "domain_corpus.txt"})
# tokenizer 必须来自同一个 model_id，保证 token id 和 embedding 表匹配。
tokenizer = AutoTokenizer.from_pretrained(model_id)

def tokenize(batch):
    # return_special_tokens_mask 让 MLM collator 知道哪些 token 不能被随机 mask。
    return tokenizer(
        batch["text"],
        truncation=True,
        max_length=512,
        return_special_tokens_mask=True,
    )

# batched=True 批量分词，remove_columns 删除原始文本列，减少训练时无关字段。
tokenized = dataset.map(tokenize, batched=True, remove_columns=["text"])
# 加载带 MLM head 的 BERT；loss 会由模型根据 labels 自动计算。
model = AutoModelForMaskedLM.from_pretrained(model_id)
collator = DataCollatorForLanguageModeling(
    # collator 需要 tokenizer 来识别特殊 token、pad token 和 mask token。
    tokenizer=tokenizer,
    # mlm=True 表示使用 BERT 式随机 mask 目标，不做自回归 next-token 训练。
    mlm=True,
    # 15% 是 BERT MLM 的经典 masking 比例；领域继续预训练通常从这里开始。
    mlm_probability=0.15,
)

args = TrainingArguments(
    # 保存领域化 encoder checkpoint、日志和 trainer 状态。
    output_dir="./bert_domain_mlm",
    # encoder MLM 显存压力通常低于同规模 Causal LM，可从较大 batch 起步。
    per_device_train_batch_size=32,
    # 两个微步累积一次更新，有效 batch 为 64。
    gradient_accumulation_steps=2,
    # 继续预训练常用较小学习率，避免过快破坏通用表示。
    learning_rate=5e-5,
    # warmup_ratio 让前 3% step 逐步升学习率，降低初期不稳定。
    warmup_ratio=0.03,
    # 领域语料继续预训练给出上限 epoch，实际应结合下游验证决定停点。
    num_train_epochs=3,
    # 每 1000 step 保存一次，长语料训练中便于断点恢复。
    save_steps=1000,
    # 每 50 step 打日志，用来观察 MLM loss 和吞吐。
    logging_steps=50,
    # fp16 降低显存和带宽压力；数值异常时可关掉或切 bf16。
    fp16=True,
)

trainer = Trainer(
    # 带 MLM head 的 encoder。
    model=model,
    # 训练参数、日志和保存策略。
    args=args,
    # 分词后的领域语料。
    train_dataset=tokenized["train"],
    # MLM collator 负责动态 mask；不要在 map 阶段提前固定 mask。
    data_collator=collator,
)
# 启动继续预训练。
trainer.train()
# 保存最终领域化 encoder，后续可继续用于分类、NER、检索等任务。
trainer.save_model("./bert_domain_mlm/final")

MLM 继续预训练之后通常还要做下游验证。仅观察 MLM loss 下降不足以证明业务收益；需要在分类、NER、检索或问答验证集上确认领域表示确实改善。

Transformers 常见监督任务模板

很多 NLP 监督任务共享同一个 Trainer 骨架，差异主要在模型头、数据字段和 data collator。下面这张表把常见任务映射到工程入口，后续可以按任务替换模型类和预处理函数。

任务	模型入口	关键数据字段	训练要点
文本分类 / 回归	AutoModelForSequenceClassification	text 、 labels	分类看 accuracy/F1/AUC；回归设置 problem_type="regression" 并看 RMSE/MAE。
NER / 序列标注	AutoModelForTokenClassification	tokens、BIO/IOBES 标签、word_ids 对齐后的 labels	subword 对齐要把非首个子词设为 -100，避免重复计算 loss。
抽取式问答	AutoModelForQuestionAnswering	question、context、answer start/end	长 context 需要 stride 滑窗；指标通常看 EM/F1。
摘要 / 翻译	AutoModelForSeq2SeqLM	source text、target text	用 DataCollatorForSeq2Seq ；评估看 ROUGE、BLEU 或业务指标。
因果语言模型	AutoModelForCausalLM	连续文本、chat messages 或 prompt/response	需要正确 mask prompt 与 padding；SFT 常交给 TRL 的 SFTTrainer 。

冻结表示模型 + 轻量分类器

冻结表示模型适合标注数据少、训练成本敏感、且需要快速上线 baseline 的闭集分类。做法是先用 Encoder-only 模型抽取句向量，再用 scikit-learn 训练逻辑回归或线性分类器。它牺牲一部分端到端适配能力，换取训练快、显存低、可解释和易回滚。

# transformers 负责抽取 encoder 表示。
# datasets 读取 CSV 分类数据。
# scikit-learn 训练轻量分类器并评估。
# joblib 保存完整分类器制品。
pip install -U transformers datasets scikit-learn joblib torch

# numpy 用来拼接向量和标签。
import numpy as np
# torch 提供 no_grad 和张量设备管理。
import torch
# load_dataset 读取 train/validation CSV。
from datasets import load_dataset
# joblib 保存 sklearn 分类器。
import joblib
# LogisticRegression 是轻量线性分类器，适合冻结特征 baseline。
from sklearn.linear_model import LogisticRegression
# classification_report 输出 precision/recall/F1。
from sklearn.metrics import classification_report
# AutoModel 加载没有任务头的 encoder 主干。
# AutoTokenizer 保持分词与 encoder 一致。
from transformers import AutoModel, AutoTokenizer

# 选择一个 encoder 表示模型；中文任务可换成 MacBERT、ModernBERT 或 mDeBERTa。
model_id = "microsoft/deberta-v3-base"
# CSV 需要 text 和 label 两列。
dataset = load_dataset("csv", data_files={"train": "train.csv", "validation": "valid.csv"})

# tokenizer 负责把原始文本转成 token ids。
tokenizer = AutoTokenizer.from_pretrained(model_id)
# AutoModel 只返回隐藏状态，不包含分类头。
encoder = AutoModel.from_pretrained(model_id)
# eval 模式关闭 dropout，保证特征抽取稳定。
encoder.eval()

# 有 GPU 就把 encoder 放到 GPU；sklearn 分类器仍在 CPU 上训练。
device = "cuda" if torch.cuda.is_available() else "cpu"
encoder.to(device)

def encode_texts(texts, batch_size=32):
    vectors = []
    for start in range(0, len(texts), batch_size):
        # 当前 batch 的原始文本。
        batch_texts = texts[start:start + batch_size]
        # padding=True 动态补齐当前 batch；truncation 防止超长文本撑爆显存。
        inputs = tokenizer(batch_texts, padding=True, truncation=True, max_length=256, return_tensors="pt")
        # 把 tokenizer 输出搬到 encoder 所在设备。
        inputs = {k: v.to(device) for k, v in inputs.items()}

        # 冻结特征抽取不需要梯度，no_grad 可降低显存和计算开销。
        with torch.no_grad():
            outputs = encoder(**inputs)

        # DeBERTa/BERT 常取第一个 token 的隐藏状态作为句向量 baseline。
        cls_vec = outputs.last_hidden_state[:, 0]
        # sklearn 只能消费 CPU numpy 数组。
        vectors.append(cls_vec.cpu().numpy())

    # 把多个 batch 的向量拼成 [N, hidden_size] 特征矩阵。
    return np.concatenate(vectors, axis=0)

# 抽取训练和验证文本向量。
X_train = encode_texts(dataset["train"]["text"])
X_valid = encode_texts(dataset["validation"]["text"])
# 标签保持原始类别 id 或字符串；LogisticRegression 可处理离散标签。
y_train = np.array(dataset["train"]["label"])
y_valid = np.array(dataset["validation"]["label"])

clf = LogisticRegression(
    # max_iter 给优化器足够迭代次数，避免未收敛警告。
    max_iter=1000,
    # class_weight="balanced" 缓解类别不均衡。
    class_weight="balanced",
)

# 训练线性分类器；encoder 参数保持冻结。
clf.fit(X_train, y_train)
# 在验证集上输出分类报告。
pred = clf.predict(X_valid)
print(classification_report(y_valid, pred))

# 保存分类器；线上还必须同时固定 tokenizer/encoder 版本。
joblib.dump(clf, "frozen_encoder_logreg.joblib")

Embedding 训练：sentence-transformers

embedding 训练的核心数据形态是“哪些文本应该靠近，哪些文本应该远离”。检索任务常用 query-positive 对，并依赖 in-batch negatives；若能提供 hard negatives，训练目标会更贴近真实召回错误。

# sentence-transformers 提供 embedding 模型、loss 和 Trainer。
# datasets 用来构造或读取 query-positive 训练表。
pip install -U sentence-transformers datasets

# Dataset 让示例数据符合 Trainer 期望的数据集接口。
from datasets import Dataset
# SentenceTransformer 加载可输出句向量的 bi-encoder。
from sentence_transformers import SentenceTransformer
# Trainer 和 TrainingArguments 是 sentence-transformers v3 风格训练入口。
from sentence_transformers import SentenceTransformerTrainer, SentenceTransformerTrainingArguments
# MultipleNegativesRankingLoss 使用同 batch 其它 positive 作为负例。
from sentence_transformers.losses import MultipleNegativesRankingLoss

train_dataset = Dataset.from_dict(
    {
        # anchor 通常是 query、问题、搜索词或用户输入。
        "anchor": [
            "如何配置 DeepSpeed ZeRO-3？",
            "vLLM 的 prefix caching 有什么作用？",
        ],
        # positive 是和 anchor 语义匹配的答案或文档。
        "positive": [
            "ZeRO-3 会分片参数、梯度和优化器状态，并在计算时临时 gather。",
            "prefix caching 可以复用相同提示词前缀的 KV cache，降低 prefill 成本。",
        ],
    }
)

# 选择中文/多语 embedding 底座；训练后仍保存为 SentenceTransformer 目录。
model = SentenceTransformer("BAAI/bge-small-zh-v1.5")
# loss 绑定模型对象，训练时直接计算 anchor-positive 相似度矩阵。
loss = MultipleNegativesRankingLoss(model)

args = SentenceTransformerTrainingArguments(
    # 保存模型、日志和训练配置。
    output_dir="./embed_bge_domain",
    # 示例跑 1 个 epoch；正式任务按检索验证集决定训练轮数。
    num_train_epochs=1,
    # in-batch negatives 数量随 batch 增大，embedding 训练通常受益于较大 batch。
    per_device_train_batch_size=64,
    # embedding 微调常从 2e-5 起步，避免快速破坏原始语义空间。
    learning_rate=2e-5,
    # 前 10% step warmup，缓和训练初期相似度空间震荡。
    warmup_ratio=0.1,
    # fp16 提高吞吐并降低显存；不稳定时切 bf16 或 fp32。
    fp16=True,
    # 每 20 step 打日志，观察 loss 和训练速度。
    logging_steps=20,
    # 每个 epoch 保存一次，便于做离线检索评估。
    save_strategy="epoch",
)

trainer = SentenceTransformerTrainer(
    # 要训练的 bi-encoder。
    model=model,
    # 训练参数。
    args=args,
    # 必须包含 loss 所需列，这里是 anchor/positive。
    train_dataset=train_dataset,
    # 指定检索训练目标。
    loss=loss,
)
# 启动 embedding 微调。
trainer.train()
# 保存为 sentence-transformers 标准目录，可直接 encode 或写入向量库。
model.save_pretrained("./embed_bge_domain/final")

MultipleNegativesRankingLoss

会把同一 batch 里的其他 positive 当作当前 anchor 的负例，因此 batch size 直接影响负例数量。若训练数据来自点击日志或 FAQ 匹配，必须去重并过滤同义答案，避免把真实正例误当负例。

带 hard negative 的检索微调

带 hard negative 的数据通常包含三列：query、positive、negative。negative 可以来自 BM25 召回错误、旧 embedding 模型召回错误、人工构造的混淆答案或业务线上 bad case。

# Dataset 构造包含 anchor/positive/negative 三列的训练样本。
from datasets import Dataset
# SentenceTransformer 加载待微调的 embedding 模型。
from sentence_transformers import SentenceTransformer
# Trainer 和参数对象负责训练循环。
from sentence_transformers import SentenceTransformerTrainer, SentenceTransformerTrainingArguments
# 这里仍使用 MNRL；部分版本会按列约定消费 hard negative。
from sentence_transformers.losses import MultipleNegativesRankingLoss

train_dataset = Dataset.from_dict(
    {
        # anchor 是用户查询。
        "anchor": ["如何保存 PEFT adapter？"],
        # positive 是业务上应被召回的正确答案。
        "positive": ["使用 save_pretrained 保存 adapter_config 和 adapter_model。"],
        # negative 是语义接近但不应作为答案的困难负例。
        "negative": ["使用 torch.save 保存整个 Python 对象会带来可移植性和安全问题。"],
    }
)

# 从已有中文 embedding 模型继续训练。
model = SentenceTransformer("BAAI/bge-small-zh-v1.5")
# loss 决定相似度学习目标。
loss = MultipleNegativesRankingLoss(model)
args = SentenceTransformerTrainingArguments(
    # 输出目录单独区分 hard negative 版本，便于和普通版本对比。
    output_dir="./embed_with_hard_neg",
    # hard negative 训练更容易过拟合，batch 可先保守设置。
    per_device_train_batch_size=32,
    # 示例跑 2 轮，正式任务看验证集 recall/MRR/NDCG。
    num_train_epochs=2,
    # 小学习率保护原 embedding 空间。
    learning_rate=2e-5,
)

trainer = SentenceTransformerTrainer(
    # 待训练模型。
    model=model,
    # 训练参数。
    args=args,
    # 包含 hard negative 的数据集。
    train_dataset=train_dataset,
    # 检索排序损失。
    loss=loss,
)
# 启动训练；完成后应在真实检索集上评估。
trainer.train()

基于表示模型的重排训练：CrossEncoder

基于表示模型的重排训练对应检索系统里的第二阶段精排。这里的表示模型通常是 Encoder-only CrossEncoder，例如 BERT、DeBERTa、ModernBERT、BGE Reranker 或 MS MARCO 系列 reranker。第一阶段由 BM25、向量检索或混合检索召回 topK 候选；CrossEncoder 把 query 与每个候选文档拼接成一个输入序列，在同一次 encoder 前向里建模 token 级交互，并输出一个相关性分数。训练数据通常是 query-document-label 三元组，label 可以是人工 0/1 标签、点击转化标签、人工相关性等级，或由更强教师模型生成的软标签。

# math 用来根据训练样本量计算 warmup steps，避免手写固定步数。
import math

# DataLoader 负责把 InputExample 组成 mini-batch。
from torch.utils.data import DataLoader

# CrossEncoder 会把 query 和 document 拼在一起交给同一个 encoder 打分。
# InputExample 是 sentence-transformers 的轻量训练样本对象。
from sentence_transformers import CrossEncoder, InputExample

# 每一行对应一个 query-document 训练对。
# label=1.0 表示文档应被排到前面，label=0.0 表示它是负例。
# source 标出样本来源，便于后续分析 hard negative 是否覆盖真实线上错误。
train_rows = [
    {
        "query": "ZeRO 是什么？",
        "doc": "ZeRO 会把优化器状态、梯度和参数分片到多张 GPU 上，从而降低单卡显存。",
        "label": 1.0,
        "source": "gold_positive",
    },
    {
        "query": "ZeRO 是什么？",
        "doc": "Beam search 是生成阶段的候选路径搜索方法，常用于机器翻译和文本生成。",
        "label": 0.0,
        "source": "bm25_hard_negative",
    },
    {
        "query": "LoRA adapter 如何保存？",
        "doc": "PEFT 的 save_pretrained 会保存 adapter_config.json 和 adapter_model.safetensors。",
        "label": 1.0,
        "source": "gold_positive",
    },
    {
        "query": "LoRA adapter 如何保存？",
        "doc": "torch.save 可以序列化任意 Python 对象，但它不等价于标准 PEFT adapter 导出。",
        "label": 0.0,
        "source": "dense_hard_negative",
    },
]

# CrossEncoder.fit 消费 InputExample。
# texts[0] 是 query，texts[1] 是候选文档，label 是监督分数。
train_examples = [
    InputExample(texts=[row["query"], row["doc"]], label=row["label"])
    for row in train_rows
]

# 选择已经面向 reranking 预训练过的底座，可以显著降低领域微调成本。
# num_labels=1 表示每个 query-document 对只输出一个标量相关性分数。
# max_length 控制拼接后的最大 token 数，防止少数长文档撑爆显存。
model = CrossEncoder("BAAI/bge-reranker-base", num_labels=1, max_length=512)

# shuffle=True 打散正负样本顺序，避免连续同类样本造成梯度偏置。
# batch_size 越大吞吐越好，但 CrossEncoder 要联合编码每个文档，显存压力高于 Bi-Encoder。
loader = DataLoader(train_examples, shuffle=True, batch_size=16)

# warmup_steps 通常取总训练步数的 5% 到 10%。
# 这里按样本量自动计算，保证小数据集也至少有 1 个 warmup step。
epochs = 2
steps_per_epoch = math.ceil(len(loader))
warmup_steps = max(1, int(steps_per_epoch * epochs * 0.1))

model.fit(
    # CrossEncoder.fit 使用 DataLoader 作为训练输入。
    train_dataloader=loader,
    # 正式任务按验证集 nDCG@K、MRR@K 和线上延迟决定训练轮数。
    epochs=epochs,
    # warmup 让学习率从较小值平滑升高，降低训练初期破坏预训练表示的风险。
    warmup_steps=warmup_steps,
    # reranker 微调通常从 2e-5 起步，过大容易让模型只记住小规模标注集。
    optimizer_params={"lr": 2e-5},
    # weight_decay 抑制分类头和 encoder 权重过度放大，降低过拟合。
    weight_decay=0.01,
    # max_grad_norm 裁剪异常梯度，hard negative 很强时能减少训练抖动。
    max_grad_norm=1.0,
    # 支持 GPU 时启用 AMP，降低显存并提高吞吐；数值不稳定时切回 fp32。
    use_amp=True,
    # 保存精排模型目录，RAG 第二阶段可直接加载。
    output_path="./reranker_domain",
    # 展示进度条，便于本地实验观察训练是否卡住。
    show_progress_bar=True,
)

上线时，CrossEncoder 位于向量库召回之后。向量库先取 topK，例如 50 到 200 条；CrossEncoder 对每个 query-document 对打分；系统再按分数重排，取 topN，例如 5 到 20 条进入最终 RAG prompt 或搜索展示层。

# 从训练输出目录加载领域 reranker。
reranker = CrossEncoder("./reranker_domain")

# query 是用户当前问题；线上通常来自搜索框、RAG 问句或推荐上下文。
query = "ZeRO-3 为什么能省显存？"

# candidates 是第一阶段召回结果；真实系统里通常来自 BM25、向量库或混合检索。
candidates = [
    "ZeRO-3 会分片参数、梯度和优化器状态，并在计算时临时 gather。",
    "梯度累积通过多次 forward/backward 模拟更大的 batch size。",
    "KV cache 用于复用自回归生成阶段的历史 attention 状态。",
]

# CrossEncoder 要逐对读取 query 和候选文档，不能像 embedding 那样提前只算文档向量。
pairs = [[query, doc] for doc in candidates]

# predict 返回每个 query-document 对的相关性分数。
# batch_size 控制推理吞吐；候选很长或显存较小时应调小。
scores = reranker.predict(pairs, batch_size=16, convert_to_numpy=True)

# zip 把文档和分数绑定；按分数从高到低排序就是重排结果。
ranked = sorted(zip(candidates, scores), key=lambda item: item[1], reverse=True)

# top_n 是最终进入生成模型上下文或搜索展示页的候选数量。
top_n = 2

# 只保留最相关的少量片段，避免后续 LLM prompt 被弱相关内容稀释。
top_docs = [doc for doc, score in ranked[:top_n]]

# 打印重排后的证据片段，真实服务里通常会把它们写入 RAG prompt。
for doc in top_docs:
    print(doc)

这类训练最关键的是负例质量。随机负例能让模型学会粗粒度主题区分，但很难提升精排能力；hard negatives 才能训练模型识别“主题相似但没有回答问题”“实体相似但对象不同”“时间版本不一致”“只回答部分条件”等真实线上错误。评估也应围绕排序指标展开，优先看 nDCG@K、MRR@K、Recall after rerank 和端到端回答引用命中率。二分类 accuracy 只能作为辅助指标。

少样本分类：SetFit

SetFit 适合每类只有少量样本的短文本闭集分类。它先把少量标注样本扩展成句子对，用对比学习微调 sentence-transformer body，再训练一个轻量分类头。

# setfit 提供少样本分类训练流程。
# datasets 用来构造少量标注样本。
pip install -U setfit datasets

# Dataset 用于构造内存中的少样本训练集。
from datasets import Dataset
# SetFitModel 加载 sentence-transformer body 和分类头。
# Trainer / TrainingArguments 负责少样本对比学习和分类头训练。
from setfit import SetFitModel, Trainer, TrainingArguments

train_dataset = Dataset.from_dict(
    {
        # text 是待分类的短文本。
        "text": [
            "物流很快，整体满意",
            "包装破损，客服也没有解决",
            "价格合适，还会回购",
            "收到后无法使用",
        ],
        # label 是闭集类别 id；这里 1 表示正向，0 表示负向。
        "label": [1, 0, 1, 0],
    }
)

# 选择多语 sentence-transformer，适合中文短文本少样本分类。
model = SetFitModel.from_pretrained("sentence-transformers/paraphrase-multilingual-mpnet-base-v2")
args = TrainingArguments(
    # SetFit 先构造句子对，batch_size 控制对比学习阶段的显存。
    batch_size=8,
    # 训练轮数；少样本任务应小心过拟合。
    num_epochs=1,
    # 每个样本生成多少对比训练对；数值越大，少样本扩增越强。
    num_iterations=20,
)

trainer = Trainer(
    # 待训练的 SetFit 模型。
    model=model,
    # 训练参数。
    args=args,
    # 少量有标签样本。
    train_dataset=train_dataset,
    # 用 F1 评估类别不均衡时的分类质量。
    metric="f1",
)
# 启动少样本训练。
trainer.train()
# 保存 sentence-transformer body 和分类头。
model.save_pretrained("./setfit_sentiment")

SetFit 的关键在于从少量样本中构造更多“同类靠近、异类远离”的监督关系，原始样本条数只是起点。类别边界清晰、文本较短、标签闭集时，它通常比直接微调大模型分类头更稳。

嵌入零样本分类：标签描述相似度

嵌入零样本分类把类别改写成自然语言描述，再比较输入文本向量与标签描述向量的相似度。它不需要训练分类头，适合标签临时变化、冷启动分类、弱标注和规则探索。代价是分类边界完全依赖标签描述质量与 embedding 模型能力。

# sentence-transformers 提供文本向量模型。
# numpy 用来做矩阵相似度计算。
pip install -U sentence-transformers numpy

# numpy 用来计算向量相似度矩阵。
import numpy as np
# SentenceTransformer 把文本和标签描述编码到同一个向量空间。
from sentence_transformers import SentenceTransformer

# 选择中文/多语 embedding 模型。
model = SentenceTransformer("BAAI/bge-small-zh-v1.5")

# 待分类文本。
texts = [
    "包装破损，联系客服后一直没有处理。",
    "物流很快，价格也合适，下次还会买。",
]

# 标签描述写成自然语言，可让类别语义更充分地进入向量空间。
label_texts = {
    "negative": "这是一条负面用户评价，表达投诉、不满、损坏、失败或差评。",
    "positive": "这是一条正面用户评价，表达满意、推荐、喜欢、顺利或好评。",
}

# normalize_embeddings=True 让点积等价于余弦相似度。
text_vecs = model.encode(texts, normalize_embeddings=True)
# 保持标签顺序稳定，便于从相似度列还原标签名。
label_names = list(label_texts.keys())
# 编码标签描述，得到 [num_labels, hidden_size] 矩阵。
label_vecs = model.encode([label_texts[name] for name in label_names], normalize_embeddings=True)

# 相似度矩阵形状是 [num_texts, num_labels]。
scores = text_vecs @ label_vecs.T
# 每条文本选择相似度最高的标签。
best_label_ids = np.argmax(scores, axis=1)

for text, label_id, row_scores in zip(texts, best_label_ids, scores):
    # 取出预测标签名。
    label = label_names[int(label_id)]
    # 同时打印分数，便于人工判断阈值是否需要调整。
    print(text, label, row_scores.tolist())

这条路线适合快速建立标签体系，但正式上线前应补一小批标注验证集，检查标签描述是否引入偏差。若两个类别语义非常接近，直接训练 SetFit 或 encoder 分类头通常更稳。

无监督 embedding：TSDAE 风格训练

无监督 embedding 训练适合只有领域语料、缺少人工配对数据的场景。TSDAE（Transformer-based Sequential Denoising Auto-Encoder）会破坏输入句子，再训练模型恢复原句，从而让句向量承载足够的信息用于重构。

# DataLoader 把去噪自编码样本组成 batch。
from torch.utils.data import DataLoader
# SentenceTransformer 加载 encoder；losses 提供 TSDAE 损失。
from sentence_transformers import SentenceTransformer, losses
# DenoisingAutoEncoderDataset 会对句子做扰动，形成重构训练样本。
from sentence_transformers.datasets import DenoisingAutoEncoderDataset

# 无监督语料只需要领域句子，不需要人工 pair 或 label。
sentences = [
    "DeepSpeed ZeRO 会把训练状态切分到多个 rank。",
    "vLLM 使用 PagedAttention 管理 KV cache。",
    "RAG 系统需要处理 chunking、embedding、retrieval 和 rerank。",
]

# 使用通用 MiniLM 作为初始 encoder。
model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
# 数据集会生成“扰动输入 -> 原句恢复”的训练目标。
train_dataset = DenoisingAutoEncoderDataset(sentences)
# shuffle=True 避免每轮固定样本顺序；batch_size 控制显存。
loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
loss = losses.DenoisingAutoEncoderLoss(
    # encoder 模型，训练目标会推动句向量保留重构所需信息。
    model,
    # decoder 初始化来源；QuickStart 直接复用同一模型名。
    decoder_name_or_path="sentence-transformers/all-MiniLM-L6-v2",
    # 共享 encoder/decoder embedding，减少参数并保持词表一致。
    tie_encoder_decoder=True,
)

model.fit(
    # sentence-transformers 旧式 fit 接口使用 (DataLoader, Loss) 元组。
    train_objectives=[(loader, loss)],
    # 示例跑 1 轮；正式训练应看检索/分类验证集。
    epochs=1,
    # warmup_steps 缓和训练初期学习率冲击。
    warmup_steps=100,
    # 保存领域适配后的 embedding 模型。
    output_path="./tsdae_domain_embed",
)

TSDAE 训练后仍需用少量检索或分类验证集评估。无监督目标能做领域适配，但它不能替代 hard negative、点击日志或人工相关性标签带来的任务边界。

生成模型 QLoRA SFT：TRL + PEFT

生成模型高效微调通常用 QLoRA 起步：4-bit 加载基座权重，只训练 LoRA adapter，用 SFTTrainer 处理 chat template、监督文本拼接和标签 mask。它适合指令跟随、格式控制、轻量领域适配和风格注入。

# transformers 提供 Causal LM 和 tokenizer。
# datasets 读取 json/jsonl SFT 数据。
# peft 提供 LoRA adapter。
# trl 提供 SFTTrainer。
# bitsandbytes 提供 4bit 量化加载。
# accelerate 是 Trainer 的分布式/混合精度运行时。
pip install -U transformers datasets peft trl bitsandbytes accelerate

# load_dataset 读取本地 SFT JSONL。
from datasets import load_dataset
# LoraConfig 定义要训练的 LoRA adapter。
from peft import LoraConfig
# AutoModelForCausalLM 加载自回归生成模型。
# AutoTokenizer 加载对话模板和词表。
# BitsAndBytesConfig 定义 4bit 量化加载方式。
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
# SFTConfig / SFTTrainer 是 TRL 的监督微调入口。
from trl import SFTConfig, SFTTrainer

# 指令模型底座；SFT 数据的 chat template 应与它匹配。
model_id = "Qwen/Qwen2.5-7B-Instruct"
# 数据通常是 messages、prompt/response 或 text 字段，具体取决于 TRL 版本和格式化函数。
dataset = load_dataset("json", data_files={"train": "sft_train.jsonl"})

# use_fast=True 优先使用 Rust tokenizer，提高批量预处理速度。
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
quant = BitsAndBytesConfig(
    # 以 4bit 形式加载 base 权重，显著降低显存。
    load_in_4bit=True,
    # NF4 是 QLoRA 常用量化格式，适合神经网络权重分布。
    bnb_4bit_quant_type="nf4",
    # 4bit 权重反量化后的计算 dtype；bf16 在新 GPU 上更稳。
    bnb_4bit_compute_dtype="bfloat16",
    # 对量化常数再量化，进一步节省显存。
    bnb_4bit_use_double_quant=True,
)
model = AutoModelForCausalLM.from_pretrained(
    # 加载同一个底座模型。
    model_id,
    # 把 4bit 量化配置接入模型加载流程。
    quantization_config=quant,
    # 自动把量化后的模型放到可见设备。
    device_map="auto",
)

peft_config = LoraConfig(
    # rank 控制 LoRA 分支容量；7B SFT 常从 8/16/32 试起。
    r=16,
    # alpha 控制 LoRA 更新幅度，通常和 rank 搭配调整。
    lora_alpha=32,
    # LoRA 分支 dropout 用于缓和小数据过拟合。
    lora_dropout=0.05,
    # 覆盖注意力投影和 FFN 投影，容量更强但训练参数更多。
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    # 声明任务是自回归语言模型。
    task_type="CAUSAL_LM",
)

args = SFTConfig(
    # 保存 LoRA adapter、日志和 trainer 状态。
    output_dir="./qwen_sft_lora",
    # 单条训练序列最大长度，直接决定显存和上下文覆盖。
    max_length=2048,
    # 4bit + LoRA 仍可能受长上下文限制，单卡从 1 起步更稳。
    per_device_train_batch_size=1,
    # 16 个微步累积一次更新，有效 batch 更大，梯度更平滑。
    gradient_accumulation_steps=16,
    # LoRA 参数少，学习率通常高于全参微调。
    learning_rate=2e-4,
    # 前 3% step warmup，降低初期 loss 抖动。
    warmup_ratio=0.03,
    # 训练轮数上限；正式实验应按验证指标或人工评估停。
    num_train_epochs=2,
    # bf16 适合 Ampere/Hopper 等新卡；不支持时改 fp16 或 fp32。
    bf16=True,
    # 每 10 step 记录 loss 和吞吐，便于快速发现模板错误。
    logging_steps=10,
    # 每轮保存一次 adapter checkpoint。
    save_strategy="epoch",
)

trainer = SFTTrainer(
    # 已按 4bit 加载的 Causal LM。
    model=model,
    # SFT 训练参数。
    args=args,
    # 训练 split；字段格式要符合 TRL 的 SFT 数据约定。
    train_dataset=dataset["train"],
    # processing_class 通常传 tokenizer，用于模板渲染和分词。
    processing_class=tokenizer,
    # 让 SFTTrainer 在模型上注入 LoRA adapter。
    peft_config=peft_config,
)
# 启动 SFT；Trainer 会处理反传、累积、保存和日志。
trainer.train()
# 保存最终 adapter 或模型目录，后续可继续 DPO/RL 或 merge 导出。
trainer.save_model("./qwen_sft_lora/final")

target_modules

要按模型结构确认。Qwen/LLaMA/Mistral 常见投影名相近；BERT/DeBERTa 的投影名不同。上线前还要确认训练 chat template 与推理 chat template 完全一致。

DoRA / Q-DoRA 高容量微调

DoRA（Weight-Decomposed Low-Rank Adaptation）把权重更新拆成方向和幅度两部分，比普通 LoRA 更接近全参数微调的表达力。Q-DoRA 则把 DoRA 与量化底座结合，适合显存受限但又希望 adapter 容量更强的深领域适配、困难分类边界和高质量指令微调。

# peft 提供 use_dora 开关。
# trl 提供 SFTTrainer。
# bitsandbytes 提供 4bit 量化底座。
pip install -U transformers datasets peft trl bitsandbytes accelerate

# load_dataset 读取 SFT 数据。
from datasets import load_dataset
# LoraConfig 同时支持 LoRA 和 DoRA；use_dora=True 会切换到 DoRA 路线。
from peft import LoraConfig
# AutoModelForCausalLM 加载生成模型。
# AutoTokenizer 保持 chat template 与词表一致。
# BitsAndBytesConfig 定义 Q-DoRA 的量化底座。
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
# SFTConfig / SFTTrainer 负责监督微调流程。
from trl import SFTConfig, SFTTrainer

# 深领域适配通常从 SFT 起点或 instruct 模型开始。
model_id = "Qwen/Qwen2.5-7B-Instruct"
# 数据格式应与前面的 SFTTrainer 保持一致。
dataset = load_dataset("json", data_files={"train": "deep_domain_sft.jsonl"})

# tokenizer 负责模板渲染和分词。
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)

quant = BitsAndBytesConfig(
    # Q-DoRA 使用 4bit 底座降低显存。
    load_in_4bit=True,
    # NF4 是 QLoRA/Q-DoRA 常见量化格式。
    bnb_4bit_quant_type="nf4",
    # bf16 作为计算 dtype，兼顾速度和稳定性。
    bnb_4bit_compute_dtype="bfloat16",
    # double quant 进一步降低量化常数开销。
    bnb_4bit_use_double_quant=True,
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    # 以量化底座加载，训练时只更新 DoRA adapter。
    quantization_config=quant,
    # 自动放置设备，QuickStart 阶段减少手工切分。
    device_map="auto",
)

dora_config = LoraConfig(
    # DoRA 仍沿用 LoRA 的低秩配置接口。
    r=32,
    # 更高 rank 给深领域任务更强 adapter 容量。
    lora_alpha=64,
    # 深领域数据也可能过拟合，保留轻度 dropout。
    lora_dropout=0.05,
    # 覆盖注意力与 FFN 投影，适合更强表达力需求。
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    # 自回归语言模型任务。
    task_type="CAUSAL_LM",
    # 打开 DoRA；关闭时就是普通 LoRA。
    use_dora=True,
)

args = SFTConfig(
    # 单独保存 Q-DoRA 实验，避免和普通 LoRA 混淆。
    output_dir="./qwen_sft_qdora",
    # 深领域样本常需要更长上下文。
    max_length=4096,
    # 长上下文 + 7B 量化底座仍建议从 batch=1 起步。
    per_device_train_batch_size=1,
    # 梯度累积提高有效 batch。
    gradient_accumulation_steps=16,
    # DoRA 容量更强，学习率可比普通 LoRA 更保守。
    learning_rate=1e-4,
    # warmup 缓和训练早期不稳定。
    warmup_ratio=0.03,
    # 训练轮数上限；正式实验看验证集和人工评估。
    num_train_epochs=1,
    # bf16 用于支持的 GPU。
    bf16=True,
    # 记录 loss 和吞吐。
    logging_steps=10,
    # 每轮保存一次 adapter。
    save_strategy="epoch",
)

trainer = SFTTrainer(
    # 量化加载后的策略模型。
    model=model,
    # SFT 参数。
    args=args,
    # 深领域 SFT 数据。
    train_dataset=dataset["train"],
    # tokenizer / processor。
    processing_class=tokenizer,
    # 注入 DoRA adapter。
    peft_config=dora_config,
)

# 启动 Q-DoRA SFT。
trainer.train()
# 保存 DoRA adapter，后续可评估、合并或继续偏好优化。
trainer.save_model("./qwen_sft_qdora/final")

拒绝采样回写 SFT

拒绝采样微调适合答案容易自动验证的任务，例如数学题、代码单测、格式校验和结构化抽取。流程是：同一个 prompt 生成多个候选，评分器筛出最佳候选，回写成新的 SFT 数据，再继续监督训练。

# json 用于读取 prompt JSONL 和写回新 SFT JSONL。
import json
# Path 提供更清晰的文件写入接口。
from pathlib import Path
# LLM 是 vLLM 离线批量推理入口；SamplingParams 定义采样策略。
from vllm import LLM, SamplingParams

# 从每行 JSON 中取 prompt 字段，形成批量生成输入。
prompts = [json.loads(line)["prompt"] for line in open("prompts.jsonl")]
# 加载上一阶段 SFT 模型或 adapter 合并后的模型目录。
llm = LLM(model="./qwen_sft_lora/final")
sampling = SamplingParams(
    # 每个 prompt 生成 4 个候选，供后续评分器筛选。
    n=4,
    # temperature 控制随机性；拒绝采样需要一定多样性。
    temperature=0.7,
    # top_p 限制累积概率质量，过滤长尾低质量 token。
    top_p=0.9,
    # max_tokens 限制每个候选最大生成长度，控制成本和异常长输出。
    max_tokens=512,
)

def score_answer(prompt, answer):
    # 真实项目里这里通常是规则校验、单元测试、reward model 或 LLM judge。
    if "```json" in answer and answer.count("{") == answer.count("}"):
        # 返回 1.0 表示候选通过质量门槛。
        return 1.0
    # 返回 0.0 表示候选不应回写进 SFT 数据。
    return 0.0

# rows 收集筛选后的新 SFT 样本。
rows = []
# llm.generate 返回每个 prompt 对应的一组候选输出。
for prompt, output in zip(prompts, llm.generate(prompts, sampling)):
    # output.outputs 中每个 item 是一个候选 completion。
    candidates = [item.text for item in output.outputs]
    # 对每个候选打分，保留分数和文本。
    scored = [(score_answer(prompt, text), text) for text in candidates]
    # 选出分数最高的候选作为回写候选。
    best_score, best_answer = max(scored, key=lambda x: x[0])
    # 只把达到质量门槛的候选写回，避免把低质量生成继续蒸馏进模型。
    if best_score >= 1.0:
        # 按 chat messages 格式写回，便于 SFTTrainer 继续消费。
        rows.append({"messages": [{"role": "user", "content": prompt}, {"role": "assistant", "content": best_answer}]})

# 打开输出 JSONL 文件；每行是一条可继续 SFT 的 messages 样本。
with Path("sft_rejection_sampled.jsonl").open("w") as f:
    # 逐行写入，避免一次性构造巨大字符串。
    for row in rows:
        # ensure_ascii=False 保留中文，便于人工抽查和下游读取。
        f.write(json.dumps(row, ensure_ascii=False) + "\n")

回写后的 JSONL 可以直接接入上一节的 SFTTrainer。拒绝采样的关键风险是分布变窄：筛选过严会让模型只学习少数高分模板，因此应保留原始 SFT 数据的一部分，避免输出风格和覆盖面坍缩。

DPO 偏好调优：TRL

DPO 用 prompt、chosen、rejected 三元组训练生成模型偏向更优回答。它通常接在 SFT 之后，适合已有偏好数据、但暂时不想建立完整 reward model + PPO 链路的场景。

# load_dataset 读取偏好数据，通常包含 prompt/chosen/rejected。
from datasets import load_dataset
# LoraConfig 让 DPO 更新只落在 adapter 上。
from peft import LoraConfig
# AutoModelForCausalLM 加载当前策略模型和参考模型。
# AutoTokenizer 保证偏好样本按同一模板切分。
# BitsAndBytesConfig 降低 7B 模型加载显存。
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
# DPOConfig / DPOTrainer 是 TRL 的偏好优化入口。
from trl import DPOConfig, DPOTrainer

# DPO 通常从 SFT 后模型开始；示例用同一个 instruct 底座表达结构。
model_id = "Qwen/Qwen2.5-7B-Instruct"
# preference_train.jsonl 应包含 DPO 所需的 prompt、chosen、rejected 字段。
dataset = load_dataset("json", data_files={"train": "preference_train.jsonl"})
# tokenizer 必须和策略模型/参考模型一致。
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
quant = BitsAndBytesConfig(
    # 4bit 加载降低策略模型和参考模型的显存占用。
    load_in_4bit=True,
    # NF4 是 QLoRA/DPO 常见量化类型。
    bnb_4bit_quant_type="nf4",
    # 计算 dtype 使用 bf16；硬件不支持时需要调整。
    bnb_4bit_compute_dtype="bfloat16",
)

model = AutoModelForCausalLM.from_pretrained(
    # 当前要更新的策略模型。
    model_id,
    # 以量化形式加载，减少显存。
    quantization_config=quant,
    # 自动分配到可见设备。
    device_map="auto",
)
ref_model = AutoModelForCausalLM.from_pretrained(
    # 参考模型通常冻结，用于 DPO 的相对概率约束。
    model_id,
    # 参考模型也量化加载，降低双模型显存压力。
    quantization_config=quant,
    # 与策略模型一样交给加载器安排设备。
    device_map="auto",
)

peft_config = LoraConfig(
    # LoRA rank 控制 DPO 阶段可训练容量。
    r=16,
    # alpha 控制 LoRA 更新幅度。
    lora_alpha=32,
    # dropout 防止偏好数据上过拟合。
    lora_dropout=0.05,
    # DPO 示例只覆盖注意力投影层，降低训练风险。
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    # 自回归语言模型任务。
    task_type="CAUSAL_LM",
)

args = DPOConfig(
    # DPO adapter、日志和 checkpoint 输出目录。
    output_dir="./qwen_dpo_lora",
    # 双模型 + 长上下文显存压力大，单卡 batch 从 1 起步。
    per_device_train_batch_size=1,
    # 通过梯度累积放大有效 batch，减少偏好梯度噪声。
    gradient_accumulation_steps=16,
    # DPO 通常用比 SFT 更保守的学习率。
    learning_rate=5e-5,
    # beta 控制偏好优化相对参考模型的约束强度。
    beta=0.1,
    # prompt + response 的总长度上限。
    max_length=2048,
    # prompt 部分长度上限；超长 prompt 会挤压回答 token 空间。
    max_prompt_length=1024,
    # bf16 降低显存并保持数值稳定。
    bf16=True,
    # 每个 epoch 保存一次，方便按验证集或人工评估挑选 checkpoint。
    save_strategy="epoch",
)

trainer = DPOTrainer(
    # 当前策略模型，会被 LoRA adapter 更新。
    model=model,
    # 冻结参考模型，用来计算 chosen/rejected 的相对偏好目标。
    ref_model=ref_model,
    # DPO 训练参数。
    args=args,
    # 偏好训练数据。
    train_dataset=dataset["train"],
    # tokenizer / processor，负责文本模板化和 tokenization。
    processing_class=tokenizer,
    # 在策略模型上注入 LoRA，避免全参 DPO。
    peft_config=peft_config,
)
# 启动 DPO 偏好优化。
trainer.train()
# 保存 DPO 后 adapter 或模型目录。
trainer.save_model("./qwen_dpo_lora/final")

偏好数据质量决定 DPO 上限。chosen 与 rejected 应当足够接近，才能训练细粒度偏好边界；若 rejected 过差，模型只会学习排除明显坏答案，对真实线上排序帮助有限。

LLM 教师蒸馏到 Encoder-only 学生

工业系统常用强 LLM 做弱标注、难例发现或标签归并，再把结果蒸馏到 DeBERTa、ModernBERT、MacBERT 这类 Encoder-only 学生模型上线。这样可以保留 LLM 的语义泛化能力，同时把线上延迟、吞吐和成本压回判别式小模型水平。

# openai 代表任意 LLM API 客户端，也可替换成本地 vLLM 服务。
# datasets 读取未标注文本和写回弱标注数据。
# transformers 训练学生分类模型。
pip install -U openai datasets transformers evaluate accelerate

# json 用来读写 JSONL。
import json
# Path 提供文件写入接口。
from pathlib import Path
# OpenAI 客户端也可指向 OpenAI-compatible 的本地 vLLM 服务。
from openai import OpenAI

# 客户端配置应放在环境变量里，代码中不写 API key。
client = OpenAI()

# 候选标签由业务定义，教师模型只能从这些标签中选择。
labels = ["投诉", "咨询", "表扬", "其它"]

def teacher_label(text):
    # system prompt 固定输出约束，降低教师模型自由发挥。
    system = "你是文本分类标注器。只输出 JSON，字段为 label 和 confidence。"
    # user prompt 提供标签集合和待标注文本。
    user = f"候选标签：{labels}\n文本：{text}"

    response = client.chat.completions.create(
        # 教师模型可换成内部强模型或本地服务。
        model="gpt-4.1-mini",
        messages=[
            {"role": "system", "content": system},
            {"role": "user", "content": user},
        ],
        # 低温度降低同一文本多次标注的随机性。
        temperature=0,
    )

    # 解析教师输出；生产系统应增加 JSON schema 校验和异常重试。
    return json.loads(response.choices[0].message.content)

# unlabeled.jsonl 每行包含 text 字段。
rows = []
for line in Path("unlabeled.jsonl").read_text().splitlines():
    item = json.loads(line)
    result = teacher_label(item["text"])

    # 只保留高置信弱标注，降低错误标签污染学生模型。
    if result["confidence"] >= 0.8 and result["label"] in labels:
        rows.append({"text": item["text"], "label": result["label"]})

# 写回学生模型可直接读取的弱标注训练集。
with Path("student_train.jsonl").open("w") as f:
    for row in rows:
        # ensure_ascii=False 保留中文标签和文本。
        f.write(json.dumps(row, ensure_ascii=False) + "\n")

# evaluate 提供学生模型验证指标。
import evaluate
# numpy 用于 logits -> class id。
import numpy as np
# load_dataset 读取教师生成的弱标注数据。
from datasets import load_dataset
# AutoModelForSequenceClassification 加载学生分类器。
# AutoTokenizer 保证学生模型分词一致。
from transformers import AutoModelForSequenceClassification, AutoTokenizer
# DataCollatorWithPadding / Trainer / TrainingArguments 负责训练。
from transformers import DataCollatorWithPadding, Trainer, TrainingArguments

# 学生模型选择高吞吐 encoder。
student_id = "microsoft/deberta-v3-base"
# 读取弱标注数据和人工验证集；验证集必须尽量人工标注。
dataset = load_dataset("json", data_files={"train": "student_train.jsonl", "validation": "human_valid.jsonl"})

# 固定标签顺序，保证教师标签和学生 id 一致。
label_names = ["投诉", "咨询", "表扬", "其它"]
label2id = {name: i for i, name in enumerate(label_names)}
id2label = {i: name for name, i in label2id.items()}

# 加载学生 tokenizer。
tokenizer = AutoTokenizer.from_pretrained(student_id)

def preprocess(batch):
    # 对文本做截断和分词。
    encoded = tokenizer(batch["text"], truncation=True, max_length=256)
    # 把教师字符串标签映射成学生分类 loss 需要的整数 id。
    encoded["labels"] = [label2id[x] for x in batch["label"]]
    return encoded

# 删除原始字段，保留模型 forward 所需张量。
tokenized = dataset.map(preprocess, batched=True, remove_columns=dataset["train"].column_names)

model = AutoModelForSequenceClassification.from_pretrained(
    student_id,
    # 分类头输出维度等于标签数。
    num_labels=len(label_names),
    # 写入 id -> label，便于线上解释输出。
    id2label=id2label,
    # 写入 label -> id，便于保存后复用。
    label2id=label2id,
)

# macro F1 避免多数类掩盖小类退化。
metric = evaluate.load("f1")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    # 取最高 logit 对应类别。
    preds = np.argmax(logits, axis=-1)
    # 返回 macro F1。
    return metric.compute(predictions=preds, references=labels, average="macro")

args = TrainingArguments(
    # 学生模型输出目录。
    output_dir="./student_deberta_distilled",
    # 蒸馏弱标注可能有噪声，学习率先用保守值。
    learning_rate=2e-5,
    # 学生 encoder 训练 batch 可大于 LLM 微调 batch。
    per_device_train_batch_size=32,
    # 验证 batch 可更大。
    per_device_eval_batch_size=64,
    # 给出上限 epoch，最终按人工验证集选最优。
    num_train_epochs=3,
    # 每轮评估。
    eval_strategy="epoch",
    # 每轮保存。
    save_strategy="epoch",
    # 恢复人工验证集 F1 最优 checkpoint。
    load_best_model_at_end=True,
    # compute_metrics 返回 f1，对应 eval_f1。
    metric_for_best_model="eval_f1",
    # F1 越大越好。
    greater_is_better=True,
)

trainer = Trainer(
    # 学生分类模型。
    model=model,
    # 训练参数。
    args=args,
    # 教师弱标注训练集。
    train_dataset=tokenized["train"],
    # 人工验证集用于防止教师偏差被学生继承。
    eval_dataset=tokenized["validation"],
    # 动态 padding。
    data_collator=DataCollatorWithPadding(tokenizer),
    # 计算 F1。
    compute_metrics=compute_metrics,
)

# 启动学生模型训练。
trainer.train()
# 保存低延迟线上分类器。
trainer.save_model("./student_deberta_distilled/best")

训练脚本的基本组成

训练脚本的价值在于把训练过程工程化：数据输入稳定、训练状态可恢复、指标可观测、实验可对比、产物可追溯。一个可维护的训练脚本通常围绕四件事组织：训练循环、状态管理、配置入口、可观测性与评估。

最小训练循环

训练循环的目标是把“损失函数关于参数的梯度”转化为“参数更新”。在 PyTorch 中，这条链路可写成：前向得到 loss，反向计算梯度，优化器 step 更新参数。工程上再叠加三类必需机制：学习率调度、数值稳定/效率策略（累积、混合精度、梯度裁剪）、训练状态的保存与恢复。

训练核心对象

模型

模型在脚本里承担两种职责：定义参数化映射，以及提供可复现的前向路径。训练脚本中最容易被忽略的细节是模式切换与设备放置：训练时必须

model.train()

，评估时必须

model.eval()

；参数与输入必须在同一设备与兼容精度上。

device = "cuda"  # or "cpu"
model = MyModel(...)
model.to(device)  # 模型参数和输入必须落在同一设备上，否则前向会直接报 device mismatch

for batch in train_loader:
    model.train()  # 明确切回训练态，打开 dropout、batch norm 更新等训练行为
    # batch 也要搬到同一设备，避免前向时隐式拷贝或报错
    x, y = batch["x"].to(device), batch["y"].to(device)
    logits = model(x)

损失

损失函数是训练脚本的“唯一可优化目标”。工程上需要把损失拆成两层：第一层是数学定义（例如 CE/BCE/MSE）；第二层是数据与张量形状约定（logits vs probabilities、label dtype、ignore_index、padding mask）。脚本里应当显式处理这层约定，避免模型输出与 loss 之间隐含转换。

import torch.nn.functional as F

logits = model(x)                 # [B, C]
loss = F.cross_entropy(logits, y) # y: [B], dtype=torch.long

优化器

优化器把梯度转成参数更新。训练脚本里，优化器的“正确性”主要取决于三件事：参数组（parameter groups）是否分对、

zero_grad

是否用

set_to_none=True

清零、以及 step 的节奏是否与梯度累积/混合精度一致。

import torch

# AdamW 是 Transformer/LLM 微调里最常见的默认优化器
optimizer = torch.optim.AdamW(model.parameters(), lr=2e-4, weight_decay=0.1)

# 把 grad 设为 None 比直接置零更省内存，也更容易暴露未被写入梯度的参数
optimizer.zero_grad(set_to_none=True)
loss.backward()                        # 反向传播只负责累计梯度，不会自动更新参数
# 真正的参数更新发生在这里；调度器通常也围绕这个节奏触发
optimizer.step()

常用优化器	安装	典型入口	脚本要点
torch.optim.AdamW	随 PyTorch 提供	torch.optim.AdamW(...)	LLM/Transformer 微调的默认选择之一；建议显式设置 weight_decay；必要时拆 parameter groups 让 bias/Norm 走 0 weight_decay。
torch.optim.SGD	随 PyTorch 提供	torch.optim.SGD(...)	常用于 CNN/视觉训练；注意 momentum、nesterov 与 weight_decay 的组合。
自定义/函数式优化器	依赖实现	optimizer.step()	若使用函数式 API（functional optimizers），需要把 grad_scale/found_inf 等 AMP 信息正确传递给优化器。

scheduler

学习率调度器的工程关键在于 step 的触发时机；调度器选型通常是第二顺位。常见两类：

epoch 级 step：每个 epoch 结束后调用一次。
step 级 step：每个 optimizer update 后调用一次（常见于 warmup、OneCycle 等）。

在 PyTorch 中，调度器通常在

optimizer.step()

之后调用，避免跳过初始学习率。恢复训练时也应保存/加载 scheduler 的 state。

from torch.optim.lr_scheduler import CosineAnnealingLR

optimizer = torch.optim.AdamW(model.parameters(), lr=2e-4)
# T_max 必须和你选的 step 粒度一致；这里按 epoch 计
scheduler = CosineAnnealingLR(optimizer, T_max=num_epochs)

for epoch in range(num_epochs):
    train_one_epoch(...)
    # 这里示意“完成一次 update 后再调度”；真实脚本里通常在 train step 内部调用
    optimizer.step()
    # scheduler 的节奏必须和 optimizer update 对齐，否则学习率曲线会错位
    scheduler.step()

scheduler	step 粒度	典型用途	注意点
StepLR	epoch	分段衰减	与里程碑 epoch 对齐，通常在 epoch 末调用。
CosineAnnealingLR	epoch 或 step	平滑衰减	需要明确 T_max 的含义（epoch 数或 step 数）。
OneCycleLR	step	warmup + 衰减的一体化策略	必须提供 total_steps 或 epochs + steps_per_epoch ；在每次 optimizer update 后 step。
ReduceLROnPlateau	eval 事件驱动	指标不提升就降 LR	step 时需要传入监控指标（例如 val_loss）。

warmup 与主调度器的串联

很多训练脚本核心是先经历一个短 warmup，再切到主调度器。PyTorch 原生的表达方式通常是

LinearLR

ConstantLR

配合

SequentialLR

把两段曲线串起来。

from torch.optim.lr_scheduler import CosineAnnealingLR, LinearLR, SequentialLR

# 2e-4 是 warmup 结束后真正生效的基础学习率
optimizer = torch.optim.AdamW(model.parameters(), lr=2e-4)
warmup = LinearLR(
    optimizer,
    start_factor=0.1,  # 第一个 update 只用 10% 基础学习率，降低开训初期数值震荡
    end_factor=1.0,    # warmup 结束后回到目标学习率
    # 这里按 optimizer.step() 次数计；用了梯度累积时不要误填成 dataloader step
    total_iters=500,
)
main = CosineAnnealingLR(
    optimizer,
    T_max=9500,        # 余弦衰减阶段的 update 数；应扣除前面 500 个 warmup update
)
scheduler = SequentialLR(
    optimizer,
    schedulers=[warmup, main], # 先线性升温，再切到余弦退火
    milestones=[500],          # 第 500 次 scheduler.step() 后切到第二段调度器
)

如果 warmup 阶段希望学习率保持常数而非线性爬升，可把第一段换成

ConstantLR

。核心原则不变：调度器的步数必须对齐 optimizer update，而非 micro-batch 数。

稳定性与效率机制

gradient accumulation

梯度累积（Gradient Accumulation）用多次

backward()

模拟更大的 batch：每个 micro-batch 只反向，不更新；累积到指定步数后再统一

optimizer.step()

。工程上需要把 loss 除以累积步数，保证梯度尺度不被放大。

grad_accum_steps = 8
optimizer.zero_grad(set_to_none=True)

for step, batch in enumerate(train_loader):
    loss = compute_loss(batch)
    # 必须先除累积步数，否则等价于把学习率放大了 grad_accum_steps 倍
    loss = loss / grad_accum_steps
    loss.backward()

    if (step + 1) % grad_accum_steps == 0:
        optimizer.step()                 # 只在累积满一个有效 batch 后更新一次参数
        optimizer.zero_grad(set_to_none=True)

在 DDP 中，默认每次

backward()

都会触发梯度同步；如果仍按上面的写法累积 micro-batch，会在前 $N-1$ 次 micro-step 上白白做 all-reduce。更常见的工程写法是把同步推迟到最后一个 micro-step。

grad_accum_steps = 8
optimizer.zero_grad(set_to_none=True)

for step, batch in enumerate(train_loader):
    # 只有最后一个 micro-step 才需要同步梯度并更新参数
    is_update_step = (step + 1) % grad_accum_steps == 0

    if is_update_step:
        loss = compute_loss(batch) / grad_accum_steps
        # 最后一个 micro-step 走正常 backward，DDP 会在这里执行 all-reduce
        loss.backward()
    else:
        with model.no_sync():  # 前几个 micro-step 只在本 rank 累积梯度，避免重复通信
            loss = compute_loss(batch) / grad_accum_steps
            loss.backward()

    if is_update_step:
        optimizer.step()
        optimizer.zero_grad(set_to_none=True)

一些训练脚本会改写

model.require_backward_grad_sync

来达到相同目的。两种写法的工程语义一致：前几个 micro-step 只攒梯度，最后一步再同步。

mixed precision

混合精度（Automatic Mixed Precision, AMP）在前向与反向中对不同算子选择不同精度，提升吞吐并降低显存占用。PyTorch 推荐使用

torch.autocast

与

torch.amp.GradScaler

组合；旧的

torch.cuda.amp.autocast

已被标注为弃用入口，脚本应迁移到

torch.amp.autocast("cuda")

风格。

import torch

# GradScaler 负责放大 loss，减少 fp16 下的小梯度下溢
scaler = torch.amp.GradScaler("cuda")
optimizer.zero_grad(set_to_none=True)

for batch in train_loader:
    with torch.amp.autocast("cuda", dtype=torch.float16):
        # autocast 让前向里的大部分算子自动选更省显存的精度执行
        loss = compute_loss(batch)

    # 先放大后的 loss 再反传，梯度更不容易在 fp16 中被截成 0
    scaler.scale(loss).backward()

    # 梯度裁剪前必须先还原真实梯度尺度，否则 max_norm 没意义
    scaler.unscale_(optimizer)
    torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

    scaler.step(optimizer)          # 如果本步检测到 inf/nan，GradScaler 会跳过这次更新
    scaler.update()                 # 根据本步是否溢出动态调整下一步的缩放因子
    optimizer.zero_grad(set_to_none=True)

clipping

梯度裁剪（Gradient Clipping）用于抑制梯度爆炸与异常尖峰更新。脚本里常用两种方式：按范数裁剪与按值裁剪。混合精度场景下，裁剪通常发生在

scaler.unscale_(optimizer)

之后、

scaler.step(optimizer)

之前。

训练看板里建议同时记录

grad_norm

。它表示当前 update step 上所有可训练参数梯度的整体 L2 范数，用于判断“这一步模型准备更新多大”。PyTorch 的

torch.nn.utils.clip_grad_norm_

会返回裁剪前的总梯度范数，因此可以直接把返回值写入 TensorBoard、W&B 或 MLflow。

import torch
from torch.utils.tensorboard import SummaryWriter

writer = SummaryWriter(log_dir="runs/grad-norm-demo")
scaler = torch.amp.GradScaler("cuda")
max_grad_norm = 1.0

for global_step, batch in enumerate(train_loader):
    optimizer.zero_grad(set_to_none=True)

    with torch.amp.autocast("cuda", dtype=torch.float16):
        # loss 是当前 micro-batch 的优化目标，后续所有梯度都从它反传得到。
        loss = compute_loss(model, batch)

    # fp16 训练先放大 loss，减少小梯度在半精度里下溢成 0 的概率。
    scaler.scale(loss).backward()

    # 裁剪和日志记录都要基于真实梯度尺度，先撤销 GradScaler 的放大。
    scaler.unscale_(optimizer)

    total_grad_norm = torch.nn.utils.clip_grad_norm_(
        model.parameters(),
        max_norm=max_grad_norm,
        norm_type=2.0,
    )
    # clip_grad_norm_ 返回裁剪前总范数，可用来观察是否频繁触发裁剪。
    writer.add_scalar("train/grad_norm", float(total_grad_norm), global_step)
    writer.add_scalar("train/loss", float(loss.detach()), global_step)
    writer.add_scalar("train/lr", optimizer.param_groups[0]["lr"], global_step)

    # 若本步出现 inf/nan，GradScaler 会跳过 optimizer.step，避免污染权重。
    scaler.step(optimizer)
    # GradScaler 根据本步溢出情况调整下一步的 loss scale。
    scaler.update()

这段代码的关键点是顺序：先

backward

，再

unscale_

，接着计算并裁剪梯度范数，最后执行优化器更新。若在

unscale_

之前记录范数，看到的是被 GradScaler 放大后的数值；若在

optimizer.step()

之后记录，梯度可能已经被清理或不再代表本次更新。

命令/API/函数

torch.nn.utils.clip_grad_norm_

说明
按整体范数裁剪梯度

示例

torch.nn.utils.clip_grad_norm_(
    model.parameters(),
    max_norm=1.0,
    norm_type=2.0,
)

命令/API/函数

torch.nn.utils.clip_grad_value_

说明
按绝对值范围裁剪梯度

示例

torch.nn.utils.clip_grad_value_(
    model.parameters(),
    clip_value=0.5,
)

训练状态管理

checkpoint

checkpoint 的工程目标是可恢复性与可追溯性。推荐保存 state_dict，而非直接 pickle 整个模型对象。一个可恢复 checkpoint 至少包含：

model.state_dict()
optimizer.state_dict()
scheduler.state_dict()（如果使用）
GradScaler.state_dict()（如果使用 AMP）
当前 epoch、global_step、最佳指标与早停计数器
必要时保存 RNG 状态（CPU/CUDA）以便复现实验

import torch

ckpt = {
    "epoch": epoch,
    "global_step": global_step,
    "model": model.state_dict(),
    "optimizer": optimizer.state_dict(),
    "scheduler": scheduler.state_dict() if scheduler else None,
    "scaler": scaler.state_dict() if scaler else None,
    "best_metric": best_metric,
    "patience": patience_counter,
    "rng_state": torch.get_rng_state(),
}
if torch.cuda.is_available():
    # 多卡恢复若要尽量复现，需要把每张卡对应的 RNG 状态一起带上。
    ckpt["cuda_rng_state_all"] = torch.cuda.get_rng_state_all()

torch.save(ckpt, ckpt_path)

resume

恢复训练（resume）要求脚本严格区分两种加载：

只加载权重（用于推理或 warmstart）：只读 model 的 state_dict。
恢复训练：除了 model，还要恢复 optimizer/scheduler/scaler 与计数器。

跨设备恢复时，应使用

map_location

控制张量落点。对于大型权重文件，PyTorch 提供了 mmap 相关建议与加载技巧，可用于降低峰值内存。

ckpt = torch.load(ckpt_path, map_location="cpu")

model.load_state_dict(ckpt["model"])
optimizer.load_state_dict(ckpt["optimizer"])
if scheduler and ckpt.get("scheduler") is not None:
    scheduler.load_state_dict(ckpt["scheduler"])
if scaler and ckpt.get("scaler") is not None:
    scaler.load_state_dict(ckpt["scaler"])

# 续训时从下一个 epoch 开始，避免重复训练已完成的那一轮。
start_epoch = ckpt["epoch"] + 1
# global_step 常用于恢复学习率调度、日志步数和 checkpoint 命名。
global_step = ckpt["global_step"]
# best_metric 决定 best checkpoint 与 early stopping 能否无缝接上。
best_metric = ckpt.get("best_metric", None)

early stopping

早停（Early Stopping）的正确写法是“基于业务真正关心的指标触发”。分类任务通常监控 F1/Accuracy；生成任务通常监控 ROUGE/BLEU 或下游任务指标；有些任务 loss 的上升代表校准变差但决策指标仍提升，因此脚本应把 monitor 指标显式参数化，而非写死为 val_loss。

patience = 3
best = None
bad_epochs = 0

for epoch in range(num_epochs):
    train_one_epoch(...)
    # monitor 指标应该和业务目标一致，例如 F1、ROUGE 或 token accuracy。
    metric = evaluate(...)

    if best is None or metric > best:
        best = metric
        bad_epochs = 0
        save_best_checkpoint(...)
    else:
        bad_epochs += 1
        if bad_epochs >= patience:
            break

配置系统

训练脚本的配置系统需要解决两类问题：参数入口（CLI/环境变量）与配置结构（分层配置、默认值、校验）。通用格式（例如 YAML）只承担“配置文件承载体”的角色，真正的工程收益来自：覆盖语法、层级合并、以及把配置变成强类型对象。

命令行构建

argparse

import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--lr", type=float, default=2e-4)
parser.add_argument("--batch-size", type=int, default=8)
args = parser.parse_args()

Click

import click

@click.command()
@click.option("--lr", type=float, default=2e-4)
@click.option("--batch-size", type=int, default=8)
def main(lr, batch_size):
    ...

if __name__ == "__main__":
    main()

Typer

from typing import Annotated
import typer

app = typer.Typer()

@app.command()
def train(
    # 直接把 CLI 元数据写进类型标注，help/校验会自动生成。
    lr: Annotated[float, typer.Option()] = 2e-4,
    # Typer 会据此生成 --batch-size 选项并做类型转换。
    batch_size: Annotated[int, typer.Option()] = 8,
):
    ...

if __name__ == "__main__":
    app()

配置与模式校验

Hydra

Hydra 的核心价值是“分层配置 + 命令行覆盖 + 默认输出目录管理”。训练脚本里常把超参数、数据路径、模型结构与运行参数拆分成多个 config group，再通过 overrides 组合出一次实验。

import hydra
from omegaconf import DictConfig

@hydra.main(version_base=None, config_path="conf", config_name="config")
def main(cfg: DictConfig):
    # cfg.lr, cfg.train.batch_size, cfg.model.name, ...
    ...

if __name__ == "__main__":
    main()

OmegaConf

from omegaconf import OmegaConf

cfg = OmegaConf.load("conf/config.yaml")
cfg = OmegaConf.merge(cfg, {"train": {"batch_size": 8}})
cfg_dict = OmegaConf.to_container(cfg, resolve=True)

Pydantic

Pydantic 的价值是把“松散字典配置”收敛为“可验证的强类型配置对象”，在脚本启动阶段就能把拼写错误与类型错误拒之门外。

from pydantic import BaseModel, Field

class TrainConfig(BaseModel):
    lr: float = Field(default=2e-4, ge=0.0)
    batch_size: int = Field(default=8, ge=1)

cfg = TrainConfig(lr=2e-4, batch_size=8)

日志与可视化

TensorBoard

TensorBoard 的工程用法是“在训练循环中持续写入事件文件”，再用 TensorBoard UI 查询。PyTorch 提供

torch.utils.tensorboard.SummaryWriter

作为主入口。

pip install tensorboard
tensorboard --logdir runs

from torch.utils.tensorboard import SummaryWriter

writer = SummaryWriter(log_dir="runs/exp-001")
writer.add_scalar("train/loss", loss.item(), global_step)
writer.add_scalar("train/lr", optimizer.param_groups[0]["lr"], global_step)
writer.flush()

实验管理与跟踪

Weights & Biases

W&B 的训练脚本集成围绕三个动作：init 建立 run，log 写入指标与超参，finish 结束 run。离线环境可使用 offline 模式把日志落盘后再同步。

pip install wandb
wandb login

import wandb

run = wandb.init(project="exp", config={"lr": 2e-4, "batch_size": 8})
for step in range(100):
    wandb.log({"train/loss": float(loss), "train/lr": optimizer.param_groups[0]["lr"]}, step=step)
run.finish()

MLflow

MLflow Tracking 的核心是 run：在 run 上记录 params、metrics 与 artifacts。最小闭环是：设置 experiment，启动 run，上报指标，必要时启动本地 tracking server 查看 UI。

pip install mlflow
mlflow server --port 5000

import mlflow

# experiment 是 MLflow UI 的第一层分组；先固定它，后续多个 run 才能按实验归档。
mlflow.set_experiment("exp")
with mlflow.start_run():
    # params 记录的是本轮训练配置；它们是后续筛选 run 的主要维度。
    mlflow.log_params({"lr": 2e-4, "batch_size": 8})
    # metric 要带 step，曲线才会按训练过程展开，而非只剩一个最终数值。
    mlflow.log_metric("train_loss", float(loss), step=global_step)
    # artifact 用来绑定 checkpoint、评估报告等二进制产物。
    mlflow.log_artifact("checkpoints/best.pt")

LLM 可观测性

Langfuse

Langfuse 在训练脚本中的典型价值是把“训练过程中的 LLM 调用、数据生成、评测调用”以 trace/span/generation 的方式串成可查询的链路，并与指标平台形成分工：W&B/MLflow 负责 run 级指标与产物，Langfuse 负责调用链与上下文。短生命周期脚本要显式 flush 或 shutdown，确保事件被发送。

pip install langfuse

import os
from langfuse import get_client

os.environ["LANGFUSE_PUBLIC_KEY"] = "pk-lf-..."
os.environ["LANGFUSE_SECRET_KEY"] = "sk-lf-..."
os.environ["LANGFUSE_BASE_URL"] = "https://cloud.langfuse.com"

langfuse = get_client()

with langfuse.start_as_current_observation(as_type="span", name="train-step") as span:
    # 训练逻辑
    # metadata 最适合挂训练步数、样本批次或 checkpoint 版本这类排障字段。
    span.update(metadata={"global_step": global_step})

    with langfuse.start_as_current_observation(as_type="generation", name="synth-data", model="gpt-4.1") as gen:
        # LLM 生成数据/评测逻辑
        gen.update(output="...")

langfuse.flush()

OpenTelemetry / OpenInference：把 LLM 调用接入统一 tracing 体系

Langfuse 适合看 prompt、generation 与评测链路；如果系统里还同时存在 HTTP 服务、数据库、队列和检索链路，就需要把 LLM span 接到统一 tracing 体系里。OpenTelemetry 负责 trace/span/export 机制，OpenInference 与 GenAI 语义约定负责把“模型名、token 用量、工具调用、retrieval 命中”等字段标准化。

from opentelemetry import trace
from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor

provider = TracerProvider()  # 统一收集服务端 span；训练/评测脚本也可以复用同一套 provider
provider.add_span_processor(
    BatchSpanProcessor(
        # OTLP 是最常见的跨平台 trace 导出协议
        OTLPSpanExporter(endpoint="http://otel-collector:4318/v1/traces")
    )
)
trace.set_tracer_provider(provider)
tracer = trace.get_tracer(__name__)

with tracer.start_as_current_span("rag.answer") as span:
    # 把模型身份写成标准化属性，方便跨后端统一检索
    span.set_attribute("gen_ai.request.model", "Qwen/Qwen3-0.6B")
    # token 用量是容量规划与成本分析的关键维度
    span.set_attribute("gen_ai.usage.input_tokens", 512)
    # 检索链路参数也应进 span，便于回放与归因
    span.set_attribute("retrieval.top_k", 20)

真正做故障归因时，日志、指标和 trace 应共享同一条关联键，例如

trace_id

。否则只能分别看到“慢”“贵”“错”，却很难知道它们是否来自同一条请求链路。

评估与基准

通用评估指标

训练脚本的评估模块需要满足两个工程要求：可重复（同一 checkpoint 评估一致）与可对比（同一指标口径跨 run 可比较）。分类任务的 Accuracy/F1、检索任务的 Recall@K/NDCG、生成任务的 ROUGE/BLEU 与任务自定义评分，应在脚本里拆成独立的 evaluate 函数，避免训练循环与评估逻辑互相污染。

中文评估指标

rouge-chinese

rouge-chinese 提供中文场景的 ROUGE 计算实现，针对中文标点分句与 ROUGE-L 内存占用做了工程优化。训练脚本中通常把它放在验证阶段，用于摘要、生成式问答等任务的离线评估。

pip install rouge-chinese

from rouge_chinese import Rouge

rouge = Rouge()  # 在验证阶段复用同一个 Rouge 实例，避免每个 batch 反复初始化。
hyps = ["模型生成的摘要。"]  # 系统生成文本列表；库接口按“多条样本”设计。
refs = ["参考摘要。"]       # 参考答案列表；长度需要和 hyps 对齐。

# avg=True 让多样本结果先聚合，再统一写入日志。
scores = rouge.get_scores(hyps, refs, avg=True)
# scores["rouge-1"]["f"], scores["rouge-2"]["f"], scores["rouge-l"]["f"]

lm-evaluation-harness

lm-evaluation-harness 是“给定一个模型后，快速在标准任务集上跑出可复现分数”的轻量评测主线。它特别适合训练完成后的 checkpoint 筛选、不同推理后端的一致口径对比、以及把本地模型服务接入公开 benchmark。到 2025 年底，这个项目的 CLI 已重构为

run / ls / validate

子命令，并支持 YAML 配置；安装也按后端拆分为可选 extra，例如

lm_eval[hf]

、

lm_eval[vllm]

。这类拆分很重要，因为评测机往往只需要一个后端，没必要把整个推理生态全装进去。

命令/API/函数

pip install "lm_eval[hf]"

说明

只安装 Hugging Face backend 的评测依赖。若实际跑的是 vLLM、SGLang 或本地 OpenAI-compatible 服务，应改装对应 extra，避免环境体积和依赖冲突无谓膨胀。

示例

pip install "lm_eval[hf]"
pip install "lm_eval[vllm]"

命令/API/函数

lm_eval ls

说明

列出当前环境可见的任务、任务组或模型适配器。做 CI 或大规模批评测时，这一步相当于“环境探针”：可以先确认任务名是否变化，再决定是否启动整批评测。

示例

lm_eval ls

命令/API/函数

lm_eval run

说明

执行评测主入口。模型适配器由

--model

决定，任务集合由

--tasks

指定；

--model_args

负责把权重路径、dtype、并行参数、服务地址等 backend 特有配置串起来。对于推理阶段已经单独部署好的超大模型，官方 README 直接建议通过 OpenAI-compatible 接口接入，例如先用 vLLM 挂服务，再让 harness 用 local-completions 类适配器做评测。

示例

lm_eval run \
  --model hf \
  --model_args pretrained=meta-llama/Meta-Llama-3-8B-Instruct,dtype=bfloat16 \
  --tasks hellaswag,arc_easy \
  --device cuda:0 \
  --batch_size auto \
  --output_path outputs/lm_eval/llama3_8b

命令/API/函数

think_end_token

说明

这是 2025 年新增的重要参数，用来裁掉 reasoning 模型显式输出的思维链尾标记。对“答案正确但带有推理痕迹”的模型，如果不做这层截断，评测器的答案提取往往会被污染，尤其是多项选择与短答案任务。

示例

lm_eval run \
  --model vllm \
  --model_args pretrained=/models/DeepSeek-R1-Distill-Qwen-7B,think_end_token="" \
  --tasks gsm8k \
  --batch_size auto

命令/API/函数

Task YAML: doc_to_text / filter_list / metric_list

说明

lm-eval 的真正工程价值在任务 YAML。它把 prompt 模板、答案抽取、聚合与计分写成可版本化资产，而非散落在临时脚本里。对生成式任务，常见流程是“生成多个候选 -> 用 regex 或自定义 filter 抽取答案 -> 多数投票或取首个合法答案 -> 再按 metric 计分”。模型分数是否可信，往往取决于这层配置是否明确且可复刻。

示例

task: gsm8k_cot_local
dataset_path: gsm8k
test_split: test
doc_to_text: "{{question}}\nLet's think step by step."
doc_to_target: "{{answer}}"
filter_list:
  - name: extract_answer
    filter:
      - function: regex
        regex_pattern: "####\\s*([-0-9\\.]+)"
      - function: take_first
metric_list:
  - metric: exact_match
    aggregation: mean
    higher_is_better: true

命令/API/函数

--log_samples / --use_cache / --cache_requests

说明

这组参数决定评测是否适合工程回归。

--log_samples

让错误分析有据可查；缓存参数则避免重复打 API 或重复本地推理。对付费模型、长上下文任务或 nightly regression，这些选项通常应该默认开启，而非临时想起才加。

示例

lm_eval run \
  --model local-completions \
  --model_args base_url=http://localhost:8000/v1/completions,model=local-model \
  --tasks hellaswag \
  --log_samples \
  --use_cache ./cache/lm_eval.sqlite \
  --cache_requests true \
  --output_path ./outputs/lm_eval/regression

OpenCompass

OpenCompass 更接近“评测编排平台”而非单一命令行工具。它把一次评测拆成 Configure、Inference、Evaluation、Visualization 四个阶段，适合管理“多个模型 × 多个数据集 × 多种 judge/后处理”的评测矩阵。相比 lm-evaluation-harness，OpenCompass 的长处在于配置体系更完整、任务组织更重、对 LLM-as-judge、长上下文、污染检测、推理模型评测等场景覆盖更深；代价是上手复杂度更高，更像一个独立工程而非一个轻量脚本库。

近两年的版本演进也需要单独记住。OpenCompass 在 0.4.0 之后把不少旧式配置从仓库顶层

configs/

目录迁入包内路径，很多旧文章里的配置引用在新版本里会直接失效。到 2026 年初，OpenCompass 又补入了 CascadeEvaluator、GenericLLMEvaluator、MATHVerifyEvaluator 等更偏“复杂 judge 流水线”的组件，已经不再只是传统选择题 benchmark 的跑分脚本。

命令/API/函数

python run.py config.py

说明

OpenCompass 的入口仍然是

run.py

。配置文件同时声明模型、数据集、推理器、评测器与汇总策略；一次命令会自动拆出并行子任务，分别做推理和评测，再把结果汇总成表格、CSV 和 TXT。

示例

python run.py configs/eval_demo.py

命令/API/函数

python run.py ... -a vllm

说明

OpenCompass 可以把原本基于 Hugging Face 的模型配置自动切到 vLLM 或 LMDeploy 推理后端，用于加速大模型评测。这一点在长上下文、数学推理、批量生成型任务里价值很高，因为推理速度往往比 judge 逻辑本身更容易成为瓶颈。

示例

python run.py configs/eval_gsm8k.py -a vllm
python run.py configs/eval_gsm8k.py -a lmdeploy

命令/API/函数

GenericLLMEvaluator / CascadeEvaluator

说明

GenericLLMEvaluator

用于“规则难以完全覆盖”的 judge 场景，例如自由文本答案、复杂事实判断、开放式回应；

CascadeEvaluator

则先跑规则评测器，再把规则无法稳定判定的样本交给 LLM judge。这样做的工程意义很明确：把昂贵的 LLM-as-judge 只用在真正模糊的样本上，评测成本和延迟会明显下降。

示例

from opencompass.evaluator import CascadeEvaluator, GenericLLMEvaluator, MATHVerifyEvaluator

eval_cfg = dict(
    type=CascadeEvaluator,
    evaluators=[
        dict(type=MATHVerifyEvaluator),      # 先用规则或符号级校验筛掉能直接判分的样本
        dict(type=GenericLLMEvaluator),      # 再把剩余难例交给 LLM judge
    ],
)

命令/API/函数

--mode infer|eval|viz + --reuse

说明

OpenCompass 把一次评测拆成有状态实验目录。

infer

阶段最耗时；当只调整评测器、judge 模板或汇总逻辑时，用

eval

或

viz

配合

--reuse

复用历史输出，能省掉绝大部分推理成本。这是 OpenCompass 和轻量级单次跑分脚本最本质的差别之一。

示例

opencompass --models hf_internlm2_5_1_8b_chat \
  --datasets demo_gsm8k_chat_gen \
  --mode eval \
  --reuse latest

命令/API/函数

models / datasets / work_dir

说明

OpenCompass 的主配置是 Python 文件而非简单命令拼接。工程上最常维护的三个顶层对象是

models

、

datasets

与

work_dir

。这样做的意义是把“模型矩阵 × 数据集矩阵 × 推理/评估配置”直接版本化，便于团队共享与回滚。

示例

from mmengine.config import read_base

with read_base():
    from opencompass.configs.datasets.demo.demo_gsm8k_chat_gen import datasets
    from opencompass.configs.models.hf_internlm.hf_internlm2_5_1_8b_chat import models

work_dir = 'outputs/my_eval'  # 所有推理产物、评估结果与汇总报表都挂在这个实验目录下。

数据与标注资产管理

DVC

DVC 把“数据/模型产物”从 Git 中分离出来，同时保留可追溯版本。训练脚本常配合 DVC 使用两条链路：数据版本管理（dvc add/pull/push）与流水线复现（dvc.yaml + dvc repro）。

# DVC 进入项是 CLI；装好后数据版本和流水线复现都从同一套命令面进入。
pip install dvc
dvc init
dvc add data/train.jsonl
git add data/train.jsonl.dvc data/.gitignore
git commit -m "track dataset with dvc"

Label Studio

Label Studio 是标注平台。训练脚本侧通常把它当作“数据生成与质量控制”的外部系统：标注阶段产出数据，训练阶段只消费导出的标注结果。最小可运行入口是安装并启动服务。

pip install label-studio
label-studio start

分布式训练与硬件加速组件

分布式训练与硬件加速的工程工作围绕四个入口展开：进程如何启动、通信如何建立、显存如何被切分与回收、关键算子是否落在高性能 kernel。本节以“能直接跑起来”的安装、启动、API、配置与部署约束为中心，覆盖 PyTorch distributed（DP/DDP/FSDP/torchrun）、DeepSpeed（ZeRO）、Megatron-LM/Megatron Core、CUDA/cuDNN/NCCL、Triton、FlashAttention、flash-linear-attention（fla）、xFormers、bitsandbytes，以及数值精度与重算策略。

设备与并行基础

计算设备

训练代码在多卡场景里通常遵循“一进程一 GPU”的约定：每个进程只绑定一个 GPU，并通过进程间通信完成梯度同步或参数分片。这一约定直接对应 torchrun/DDP/FSDP/DeepSpeed 的默认启动方式，也决定了日志、随机数与数据采样需要按 rank 做隔离。

并行策略

工程上最常用的并行拆分有两类：

数据并行（Data Parallel, DP）：每张卡持有一份模型副本，各自处理不同 batch，然后同步梯度。
模型并行（Model Parallel）：把一个模型拆到多张卡上。常见细分是张量并行（Tensor Parallel, TP）与流水并行（Pipeline Parallel, PP）。

对于 LLM 预训练，TP/PP 往往与数据并行同时存在；对多数微调任务，数据并行 + 参数高效微调（LoRA/QLoRA）是更常见的起点。

PyTorch 分布式主线

安装与环境校验

PyTorch 分布式训练的最低要求是：PyTorch 构建启用了 distributed，并且 GPU 通信后端可用（NVIDIA 场景通常是 NCCL）。工程上先做三类校验：CUDA 运行时可用性、distributed 模块可用性、以及当前进程可否正确枚举到 GPU。

import torch
import torch.distributed as dist
print("torch:", torch.__version__)
print("cuda available:", torch.cuda.is_available())
print("torch cuda:", torch.version.cuda)
print("distributed available:", dist.is_available())
if torch.cuda.is_available():
    print("gpu0:", torch.cuda.get_device_name(0))

DataParallel (DP)

DataParallel 是单进程、多 GPU 的封装（

torch.nn.DataParallel

）。它的工程局限很明确：单进程会成为瓶颈、参数分散与通信控制不够细，且与现代分布式生态（torchrun/elastic/DCP）不在同一路线上。实际工程里更常把 DP 当作“快速验证多卡可跑”的临时方案，正式训练一般直接用 DDP 或 FSDP。

import torch
import torch.nn as nn

model = nn.Linear(1024, 1024).cuda()
model = nn.DataParallel(model)  # 单进程，多卡

DDP

DDP（DistributedDataParallel）是 PyTorch 数据并行主线：多进程各自持有模型副本，反向传播时进行梯度 AllReduce。工程上，DDP 的三个稳定性入口是：进程组初始化、每个进程绑定本地 GPU、以及数据采样在 rank 之间的正确切分。

启动方式（torchrun）

# 单机 8 卡（每个进程绑定 1 张 GPU）
torchrun --standalone --nproc-per-node=8 train.py

# 多机（示例：2 台机器，每台 8 卡）
# node0:
# node-rank=0 表示主节点；master_addr/master_port 必须所有节点一致。
torchrun --nnodes=2 --node-rank=0 --nproc-per-node=8 --master_addr=$MASTER_ADDR --master_port=29500 train.py

# node1:
# node-rank=1 表示第二台节点；其余 rendezvous 参数保持完全一致。
torchrun --nnodes=2 --node-rank=1 --nproc-per-node=8 --master_addr=$MASTER_ADDR --master_port=29500 train.py

最小 DDP 训练骨架

import os
import argparse
import torch
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
def main():
    parser = argparse.ArgumentParser()
    # 同时兼容 torchrun 常见的两种 local rank 参数命名。
    parser.add_argument("--local-rank", "--local_rank", type=int, default=None)
    _ = parser.parse_args()

    dist.init_process_group(backend="nccl")  # NVIDIA GPU 通常用 NCCL
    local_rank = int(os.environ.get("LOCAL_RANK", "0"))
    torch.cuda.set_device(local_rank)
    model = torch.nn.Linear(1024, 1024).cuda()
    model = DDP(model, device_ids=[local_rank])
    opt = torch.optim.AdamW(model.parameters(), lr=1e-4)
    x = torch.randn(8, 1024, device="cuda")
    y = model(x).sum()
    y.backward()
    opt.step()
    opt.zero_grad(set_to_none=True)

    dist.destroy_process_group()
if __name__ == "__main__":
    main()

数据切分（DistributedSampler）

DDP 下数据切分通常使用

torch.utils.data.distributed.DistributedSampler

。它的工程意义是：每个 rank 只看见数据集的一个分片，并且在每个 epoch 以相同随机种子但不同偏移做 shuffle。训练循环里需要在每个 epoch 调用

sampler.set_epoch(epoch)

，否则多卡的 shuffle 行为容易退化为“每个 epoch 都是同一切分”。

import torch
import torch.distributed as dist
from torch.utils.data import DataLoader
from torch.utils.data.distributed import DistributedSampler
dataset = ...
sampler = DistributedSampler(dataset, num_replicas=dist.get_world_size(), rank=dist.get_rank(), shuffle=True)
loader = DataLoader(dataset, batch_size=bs, sampler=sampler, num_workers=4, pin_memory=True)
for epoch in range(num_epochs):
    sampler.set_epoch(epoch)
    for batch in loader:
        ...

常见约束与调参入口

backend 选择：NVIDIA GPU 通常选 NCCL；CPU 场景通常用 Gloo（性能不同）。
find_unused_parameters：动态图/分支模型可能需要，但会引入开销；结构固定的训练尽量避免。
梯度桶（bucket）：DDP 会把梯度聚合成 bucket 做 AllReduce，bucket 大小与拓扑会影响吞吐与尾延迟。

FSDP

FSDP（Fully Sharded Data Parallel）把参数、梯度与优化器状态按 data-parallel rank 做分片，以显著降低“模型状态显存”。实践上分两条 API 主线：FSDP2（当前推荐）与 FSDP1（传统 wrapper 形态）。两者共享一个工程事实：优化器应在模型被分片之后创建，因为参数对象会被重映射。

最小 FSDP2 骨架（fully_shard）

import os
import torch
import torch.distributed as dist
from torch.distributed.fsdp import fully_shard, FSDPModule
def main():
    dist.init_process_group("nccl")
    local_rank = int(os.environ.get("LOCAL_RANK", "0"))
    torch.cuda.set_device(local_rank)
    model = Transformer()  # 伪代码：包含 model.layers
    for layer in model.layers:
        # 先按 block 粒度分片，避免整模型一次性 all-gather 的峰值过高。
        fully_shard(layer)
    # 最外层再包一次，让剩余未包裹参数也进入 FSDP 管理。
    fully_shard(model)
    assert isinstance(model, FSDPModule)
    # 优化器必须在 fully_shard 之后创建，否则拿到的仍是分片前参数引用。
    opt = torch.optim.AdamW(model.parameters(), lr=1e-4)
    ...

最小 FSDP1 骨架（FullyShardedDataParallel）

import os
import torch
import torch.distributed as dist
from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
def main():
    dist.init_process_group("nccl")
    local_rank = int(os.environ.get("LOCAL_RANK", "0"))
    torch.cuda.set_device(local_rank)
    model = torch.nn.Linear(1024, 1024).cuda()
    model = FSDP(model)

    # 注意：optimizer 要在 FSDP wrap 之后创建
    opt = torch.optim.AdamW(model.parameters(), lr=1e-4)
    x = torch.randn(8, 1024, device="cuda")
    loss = model(x).sum()
    loss.backward()
    opt.step()
    opt.zero_grad(set_to_none=True)

    dist.destroy_process_group()
if __name__ == "__main__":
    main()

auto wrap 与分片策略

分片边界直接决定通信形态：对极小模块做分片会导致频繁 all-gather/reduce-scatter，吞吐明显下降。实践上常把分片边界放在较大的 Transformer block 级别，并在框架侧配合 activation checkpointing 来降低激活占用。

torchrun

torchrun 是 PyTorch 提供的分布式启动器，等价于

python -m torch.distributed.run

。它负责为每个进程注入 rank/world_size/local_rank 等环境变量，并管理多机训练的 rendezvous。对于 GPU 训练，torchrun 的默认模型是“每进程一 GPU”。

常用启动参数

参数	含义	示例
--nproc-per-node	每台机器启动的进程数（GPU 训练通常等于每机 GPU 数）	torchrun --standalone --nproc-per-node=8 train.py
--nnodes / --node-rank	多机训练的节点数量与当前节点序号	torchrun --nnodes=2 --node-rank=0 --nproc-per-node=8 --master_addr=$MASTER --master_port=29500 train.py
--standalone	单机训练使用本地 rendezvous，省去显式配置	torchrun --standalone --nproc-per-node=8 train.py

launcher

在更大规模场景里，torchrun 之外通常还会叠一层集群 launcher（例如 Slurm 的

srun

，或 K8s job controller），负责资源分配与节点编排。工程边界一般是：launcher 负责“分配哪些机器/卡”，torchrun 负责“每台机器上起哪些进程并建立通信”。

大模型分布式系统

DeepSpeed

DeepSpeed 把“大模型训练需要的显存管理与并行策略”产品化：通过

deepspeed.initialize

与一个配置文件，让训练脚本在不重写大量底层逻辑的情况下获得 ZeRO、offload、优化器与调度能力。它的关键工程入口是：安装、配置文件、启动命令与与现有训练循环的接入点。

DeepSpeed 是 Microsoft 开源的大模型训练系统，主线生态围绕 PyTorch、CUDA/NCCL、Transformers/Accelerate 和 Azure/HPC 场景展开。它在中文大模型训练项目里非常常见，但来源和维护主体属于海外开源训练系统；和 MindSpore/MindSpeed、PaddlePaddle/PaddleNLP、OneFlow 这类国产训练栈应分开理解。

ZeRO 是什么

ZeRO（Zero Redundancy Optimizer）是 DeepSpeed 最核心的显存优化机制。传统数据并行（Data Parallelism）里，每张 GPU 都完整保存一份模型参数、梯度和优化器状态；ZeRO 的做法是把这些原本重复保存的训练状态切成 shard，分散到不同 data-parallel rank 上。这样，每张 GPU 只保留自己负责的那一片，需要计算时再通过通信临时收集所需状态。

用 AdamW 训练一个参数量为 $P$ 的模型时，训练态显存里至少会出现三类模型状态：参数 $\theta$、梯度 $\nabla\theta$、优化器状态 $m,v$（以及很多实现里的 FP32 master weights）。普通数据并行会在每张 GPU 上复制这些状态；若 data-parallel 规模为 $N$，ZeRO 的目标就是把可分片状态的单卡占用从“接近完整一份”压到“约 $1/N$ 份”。

ZeRO 阶段	分片对象	工程含义
Stage 1	优化器状态	先切 Adam 的一阶/二阶动量、FP32 master weights 等最占空间的 optimizer state，训练循环改动最小。
Stage 2	优化器状态 + 梯度	进一步切梯度，通常是中等规模大模型训练和微调的常见起点，显存收益明显，通信复杂度仍可控。
Stage 3	优化器状态 + 梯度 + 参数	把模型参数本身也切开，单卡显存最省；前向/反向期间需要频繁 all-gather / repartition，通信、checkpoint 和调试复杂度最高。

ZeRO 与 FSDP 的目标相近，都是减少数据并行里的重复模型状态。差别主要在工程入口：ZeRO 通常通过 DeepSpeed 配置文件和 DeepSpeedEngine 接管训练循环；FSDP 属于 PyTorch 原生分片数据并行，通常通过 wrapper 或 FSDP2 的

fully_shard

接入。实际选型更多取决于团队已有训练栈、checkpoint 体系、offload 需求和框架集成方式。

安装

pip install deepspeed

启动

# 典型用法：用 deepspeed 作为 launcher
deepspeed --num_gpus=8 train.py --deepspeed_config ds_config.json

最小配置（ds_config.json）

DeepSpeed 的工程事实是“配置驱动”：显存分片、offload、通信重叠与一些优化器实现由 JSON 配置决定。下列示例是可落地的起点，常见改动集中在 ZeRO stage 与 offload 选项。

{
  "train_micro_batch_size_per_gpu": 1,
  "gradient_accumulation_steps": 8,
  "fp16": { "enabled": true },
  "zero_optimization": {
    "stage": 2,
    "overlap_comm": true,
    "contiguous_gradients": true
  }
}

ZeRO-3 / Offload 配置骨架

{
  "train_micro_batch_size_per_gpu": 1,
  "gradient_accumulation_steps": 8,
  "bf16": { "enabled": true },
  "zero_optimization": {
    "stage": 3,
    "offload_param": { "device": "cpu", "pin_memory": true },
    "offload_optimizer": { "device": "cpu", "pin_memory": true }
  }
}

Python 接入（deepspeed.initialize）

import deepspeed
model = ...
# 把参数迭代器单独拿出来，是为了让 initialize 能接管优化器与 ZeRO 分片。
params = model.parameters()
engine, optimizer, _, lr_scheduler = deepspeed.initialize(
    model=model,
    model_parameters=params,
    config="ds_config.json",
)
for batch in dataloader:
    # 这里假设模型 forward 直接返回 loss；真实工程里也常写成 outputs.loss。
    loss = engine(batch)
    # backward/step 必须走 engine，才能正确触发 ZeRO、AMP 和梯度累积逻辑。
    engine.backward(loss)
    engine.step()

Megatron

Megatron-LM 是面向 Transformer 预训练的参考实现体系，内置张量并行（TP）、流水并行（PP）、以及与 NVIDIA 生态加速库的集成。它更像“训练系统工程模板”：直接复用仓库里的预训练脚本与并行参数，然后在其上叠加数据、模型结构与实验约束。

安装入口（推荐容器路径）

Megatron-LM/Megatron Core 对 CUDA、PyTorch、Transformer Engine、通信库的版本组合敏感。工程上通常优先使用 NGC 的 PyTorch 容器作为基线，再在容器内安装/开发 Megatron 相关代码，减少 ABI 与编译链不一致带来的问题。

# 直接进入官方 NGC PyTorch 容器，把 CUDA、cuDNN 与编译链基线固定住。
docker run --runtime=nvidia --gpus all -it --rm \
  -v /path/to/megatron:/workspace/megatron \
  -v /path/to/dataset:/workspace/dataset \
  -v /path/to/checkpoints:/workspace/checkpoints \
  -e PIP_CONSTRAINT= \
  nvcr.io/nvidia/pytorch:25.04-py3

启动模式（示意）

Megatron-LM 的典型启动方式仍是 torchrun，但会显式配置 TP/PP 规模，并把全局 batch 拆成 micro-batch + accumulation。下列命令展示“最少参数框架”，具体模型/数据参数由脚本与配置决定。

# 用 torchrun 启动分布式训练。
torchrun --nproc-per-node=8 pretrain_gpt.py \
  --tensor-model-parallel-size 2 \
  --pipeline-model-parallel-size 2 \
  --micro-batch-size 1 \
  --global-batch-size 128 \
  --sequence-length 4096 \
  --train-iters 1000 \
  ...

Megatron Core

Megatron Core 是可组合库形态：把训练大型 Transformer 所需的关键模块与系统优化能力封装成 API，供自定义训练框架调用。它提供 pip 安装与示例训练循环，工程上适合“需要 Megatron 的并行与算子能力，但不想完全使用 Megatron-LM 全栈脚本”的团队。

uv pip install megatron-core
torchrun --nproc-per-node=2 examples/run_simple_mcore_train_loop.py

NeMo

NeMo 是 NVIDIA 把“大模型训练配方、集群启动、Megatron Core 并行策略、checkpoint 管理”打包成体系化工作流后的结果。它更适合“训练系统本身就是长期资产”的团队：数据准备、预训练、继续预训练、SFT、PEFT、恢复训练、导出部署都沿着同一套 recipe 与 launcher 组织，而非靠零散脚本拼起来。2025 年之后的文档主线已经明显转向 NeMo 2.0 / AutoModel / NeMo-Run：本地工作站、Slurm、Kubernetes、Docker、SkyPilot 这些执行后端都被统一到 launcher 抽象里。

NeMo 当前最值得单独理解的两个点是

recipe

与

distributed checkpoint

。recipe 负责把模型、数据、训练器、并行度、日志与恢复策略写成一份配置；distributed checkpoint 则允许在不同 TP/PP 规模之间恢复训练，这一点在“白天 8 卡调通、夜里 64 卡正式跑”或“先做 PEFT、再切 full finetune”时非常实用。

命令/API/函数

automodel config.yaml

说明

NeMo AutoModel 官方把 CLI 作为首选入口。它要求 YAML 里包含

recipe._target_

，并用统一命令同时覆盖单卡、多卡、以及后续的集群扩展。对日常微调来说，这比直接记住底层 Python 脚本路径更稳，因为 recipe 升级后 CLI 兼容面通常更好。

示例

automodel examples/llm_finetune/llama3_2/llama3_2_1b_squad.yaml
automodel --nproc-per-node 2 examples/llm_finetune/llama3_2/llama3_2_1b_squad.yaml

命令/API/函数

run.run(...) / NEMORUN_HOME

说明

NeMo-Run 负责把同一份训练 recipe 投递到不同执行后端。它支持 local、Docker、Slurm、Kubernetes 等执行器，因此特别适合“本地先跑通，再推到集群”的工作流。和裸写

sbatch

相比，这层抽象把代码打包、环境镜像、实验元数据目录与远端执行方式收敛成一套配置面；实验元数据默认落在

~/.run

，可通过

NEMORUN_HOME

改写。

示例

import nemo_run as run

task = ...  # recipe 在别处配置好；这里不重复混入模型细节。
# 本地调试先走 LocalExecutor；切集群时再换 Slurm/K8s/Docker executor。
executor = run.LocalExecutor()
run.run(task, executor=executor)  # 运行记录会写进 NEMORUN_HOME，方便回溯和恢复。

命令/API/函数

distributed_fused_adam

说明

这是 NeMo 的 distributed optimizer 入口。它把 Adam 的优化器状态与 master parameters 在 data-parallel 组内分片，解决“大模型还没算起来，优化器状态先把显存吃满”的常见问题。对预训练和 full finetune，这个开关通常比再抠一点 activation 更早见效。

示例

model:
  optim:
    # 让优化器状态在 data-parallel 组内分片，而非每卡都完整复制。
    name: distributed_fused_adam

命令/API/函数

distributed checkpoint

说明

NeMo 文档明确支持用不同张量并行与流水并行规模恢复训练。工程含义是：checkpoint 不再死绑某一套并行拓扑，集群资源变化或实验阶段切换时更容易继续跑。对于多节点预训练，这通常比单文件权重更重要，因为真正昂贵的是“恢复后的继续迭代能力”，而非一次性导出。NeMo 1.x 常见的是

.nemo

归档；NeMo 2.x 则更强调分布式 checkpoint 格式与并行 save/load。

示例

import nemo.collections.asr as nemo_asr

# 经典入口：从 .nemo 归档恢复“权重 + 配置”。
model = nemo_asr.models.EncDecCTCModel.restore_from("asr.nemo")

典型迁移流程：
1. 用小规模 TP/PP 在开发环境调通 recipe。
2. 保存 sharded checkpoint。
3. 夜间切到更大的 TP/PP 或更多节点继续训练。

MindSpeed

MindSpeed 是面向昇腾（Ascend）训练栈的大模型训练加速组件，常和 MindSpore、MindFormers、CANN、以及 Megatron 风格的并行训练脚本一起出现。它的核心价值在于把大模型训练里高频的并行、显存、通信和算子适配工作收敛到 Ascend 生态内，减少从 NVIDIA/CUDA 训练脚本迁移到 NPU 集群时的系统改造成本。

选 MindSpeed 的首要条件是硬件环境。目标集群以 Ascend NPU 为主时，MindSpeed 负责承接大模型训练里的加速与适配；目标集群以 NVIDIA GPU 为主时，DeepSpeed、Megatron、FSDP、NeMo 通常是摩擦更小的路线。这个边界非常关键，因为分布式训练系统的很多能力最终受通信库、编译器、设备运行时和算子覆盖度约束。

安装与版本边界

MindSpeed 的安装需要和 Ascend 驱动、CANN、MindSpore 或 PyTorch NPU 版本矩阵对齐。真实项目里应先固定设备驱动与 CANN 版本，再选择对应的 MindSpeed / MindFormers / torch_npu 组合。

# 只展示源码安装入口；生产环境必须按 Ascend/CANN/框架版本矩阵固定分支。
git clone https://gitee.com/ascend/MindSpeed.git
cd MindSpeed
pip install -e .

Megatron 风格脚本的适配入口

MindSpeed 文档和示例常见的工程形态是：保留 Megatron 风格训练脚本的外形，在启动脚本中引入 MindSpeed 的 adaptor 或训练参数，让底层并行、通信和优化逻辑切到 Ascend 适配实现。下面是概念骨架，具体导入路径与参数需要以当前版本文档为准。

# adaptor 的作用是把 Megatron 风格训练脚本接入 Ascend/MindSpeed 适配层。
# 真实项目中应以当前 MindSpeed 版本的示例脚本为准。
import mindspeed.megatron_adaptor

from pretrain_gpt import train

# train 仍然沿用 Megatron 风格入口；硬件适配由 adaptor 和启动参数接管。
train()

ColossalAI

ColossalAI 的工程定位和 DeepSpeed、Megatron、FSDP 都不完全相同。它更像一层“并行与显存优化注入器”：保留普通 PyTorch 训练循环的外形，再通过

Booster + Plugin

把数据并行、ZeRO、Gemini、Hybrid Parallel、混合精度等能力装进去。对于已经有自己训练脚本、又不想完全改写成另一套框架的人，这种接入方式很有吸引力。

官方文档把插件的适用区间讲得很清楚：Torch DDP 更适合小模型；Torch FSDP 与 LowLevelZeroPlugin 适合中等规模；GeminiPlugin 面向更大的模型与异构内存管理；HybridParallelPlugin 则面向超大模型或长序列场景，把 TP、PP、DDP/ZeRO、Shardformer 与 pipeline manager 统一起来。这个“按插件选路径”的设计，是 ColossalAI 最值得掌握的入口。

命令/API/函数

Booster(plugin=...)

说明

Booster

是当前主线 API，用来接管模型、优化器、criterion、dataloader 与 lr scheduler。它替代了旧时代的

colossalai.initialize

思路，把“并行策略选择”前置成一个显式对象，训练循环本身则尽量保持普通 PyTorch 形态。

示例

from colossalai.booster import Booster
from colossalai.booster.plugin import GeminiPlugin

plugin = GeminiPlugin()  # 这里选 Gemini，是因为它直接提供 Zero-3 + chunk 化异构内存管理。
# bf16 是大模型训练更常见的稳定精度起点。
booster = Booster(mixed_precision='bf16', plugin=plugin)

model, optimizer, _, dataloader, lr_scheduler = booster.boost(
    model=model,                 # 模型在这里被包进并行/显存优化层，而非手工逐段改写。
    optimizer=optimizer,         # 优化器也一起接管，避免参数分片后状态不同步。
    # loss 计算入口保留，但反向传播改由 booster.backward 管理。
    criterion=criterion,
    dataloader=dataloader,       # 某些插件会顺手处理 sampler / device placement。
    lr_scheduler=lr_scheduler,   # 调度器一并纳入，减少“模型被改写后调度器失配”的风险。
)

for batch in dataloader:
    outputs = model(**batch)
    loss = outputs.loss
    booster.backward(loss, optimizer)  # 这一层统一处理 AMP、梯度缩放与分布式同步细节。
    optimizer.step()
    optimizer.zero_grad()

命令/API/函数

GeminiPlugin

说明

GeminiPlugin 封装的是 chunk-based、heterogeneous memory management 风格的 Zero-3 路线。它适合显存已经逼近边界、但又不想立刻把整个项目迁到更重训练系统里的场景。官方推荐区间是 10B 以上模型和中小规模集群，这与它对跨节点带宽的要求相匹配。

示例

from colossalai.booster.plugin import GeminiPlugin

plugin = GeminiPlugin(
    precision='bf16',   # 让参数与计算都走 bf16，兼顾吞吐和数值稳定性。
    # 由插件自动决定张量放在 GPU 还是 host memory，减少手调负担。
    placement_policy='auto',
)

命令/API/函数

HybridParallelPlugin

说明

HybridParallelPlugin 面向“需要 TP + PP + DP/ZeRO 组合”的超大模型训练。它把 Shardformer、pipeline manager、mixed precision 与并行策略绑成一体，适合超长序列、大词表或 60B 以上模型。这个插件的价值不在于多一层包装，而在于它把原本彼此独立的并行配置收拢成一个对象，减少 TP/PP/Zero 参数彼此打架的概率。

示例

from colossalai.booster.plugin import HybridParallelPlugin

plugin = HybridParallelPlugin(
    tp_size=2,                 # 张量并行切两份，先解决单卡放不下的问题。
    pp_size=2,                 # 流水并行切两段，降低单卡激活与参数峰值。
    zero_stage=1,              # 在数据并行维度继续压缩优化器状态。
    precision='bf16',          # 混合精度由插件统一接管，避免和外层 AMP 重复配置。
)

命令/API/函数

colossalai.launch_from_torch() / colossalai run

说明

这是 ColossalAI 最低成本的接入路径。训练脚本里调用

launch_from_torch()

读取 rank/world_size 等环境变量；命令行则用

colossalai run

或

torchrun

起多进程。这样可以先把训练 loop 保持不变，再逐步引入 Booster 与 Plugin，而非一开始就全面重构。

示例

import colossalai

colossalai.launch_from_torch()  # 从 launcher 注入的环境变量建立默认进程组。

colossalai run --nproc_per_node 4 train.py
colossalai run --nproc_per_node 4 --hostfile ./hostfile --master_addr host1 train.py

命令/API/函数

booster.save_model / booster.load_model

说明

Booster 不只接管训练，也接管 checkpoint I/O。对大模型训练，这一点非常重要，因为分片策略、并行包装与 safetensors 格式都会影响保存和恢复路径。

shard=True

可以直接写成 Hugging Face 风格分片目录；

low_cpu_mem_mode

则是在恢复阶段用更低 CPU 内存换取更慢加载。

示例

save_dir = "./ckpt"

booster.save_model(
    model,
    checkpoint=save_dir,
    shard=True,               # 写出分片目录，便于大模型落盘与迁移。
    size_per_shard=1024,      # 每个 shard 上限 1024 MB，减少单文件过大带来的 I/O 问题。
    use_safetensors=True,     # 用 safetensors 提高安全性与加载稳定性。
)

booster.load_model(
    model,
    checkpoint=save_dir,
    low_cpu_mem_mode=True,    # 恢复时优先压低 CPU 峰值内存，适合大模型重载。
)

大模型分布式系统怎么选

系统	自己的特色	优先选择场景
DeepSpeed	ZeRO、Offload、DeepSpeedEngine、配置驱动训练循环，和 Transformers / Accelerate / OpenRLHF 生态集成成熟。	显存主要卡在 optimizer/gradient/parameter state，项目已经基于 PyTorch/HF，或需要 RLHF 框架直接复用 ZeRO 配置。
Megatron-LM / Megatron Core	TP、PP、context parallel、MoE 与 NVIDIA 大模型预训练范式结合紧，适合从训练脚本层面控制并行策略。	从零预训练或继续预训练超大 Transformer，团队能维护复杂训练脚本和并行拓扑。
NeMo	把 recipe、launcher、分布式 checkpoint、Megatron Core 与集群执行器组合成体系化工作流。	训练系统要长期维护，需要从本地调试平滑迁移到 Slurm/Kubernetes/多节点集群。
ColossalAI	Booster + Plugin 接入方式清晰，可在普通 PyTorch loop 外围注入 ZeRO、Gemini、Hybrid Parallel。	已有自定义训练循环，希望保留代码外形，同时加入并行与显存优化。
MindSpeed	面向 Ascend/CANN/NPU 的大模型训练适配与加速，常用于昇腾集群上的 Megatron 风格训练迁移。	目标硬件是 Ascend NPU，需要和 MindSpore / MindFormers / torch_npu / CANN 生态协同。
PyTorch FSDP	PyTorch 原生分片数据并行，接入点在模型 wrapper 或 FSDP2 的 sharding API，减少外部框架依赖。	希望保持 PyTorch-native 栈，配合 Accelerate/Trainer 或自定义训练循环做参数分片。

分片与状态管理

ZeRO

ZeRO（Zero Redundancy Optimizer）的核心思想是：把数据并行中本来每卡都复制一份的三类状态（优化器状态、梯度、参数）分片到不同 rank，从而把“模型状态显存”从 O(N) 降到 O(N/world_size)。DeepSpeed 的 ZeRO Stage 1/2/3 分别对应分片优化器状态、再分片梯度、再分片参数；Stage 3 需要在前向/反向时做参数聚合与再分片。

参数分片

参数分片常见两条路线：DeepSpeed ZeRO-3 与 PyTorch FSDP。两者目标一致，但接入点与约束不同；工程选型通常取决于现有训练栈（Transformers/Accelerate 生态 vs 自定义训练框架）、offload 需求，以及 checkpoint 与集群拓扑迁移的要求。

优化器状态分片

优化器状态（例如 Adam 的一阶/二阶动量）往往占据巨大的显存/内存。ZeRO-1/2 对这部分的分片收益很直接；当显存仍不足时，DeepSpeed 还支持把状态 offload 到 CPU/NVMe（ZeRO-Offload/ZeRO-Infinity），但带宽会成为新的瓶颈，必须依赖重叠与流水化来降低代价。

CUDA 软件栈

CUDA

CUDA 版本与驱动版本的不匹配是训练系统最常见的部署故障源。最小的工程实践是区分两个事实：nvidia-smi 反映的是驱动能力，nvcc 反映的是 toolkit；二者不一致并不必然是错误，但 toolkit 版本若高于驱动支持上限就无法正常工作。部署时以 NVIDIA 的 CUDA Compatibility 文档为准，并用 PyTorch 的

torch.version.cuda

与运行时实际 driver 做交叉验证。

nvidia-smi
nvcc --version

import torch
print(torch.version.cuda)
print(torch.cuda.get_device_name(0))

cuDNN

cuDNN 是卷积、归一化、注意力等基础算子的关键实现来源之一。训练部署阶段更重要的工作是保证：驱动、CUDA toolkit、cuDNN 版本与 GPU 架构落在官方支持矩阵内，并与 PyTorch 及扩展库（FlashAttention、xFormers、bitsandbytes）的编译参数保持一致。

NCCL

NCCL 是 NVIDIA GPU 场景下最常用的分布式通信后端。大规模训练里，通信问题往往表现为：hang、极慢、或者跨机带宽只有理论值的一小部分。排障的第一入口是 NCCL 环境变量日志与网络接口选择。

NCCL 常用环境变量

变量	作用	示例
NCCL_DEBUG	开启 NCCL 日志（INFO/WARN）	export NCCL_DEBUG=INFO
NCCL_DEBUG_SUBSYS	按子系统过滤 NCCL_DEBUG 输出	export NCCL_DEBUG_SUBSYS=INIT,NET
NCCL_SOCKET_IFNAME	指定/过滤用于通信的网卡接口（支持 include/exclude 语法）	export NCCL_SOCKET_IFNAME=eth export NCCL_SOCKET_IFNAME==eth0,eth1 export NCCL_SOCKET_IFNAME=^docker
NCCL_IB_DISABLE	显式禁用 InfiniBand（在 IB 配置不完整时可用于快速隔离问题）	export NCCL_IB_DISABLE=1
NCCL_P2P_DISABLE	禁用 GPU P2P（用于排查 P2P/拓扑相关问题，性能通常会下降）	export NCCL_P2P_DISABLE=1

kernel 与算子级优化

PyTorch SDPA（内置注意力后端选择）

在不引入额外依赖的情况下，优先使用 PyTorch 的

torch.nn.functional.scaled_dot_product_attention

。它会在支持时选择更高性能的 attention 后端（例如 FlashAttention / memory-efficient / cuDNN / math 实现），并将“后端差异”收敛到同一 API 上。后端选择也可通过上下文管理器显式控制。

import torch
import torch.nn.functional as F
from torch.nn.attention import sdpa_kernel, SDPBackend

# 显式指定后端有助于调试“为什么没有走 FlashAttention”这类性能问题。
with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
    out = F.scaled_dot_product_attention(q, k, v, is_causal=True)

Triton

Triton 是面向 GPU kernel 的 Python DSL：通过

@triton.jit

与

triton.language

（tl.*）API，把常见内核模式写成可编译的 Python 函数。工程上 Triton 常作为“自定义融合算子”的落地点：当 PyTorch 原生算子组合产生大量中间张量或访存瓶颈时，用 Triton 把多步计算融合成一个 kernel。

安装

pip install triton

最小 Triton kernel 骨架

import triton
import triton.language as tl

@triton.jit
def add_kernel(x_ptr, y_ptr, out_ptr, n_elements: tl.constexpr, BLOCK: tl.constexpr):
    # pid 表示当前 program 实例编号；它决定本次 kernel 处理输入向量的哪一段。
    pid = tl.program_id(axis=0)
    # offs 是本 block 对应的全局元素下标。
    offs = pid * BLOCK + tl.arange(0, BLOCK)
    # 最后一个 block 往往不满；mask 防止尾部越界 load/store。
    mask = offs < n_elements
    x = tl.load(x_ptr + offs, mask=mask, other=0.0)
    y = tl.load(y_ptr + offs, mask=mask, other=0.0)
    # Triton 的核心价值是把“读 x + 读 y + 写 out”融合成单个 kernel。
    tl.store(out_ptr + offs, x + y, mask=mask)

FlashAttention

FlashAttention 是“精确 softmax attention”的高性能实现：通过 IO-aware 的分块与融合，把注意力的访存与中间张量开销显著压低。工程上常见三条接入路径：

直接使用 PyTorch SDPA，让 PyTorch 在运行时选择 FlashAttention 后端（不额外引入 Python 包）。
引入
```
flash-attn
```
包，显式调用算子。
通过 xFormers 的 attention ops 或上层框架开关间接启用。

显式安装 FlashAttention 涉及 CUDA 扩展编译，部署约束主要集中在：CUDA toolkit、GPU 架构与编译工具链一致性。

安装

pip install flash-attn

编译型依赖：安装过程可能会编译 CUDA 扩展，通常需要可用的 CUDA toolkit、以及可工作的编译链（例如
```
ninja
```
）。
版本约束：FlashAttention 的不同分支/包对 PyTorch 与 CUDA 版本有明确要求；环境固定时以官方 README 的支持矩阵为准。
平台差异：Linux 是最常见的稳定路径；Windows/非常规组合通常更容易落到源码编译与 ABI 问题上。

使用（算子级接入）

from flash_attn import flash_attn_func

# q,k,v: (batch, seqlen, nheads, headdim) 等布局依赖具体函数签名
out = flash_attn_func(q, k, v, dropout_p=0.0, causal=True)

flash-linear-attention（fla）

flash-linear-attention（常见简称 fla）提供线性注意力与相关模块的高性能实现，核心依赖是 PyTorch 与 Triton。工程上它更像一个“可插拔的层/算子库”：只有当模型架构实际使用了这些层（例如某些线性注意力/SSM/hybrid 模块）时，训练与推理才会受益。

安装

pip install flash-linear-attention

# 仅安装核心 kernel/ops（更轻依赖）
pip install fla-core

升级约束

# 升级前，先卸载两个包避免版本冲突
pip uninstall fla-core flash-linear-attention -y
pip install -U flash-linear-attention fla-core

其他加速组件

xFormers

xFormers 提供一组可组合的 Transformer 组件与优化算子。其中最常见的工程入口是 memory-efficient attention：通过统一接口选择不同高性能后端。安装上通常优先用预编译 wheel；当 PyTorch 版本或 CUDA 组合偏离主流时，才会退回到从源码编译。

pip install xformers

from xformers.ops import memory_efficient_attention

# q,k,v 的形状与布局取决于 xFormers 版本与具体 backend
out = memory_efficient_attention(q, k, v)

bitsandbytes

bitsandbytes 提供低比特量化算子与 8-bit/4-bit 训练组件，常见用途是：QLoRA 的 4-bit Linear 层，以及 8-bit Adam 优化器状态以降低显存/内存占用。工程上它的关键点是：安装与平台兼容（CUDA/ROCm/CPU 路径）、以及把模型中的 Linear/Embedding 替换为 bnb 对应模块。

pip install bitsandbytes

常用模块速查

命令/API/函数

bitsandbytes.nn.Linear4bit

说明
QLoRA 4-bit Linear

示例

import torch.nn as nn
from bitsandbytes.nn import Linear4bit
# 先准备一层普通全精度 Linear，模拟“已有 FP16/FP32 权重如何迁到 4bit 模块”。
fp16_model = nn.Linear(64, 64)
q_model = Linear4bit(64, 64)
# load_state_dict 只负责搬运权重数值；量化通常在模块迁移到 CUDA 时真正发生。
q_model.load_state_dict(fp16_model.state_dict())
q_model = q_model.to(0)  # 量化通常在 .to("cuda") 触发

命令/API/函数

bitsandbytes.nn.Linear8bitLt

说明
8-bit Linear

示例

from bitsandbytes.nn import Linear8bitLt
layer = Linear8bitLt(4096, 4096).to(0)

命令/API/函数

bitsandbytes.optim.Adam8bit

说明
8-bit Adam 优化器

示例

import bitsandbytes as bnb
opt = bnb.optim.Adam8bit(model.parameters(), lr=1e-4, min_8bit_size=16384)

数值精度与显存策略

数值精度

混合精度（AMP）是现代训练的默认手段：用

torch.amp.autocast

让部分算子在低精度执行，同时在需要数值范围的地方保留 FP32。对于 FP16 训练，通常需要

torch.amp.GradScaler

做梯度缩放；对于 BF16 训练，很多场景只用 autocast 即可。

import torch
scaler = torch.amp.GradScaler("cuda")
for batch in loader:
    opt.zero_grad(set_to_none=True)
    with torch.amp.autocast("cuda", dtype=torch.float16):
        # 这里假设模型 forward 返回带 .loss 的对象；HF/TRL 训练栈经常如此约定。
        loss = model(batch).loss
    scaler.scale(loss).backward()
    scaler.step(opt)
    # update 会根据本步是否溢出动态调整下一轮的缩放因子。
    scaler.update()

TF32（矩阵乘加路径）

TF32 只影响部分 FP32 矩阵乘（matmul/conv）在 Tensor Core 上的执行路径。它属于“性能换数值精度”的系统开关，通常通过 PyTorch 的 backend 选项控制。

import torch

torch.backends.cuda.matmul.allow_tf32 = True
torch.backends.cudnn.allow_tf32 = True

# 新版本也可用更高层的 matmul 精度策略
torch.set_float32_matmul_precision("high")

训练稳定性策略

重算策略

Activation checkpointing（重算）用计算换显存：前向不保存中间激活，反向时按需重新执行前向片段。PyTorch 的直接入口是

torch.utils.checkpoint.checkpoint

。工程上需要明确它的副作用：重算会改变“前向执行次数”，涉及 RNG 或跨设备拷贝的代码必须被审计，否则可能出现非确定性或性能退化。

import torch
from torch.utils.checkpoint import checkpoint
def block(x):
    # 被 checkpoint 包住的子图不会保存完整激活，反向时会重算这一段前向。
    return layer2(layer1(x))
y = checkpoint(block, x, use_reentrant=False)

量化训练与低比特微调

低比特微调常见路线是 QLoRA：权重以 4-bit 存储，计算与梯度在更高精度上进行，训练的增量参数由 LoRA 承担。工程落地通常依赖 bitsandbytes 的 4-bit Linear 与上层微调框架（PEFT/Transformers）；底层约束集中在：GPU/驱动/CUDA 兼容、量化算子是否可用、以及与 FSDP/ZeRO 的组合边界。

工程组合边界

4-bit 权重 + 分片：参数分片（FSDP/ZeRO-3）与 4-bit 权重量化都在改写参数表示，组合时需要确认框架对“量化权重的 all-gather/重分片”路径是否支持。
offload：把模型状态 offload 到 CPU/NVMe 会引入额外带宽瓶颈，必须配合 micro-batch、重算与通信重叠，否则吞吐会显著下降。
验证方式：先在单机单卡确认量化算子可用，再扩展到单机多卡，最后扩展到多机，逐层隔离问题源。

模型交换、导出与部署格式

“能训练”与“能部署”之间隔着一条很长的工程链路：模型从训练框架导出成某种中间表示，再由运行时加载并在特定硬件上执行。真正决定链路质量的是导出语义是否稳定、后端算子是否覆盖、部署环境是否可复现。

这一节按部署侧常见的三条路线组织：

通用交换：PyTorch → ONNX → ONNX Runtime
NVIDIA GPU 推理：PyTorch/ONNX → TensorRT 或 TensorRT-LLM
Intel CPU/iGPU 推理：ONNX → OpenVINO（可选 IR 转换）→ OpenVINO Model Server

最后补齐两类“本地模型分发格式”：safetensors（安全权重）、GGUF/GGML（llama.cpp 系列推理栈），以及 Hugging Face Hub 的下载与离线部署。

ONNX

ONNX（Open Neural Network Exchange）是交换层：把训练框架里的前向计算图与权重，以跨框架可读的形式表达出来。部署侧更关心两个版本概念：IR version（中间表示版本）与 opset version（算子集合版本）。opset 变更意味着算子语义或签名变化，直接影响“模型能否被某个 runtime 正确执行”。

安装

pip install onnx

导出：PyTorch → ONNX（推荐 torch.export / TorchDynamo 路线）

PyTorch 的 ONNX 导出路线在持续演进。工程上更推荐走

torch.export

/TorchDynamo 为基础的导出路径（例如

torch.onnx.export(..., dynamo=True)

），以获得更稳定的图捕获与更好的算子覆盖。

import torch

class MyModel(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = torch.nn.Linear(8, 4)
    def forward(self, x):
        # ONNX 导出只关心前向图；这里故意保持 forward 为纯张量运算。
        return torch.relu(self.linear(x))
model = MyModel().eval()
x = torch.randn(1, 8)
torch.onnx.export(
    model,
    (x,),
    "my_model.onnx",
    input_names=["x"],
    output_names=["y"],
    dynamo=True,  # 推荐的新导出逻辑
)

模型权重很大时，需要考虑外部权重（external data）：单个 ONNX 文件存在体积限制，导出时可以把权重拆到额外文件中，并让 ONNX 图引用它们。

ONNX 基础验证

部署前至少做两步静态检查：载入与 checker。最常见的失败来自 opset 不匹配、导出遗漏常量折叠、或动态控制流无法被捕获。

import onnx

m = onnx.load("my_model.onnx")
onnx.checker.check_model(m)

常见坑

opset 不匹配：导出使用了较新的 opset，但 runtime/后端只支持较旧 opset，表现为“能 load 但执行时报不支持的算子/属性”。
动态形状：ONNX 本身可以表达动态维度，但后端是否支持、以及是否需要 shape inference/优化，是另一回事。实践里建议先固定 batch/seq 长度跑通，再逐步放开。
大模型外部权重：超过单文件限制时，ONNX 可能以 external data 形式拆成多文件。部署与转换时必须保证目录结构完整，并确保 runtime 能在正确的 base_dir 下加载外部权重文件。

ONNX Runtime

ONNX Runtime（ORT）是执行层：加载 ONNX 图并在不同硬件后端上执行。它通过 Execution Providers（EP）把算子下沉到不同加速库（CPU、CUDA、TensorRT 等）。部署编程上，核心对象是

InferenceSession

。

安装（CPU / GPU）

实践里同一个 Python 环境通常只安装一个 ORT 包（CPU 或 GPU）。GPU 包覆盖大部分 CPU 功能，但仍需要关注 CUDA/cuDNN 与驱动版本匹配。

# CPU
pip install onnxruntime

# GPU（默认 CUDA 12.x）
pip install onnxruntime-gpu

最小可用推理代码

import numpy as np
import onnxruntime as ort

# 不传 providers 时通常先走 CPU provider；语义先跑通，再切 GPU/TensorRT provider。
sess = ort.InferenceSession("my_model.onnx")

# 输入 key 必须和导出时的 input_names 对齐；ORT 不会替你猜字段名。
x = np.random.randn(1, 8).astype(np.float32)
y = sess.run(None, {"x": x})

Execution Provider 选择与回退

服务端通常需要显式选择 EP，并提供“失败回退到 CPU”的策略。最常见的做法是按优先级传入 providers 列表。

import onnxruntime as ort

# provider 列表的顺序就是回退顺序：CUDA 失败时，再落到 CPU。
providers = [
    "CUDAExecutionProvider",
    "CPUExecutionProvider",
]
sess = ort.InferenceSession("my_model.onnx", providers=providers)

常用API

命令/API/函数

ort.InferenceSession

说明
加载模型、选择 EP、执行推理

示例

sess = ort.InferenceSession(
    "my_model.onnx",
    providers=["CUDAExecutionProvider", "CPUExecutionProvider"],
)

命令/API/函数

sess.get_inputs()

说明
枚举输入名、dtype、shape（用于接入层校验）

示例

inputs = sess.get_inputs()
for i in inputs:
    print(i.name, i.type, i.shape)

命令/API/函数

sess.run

说明
执行推理

示例

outputs = sess.run(None, {"x": x_np})

常见坑

CUDA 版本对齐：
```
onnxruntime-gpu
```
与本机 CUDA/cuDNN/驱动组合必须匹配，否则会出现 provider 初始化失败或动态库缺失。
输入 dtype：推理时 numpy 的 dtype 必须与模型输入一致（例如 fp32），否则会报类型不匹配。
EP 支持度：同一个模型在不同 EP 上算子覆盖不同，部署前需要用真实模型做冒烟测试，遇到不支持算子时要么回退到 CPU，要么调整导出图/替换算子。

TensorRT

TensorRT 是 NVIDIA GPU 上的推理优化与运行时：它把 ONNX 模型解析到网络图，再由 Builder 构建优化后的 engine（plan）。构建通常离线完成，线上只加载 engine 并执行。

安装

TensorRT 提供多种安装方式（容器、Debian、pip wheel）。工程上常见的两条路径是：

开发环境：用 pip 安装
```
tensorrt
```
（或精简运行时变体），配合本机 CUDA 与驱动。
生产环境：以容器为主，把驱动与 CUDA 依赖固化在镜像与运行时约束里。

# pip 安装（示例：按实际平台与版本选择合适包名）
# 先把 pip 升到足够新，避免解析不到当前平台对应的 TensorRT wheel。
python -m pip install -U pip

# 标准 Python 运行时包，适合本机开发或最小接入。
pip install tensorrt

# 只需要加载现成 engine 的瘦镜像可考虑 lean runtime。
pip install tensorrt_lean

ONNX → TensorRT engine（两种入口）

TensorRT 有两个常见入口：命令行工具（快速验证）与 Python/C++ API（集成到服务）。典型流程是用 TensorRT ONNX parser 导入 ONNX，再由 Builder 生成 engine。

1) 命令行（trtexec）

# 典型用法：从 ONNX 构建 engine
# 构建或测试 TensorRT engine。
trtexec --onnx=my_model.onnx --saveEngine=my_model.plan

# 若需要 FP16
# 构建或测试 TensorRT engine。
trtexec --onnx=my_model.onnx --saveEngine=my_model.plan --fp16

# 动态 shape（示例：按你的真实输入名与维度填写）
# 构建或测试 TensorRT engine。
trtexec --onnx=my_model.onnx --saveEngine=my_model.plan \
  --minShapes=x:1x8 --optShapes=x:16x8 --maxShapes=x:64x8

2) Python API（OnnxParser + Builder）

import tensorrt as trt

# WARNING 足够看到 parser/build 失败，但不会被 INFO 级日志刷屏。
logger = trt.Logger(trt.Logger.WARNING)
builder = trt.Builder(logger)
# EXPLICIT_BATCH 让 batch 维进入网络定义；现代 ONNX/TensorRT 路线基本都依赖它。
network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
parser = trt.OnnxParser(network, logger)

with open("my_model.onnx", "rb") as f:
    ok = parser.parse(f.read())
    if not ok:
        # parser.num_errors / parser.get_error(i) 可用于定位不支持算子
        raise RuntimeError("ONNX parse failed")

常见坑

engine 可移植性：TensorRT engine 受平台、GPU 架构、TensorRT 版本与构建参数影响。需要跨版本或跨架构复用时，必须显式开启对应的兼容模式；否则默认情况下不具备可移植性。
动态形状与 profile：动态 shape 通常需要显式设置 optimization profile，否则构建或运行会失败。
算子覆盖：ONNX parser 报错时，优先从“导出是否落到标准算子”排查；其次考虑 TRT 插件或改写模型。

TensorRT-LLM

TensorRT-LLM 是面向 LLM 的 TensorRT 构建与运行时栈：提供 Python API 和服务端组件，把 LLM 的 KV cache、注意力优化、量化与服务化接口封装成一条更完整的部署链。快速落地通常走官方容器路线，然后用

trtllm-serve

启动 OpenAI-compatible server。

安装与启动（推荐容器路线）

TensorRT-LLM 更偏“完整部署栈”，依赖 CUDA、TensorRT、编译链与模型支持矩阵。工程上优先选择官方预构建容器，在容器内完成转换、build 与 serve。

在线部署：trtllm-serve（OpenAI-compatible）

# 容器内启动服务（示例）
trtllm-serve "TinyLlama/TinyLlama-1.1B-Chat-v1.0"

启动后可访问标准 OpenAI 端点（例如

/v1/chat/completions

）。

# 用最小请求验证 TensorRT-LLM 服务是否已经能完成一次完整生成。
curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "TinyLlama/TinyLlama-1.1B-Chat-v1.0",
    "messages": [{"role": "user", "content": "Where is New York?"}],
    "max_tokens": 32,
    "temperature": 0
  }'

真实部署里，

trtllm-serve

通常还要补一层配置：并行规模、batch/token 上限、KV cache 预算、served model name、日志与 tracing 端点。它更接近“一个完整的服务进程”，而非单纯把 Python 模型对象暴露成 HTTP。

离线推理：LLM API

TensorRT-LLM 同时提供 Python 侧的 LLM API：给定 Hugging Face repo 或 checkpoint，API 负责加载、优化与推理编排。对工程团队而言，这条路径适合把“推理服务”嵌入到现有 Python 服务栈中，但需要更细致的版本与环境锁定。

from tensorrt_llm import LLM, SamplingParams

llm = LLM(
    # 直接把模型身份交给 TensorRT-LLM，由其接管构建与执行细节
    model="TinyLlama/TinyLlama-1.1B-Chat-v1.0",
)
params = SamplingParams(
    temperature=0.0,  # 这里显式关采样，得到稳定的离线回归结果
    max_tokens=32,    # 离线批处理同样需要 token 上限，否则容易把单次任务拖得过长
)
outputs = llm.generate(["Where is New York?"], sampling_params=params)

高频部署参数：model_dir / output_dir / tp_size / pp_size

从工程脚本分布看，TensorRT-LLM 的高频入口明显集中在“模型输入目录、engine 输出目录、以及并行切分规模”。这说明它的主工作流核心是“先准备构建输入，再显式产出 engine 制品，然后按并行规模上线”。

命令/API/函数

--model_dir

说明
指定待转换/待构建的模型目录。它通常指向 Hugging Face checkpoint、本地导出目录或经过预处理的权重目录，是整个构建链路的输入端。

示例

trtllm-build \
  --model_dir /models/llama3-hf \
  --output_dir /engines/llama3_tp2

命令/API/函数

--output_dir

说明
指定 TensorRT-LLM 产出的 engine 制品目录。它核心是后续 serve/load 真正要消费的部署产物。

示例

trtllm-build \
  --model_dir /models/llama3-hf \
  --output_dir /engines/llama3_tp2

命令/API/函数

--tp_size

说明
张量并行规模。它决定一个模型副本会被切到多少张 GPU 上，也直接影响 engine 构建结果是否能在目标机器上落地。

示例

trtllm-build \
  --model_dir /models/llama3-hf \
  --output_dir /engines/llama3_tp4 \
  --tp_size 4

命令/API/函数

--pp_size

说明
流水并行规模。模型超过单机或需要按层切分时，会和

tp_size

一起决定 engine 的并行拓扑。

示例

trtllm-build \
  --model_dir /models/llama3-hf \
  --output_dir /engines/llama3_tp4_pp2 \
  --tp_size 4 \
  --pp_size 2

这类参数和 vLLM 的

tensor_parallel_size

pipeline_parallel_size

在工程意图上是同一类东西：描述“一个模型副本如何切到多卡”。区别在于，TensorRT-LLM 往往把这件事更早固化到 engine 构建产物里，因此部署时必须让“构建时并行拓扑”和“上线时硬件拓扑”保持一致。

OpenVINO

OpenVINO 面向 Intel CPU/iGPU/加速器的推理栈。它既能直接加载 ONNX，也能把 ONNX 转换成 OpenVINO IR（xml+bin）。如果关注加载延迟或希望提前做图优化，通常会先把 ONNX 转成 IR。

安装

pip install openvino

ONNX → OpenVINO IR（Python API）

import openvino as ov

ov_model = ov.convert_model("your_model_file.onnx")

OpenVINO Model Server：LLM QuickStart

OpenVINO Model Server（OVMS）提供服务化部署。它支持以 Docker 启动，指定

--source_model

从 Hugging Face 拉取已转换的 OpenVINO 模型，并暴露 OpenAI 风格 API。

# OVMS 会把下载/转换后的模型文件写入这个目录，便于持久化和排错。
mkdir -p models
# 这里直接拉起模型服务进程；source_model 指向可被 OVMS 识别的模型仓库。
docker run -d --rm -p 8000:8000 \
  -v $(pwd)/models:/models:rw \
  openvino/model_server:2026.1-gpu \
  --source_model OpenVINO/Qwen3-8B-int4-ov \
  --model_repository_path models \
  --task text_generation \
  --rest_port 8000 \
  --target_device GPU

OVMS 也支持用 OpenAI Python client 直接调用（base_url 指向 OVMS）。

常见坑

外部权重 ONNX：若 ONNX 以 external data 拆成多文件，必须保持主 onnx 与外部权重文件的目录关系可发现。
硬件选择：OVMS 需要正确设置 target_device，并保证容器或主机具备对应设备节点与驱动。

本地推理权重格式

safetensors

safetensors 的工程定位是“替代 pickle 的安全权重格式”：可做 zero-copy 加载，并显式避免任意代码执行风险。它主要服务于权重分发与加载，不承担跨硬件优化执行这一层职责。

pip install safetensors

from safetensors import safe_open
from safetensors.torch import save_file
import torch

# safetensors 约定传入“张量名 -> 张量值”的普通 dict。
tensors = {"w": torch.zeros((2, 2))}
save_file(tensors, "model.safetensors")

# safe_open 允许按 key 惰性读取，不必一次性 materialize 整个文件。
loaded = {}
with safe_open("model.safetensors", framework="pt", device=0) as f:
    for k in f.keys():
        loaded[k] = f.get_tensor(k)

按 key 读取（或切片读取）是 safetensors 的常见用法：多 GPU 分片加载、按需加载 embedding 表等场景，会用它降低峰值内存。

GGML

GGML 是 llama.cpp 早期使用的权重格式/生态名词之一。当前工程实践中，GGUF 更常作为“可分发的最终产物”。GGML 更适合理解为历史兼容路径：遇到旧模型时需要能识别与迁移。

GGUF

GGUF 是 llama.cpp 生态的主流分发格式。典型链路是：从 Hugging Face 模型（safetensors/pytorch）转换到 GGUF，再选择量化方案，最后交给 llama.cpp 或 Ollama 运行。llama.cpp 仓库提供了

convert_hf_to_gguf.py

等脚本作为转换入口。

# 转 GGUF 最常见的起点仍然是 llama.cpp 仓库自带的转换脚本。
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# requirements.txt 主要提供 tokenizer 与权重转换依赖。
pip install -r requirements.txt

# 先看 --help 再决定模型目录、量化格式和 tokenizer 文件来源。
python convert_hf_to_gguf.py --help

GGUF 的常见坑是 tokenizer 与特殊 token：转换时必须保证 tokenizer 文件齐全（例如 sentencepiece model 或 BPE merges/vocab），否则会出现“能推理但输出严重异常”的隐蔽故障。

模型获取与分发工具

huggingface_hub

huggingface_hub 是下载与缓存的编程入口：它把“下载”变成版本化缓存，并返回本地路径。缓存路径指向的文件不应该被修改，否则会污染缓存并产生难以排查的线上问题。

pip install huggingface_hub

常用API

命令/API/函数

hf_hub_download

说明
下载单个文件（带缓存与 revision）

示例

from huggingface_hub import hf_hub_download

# revision 最好固定到 tag 或 commit，避免同一个 repo 名字在不同时间解析到不同内容。
path = hf_hub_download(
    repo_id="lysandre/arxiv-nlp",
    filename="config.json",
    revision="main",
)

命令/API/函数

snapshot_download

说明
下载整个仓库（支持 allow/ignore patterns）

示例

from huggingface_hub import snapshot_download

# 只把部署真正需要的文件拉下来，避免把不必要的大 bin 文件一起缓存。
local_path = snapshot_download(
    repo_id="TinyLlama/TinyLlama-1.1B-Chat-v1.0",
    revision="main",
    allow_patterns=["*.safetensors", "*.json"],
)

命令/API/函数

HfApi(endpoint=...)

说明
对接私有 Hub/镜像，显式指定 endpoint

示例

from huggingface_hub import HfApi

api = HfApi(endpoint="https://huggingface.co")
models = api.list_models(search="bert")

命令/API/函数

hf_hub_url

说明
构造下载 URL（用于调试/审计）

示例

from huggingface_hub import hf_hub_url
url = hf_hub_url("lysandre/arxiv-nlp", "config.json")

命令/API/函数

hf

CLI

说明
登录、下载、缓存管理

示例

# 安装与查看
hf --help

# 按 revision 固定下载
# include/exclude 让下载集合显式可控，便于做离线部署清单。
hf download TinyLlama/TinyLlama-1.1B-Chat-v1.0 \
  --revision main \
  --include "*.safetensors" --exclude "*.bin"

huggingface_hub 的环境变量用于把缓存与认证变成可运维配置：

HF_HOME

、

HF_HUB_CACHE

、

HF_TOKEN

等。它们通常在 import 时读取，生产环境必须保证“进程启动前配置好”。

离线模式与版本固定

离线部署首先要把所有文件按 revision 固定并落到可控目录，然后再在离线环境启用 offline 开关。仅仅让

from_pretrained

在离线环境里可调用，并不足以保证整条部署链稳定。

# 1) 先下载到可控缓存目录（示例）
# 先把 Hub 缓存放到大磁盘或共享卷，避免默认写满系统盘。
export HF_HOME=/data/hf
export HF_HUB_CACHE=/data/hf/hub
# 第一次必须在线下载完整模型，离线模式只负责“后续不再触网”。
hf download TinyLlama/TinyLlama-1.1B-Chat-v1.0 --revision main

# 2) 再把运行环境切到离线（示例：以你实际依赖版本为准）
# 这三层开关分别作用于 hub、transformers 和 datasets。
export HF_HUB_OFFLINE=1
export TRANSFORMERS_OFFLINE=1
export HF_DATASETS_OFFLINE=1

对关键模型，revision 固定到 tag/commit hash，并把下载产物做 manifest（文件列表 + 哈希）。
离线开关：Hugging Face 生态里存在多层 offline 变量（例如 hub、transformers、datasets 各自的 offline 模式）。团队需要以“实际依赖版本”为准做一次演练，确认每个库在离线环境的行为一致。

hf-mirror 与中国大陆下载

中国大陆环境常见问题是“访问 Hugging Face 资源不稳定”。工程上有两条可控路径：

内部镜像：自建 mirror 服务，把下载变成内网依赖。
第三方镜像：通过环境变量把下载 base url 指向镜像站点。

对镜像/私有 Hub 的对接，优先使用显式 endpoint：Python 侧使用

HfApi(endpoint=...)

；命令行侧则使用统一的网络出口与缓存目录策略。部分旧版本 API 说明也记录了

HF_ENDPOINT

这类环境变量用法，但它是否生效取决于你实际安装的 huggingface_hub 版本。

# 把 Hugging Face 的下载端点切到镜像（示例）
export HF_ENDPOINT=https://hf-mirror.com

需要评估：hf-mirror 属于第三方服务，可靠性与合规性需要业务自行评估。能自建镜像或把模型产物纳入制品库（artifact repository）的团队，应优先选择可控方案。

典型部署链路速查

目标	链路	适用场景	常见坑
跨框架推理	PyTorch → ONNX → ONNX Runtime	多语言客户端、跨平台部署	opset/EP 不匹配，动态形状处理
NVIDIA GPU 高性能推理	PyTorch/ONNX → TensorRT engine	低延迟/高吞吐服务	engine 不可跨 GPU/版本复用，profile/插件
NVIDIA LLM 服务化	HF checkpoint → TensorRT-LLM → trtllm-serve	OpenAI-compatible LLM server	模型支持矩阵、量化/精度要求、容器化依赖
Intel LLM 服务化	ONNX → OpenVINO（可选 IR）→ OVMS	CPU/iGPU 部署、边缘与本地服务	外部权重、设备映射与驱动
本地量化推理	HF → GGUF → llama.cpp/Ollama	本地开发、边缘设备	tokenizer 文件缺失、量化质量与兼容性

推理引擎与服务系统

推理引擎与服务系统把“模型权重 + 推理优化”交付为“可稳定承载并发请求的 API”。服务端需要长期管理 prefill/decode 调度、KV cache 生命周期、批处理策略、流式输出、并发隔离、模型加载与热更新等工程问题。

LLM 推理引擎

常见推理栈可以按落地点分为三类：面向 GPU 的在线推理引擎（vLLM、SGLang、LMDeploy、TGI）、面向本地/边缘的运行时（llama.cpp、Ollama），以及更贴近硬件厂商优化栈的服务框架（如 TensorRT-LLM / Triton 一类）。工程选型通常先定两件事：服务端是否提供 OpenAI-compatible API，以及是否需要多 GPU/多节点的原生支持。

推理栈	自己的特色	优先选择场景
vLLM	PagedAttention、continuous batching、OpenAI-compatible server、离线批推理与服务端参数面成熟。	通用高吞吐在线服务，尤其是多租户 chat/completions、批量生成、RAG 后端推理。
SGLang	推理控制流、结构化输出、tool parser、reasoning parser、RL rollout 控制接口更突出。	需要多步推理编排、Agent/工具调用、在线 RLHF rollout 或复杂结构化生成。
LMDeploy	TurboMind/PyTorch 双后端、量化与中文开源模型部署生态完整，离线 pipeline 与在线 API server 都覆盖。	国产模型、VLM、多量化路线验证，以及希望在同一工具链里完成量化、部署和批推理。
TGI	Hugging Face 官方服务端路线，和 Hub、tokenizer、模型配置、Prometheus 指标体系结合紧。	团队已经重度使用 Hugging Face Hub，希望推理服务与 HF 生态保持一致。
TensorRT-LLM / Triton	面向 NVIDIA GPU 的深度优化路线，强调 engine 构建、算子融合、低延迟和生产部署治理。	延迟/吞吐指标极端敏感，团队有能力维护模型编译、engine 版本和 Triton 部署链路。
llama.cpp / Ollama	本地与边缘运行友好，CPU/GPU 混合、GGUF、桌面/开发机部署成本低。	个人开发、边缘设备、内网原型、小模型本地服务，或需要极低运维成本的演示系统。

vLLM

vLLM 是面向高吞吐服务端推理的引擎。它通过 PagedAttention 管理 KV cache，并采用 continuous batching 处理变长请求，从而在并发场景下维持 GPU 利用率。生产系统里最常用的入口是 OpenAI-compatible server（HTTP）。

安装与启动

安装时优先按官方指引为目标平台准备匹配的 PyTorch（CUDA/ROCm/CPU），再安装 vLLM。常见启动方式如下：

# pip install vllm
# 启动 vLLM 服务。
vllm serve meta-llama/Meta-Llama-3-8B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype auto \
  --api-key token-abc123

容器化部署通常使用官方镜像，并把 Hugging Face 缓存目录挂载到容器内，避免重复下载权重：

# 把模型缓存目录挂到宿主机，避免容器重启后重新下载整套权重。
docker run --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -p 8000:8000 \
  --ipc=host \
  vllm/vllm-openai:latest \
  --model meta-llama/Meta-Llama-3-8B-Instruct

OpenAI-compatible API（调用与流式输出）

OpenAI-compatible server 的目标是复用现有的 OpenAI SDK。调用方式只需要把

base_url

指向自托管服务即可：

from openai import OpenAI

# 只需要改 base_url，就能复用现成的 OpenAI SDK 与上层业务封装。
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token-abc123")
resp = client.chat.completions.create(
    model="meta-llama/Meta-Llama-3-8B-Instruct",
    messages=[{"role": "user", "content": "Hello!"}],
    temperature=0.2,
    max_tokens=128,
)
print(resp.choices[0].message)

流式输出通常使用 SSE；请求里把

stream

设为 true 即可：

# 这条请求验证的是 SSE 流式协议，不代表服务已经调到最佳吞吐。
curl http://localhost:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer token-abc123' \
  -d '{
    "model": "meta-llama/Meta-Llama-3-8B-Instruct",
    "messages": [{"role":"user","content":"Hello!"}],
    "stream": true
  }'

关键服务参数（常用 Engine Args）

vLLM 的参数很多，但多数服务化场景只需要围绕“显存预算、并发上限、上下文长度、缓存开关”做控制。

参数	含义	典型影响
--max-model-len	最大上下文长度	上限越大，KV cache 预算越高；并发上限通常随之下降
--gpu-memory-utilization	显存预算比例	控制 KV cache 可用空间，影响 OOM 风险与吞吐
--max-num-batched-tokens	每步调度的 token 预算上限	增大可提升吞吐，但可能增加尾延迟
--max-num-seqs	并发序列数上限	控制并发度与资源争用，影响延迟与稳定性
--kv-cache-dtype	KV cache 存储精度	更激进的 KV 精度可降低显存/带宽，但需要评估质量影响
--enable-prefix-caching	启用前缀缓存（Prompt Caching）	前缀重复多的业务可显著减少 prefill 成本
--generation-config	generation_config 的优先级策略	影响默认采样参数来源，避免线上采样行为“悄悄变了”

多 GPU 与多节点部署

服务化推理的常见拓扑是“单实例多 GPU（TP/PP）”与“多副本横向扩展”。横向扩展更依赖网关/LB 做副本路由；多数引擎把 KV cache 作为进程内状态，因此跨副本共享缓存并不常见。

single instance:
  [client] -> [inference server] -> [1 GPU]

single instance, multi-GPU:
  [client] -> [inference server] -> [TP/PP over N GPUs]

replicas:
  [client] -> [LB / gateway] -> [replica-1] / [replica-2] / ...

SGLang

SGLang 以“推理编排能力 + OpenAI-compatible API”为核心卖点。工程上它常用于需要多步推理控制流、工具调用编排、以及对思维链/推理输出有结构化处理的在线系统。

安装与启动

SGLang 的启动入口可以是

sglang serve

或

python -m sglang.launch_server

，两者本质上都是启动一个 OpenAI-compatible server。

# 先装 SGLang 本体；更复杂的推理优化与多卡参数再逐步叠加。
pip install -U sglang

# launch_server 会直接启动 OpenAI-compatible HTTP 服务。
python -m sglang.launch_server \
  --model-path qwen/qwen2.5-0.5b-instruct \
  --host 0.0.0.0 \
  --port 30000 \
  --log-level warning

OpenAI-compatible API 调用

from openai import OpenAI

# base_url 改成 SGLang 地址后，应用侧调用代码可以与 OpenAI/vLLM 基本保持一致。
client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY")
resp = client.chat.completions.create(
    model="qwen/qwen2.5-0.5b-instruct",
    messages=[{"role": "user", "content": "List 3 countries and their capitals."}],
    temperature=0,
    max_tokens=64,
)
print(resp.choices[0].message)

多节点与并行参数（概念）

SGLang 支持多 GPU 与多节点部署。多节点部署通常需要显式指定节点数量、节点 rank、以及通信初始化地址；并行规模与模型大小共同决定权重切分与显存预算。

RL 控制面：暂停生成、释放显存与热更新权重

SGLang 的一个实用能力是把 rollout 训练需要的控制接口直接暴露成服务端 API。在线 RLHF 或 agentic training 中，训练进程常常需要临时暂停生成、更新服务权重，再继续 rollout，而非每轮都整机重启服务。

POST /pause_generation
POST /continue_generation
POST /release_memory_occupation
POST /resume_memory_occupation
POST /update_weights_from_disk
POST /update_weights_from_tensor
POST /update_weights_from_distributed

这类接口的工程意义是把“推理服务”和“训练进程”解耦成两个组件：训练侧负责产出新权重或张量切片，服务侧负责在不中断整个进程生命周期的前提下完成切换。

Prefill / Decode 解耦与服务参数面

SGLang 已经把 prefill/decode 解耦、请求时延统计、grammar parser、tool-call parser 这些生产特性收进了同一套参数面。长上下文和高并发系统里，这些参数往往比“选哪一个底座模型”更决定最终吞吐。

python -m sglang.launch_server \
  --model-path qwen/qwen2.5-7b-instruct \
  --disaggregation-mode prefill \
  --disaggregation-transfer-backend mooncake \
  --disaggregation-bootstrap-port 25000

python -m sglang.launch_server \
  --model-path qwen/qwen2.5-7b-instruct \
  --disaggregation-mode decode \
  --disaggregation-bootstrap-port 25000 \
  --enable-metrics \
  --reasoning-parser deepseek-r1 \
  --tool-call-parser hermes

LMDeploy

LMDeploy 是近两年在中文开源生态里非常值得单独掌握的一条推理主线。它既能做离线

pipeline()

批推理，也能直接起 OpenAI-compatible API server；同时把量化、KV cache、prefix caching、结构化输出、多模型分发这些部署细节都做进了同一套工具链。它和 vLLM 的关系更像“并列路线”而非简单替代：vLLM 更强调通用高吞吐服务；LMDeploy 则把 TurboMind、PyTorch 双后端、AWQ/GPTQ、KV cache quant、VLM 与多机分发整合得更紧。

这套栈的关键知识点有三个。第一，离线与在线入口统一，很多参数在

pipeline

与

serve api_server

之间可以一一映射。第二，后端并不只有一个：默认会优先选择 TurboMind，但也可以显式切换到 PyTorch backend。第三，

cache_max_entry_count

、

session_len

、

--tp

这几个参数几乎直接决定 GPU 显存水位与上下文能力，是部署时最先要调的旋钮。

命令/API/函数

lmdeploy check_env

说明

部署前的环境探针。它的价值核心是先确认当前机器到底具不具备 TurboMind/PyTorch backend 所需的依赖与设备能力。多机服务里，这一步应该写进部署前检查，而非靠第一次起服务时报错再回头排查。

示例

lmdeploy check_env

命令/API/函数

pipeline(..., backend_config=...)

说明

离线推理入口。若不显式指定后端，LMDeploy 会按能力自动选引擎，默认优先 TurboMind。对批量生成、离线评测和服务前 smoke test，这个入口通常比先起 HTTP 服务更省事。官方文档特别强调

cache_max_entry_count

会直接控制加载权重后可用于 KV cache 的空闲显存比例，很多“OOM 看起来像模型太大”的问题，本质上都是这里设得太激进。

示例

from lmdeploy import pipeline, GenerationConfig, TurbomindEngineConfig

pipe = pipeline(
    'internlm/internlm2_5-7b-chat',
    backend_config=TurbomindEngineConfig(
        # 把上下文上限显式定住，避免默认值和业务预期不一致。
        session_len=8192,
        max_batch_size=32,             # 离线批推理需要先定一个安全 batch 上限。
        # 多条 prompt 前缀重复时，可以直接省掉大量 prefill。
        enable_prefix_caching=True,
        cache_max_entry_count=0.6,     # 预留更多显存给权重与中间缓冲，先换取稳定不 OOM。
    ),
)

resp = pipe(
    ['Hi, please introduce yourself.'],
    gen_config=GenerationConfig(
        # 离线评测里要限制最长输出，避免单条坏样本拖垮整批任务。
        max_new_tokens=256,
        top_p=0.8,
        temperature=0.6,
    ),
)

命令/API/函数

lmdeploy serve api_server

说明

在线服务入口。它直接暴露 OpenAI-compatible API，因此可以被 OpenAI SDK、LangChain、OpenCompass 等上层系统直接接入。参数面和离线后端配置几乎一致，最常调的是

--tp

、

--session-len

、

--cache-max-entry-count

与端口。

示例

lmdeploy serve api_server internlm/internlm2_5-7b-chat \
  --server-port 23333 \
  --backend turbomind \
  --tp 2 \
  --session-len 8192 \
  --cache-max-entry-count 0.6

命令/API/函数

TurbomindEngineConfig / PytorchEngineConfig

说明

这两个配置对象决定底层执行后端。TurboMind 是偏性能导向的 C++/CUDA 引擎；PyTorch backend 更接近 Python 生态，扩展门槛更低。工程上常见做法是：先用 PyTorch backend 验证新模型与新模板，再切 TurboMind 做正式服务，或者在某些结构化输出/兼容性场景保留 PyTorch backend。

示例

from lmdeploy import pipeline, PytorchEngineConfig

pipe = pipeline(
    'internlm/internlm2-chat-1_8b',
    backend_config=PytorchEngineConfig(
        session_len=4096,             # 开发验证阶段先缩上下文，减少调试时的显存占用。
        cache_max_entry_count=0.5,    # 给 kernel 编译和其他进程留出缓冲。
        enable_prefix_caching=True,
    ),
)

命令/API/函数

structured output

说明

LMDeploy 现在在 TurboMind 与 PyTorch backend 上都支持 schema-constrained generation，可以直接约束成 JSON schema、grammar 或 regex。对工具调用、结构化抽取、RAG 结果写回数据库，这类能力比“生成后再修 JSON”稳定得多。

示例

from lmdeploy import pipeline, GenerationConfig, PytorchEngineConfig

schema = {
    'type': 'object',
    'properties': {
        'name': {'type': 'string'},
        'skills': {'type': 'array', 'items': {'type': 'string'}},
    },
    'required': ['name', 'skills'],
}

pipe = pipeline('internlm/internlm2-chat-1_8b', backend_config=PytorchEngineConfig())
resp = pipe(
    ['Generate a short profile.'],
    gen_config=GenerationConfig(
        response_format=dict(type='json_schema', json_schema=dict(name='profile', schema=schema)),
    ),
)

命令/API/函数

lmdeploy serve proxy

说明

proxy 用来把多个

api_server

汇聚成一个统一入口，并根据 routing strategy 把请求分发到不同节点。对“多机多卡统一服务地址”或“多个模型共享外部网关”的部署，这一层非常关键。LMDeploy 文档把

Hybrid

与

DistServe

两种 serving strategy 分开，后者会显式区分 prefill 与 decode 节点。

示例

lmdeploy serve proxy \
  --server-name 0.0.0.0 \
  --server-port 8000 \
  --routing-strategy min_expected_latency \
  --serving-strategy Hybrid

lmdeploy serve api_server internlm/internlm2_5-7b-chat \
  --proxy-url http://0.0.0.0:8000 \
  --server-port 23333 \
  --backend turbomind

命令/API/函数

AWQ / SmoothQuant / KV cache quant

说明

LMDeploy 的量化核心是把量化产物直接接回 pipeline 与服务接口。工程上要把三件事连起来看：量化生成目录、推理后端、服务启动参数。AWQ 主要走 TurboMind 的 W4A16 路线；SmoothQuant 常走 PyTorch backend；KV cache quant 则直接作用于服务阶段的显存与带宽。

示例

# AWQ：产出 4bit work_dir，后续由 TurboMind 读取。
lmdeploy lite auto_awq internlm/internlm2_5-7b-chat \
  --work-dir ./internlm2_5-7b-chat-4bit

lmdeploy serve api_server ./internlm2_5-7b-chat-4bit \
  --backend turbomind \
  --model-format awq

# SmoothQuant：更常配 PyTorch backend。
lmdeploy lite smooth_quant internlm/internlm2_5-7b-chat \
  --work-dir ./internlm2_5-7b-chat-int8 \
  --quant-dtype int8

lmdeploy serve api_server ./internlm2_5-7b-chat-int8 \
  --backend pytorch

# KV cache 量化：直接在服务侧压缩 KV。
lmdeploy serve api_server internlm/internlm2_5-7b-chat \
  --backend pytorch \
  --quant-policy 8

TGI（Text Generation Inference）

TGI 是 Hugging Face 的推理服务栈。它在“用 Docker 把 Transformers 模型服务化”上体验成熟，仍然适合存量系统维护与兼容性部署；但该项目在 2026-03-21 被归档为只读，新增特性与生态协同通常不如更活跃的推理引擎。

Router / Launcher / Model Server 拓扑

TGI 的工程结构更像三层：launcher 负责起模型分片进程，router 负责 HTTP 接入、请求排队与 token budget 控制，model server 负责真正执行推理。理解这层拓扑有助于读日志与排障，因为“请求进不来”“排队太久”“模型侧 OOM”通常分别落在不同组件里。

Docker Quickstart

最常见启动方式是官方 Docker 镜像，容器内默认在 80 端口提供服务，常见映射是主机 8080 → 容器 80：

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data

# 把模型缓存目录挂出来，避免容器每次重启都重新下载权重。
docker run --gpus all --shm-size 1g \
  -p 8080:80 \
  -v $volume:/data \
  ghcr.io/huggingface/text-generation-inference:3.3.5 \
  --model-id $model

关键参数（text-generation-launcher）

TGI 的核心入口是

text-generation-launcher

。生产里最常调整的参数集中在模型来源、多 GPU 分片与量化。

参数	含义	典型用途
--model-id	模型 ID 或本地目录	指定权重来源（Hub 或本地）
--sharded	启用多 GPU 分片	模型需要多卡容纳时
--num-shard	分片数量	控制使用多少张 GPU
--quantize	量化模式	降低显存占用与带宽压力
--max-concurrent-requests	同时受理的请求上限	直接决定入口层背压策略；值过大时容易把队列和 KV 预算一起推爆。
--max-input-tokens / --max-total-tokens	输入长度与总 token 上限	控制 prompt 和 completion 的最坏情况，属于 TGI 容量治理的核心参数。
--max-batch-prefill-tokens	一次 prefill 的 token 预算	影响长 prompt 请求能否被及时吸纳，以及 prefill 尾延迟。
--prometheus-port / --otlp-endpoint	指标与 tracing 导出端口	生产服务通常需要把性能指标和 trace 单独接到监控系统，而非只看容器 stdout。
--waiting-served-ratio / --max-batch-total-tokens / --max-waiting-tokens	队列调度与批处理预算	控制“先继续服务已在跑的请求”还是“尽快吸纳等待队列”，属于 TGI 调度器的核心吞吐/尾延迟旋钮。
--speculate / --lora-adapters	投机解码与 LoRA 服务化	前者用于降 decode 延迟，后者用于在同一服务实例上挂多份适配器。

队列预算调优

TGI 的 Router 主要关心“当前等待队列和正在服务请求各自占掉了多少 token 预算”。因此，

--waiting-served-ratio

、

--max-batch-total-tokens

与

--max-waiting-tokens

常常需要一起调，而非只盯住并发请求数。

text-generation-launcher \
  --model-id $model \
  --max-total-tokens 8192 \
  --max-batch-total-tokens 65536 \
  --max-waiting-tokens 2048 \
  --waiting-served-ratio 1.2

llama.cpp（本地与边缘推理）

llama.cpp 面向本地/边缘推理，围绕 GGUF 权重与多后端（CPU/CUDA/Metal 等）提供统一 runtime，并包含 OpenAI-compatible HTTP server（

llama-server

）。它常用于离线环境、边缘设备、或需要把推理能力分发到开发机的场景。

编译与启动

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build -j

./build/bin/llama-server \
  -m /path/to/model.gguf \
  --host 0.0.0.0 \
  --port 8081

常用运行参数

参数	含义	典型影响
-m, --model	GGUF 模型路径	决定权重来源与量化格式
-c, --ctx-size	上下文长度	影响 KV cache 与吞吐
-t, --threads	生成阶段 CPU 线程数	CPU 推理吞吐与尾延迟
-tb, --threads-batch	批处理/预填充阶段线程数	prefill 性能
-ngl, --n-gpu-layers	offload 到 GPU 的层数	GPU/CPU 负载比例与显存占用
-n, --n-predict	单次请求最多生成多少 token	直接控制最坏情况下的 decode 时长；服务端通常要和业务超时一起设计。
--parallel	并行处理请求的槽位数	影响本地服务同时处理多少条会话；开太大时容易把 CPU 与 KV cache 一起打满。
--cont-batching	持续批处理开关	让请求不用等整批凑齐再进入推理，服务化场景下吞吐与尾延迟更稳。
--metrics	暴露监控指标	便于接 Prometheus 之类的采集系统做容量规划与告警。
--embedding	启用 embedding 接口	让同一套本地 runtime 既能做生成，也能直接提供向量化服务。
--grammar-file	基于 GBNF 的约束解码	需要 JSON/结构化输出时很有用，但会额外影响吞吐与解码路径。
--tensor-split	多 GPU 权重切分比例	桌面多卡部署时比“平均切分”更灵活，适合显存大小不完全一致的设备。

Ollama（本地模型分发 + 运行时）

Ollama 把本地模型拉取、版本管理与本地 API 封装成工具链。它提供原生 API（

/api/generate

、

/api/chat

、

/api/embed

），并提供 OpenAI-compatible API 作为兼容层。

安装与启动

curl -fsSL https://ollama.com/install.sh | sh

原生 API（/api/*）

curl http://localhost:11434/api/generate -d '{
  "model": "gemma3",
  "prompt": "Why is the sky blue?"
}'

curl http://localhost:11434/api/chat -d '{
  "model": "gemma3",
  "messages": [{"role":"user","content":"why is the sky blue?"}]
}'

OpenAI compatibility（概念）

兼容层的目标是让应用侧复用 OpenAI SDK 与中间件。工程上需要明确两类差异：端点语义的“兼容程度”（是否实现同等字段/行为），以及模型侧默认值（chat template、默认采样参数）是否与业务一致。

国产大模型部署（以 ChatGLM 为例）

国产大模型的部署风险集中在“推理栈适配”与“默认行为一致性”。常见问题包括：chat template 与 tokenizer 不一致导致对话格式错乱，上下文长度预算误判，以及 generation_config 的默认值覆盖导致采样行为偏离预期。

ChatGLM-6B：仓库自带的最小 API 服务

ChatGLM-6B 仓库提供了一个最小 FastAPI 服务端作为 API 部署入口，用于本地验证模型与服务链路：

# in THUDM/ChatGLM-6B repo
pip install fastapi uvicorn
python api.py

在线服务与接口兼容层

接口兼容层是推理系统工程化的关键：当服务端尽可能实现 OpenAI 的请求/响应形状，应用侧可以复用 SDK、网关与观测链路，只需把

base_url

指向自托管服务即可迁移。兼容层并不自动保证“行为一致”，上线前需要在同一套 prompts 与 sampling 参数下对齐输出分布与稳定性。

Triton Inference Server

Triton 是通用推理服务系统，核心抽象是模型仓库（Model Repository）：服务端通过

--model-repository

指定一个或多个仓库路径，并按固定目录布局加载模型版本。它常用于集中托管 ONNX/TensorRT/自定义后端模型，并提供 HTTP/gRPC 与监控端点。

docker run --gpus all --rm -p8000:8000 -p8001:8001 -p8002:8002 \
  -v /path/to/model-repo:/models \
  nvcr.io/nvidia/tritonserver: \
  tritonserver --model-repository=/models

model-repo/
  my_model/
    config.pbtxt
    1/
      model.onnx
    2/
      model.onnx

LLM 场景下，Triton 常作为“统一 Serving 平台”，在其上集中部署 embedding、reranker、ASR/TTS 等子模型，或加载 TensorRT-LLM backend 承载生成模型。

调度、缓存与性能机制

推理系统的吞吐、延迟与成本与服务端调度强相关。LLM 在线推理通常由两个阶段组成：prefill（处理输入 prompt 并建立 KV）与 decode（逐 token 生成）。多数性能机制都在优化这两段的计算与内存路径。

请求准入与 Token Budget

线上推理系统真正的硬约束通常是 token budget：当前显存最多容纳多少上下文 token、多少 decode 中的序列、以及每个 batch 的 prefill token 上限。vLLM、TGI、SGLang、TensorRT-LLM 虽然参数名不同，但控制的都是同一件事：别让队列里同时进入的请求把 KV cache 和调度器压垮。

概念	常见参数形态	工程意义
单请求输入上限	max-input-tokens / context-length	限制超长 prompt 直接吃光显存；通常和业务侧请求校验一起生效。
单请求总 token 上限	max-total-tokens / max-model-len	同时约束 prompt + completion，决定 KV cache 最坏情况大小。
批级 prefill 上限	max-num-batched-tokens / max-batch-prefill-tokens	控制一次 prefill 能吸进多少 token，直接影响尾延迟与抖动。
并发序列上限	max-num-seqs / max-concurrent-requests	控制 decode 阶段有多少条活跃序列同时占用 KV cache。

容量规划时，最稳的做法核心是留出一部分显存余量给突发长请求、临时 batch 波动和后台管理线程。

Batching 与 Continuous Batching

batching 把多个请求合并成一次 forward 调用，提升 GPU 利用率。静态 batching 会被最长请求拖住；服务化推理通常采用 continuous batching，在 token 级别持续吸纳新请求并淘汰已完成请求，从而减少尾延迟并提升吞吐。

KV cache

KV cache 缓存历史 token 的 Key/Value，使 decode 每一步只需计算当前 token 的 Query 并与历史 KV 做注意力。代价是显存占用随上下文长度与并发序列数近似线性增长；服务端因此需要在“最大上下文长度”和“最大并发序列数”之间做显存预算分配。

Prompt Caching（前缀缓存）

前缀缓存复用“已 prefill 的前缀 KV”。当新请求与历史请求共享前缀时，服务端可以跳过重复的 prefill 计算。该机制对“系统 prompt 固定、RAG 模板固定、长前缀重复”的业务收益显著。

Speculative decoding

speculative decoding 用“草稿模型提出多个候选 token + 目标模型验证并接收其中一部分”的方式减少目标模型的 decode 步数，从而降低解码延迟。服务端通常需要同时加载目标模型与草稿模型，并为草稿模型设置独立的资源预算。

# 启动 vLLM 服务。
vllm serve  \
  --speculative-config '{
    "method": "draft_model",
    "model": "",
    "num_speculative_tokens": 5
  }'

./build/bin/llama-server \
  -m /path/to/target.gguf \
  --model-draft /path/to/draft.gguf \
  --host 0.0.0.0 --port 8081

检索、向量与 RAG 支撑组件

RAG 工程的核心约束来自“把非结构化知识变成可检索的结构化索引”。这一层组件主要解决：如何把文档分块、生成 embedding、写入索引或向量数据库、在查询时做 ANN 召回与元数据过滤、用 reranker 提升答案相关性、以及在部署层面控制延迟、吞吐与成本。

RAG 的最小工程闭环

一条可维护的检索链路通常分成两条 pipeline：离线入库（ingestion）与在线查询（retrieval）。离线阶段负责把文档标准化、分块、embedding、建索引并落盘；在线阶段负责 query embedding、ANN 召回、过滤、重排与返回候选片段。

离线入库（Ingestion）

# 1) 规范化文本（去掉无意义空白、统一编码、可选：去重）
# 2) chunking：长文档切成 chunk（带 overlap）
# 3) embedding：把每个 chunk 编码成 float32 向量
# 4) upsert：写入向量索引/向量数据库（同时写入 metadata）
# 5) build index：IVF/HNSW 等（有些系统是插入即维护索引）

在线检索（Retrieval）

# 1) query -> embedding
# 2) ANN search：向量相似度召回 topK candidates
# 3) filter：按 tenant / language / source / time / ACL 等元数据过滤
# 4) rerank：Cross-Encoder / LLM rerank（可选但通常能显著提升相关性）
# 5) 返回 chunks（以及 doc_id / offsets / urls 等可追溯信息）

RAG 编排框架

RAG 编排框架负责把文档入库、检索、重排、生成和评估组织成可测试的 pipeline。它和向量数据库的关系类似“应用层工作流”和“存储/检索后端”：向量库保存 chunk 与向量，编排框架决定数据如何进入向量库、查询如何路由、结果如何被 reranker 和 generator 消费。

Haystack

Haystack 是 deepset 开源的 RAG / Agent pipeline 框架。它把 DocumentStore、Retriever、Ranker、PromptBuilder、Generator、Evaluator 等组件组织成有向 pipeline，适合工程团队把“搜索 + 生成”拆成可替换、可观测、可单测的阶段。与 LangChain 相比，Haystack 的搜索/RAG 流水线感更强；与 LlamaIndex 相比，它更强调组件图与端到端 pipeline 执行。

pip install -U haystack-ai

from haystack import Document, Pipeline
from haystack.components.retrievers.in_memory import InMemoryBM25Retriever
from haystack.components.writers import DocumentWriter
from haystack.document_stores.in_memory import InMemoryDocumentStore

store = InMemoryDocumentStore()

indexing = Pipeline()
# writer 负责把标准化后的 Document 写入 document store。
indexing.add_component("writer", DocumentWriter(document_store=store))
indexing.run(
    {
        "writer": {
            "documents": [
                Document(content="ZeRO 把优化器状态、梯度和参数分片到不同 rank。"),
                Document(content="vLLM 通过 PagedAttention 管理 KV cache。"),
            ]
        }
    }
)

query = Pipeline()
# 这里先用 BM25 做词法检索；生产 RAG 可替换成 dense retriever 或 hybrid retriever。
query.add_component("retriever", InMemoryBM25Retriever(document_store=store))
result = query.run({"retriever": {"query": "ZeRO 分片", "top_k": 3}})
print(result["retriever"]["documents"])

Haystack 适合把 RAG 当成“搜索系统 + 生成系统”的工程项目来做：每个组件有明确输入输出，离线入库和在线检索可以分别测试，DocumentStore 后端也可以替换为 Elasticsearch、OpenSearch、Qdrant、Weaviate 等。若项目重点是多 agent 状态机，LangGraph 更合适；若重点是企业知识索引与 query engine，LlamaIndex 更直接；若重点是 pipeline 可测试性与搜索组件替换，Haystack 的结构更清晰。

词法检索、混合检索与结果融合

向量检索并非检索系统的唯一主线。很多生产 RAG 系统会把词法检索（例如 BM25）保留下来，再与 dense retrieval 做融合。原因很直接：关键词、实体名、版本号、报错码这类“精确词面匹配”信号，BM25 往往比 embedding 更稳。

BM25：保留关键词与实体名的强信号

BM25 属于词法检索（lexical retrieval）。它按 query 词项在候选文本里的出现频率、逆文档频率与长度归一化来打分。工程直觉是：如果 query 里有非常关键的精确词面，例如函数名、报错字符串、SKU、药名或版本号，BM25 往往是第一道不能丢的 baseline。

Hybrid Retrieval：dense 和 lexical 同时保留

混合检索的常见形态是：先分别跑向量召回与 BM25，再把两路结果做融合，然后交给 reranker。这样做虽然多了一次召回，但整体稳定性通常高于“只用 dense”或“只用 lexical”。

# 伪代码：两路召回，再统一重排
dense_hits = dense_retriever.search(query, top_k=50)   # embedding 负责语义相近召回
bm25_hits = bm25_retriever.search(query, top_k=50)     # BM25 负责关键词/实体名强匹配
# 先做融合，再交给 reranker 缩到最终 topN
merged = fuse(dense_hits, bm25_hits)

RRF 与 MMR：一个做融合，一个做去冗余

RRF（Reciprocal Rank Fusion）适合把多路排序结果合并成一条稳定的候选列表；MMR（Maximal Marginal Relevance）适合在候选已经够相关时，进一步压制重复信息、提升上下文覆盖面。两者经常一起出现，但解决的问题不同。

方法	作用点	工程意义
RRF	多路召回结果融合	对不同打分尺度不敏感；即使 BM25 和 dense 分数不能直接比较，也能按 rank 做稳健融合。
MMR	候选结果去冗余	减少 topN 里多个 chunk 都在重复同一段内容，让最终上下文覆盖更多信息面。

Chunking、Embedding、Reranker、缓存

Chunking（分块）

分块的目标是让每个向量对应一段“语义足够集中、可作为检索单位”的文本。工程上需要同时满足：检索召回稳定、下游生成可引用、以及入库成本可控。

策略	适用场景	工程要点
固定窗口（按 token/字符计数）	通用文本、日志、论坛等结构弱的语料	用 overlap 降低“切断引用”的概率；chunk_id 需要稳定（便于增量更新与去重）。
结构感知（按标题/段落/代码块）	Markdown、HTML、技术文档、论文	保留层级路径（h1/h2/h3）作为 metadata；能显著改善可解释性与定位能力。
语义分段（按句子/主题边界）	长文档、语义跳跃频繁的内容	实现复杂；通常与结构感知结合更稳。

Embeddings（向量化接入）

embedding 既可以在进程内完成（直接加载模型编码），也可以通过独立服务完成（HTTP/gRPC embedding endpoint）。工程关注点包括：向量维度、向量归一化（cosine vs inner product）、批量化、以及版本管理（embedding 模型升级带来的全量重算成本）。

关注点	建议	原因
向量 dtype	索引侧统一 float32（或按系统支持使用 fp16/binary/sparse）	多数 ANN 实现以 float32 为主；混用 dtype 容易导致精度与兼容性问题。
cosine 相似度	向量 L2 归一化后用 inner product（IP）	cosine(a,b) = a·b（当 \|\|a\|\|=\|\|b\|\|=1）；索引实现更统一。
版本管理	把 embedding_model_id 写入 metadata；变更时双写或重建	避免“同一集合混入不同 embedding space”导致召回不可解释。
批量化	离线入库用 batch encode + shard 写入	embedding 计算与写入都更容易成为瓶颈，批量化是最有效的吞吐优化。

Reranker（重排）

向量召回的 topK 通常是“相关但不够精确”的集合，reranker 用更强的匹配器（Cross-Encoder/LLM）对候选做二次排序。工程上常见的做法是：召回 topK=50~200，然后重排取 topN=5~20 作为上下文。

# 伪代码：Cross-Encoder rerank
# pairs = [(query, chunk_text) for chunk_text in candidates]
# scores = reranker.predict(pairs)
# candidates = sort_by(scores)[:topN]

缓存与幂等（Cache & Idempotency）

RAG 系统的成本通常被 embedding 与 ANN 搜索吞掉。缓存应该围绕“纯函数”构建：相同输入应产生相同输出。

缓存点	Key 设计	注意事项
embedding 缓存	sha256(normalized_text) + model_id	同一文本在不同模型下向量不同；必须把 model_id 纳入 key。
检索结果缓存	sha256(query) + model_id + filters	适合高频固定 query；对实时性强（例如新闻）的库需要设置短 TTL 或禁用。
chunk 幂等 upsert	doc_id + chunk_id	确保增量更新不会产生重复点；chunk_id 推荐来自稳定切分策略。

索引生命周期：回填、删除、重嵌入

很多 RAG 系统上线后真正复杂的部分是后续的索引生命周期管理：老文档如何重切块、新 embedding 模型如何迁移、文档删除怎样同步到索引、以及历史 chunk 如何避免脏数据残留。把索引生命周期当成单独子系统来设计，通常比在主检索链路里临时打补丁更稳。

动作	工程目标	常见策略
回填（backfill）	把历史文档补齐到新索引或新字段	按文档分片批量重跑 ingestion；用稳定的 doc_id + chunk_id 保证幂等。
删除（delete/tombstone）	让检索结果及时反映源文档删除	为文档维护删除标记或直接删点；强一致场景要把源存储与索引更新放进同一条任务链路。
重嵌入（re-embedding）	切换到新 embedding 模型	新旧索引双写一段时间；metadata 里显式记录 embedding_model_id ，避免混库。

本地索引与嵌入式检索

本地索引适合“单机/单租户/读多写少”的场景：部署简单、延迟低、没有额外网络 hop。代价是分片、扩容与高可用需要自行实现。

Chroma

Chroma 是 Python-first 的嵌入式向量数据库，常用于 RAG 原型、单机服务和本地开发环境。它的特色是上手成本低：collection、metadata、embedding function、持久化目录都可以在一个 Python 进程里完成。工程边界也很明确：当业务进入多租户、高 QPS、复杂权限、高可用和跨节点扩容阶段，应评估 Qdrant、Milvus、Weaviate、pgvector 或云托管向量库。

pip install -U chromadb

import chromadb

# PersistentClient 把索引与元数据写入本地目录，适合开发机和小型单机服务。
client = chromadb.PersistentClient(path="./chroma_store")
collection = client.get_or_create_collection(name="chunks")

collection.add(
    ids=["c1", "c2"],
    documents=[
        "ZeRO 通过分片减少数据并行的重复训练状态。",
        "Haystack 可以把检索、重排和生成组织成 pipeline。",
    ],
    metadatas=[{"doc_id": "d1"}, {"doc_id": "d2"}],
)

# query_texts 会走 collection 配置的 embedding function；生产系统应显式固定 embedding 模型。
hits = collection.query(query_texts=["ZeRO 的作用"], n_results=2)
print(hits["documents"])

Chroma 的选择理由通常是“先把 RAG 闭环跑起来”：它适合验证 chunking、prompt、rerank、引用回链等业务逻辑。上线后若数据规模和并发继续增长，需要提前设计迁移层，避免业务代码直接依赖 Chroma 的 collection API。

FAISS

安装

# CPU
pip install -U faiss-cpu

常用API

命令/API/函数

faiss.IndexFlatIP

说明
精确检索（inner product）；常配合归一化实现 cosine

示例

import faiss, numpy as np
d = 768
index = faiss.IndexFlatIP(d)

命令/API/函数

faiss.IndexIVFFlat

说明
IVF 近似检索（聚类倒排 + 精确扫描）

示例

quantizer = faiss.IndexFlatIP(d)
index = faiss.IndexIVFFlat(quantizer, d, 4096, faiss.METRIC_INNER_PRODUCT)

命令/API/函数

faiss.normalize_L2

说明
向量 L2 归一化

示例

faiss.normalize_L2(x)  # x: float32 [n, d]

命令/API/函数

write_index / read_index

说明
索引落盘与加载

示例

faiss.write_index(index, "docs.faiss")
index = faiss.read_index("docs.faiss")

建库与查询（最小示例）

import faiss
import numpy as np

# FAISS 对 ndarray 的典型要求是 float32、二维、按行存储。
xb = np.random.randn(10000, 768).astype("float32")
xq = np.random.randn(10, 768).astype("float32")

# cosine 检索最常见的做法是“先归一化，再用内积索引”。
faiss.normalize_L2(xb)
faiss.normalize_L2(xq)
index = faiss.IndexFlatIP(768)
# add 会把底库向量写进索引；真实系统还要单独维护向量行号到文档主键的映射。
index.add(xb)

scores, ids = index.search(xq, k=5)  # ids: [m, k]

工程权衡

FAISS 的“强项”是速度与可控性：你可以精确控制索引结构、nprobe/efSearch 等参数，并把索引作为本地文件交付。它的“短板”是系统能力：过滤、权限、在线扩缩容、分片与持久化策略都需要额外工程。

pgvector（PostgreSQL 向量扩展）

安装与启用

# 方式很多（源码/包管理器/Docker/托管服务）
# 核心步骤是：在目标数据库里启用扩展
psql -d your_db -c "CREATE EXTENSION IF NOT EXISTS vector;"

建表、建索引与查询（SQL）

CREATE TABLE doc_chunks (
  id bigserial PRIMARY KEY,
  doc_id text NOT NULL,
  chunk_id int NOT NULL,
  chunk text NOT NULL,
  embedding vector(768) NOT NULL
);

-- HNSW（适合低延迟近似检索，内存开销更高）
CREATE INDEX ON doc_chunks USING hnsw (embedding vector_cosine_ops);

-- 查询 topK（cosine distance）
SELECT doc_id, chunk_id, chunk
FROM doc_chunks
ORDER BY embedding <=> '[0.01, -0.02, ...]'
LIMIT 10;

工程权衡

pgvector 的优势是“把向量检索融进现有 OLTP/OLAP 体系”：事务、JOIN、权限、备份与监控都沿用 Postgres。代价是向量检索性能上限通常低于专用向量数据库，尤其是高维大规模与高 QPS 场景；此外还需要对索引参数、VACUUM/ANALYZE、以及冷热数据分层有明确策略。

专用向量数据库

专用向量数据库把“高维 ANN 检索 + 元数据过滤 + 持久化 + 分布式扩展”做成标准能力，适合多租户、数据规模持续增长、需要高可用与可观测性的场景。

向量库抽象层：不要把业务代码写死在某一个后端上

工程上一个高频设计是先定义统一的向量检索接口，再按环境切换后端：开发环境用 Chroma / FAISS，生产环境用 Qdrant / Milvus / OpenSearch / Pinecone。这样做的价值在于：检索参数、metadata 过滤和索引生命周期逻辑都能集中在一处维护，而非散落在业务代码里。

class VectorStore:
    def upsert(self, records): ...
    def search(self, vector, top_k, filters=None): ...
    def delete(self, ids): ...

store = make_vector_store(cfg)  # 通过配置决定走本地索引、Qdrant、Milvus 还是云托管后端

如果系统同时需要 sparse、dense 与 rerank，多数团队还会在这一层之上再包一个 retriever abstraction，把“召回策略组合”也做成可配置项。

Qdrant

部署（本地 Docker）

docker pull qdrant/qdrant
docker run -p 6333:6333 -p 6334:6334 \
  -v "$(pwd)/qdrant_storage:/qdrant/storage:z" \
  qdrant/qdrant

安装（Python Client）

# 可选 fastembed：在 client 侧直接做 text -> embedding（适合快速验证）
pip install -U "qdrant-client[fastembed]"

建库、写入与查询（Python）

from qdrant_client import QdrantClient
from qdrant_client.http.models import Distance, VectorParams, PointStruct, Filter, FieldCondition, MatchValue

client = QdrantClient(url="http://localhost:6333")
if not client.collection_exists("chunks"):
  # 向量维度与距离度量一旦写入 collection，就成为这组数据的长期契约。
  client.create_collection(
    collection_name="chunks",
    vectors_config=VectorParams(size=768, distance=Distance.COSINE),
  )

# payload 保存 doc_id、语言等结构化字段；后续过滤和回表都依赖它。
points = [
  PointStruct(id=1, vector=[0.0] * 768, payload={"doc_id": "d1", "lang": "zh"}),
]
client.upsert(collection_name="chunks", points=points)

# 先按 payload 过滤，再在候选集上做向量检索，是 Qdrant 最常见的在线查询模式。
f = Filter(must=[FieldCondition(key="lang", match=MatchValue(value="zh"))])
hits = client.search(collection_name="chunks", query_vector=[0.0] * 768, limit=5, query_filter=f)

工程权衡

Qdrant 的工程特点是：数据模型清晰（point + payload）、过滤与索引能力成熟、部署路径明确（本地 Docker / Helm / Cloud）。在安全层面需要显式启用鉴权与网络隔离，默认容器配置通常是无认证的开发模式。

Milvus

部署（Docker Compose）

curl -sfL https://raw.githubusercontent.com/milvus-io/milvus/master/scripts/standalone_embed.sh -o standalone_embed.sh
bash standalone_embed.sh start

安装（Python SDK）

pip install -U pymilvus

建库、建索引与查询（Python）

from pymilvus import MilvusClient, DataType

client = MilvusClient(uri="http://localhost:19530", token="root:Milvus")
# schema 决定字段类型与主键规则；Milvus 不建议把所有结构化字段都当作无约束 JSON。
schema = MilvusClient.create_schema(auto_id=False, enable_dynamic_field=True)
schema.add_field(field_name="id", datatype=DataType.INT64, is_primary=True)
schema.add_field(field_name="vector", datatype=DataType.FLOAT_VECTOR, dim=768)
schema.add_field(field_name="doc_id", datatype=DataType.VARCHAR, max_length=256)
index_params = MilvusClient.prepare_index_params()
index_params.add_index(
  field_name="vector",
  index_type="HNSW",
  metric_type="COSINE",
  params={"M": 16, "efConstruction": 200},
)

client.create_collection(collection_name="chunks", schema=schema, index_params=index_params)

# data 是“字段名 -> 值”的记录列表；SDK 会按 schema 做类型校验。
client.insert(
  collection_name="chunks",
  data=[{"id": 1, "vector": [0.0] * 768, "doc_id": "d1", "lang": "zh"}],
)
hits = client.search(
  collection_name="chunks",
  data=[[0.0] * 768],
  limit=5,
  filter='doc_id == "d1"',
  output_fields=["doc_id"],
)

工程权衡

Milvus 的定位是面向大规模 ANN 检索的工程化系统：索引类型丰富、可分布式扩展、并提供集合（collection）层的 schema 与字段能力。它对部署与运维的要求也更高，适合“数据规模持续增长且需要系统化治理”的团队。

Weaviate

Weaviate 是对象 schema + 向量检索结合得比较紧的向量数据库。它把 collection、property、vectorizer、hybrid search、多租户和模块化能力放在同一套数据模型里，适合希望同时管理“对象字段、向量、关键词检索和生成式查询”的 RAG 系统。和 Milvus 相比，Weaviate 的数据对象模型更靠前；和 Qdrant 相比，它的 schema、vectorizer/module 与 hybrid search 入口更突出。

安装（Python Client）

pip install -U weaviate-client

建 collection、写入与向量查询（Python）

import weaviate
from weaviate.classes.config import Configure, DataType, Property

client = weaviate.connect_to_local()
try:
    # collection schema 是长期契约：字段名、类型、向量化方式会影响所有后续写入和查询。
    if not client.collections.exists("DocChunk"):
        client.collections.create(
            name="DocChunk",
            properties=[
                Property(name="text", data_type=DataType.TEXT),
                Property(name="doc_id", data_type=DataType.TEXT),
            ],
            # none 表示应用侧自己提供向量；也可以接入 Weaviate 的内置 vectorizer 模块。
            vectorizer_config=Configure.Vectorizer.none(),
        )

    chunks = client.collections.get("DocChunk")
    chunks.data.insert(
        properties={"text": "Weaviate 支持对象 schema 与向量检索。", "doc_id": "d1"},
        vector=[0.0] * 768,
    )

    # near_vector 适合应用侧已经完成 query embedding 的场景。
    result = chunks.query.near_vector(near_vector=[0.0] * 768, limit=3)
    for obj in result.objects:
        print(obj.properties["doc_id"], obj.properties["text"])
finally:
    client.close()

Weaviate 的选择理由通常是“希望 RAG 数据对象化”：除了向量本身，还要稳定维护字段 schema、混合检索、多租户、模块化 vectorizer 或 cloud/self-host 两种部署路径。若团队只需要最小向量召回服务，Qdrant 更轻；若规模和索引类型复杂度更高，Milvus 更常见；若所有业务数据已经在 Postgres，pgvector 的系统集成成本更低。

TCVectorDB（腾讯云向量数据库）

TCVectorDB 属于托管型向量数据库：实例创建、扩缩容与高可用由云平台提供，SDK 把 HTTP API 封装成 Python 类与对象模型。工程上更关注鉴权、网络连通（VPC/公网）、以及数据模型与索引类型的选择。

安装

pip3 install -U tcvectordb

常用API

命令/API/函数

Client

说明
SDK 主入口，负责鉴权、请求发送与资源管理；建议把 credential 放在环境变量或密钥管理系统。

示例

client = tcvectordb.RPCVectorDBClient(url="https://", key="", username="root")

命令/API/函数

Database / Collection

说明
逻辑组织层，通常按业务线或数据域拆分；collection 内部的向量维度与 metric 必须一致。

示例

client.create_database_if_not_exists(database_name="rag_db")
client.create_collection_if_not_exists(database_name="rag_db", collection_name="chunks", indexes=[...])

命令/API/函数

IndexType / MetricType

说明
索引类型与相似度度量枚举，直接决定 recall、latency 与 cost 的平衡点。

示例

VectorIndex(
  name="vector",
  index_type=IndexType.HNSW,
  metric_type=MetricType.COSINE,
  dimension=768,
)

写入与检索（工作流骨架）

import tcvectordb
from tcvectordb.model.collection import Embedding
from tcvectordb.model.enum import FieldType, IndexType, MetricType, EmbeddingModel, ReadConsistency
from tcvectordb.model.index import VectorIndex, FilterIndex, HNSWParams

tcvectordb.debug.DebugEnable = False

client = tcvectordb.RPCVectorDBClient(
  url="https://",    # 控制台/文档提供
  key="",
  username="root",
  read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY,
  timeout=30,
)
db = "rag_db"
col = "chunks"
client.create_database_if_not_exists(database_name=db)

# 这里把 embedding 工作下沉到服务端，业务只需要上传原始文本字段 chunk。
ebd = Embedding(vector_field="vector", field="chunk", model=EmbeddingModel.BGE_BASE_ZH)
client.create_collection_if_not_exists(
  database_name=db,
  collection_name=col,
  shard=1,
  replicas=0,
  indexes=[
    # 主键索引负责 upsert/覆盖写，不承担向量召回。
    FilterIndex(name="id", field_type=FieldType.String, index_type=IndexType.PRIMARY_KEY),
    VectorIndex(
      name="vector",
      field_type=FieldType.Vector,
      index_type=IndexType.HNSW,
      dimension=768,
      metric_type=MetricType.COSINE,
      params=HNSWParams(m=16, efconstruction=200),
    ),
    # doc_id 单独做过滤索引，后续才能按文档、租户或业务域做精确筛选。
    FilterIndex(name="doc_id", field_type=FieldType.String, index_type=IndexType.FILTER),
  ],
  embedding=ebd,
)

# upsert 时不必手工写 vector；SDK 会按 embedding 配置把文本转成向量。
client.upsert(
  database_name=db,
  collection_name=col,
  documents=[{"id": "c1", "doc_id": "d1", "chunk": "向量数据库用于相似度检索…"}],
)

# search_by_text 会先把查询字符串 embedding 化，再走 ANN 检索与 payload 过滤。
hits = client.search_by_text(
  database_name=db,
  collection_name=col,
  embedding_items=["向量数据库"],
  output_fields=["doc_id"],
  limit=5,
)

工程权衡

托管型服务的收益来自运维外包与 SLA，代价来自云厂商绑定与成本结构（存储、QPS、流量、索引构建）。当业务对数据主权、可迁移性或自定义算子有强需求时，需要评估本地自建或可移植方案（例如 pgvector 或自建 Qdrant/Milvus）。

选型与权衡（工程视角）

方案	适合	不适合
FAISS（本地索引）	单机部署、离线构建索引、极低延迟、对索引结构控制强	需要复杂过滤/权限/多租户/高可用与在线扩缩容
Chroma（嵌入式向量库）	RAG 原型、单机服务、本地开发、希望快速验证 chunking / prompt / rerank 流程	多租户、高可用、复杂权限、跨节点扩容和强运维治理
pgvector（Postgres 内嵌）	已有 Postgres 体系、需要事务与 JOIN、数据规模中等	超大规模 ANN + 高 QPS 的专用检索场景
Qdrant / Milvus（自建向量库）	需要过滤、持久化、分布式扩展与稳定运维	团队缺少运维能力、或希望把运维成本完全外包
Weaviate（对象化向量库）	希望用 schema 管理文档对象、字段、向量、hybrid search 与多租户能力	只需要极简向量召回，或团队不想维护额外 schema/module 体系
TCVectorDB（托管向量库）	希望快速上线并获得云端 SLA、对云集成友好	强可迁移性需求、或需要深度定制与自托管

Agent、工具与应用编排组件

Agent 编排层解决的是“把模型调用变成可执行系统”的工程问题：任务被拆成哪些步骤、每一步调用哪个模型、工具如何注册与授权、状态如何持久化、失败如何重试、以及如何把整条调用链暴露给可观测性系统。它位于推理引擎与训练框架之上，承担流程控制、工具集成与状态管理。

从部署视角看，Agent 系统至少包含三类进程：

推理后端：提供模型推理 API（OpenAI、vLLM、SGLang、TGI、TensorRT-LLM 等）。
编排运行时：实现状态机/图/循环，负责发起模型调用、路由与错误处理。
工具服务：把外部能力（数据库、搜索、浏览器、业务 API、文件系统）封装为工具端点，供模型以 tool calling 方式触发。

Agent 编排框架

编排框架的差异主要体现在两点：控制流的表达能力（链式、图式、事件驱动、角色流水线），以及工具调用的边界管理（schema、权限、审批、重试、隔离）。

框架	自己的特色	优先选择场景
LangChain	组件生态广、provider 适配多，适合把模型、prompt、retriever、tool 快速拼成 pipeline。	业务需要快速接入多种模型和工具，控制流相对简单，工程重点在集成速度。
LangGraph	图执行、显式状态、checkpoint、human-in-the-loop、可恢复运行是核心优势。	Agent 有循环、分支、审批、长期状态或失败恢复需求，需要把流程当状态机维护。
LlamaIndex	以数据连接、索引、retriever、query engine、tool retrieval 为中心，RAG 侧抽象更强。	主要问题是“让模型访问企业知识库/数据库/文档系统”，并需要持续治理索引与检索工具。
Haystack	组件化 pipeline 清晰，DocumentStore、Retriever、Ranker、Generator、Evaluator 能按 DAG 组织。	搜索/RAG 工程团队需要可测试、可替换、可观测的检索流水线，而非单纯 prompt glue。
DSPy	把 LLM 应用写成可优化程序，用指标驱动 prompt/module 编译。	研发阶段需要系统性优化 prompt、检索、few-shot 示例和模块组合，且有明确评估集。
AutoGen / CrewAI	强调多 agent 通信、角色、任务流和 runtime；CrewAI 更偏角色式业务流程。	任务天然可拆成多个角色或多个服务协作，且团队能约束每个 agent 的权限与输出契约。

LangChain

LangChain 更适合把模型、提示词、检索器与工具快速组装成可运行的 pipeline。它的核心抽象是“可组合组件”，典型用法是先把模型初始化成统一接口，再用可组合表达把上下游粘起来。

pip install -U langchain langchain-openai
export OPENAI_API_KEY=sk-...

from langchain.chat_models import init_chat_model

model = init_chat_model("openai:gpt-5.4")
result = model.invoke("Hello, world!")
print(result)

LangChain 负责“编排代码结构”，推理仍发生在后端（OpenAI 或 OpenAI-compatible server）。工程上常见的落地方式是把 LangChain 应用包成一个 HTTP 服务（FastAPI 等），并把工具执行封装为内部函数或外部工具服务。

关注点	LangChain 侧要做什么	推理后端要做什么	工具服务要做什么
模型选择	统一模型调用入口、管理提示词与输入结构	提供 OpenAI-compatible API 或云端 API	无
工具调用	定义工具 schema、把工具结果回注入上下文	产出 tool call 请求（函数名 + JSON 参数）	执行工具、返回结构化结果
部署	将 pipeline 打包为服务，接入鉴权/限流/日志	承载并发与延迟 SLA	治理权限与审计，控制外部副作用

LangGraph

LangGraph 的定位更靠近“可控的状态机/图执行引擎”：它擅长表达长运行、可恢复、可插入人类审核的工作流。与只把 prompt 拼起来相比，它把“循环、分支、检查点、恢复与人机介入”变成一等公民。

pip install -U langgraph langgraph-checkpoint-sqlite

在工程实践中，LangGraph 更适合成为编排运行时本体：把 agent 的状态设计为显式结构（state），把工具调用、模型调用、审批点等写成节点（node），并通过 checkpointer 把状态落盘，从而支持重启恢复与长时间运行。

from typing_extensions import TypedDict
from langgraph.graph import StateGraph
from langgraph.checkpoint.sqlite import SqliteSaver

class State(TypedDict):
    text: str
def step(state: State) -> dict:
    # 节点函数只接收显式 state，并返回“这一步要写回 state 的字段”。
    return {"text": state["text"] + " -> next"}
builder = StateGraph(State)
# 节点名会进入运行时日志与 checkpoint 元数据，应该取稳定、可读的名字。
builder.add_node("step", step)
builder.set_entry_point("step")

with SqliteSaver.from_conn_string("checkpoints.sqlite") as checkpointer:
    # compile 后才得到真正可执行的图；checkpointer 决定线程状态如何落盘。
    graph = builder.compile(checkpointer=checkpointer)
    out = graph.invoke(
        {"text": "start"},
        # thread_id 是恢复与回放的主键；生产里通常映射到任务 ID 或工单号。
        config={"configurable": {"thread_id": "demo-thread-1"}},
    )
    print(out["text"])

部署上，LangGraph 常见两种形态：

单体服务：应用进程内执行图，工具执行也在同进程或同机。
分布式工具：图在编排服务内执行，工具通过 HTTP 或 MCP 调用外部服务，工具结果写入状态。

LlamaIndex

LlamaIndex 以“数据代理（Data Agent）”和检索增强为中心，更适合把外部知识、索引、向量库能力组织成 agent 可调用工具。在工具规模变大时，它提供“工具检索（tool retrieval）”这类机制，避免把大量函数定义塞进单次 prompt。

pip install -U llama-index

LlamaIndex 的工具抽象强调把函数与查询引擎包装成可检索、可调用的 Tool。工程上通常把它放在“工具侧”或“检索侧”：编排运行时（LangGraph / Agents SDK）调用 LlamaIndex 的查询/工具，再把结果回注入模型上下文。

from llama_index.core.tools import FunctionTool
def get_weather(location: str) -> str:
    """Useful for getting the weather for a given location."""
    # docstring 和签名都会进入 tool schema；描述越具体，模型越不容易误用。
    return f"{location}: 25C"
tool = FunctionTool.from_defaults(get_weather, name="get_weather")

DSPy

DSPy 的定位是“用程序化结构来编写 LLM 应用，并用优化器把程序编译成更有效的提示词或权重配置”。它更适合研发阶段系统性迭代（prompt/模块组合/评估驱动），而非单纯手写 prompt 字符串。

pip install -U dspy

在工具调用上，DSPy 提供了 Tool 原语与 ReAct 等模式，支持使用底层模型的原生 function calling 能力。

import dspy
def search_web(query: str) -> str:
    # 这里用普通 Python 函数占位真实搜索服务；DSPy 会把它包装成可调用工具。
    return f"Search results for {query}"
agent = dspy.ReAct(
    signature="question -> answer",
    tools=[search_web],
    max_iters=5,
)
result = agent(question="What's new in vLLM?")
print(result.answer)

AutoGen

AutoGen 把多智能体协作与通信基础设施作为一等公民，强调“runtime 负责消息与生命周期，agent 负责逻辑”。它既可用于研究型多智能体协作，也可作为生产编排底座。其工程价值通常体现在：明确的 agent runtime、组件化的模型与工具实现、以及面向多进程/多机的扩展路径。

pip install -U "autogen-agentchat" "autogen-ext[openai,azure]"

CrewAI

CrewAI 更偏向“角色 + 任务流水线（Flow）”表达，适合把业务流程拆成岗位式分工并固定编排。它的工程落地通常依赖明确的输入输出契约与任务边界，否则会迅速滑向不可控的多轮对话。

pip install -U crewai

协议与托管平台

工具调用协议的关键不在“模型能不能调用工具”，而在“工具定义是否标准化、执行是否隔离、权限是否可审计”。OpenAI function/tool calling 与 MCP 分别覆盖了两条常见路径：前者提供“模型到函数”的结构化参数通道；后者提供“工具/资源/提示词”的标准化服务协议，并允许工具以独立服务器形态部署。

OpenAI-compatible function/tool calling

OpenAI-compatible tool calling 的核心是：用 JSON Schema 定义工具参数，并让模型返回结构化的 tool call（函数名 + JSON 参数）。推理后端只负责生成 tool call；真正的工具执行必须在应用侧完成，并把结果作为后续输入再发回模型。

工具 schema 需要满足“模型可理解、服务端可校验”两类约束。一个可落地的最小约束集合包括：参数类型明确、必填项清晰、默认值可推断、以及禁止额外字段（避免模型塞入无关参数）。

字段	含义	典型示例
name	工具名（函数名）	"search_docs"
description	工具描述（用于让模型选择工具）	描述越具体，误调用越少
parameters	JSON Schema 参数定义	{ "type": "object", "properties": { "query": { "type": "string" }, "top_k": { "type": "integer", "default": 5 } }, "required": ["query"], "additionalProperties": false }

工程上，工具 schema 需要同时满足两类消费者：模型（用于选择与填参）与服务端（用于校验与执行）。推荐在服务端做强校验（Pydantic/zod/JSON Schema validator），并把校验失败当成工具错误返回给模型进行自修复。

在 API 形态上，不同后端的 tools 字段会有轻微差异（嵌套

{"type":"function","function":{...}}

或扁平

{"type":"function","name":...}

）。编排层通常在入口做一次归一化，保证内部只处理一种表示。

OpenAI Responses API

Responses API 把“生成 + 工具 + 流式事件”统一成一个接口，支持 function calling、内置工具与 MCP 工具。部署形态上，它更像一个推理后端：你的编排服务负责调用 Responses、接收 tool call 事件、执行工具并把结果回注入下一轮调用。

pip install -U openai

import json
from openai import OpenAI

client = OpenAI()
def get_city_uuid(city: str) -> str:
    # 真实系统里这里通常查内部数据库或业务 API，而非返回硬编码字符串。
    return f"{city} ID: 00000000-0000-0000-0000-000000000000"
tool_mapping = {"get_city_uuid": get_city_uuid}
tools = [
    {
        "type": "function",
        "name": "get_city_uuid",
        "description": "Retrieve the internal ID for a city from the internal database.",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"],
            "additionalProperties": False,
        },
    }
]
response = client.responses.create(
    model="gpt-5.5",
    input="What's the internal ID for London?",
    tools=tools,
)
followup_items = []
for item in response.output:
    # Responses API 的 output 里可能混有文本、函数调用和其它事件，只处理 function_call。
    if item.type != "function_call":
        continue
    fn = tool_mapping[item.name]
    # arguments 是 JSON 字符串；应用侧必须自己反序列化并做参数校验。
    args = json.loads(item.arguments)
    tool_output = fn(**args)
    followup_items.append(
        # call_id 把本次工具输出绑定回模型刚才发起的那一次调用。
        {"type": "function_call_output", "call_id": item.call_id, "output": tool_output}
    )
if followup_items:
    response2 = client.responses.create(
        model="gpt-5.5",
        input=followup_items,
        previous_response_id=response.id,
    )
    print(response2.output_text)

Agents SDK

Agents SDK 的工程定位是“当你的应用拥有编排与工具执行权”时，提供标准化的 agent loop、handoff、guardrail、session 与 tracing。它与 LangGraph 的差异在于：前者更偏 SDK 级编排框架并与 OpenAI 生态强绑定，后者更偏通用图式编排运行时。

pip install openai-agents
export OPENAI_API_KEY=sk-...

from agents import Agent, Runner

agent = Agent(
    name="Ops helper",
    # instructions 是稳定行为约束；比每次把系统提示拼进用户输入更可维护。
    instructions="Diagnose errors and suggest concrete fixes.",
    model="gpt-5.5",
)
# run_sync 更适合 CLI 工具和后台任务；Web 服务通常改用异步入口。
result = Runner.run_sync(agent, "Explain this stacktrace and propose a patch.")
print(result.final_output)

MCP

Model Context Protocol（MCP）是一套标准化协议，用于把工具、资源与提示词以“独立服务器”的方式暴露给 AI 应用。它使用 JSON-RPC 2.0，在 host/client/server 三方模型下进行能力协商与调用。MCP 的价值在于把工具系统做成可组合生态：同一个 MCP server 可以被不同 host 复用，同一个 host 也能接多个 MCP server。

FastMCP

FastMCP 以 Python 类型标注与 docstring 自动生成工具 schema，把“写工具函数”变成“发布 MCP 工具”。它适合把内部服务封装成可调用工具，并以 stdio/HTTP 形态部署。stdio 模式下必须避免向 stdout 写日志，否则会破坏 JSON-RPC 通信。

pip install "mcp[cli]" httpx

from mcp.server.fastmcp import FastMCP

mcp = FastMCP("weather")

@mcp.tool
def add(a: int, b: int) -> int:
    """Add two numbers."""
    # 类型标注会直接进入 tool schema，客户端无需手写另一份 JSON Schema。
    return a + b
if __name__ == "__main__":
    # stdio transport 下 stdout 是协议通道；普通日志应改写到 stderr 或日志文件。
    mcp.run()

命令/API/函数

FastMCP(name)

说明
创建 MCP server 实例。通常位于 server 进程。

示例

from mcp.server.fastmcp import FastMCP

mcp = FastMCP("weather")

命令/API/函数

@mcp.tool

说明
声明工具函数，自动生成 schema。通常位于 server 进程。

示例

@mcp.tool
def add(a: int, b: int) -> int:
    return a + b

命令/API/函数

@mcp.resource

说明
暴露可读取资源（类文件数据）。通常位于 server 进程。

示例

@mcp.resource("weather://{city}")
def get_weather(city: str) -> str:
    return f"{city}: 25C"

命令/API/函数

@mcp.prompt

说明
暴露可复用 prompt 模板。通常位于 server 进程。

示例

@mcp.prompt
def summarize_topic(topic: str) -> str:
    return f"Summarize {topic} in one paragraph."

命令/API/函数

mcp.run()

说明
启动 server（stdio/HTTP transport）。通常位于 server 进程。

示例

if __name__ == "__main__":
    mcp.run()

MCP server 开发调试常用 MCP Inspector：

npx -y @modelcontextprotocol/inspector npx @modelcontextprotocol/server-filesystem /path/to/dir

Workflow 与 Runtime 的边界

编排代码通常由两层构成：workflow 负责表达“步骤与依赖关系”，runtime 负责提供“可恢复、可审计、可扩展”的执行语义。把关键能力下沉到 runtime，可以减少“靠 prompt 记住状态”的不稳定性。

能力	更适合放在 workflow（图/链）	更适合放在 runtime（执行层）
状态	状态结构（state schema）、节点输入输出契约	checkpoint/线程/恢复、版本化与回放
失败处理	哪些步骤允许重试、哪些步骤必须人审	指数退避、幂等、断点续跑、死信队列
工具调用	工具集选择与路由（tool routing / retrieval）	权限、沙箱、审计日志、限流、并发隔离
观测	关键业务 span 的命名与结构化属性	trace/metrics/log 的采集、采样、落库与查询

可观测性与审计

Agent 系统的主要故障点通常落在工具调用链偏航：工具选错、参数不合法、返回值解析失败、以及重试/恢复逻辑异常。可观测性需要覆盖：每次模型调用的输入输出、每次工具调用的参数与返回值、以及每个步骤的耗时与失败原因。Langfuse 在 LangChain / LangGraph 生态中常用作 tracing 平台。

Langfuse（LangChain 回调集成）

pip install -U langfuse langchain langgraph langchain-openai
export LANGFUSE_PUBLIC_KEY=pk-lf-...
export LANGFUSE_SECRET_KEY=sk-lf-...
export LANGFUSE_HOST=https://cloud.langfuse.com

from langfuse.langchain import CallbackHandler
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
langfuse_handler = CallbackHandler()

# Langfuse handler 会把 prompt、模型调用、异常与 token 用量统一写进 trace。
llm = ChatOpenAI(model_name="gpt-5.4")
prompt = ChatPromptTemplate.from_template("Tell me a joke about {topic}.")
chain = prompt | llm
resp = chain.invoke({"topic": "cats"}, config={"callbacks": [langfuse_handler]})
print(resp.content)

浏览器与工具调用组件

浏览器自动化通常以“工具”的形态接入 agent：编排层提供一个受控接口，例如 open_url、click、type、screenshot、extract_text；底层用 Playwright/Puppeteer 执行真实浏览器操作。生产部署时更常见的做法是把浏览器跑在隔离容器里，通过队列或 RPC 驱动，避免把不可信页面脚本与业务服务混跑在同一进程。

Playwright

pip install playwright
python -m playwright install

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=True)
    # 真实工具服务里更推荐先建 browser context，再为每个任务开独立 page。
    page = browser.new_page()
    page.goto("https://playwright.dev")
    title = page.title()
    browser.close()

如果把 Playwright 作为工具服务部署，推荐把“浏览器生命周期管理”显式化：为每个任务创建 context，任务结束后关闭 context，避免跨任务共享 cookie/session 导致串台。

Puppeteer

npm i puppeteer

Puppeteer 与 Puppeteer-core 的选择点在于“是否需要自动下载浏览器”。当你连接远程浏览器或自行管理浏览器镜像时，通常使用 puppeteer-core 并关闭下载。

从训练脚本到推理服务的最小闭环

工程闭环的目标是：用一套可复现的目录约定与脚本接口，把“数据准备 → 训练/微调 → checkpoint 管理 → 导出 → 启动推理服务 → 客户端调用 → 监控 → 回滚”串成一条可持续迭代的流水线。这个闭环必须满足两点：一是产物可追溯（可定位到数据版本、代码版本、超参版本），二是可回滚（任何上线问题都能在分钟级回退到上一版本）。

目录与产物约定（可回滚的最小形态）

repo/
  data/
    raw/                       # 原始数据（不直接喂训练）
    processed/
      train.jsonl              # 训练集（SFT / 分类 / NER 等）
      eval.jsonl               # 验证集
      dataset_meta.json        # 数据摘要：hash、样本数、字段说明、生成脚本参数
  scripts/
    prepare_data.py            # raw -> processed，输出 dataset_meta.json
  train/
    train_sft.py               # 训练脚本（支持断点续训、保存 best/last）
  export/
    export_merge_lora.py       # 可选：LoRA 合并导出为“纯模型”目录
  outputs/
    runs/
      2026-05-09_210530_sft/   # 单次训练 run（可追溯、不可变）
        checkpoints/           # checkpoint-xxx
        best/                  # 指向 best checkpoint 或其导出物
        logs/                  # tensorboard / jsonl / wandb（任选其一）
        run_meta.json          # 代码版本、数据 hash、超参、环境信息
  models/
    registry/
      model_v0001/             # 可部署模型目录（merge 后或 base+adapter 信息）
      model_v0002/
    prod -> registry/model_v0002   # 生产指针（原子替换实现回滚）
  serving/
    vllm/
      serve.sh                 # 启动推理服务（读 models/prod）
      healthcheck.sh
  clients/
    call_openai.py

数据准备（raw → jsonl）

最小可维护做法是把训练数据固化成 jsonl，并明确字段语义。SFT 场景建议至少包含

prompt

与

response

（或统一成

text

，让样本是完整的对话模板）。验证集必须在训练前固定，避免“验证泄漏”造成误判。

prepare_data.py（最小骨架）

import hashlib
import json
from pathlib import Path

def sha256_file(path: Path) -> str:
  # 用文件内容哈希固定住上游输入版本，便于之后追溯“这次训练到底吃了哪份原始数据”。
  h = hashlib.sha256()
  with path.open("rb") as f:
    for chunk in iter(lambda: f.read(1024 * 1024), b""):
      h.update(chunk)
  return h.hexdigest()

def write_jsonl(rows, out_path: Path) -> None:
  # 先确保输出目录存在，这样脚本可以在干净目录里直接运行。
  out_path.parent.mkdir(parents=True, exist_ok=True)
  with out_path.open("w", encoding="utf-8") as f:
    for r in rows:
      # 每条样本单独占一行，后续用 HF Datasets / 流式读取都更直接。
      f.write(json.dumps(r, ensure_ascii=False) + "\n")

def main():
  # 上游导出的原始数据；真实项目里通常来自标注平台、业务库导出或清洗脚本产物。
  raw_path = Path("data/raw/raw.json")  # 例：你的上游导出
  # 一次性读入原始 JSON，并假定其中已经包含 id / prompt / response 字段。
  raw = json.loads(raw_path.read_text(encoding="utf-8"))

  # 把上游格式规整成稳定 schema，避免训练脚本再处理多种脏格式。
  rows = []
  for x in raw:
    rows.append({
      "id": x["id"],
      "prompt": x["prompt"].strip(),
      "response": x["response"].strip(),
    })

  # 这里用固定比例切分；真实项目更常见的是按会话、文档或时间桶切分，降低泄漏风险。
  n = len(rows)
  train, eval_ = rows[: int(n * 0.98)], rows[int(n * 0.98):]

  # 把训练集和验证集落成两个独立 jsonl 文件，便于训练脚本直接按 split 读取。
  out_train = Path("data/processed/train.jsonl")
  out_eval = Path("data/processed/eval.jsonl")
  write_jsonl(train, out_train)
  write_jsonl(eval_, out_eval)

  # 同步写一份元信息，把原始文件哈希、切分规模和 schema 固化下来。
  meta = {
    "raw_path": str(raw_path),
    "raw_sha256": sha256_file(raw_path),
    "train_path": str(out_train),
    "eval_path": str(out_eval),
    "train_size": len(train),
    "eval_size": len(eval_),
    "schema": {"id": "str", "prompt": "str", "response": "str"},
  }
  Path("data/processed/dataset_meta.json").write_text(
    # 人类可读的缩进格式便于 code review 和回溯比对。
    json.dumps(meta, ensure_ascii=False, indent=2), encoding="utf-8"
  )

if __name__ == "__main__":
  main()

训练与 checkpoint（可复现、可恢复）

训练脚本的最小要求：固定输入数据与超参、支持断点续训、把 checkpoint 与元信息写入 run 目录，并在训练结束后产出一个“可部署入口”（best checkpoint 或导出的模型目录）。下面示例以 TRL 的 SFTTrainer + PEFT（LoRA）为主线。

依赖安装（训练侧）

pip install -U transformers accelerate datasets trl peft safetensors

train_sft.py（最小骨架：SFT + LoRA）

import json
import os
import subprocess
from datetime import datetime
from pathlib import Path

from datasets import load_dataset
from transformers import AutoTokenizer
from peft import LoraConfig
from trl import SFTConfig, SFTTrainer

def git_head() -> str:
  try:
    # 记录当前代码版本，之后排查“同样数据为什么结果变了”时很有用。
    return subprocess.check_output(["git", "rev-parse", "HEAD"]).decode().strip()
  except Exception:
    return "unknown"

def main():
  # 每次训练生成独立 run 目录，把日志、checkpoint 和元信息绑定在一起。
  run_id = datetime.now().strftime("%Y-%m-%d_%H%M%S_sft")
  run_dir = Path("outputs/runs") / run_id
  ckpt_dir = run_dir / "checkpoints"
  run_dir.mkdir(parents=True, exist_ok=True)
  ckpt_dir.mkdir(parents=True, exist_ok=True)

  # 基座模型优先从环境变量读取，便于同一脚本在不同实验里复用。
  base_model = os.environ.get("BASE_MODEL", "Qwen/Qwen3-0.6B")
  train_path = "data/processed/train.jsonl"
  eval_path = "data/processed/eval.jsonl"

  # tokenizer 和基座模型必须严格对应，否则很容易出现 token id 错位。
  tok = AutoTokenizer.from_pretrained(base_model, use_fast=True)
  if tok.pad_token is None:
    # decoder-only 模型经常没有显式 pad_token，这里用 eos_token 兜底。
    tok.pad_token = tok.eos_token

  # 直接从 jsonl 读训练/验证集，避免把数据切分逻辑散落在训练脚本里。
  ds_train = load_dataset("json", data_files=train_path, split="train")
  ds_eval = load_dataset("json", data_files=eval_path, split="train")

  def to_text(batch):
    # 把结构化 prompt/response 拼成单个 text 字段，交给 SFTTrainer 做因果语言建模。
    text = []
    for p, r in zip(batch["prompt"], batch["response"]):
      text.append(f"### Instruction\n{p}\n\n### Response\n{r}")
    return {"text": text}

  # 映射后移除原列，避免 dataset_text_field 和旧列同时存在导致歧义。
  ds_train = ds_train.map(to_text, batched=True, remove_columns=ds_train.column_names)
  ds_eval = ds_eval.map(to_text, batched=True, remove_columns=ds_eval.column_names)

  # 训练配置同时决定优化、评估、保存和 best checkpoint 选择策略。
  args = SFTConfig(
    output_dir=str(ckpt_dir),
    max_length=2048,
    num_train_epochs=1,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=16,
    learning_rate=2e-4,
    logging_steps=10,
    eval_strategy="steps",
    eval_steps=200,
    save_strategy="steps",
    save_steps=200,
    save_total_limit=3,
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,
    bf16=True,
    report_to="none",
  )

  # LoRA 只在注意力投影层挂 adapter，降低显存占用并保留基座模型可复用性。
  peft_cfg = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    task_type="CAUSAL_LM",
  )

  # SFTTrainer 负责串起 tokenizer、dataset、PEFT 配置和底层 Trainer 循环。
  trainer = SFTTrainer(
    model=base_model,                 # TRL 支持传入模型 id
    args=args,
    train_dataset=ds_train,
    eval_dataset=ds_eval,
    dataset_text_field="text",
    tokenizer=tok,
    peft_config=peft_cfg,
  )

  # 真正进入训练循环；accelerate / deepspeed 等启动器会从这里接管分布式细节。
  trainer.train()

  # 训练结束后优先取 best checkpoint，找不到时再退回 checkpoint 根目录。
  best = getattr(trainer.state, "best_model_checkpoint", None) or str(ckpt_dir)

  # 把本次实验的关键上下文固定下来，后续导出和上线都从这份元信息追溯。
  meta = {
    "run_id": run_id,
    "base_model": base_model,
    "git_head": git_head(),
    "train_path": train_path,
    "eval_path": eval_path,
    "best_checkpoint": best,
    "training_args": args.to_dict() if hasattr(args, "to_dict") else vars(args),
  }
  (run_dir / "run_meta.json").write_text(json.dumps(meta, ensure_ascii=False, indent=2), encoding="utf-8")

  # 额外写一个纯文本指针，让导出脚本不需要再解析 TrainerState JSON。
  (run_dir / "best").write_text(best, encoding="utf-8")

if __name__ == "__main__":
  main()

accelerate launch train/train_sft.py

断点续训与 checkpoint 策略

断点续训的最小实现是：训练启动时检测

output_dir

下最近的 checkpoint，并把它作为

resume_from_checkpoint

输入。线上训练任务应固定

save_total_limit

，避免磁盘被历史 checkpoint 填满导致任务失败。

导出与上线包（从 checkpoint 到“可部署模型目录”）

PEFT/LoRA 训练常见有两种上线形态：

形态 A：部署 base + LoRA adapter（推理侧按请求或按版本加载 adapter），上线快、存储小。
形态 B：把 LoRA 合并到 base（导出为纯模型目录），推理侧只加载一个目录，上线更简单。

export_merge_lora.py（形态 B：合并导出）

import argparse
from pathlib import Path

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel

def main():
  # 导出脚本只关心三件事：base 模型、adapter 目录、最终输出目录。
  ap = argparse.ArgumentParser()
  ap.add_argument("--base_model", required=True)
  ap.add_argument("--adapter_dir", required=True)   # trainer 产出的 adapter checkpoint
  ap.add_argument("--out_dir", required=True)       # models/registry/model_vXXXX
  args = ap.parse_args()

  # 提前创建输出目录，保证后续 save_pretrained 可以直接写入。
  out_dir = Path(args.out_dir)
  out_dir.mkdir(parents=True, exist_ok=True)

  # tokenizer 必须和 base 模型一起导出，否则线上推理会出现词表不一致。
  tok = AutoTokenizer.from_pretrained(args.base_model, use_fast=True)
  # 合并时不需要把基座模型放到 GPU，CPU 路径更稳，也更适合作为离线导出任务。
  base = AutoModelForCausalLM.from_pretrained(
    args.base_model,
    torch_dtype="auto",
    device_map="cpu",
  )
  # 先把 LoRA adapter 挂到 base 上，再做 merge。
  model = PeftModel.from_pretrained(base, args.adapter_dir)
  model = model.merge_and_unload()

  # 用 safetensors 导出，减少 pickle 风险，并让后续服务端加载更标准。
  model.save_pretrained(out_dir, safe_serialization=True)
  tok.save_pretrained(out_dir)

if __name__ == "__main__":
  main()

版本化与可回滚指针

上线包放在

models/registry/model_vXXXX

，生产指针

models/prod

是一个符号链接。切换版本通过“原子替换 symlink”实现回滚。

# 上线：切到新版本
ln -sfn "$(pwd)/models/registry/model_v0002" "$(pwd)/models/prod"

# 回滚：切回旧版本
ln -sfn "$(pwd)/models/registry/model_v0001" "$(pwd)/models/prod"

启动推理服务（vLLM OpenAI 兼容服务）

推理服务侧的最小目标是提供稳定的 HTTP API，并将“模型路径/版本”从代码里剥离出来（通过

models/prod

指针决定）。下面示例使用 vLLM 的 OpenAI-Compatible Server。

安装（推理侧）

pip install -U vllm

serve.sh（最小启动脚本）

#!/usr/bin/env bash
# 遇到未定义变量、非零退出码或管道错误时立即失败，避免服务在半坏状态启动。
set -euo pipefail

# 统一通过 prod 软链接决定线上模型版本，切换版本时不需要改脚本本身。
MODEL_DIR="$(cd "$(dirname "$0")/../.." && pwd)/models/prod"

# 把 vLLM 日志级别显式固定，便于排查线上问题。
export VLLM_LOGGING_LEVEL=INFO

# 直接启动 OpenAI-compatible server；上线时通常由 systemd / supervisor / k8s 接管这个命令。
vllm serve "$MODEL_DIR" \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype auto \
  --served-model-name prod \
  --api-key "token-abc123"

健康检查与 smoke test

#!/usr/bin/env bash
# 任何一个探针失败都直接让脚本退出非零，便于被外层编排系统感知。
set -euo pipefail

# 第一步先检查服务是否能正常列出模型，确认 HTTP 层和模型加载都没崩。
curl -sf http://127.0.0.1:8000/v1/models > /dev/null

# 第二步做一次最小生成，确认真正的推理路径、鉴权和请求体格式都可用。
curl -sf http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer token-abc123" \
  -d '{
    "model": "prod",
    "messages": [{"role": "user", "content": "Say hi in one sentence."}],
    "temperature": 0
  }' > /dev/null

客户端调用（OpenAI SDK 对接）

OpenAI 兼容服务的价值是客户端可复用：同一套调用代码既能访问云端，也能访问本地/自建的 vLLM 服务。下面示例用 OpenAI Python SDK 走 Chat Completions。

pip install -U openai

from openai import OpenAI

# base_url 指向自建 vLLM 服务；如果以后切到云端，只需要改这里而非重写调用逻辑。
client = OpenAI(
  base_url="http://127.0.0.1:8000/v1",
  api_key="token-abc123",
)

# 这段请求体和标准 OpenAI Chat Completions 兼容，方便直接接已有业务代码。
resp = client.chat.completions.create(
  model="prod",
  messages=[{"role": "user", "content": "Write a haiku about debugging."}],
  temperature=0,
  max_tokens=128,
)

# 最终只取第一候选的文本内容；业务代码通常会在这里接入重试、超时和日志。
print(resp.choices[0].message.content)

监控与回滚（最小可操作）

闭环的监控重点放在三类信号：服务可用性（health）、吞吐与延迟（QPS/TTFT/TPOT）、以及错误率（5xx/超时/OOM）。最小回滚流程必须是“切换模型指针 + 重启服务 + 运行 smoke test”。

指标采集点（建议最小集）

服务级别：
```
/v1/models
```
可用性，5xx 比例，请求超时比例。
推理级别：首 token 延迟（TTFT）、每 token 延迟（TPOT）、生成长度分布。
资源级别：GPU 显存占用、GPU utilization、CPU/内存、队列长度。

curl -sf http://127.0.0.1:8000/metrics | head

回滚脚本（最小骨架）

#!/usr/bin/env bash
# 回滚脚本必须“失败即停”，否则很容易出现模型指针已切换但服务未重启成功的半完成状态。
set -euo pipefail

# 回滚目标从命令行传入，例如 model_v0003。
TARGET="${1:?usage: rollback.sh model_vXXXX}"
# 统一计算项目根目录，避免脚本从不同 cwd 调用时路径失效。
ROOT="$(cd "$(dirname "$0")/../.." && pwd)"

# 原子更新 prod 软链接，让服务下一次启动时加载目标版本。
ln -sfn "$ROOT/models/registry/$TARGET" "$ROOT/models/prod"

# 具体重启方式取决于你的进程管理器（systemd/docker/k8s）
# 这里仅给出最小形态：杀进程后重启
# 如果旧进程不存在，pkill 返回非零；这里显式容忍这种情况。
pkill -f "vllm serve" || true
# 用 nohup 启动一个后台服务，真实生产更推荐交给 systemd / k8s 管理。
nohup bash "$ROOT/serving/vllm/serve.sh" > "$ROOT/outputs/vllm_stdout.log" 2>&1 &

# 重启后立刻做 smoke test，确保回滚并非“切了指针但服务仍不可用”。
bash "$ROOT/serving/vllm/healthcheck.sh"

后续阅读

本篇到这里结束，覆盖 AI 训练与推理编程的横向工程栈：语言与数值底座、数据管线、基础训练框架、经典机器学习、语言模型训练框架、分布式训练、模型导出、推理服务、检索/RAG、Agent 编排，以及从训练脚本到推理服务的最小闭环。

ai-knowledge-quick-ref-7

继续展开重点框架详解与代码精读，包括 PyTorch、Transformers、PEFT、语言模型强化学习、OpenRLHF、verl、DeepSpeed、vLLM，以及手写 Transformer、Claude Code 类 agent 和 NER 算法源码解读。

The post 人工智能知识 - 编程（一） appeared first on 绿色记忆.

人工智能知识 - 智能体

Alex — Wed, 15 Apr 2026 21:47:13 +0000

这一篇处理模型之外的系统层问题，包括上下文工程、Harness Engineering、检索增强生成（RAG）与智能体。前一篇讲的是模型本体及其训练和推理，这一篇转向“模型如何被放进真实系统里工作”：上下文如何组织，工具与知识库如何接入，验证闭环如何建立，以及多步推理与多智能体协作如何落地。

上下文工程（Context Engineering）

从提示词工程到上下文工程

提示词工程（Prompt Engineering）最早强调的是“怎么写一句更有效的话”，关注点集中在措辞、顺序、示例和限制条件。随着大模型应用从单轮问答扩展到智能体（AI Agent）、RAG、多工具调用与长会话系统，工程重点逐渐转向上下文工程（Context Engineering）：真正决定效果的，已经从某一句提示词本身扩展到系统提示、用户输入、示例、检索结果、对话历史、工具返回、结构化状态与输出约束如何被整体组织成一次模型调用。

因此，上下文工程可以看作比提示词工程更大的外层概念。提示词仍然重要，但它只是上下文中的一个组件；在生产系统里，更关键的问题通常是“哪些信息应该进入上下文、以什么顺序进入、保留多久、如何压缩、何时替换、如何约束输出”。这一变化反映的核心是应用形态已经从“写一句 prompt”演进为“设计一套输入装配系统”。

上下文学习

上下文学习（In-context Learning）指模型在不更新参数的前提下，仅凭当前输入中的任务说明、示例与约束完成新任务。它依赖的是上下文中的条件信息，而非额外微调。

零样本（Zero-shot）

零样本（Zero-shot）是在不给示例的情况下，直接通过任务描述让模型完成目标。例如“判断以下影评是正面还是负面，只输出标签”。它的优点是成本低、迁移快；缺点是任务边界一旦含糊，模型更容易自由发挥。

少样本（Few-shot）

少样本（Few-shot）是在提示词中附带少量示例，让模型在当前上下文里归纳输入输出模式。它特别适合标签定义不够直观、格式要求严格或任务带有领域习惯的场景。示例的价值不只是“给答案”，更是显式定义任务边界、异常情况与输出风格。

提示词结构

一个可维护的提示词通常由若干功能块组合而成，而非一段散乱文本。把这些块拆开，能够显著提高复用性、可调试性与一致性。

角色定位

角色定位（Role）定义模型在本次任务中的身份与职责边界，例如“你是严谨的法律信息抽取器”或“你是面向儿童解释科学概念的讲解者”。它的作用是设定默认行为策略，而非替代具体任务指令。

指令

指令（Instruction）直接说明模型要完成什么任务，是提示词中最核心的控制块。好的指令应当明确目标、操作步骤、禁止事项与完成标准，避免把多个含糊目标混在同一层表达里。

上下文

上下文（Context）提供完成任务所需的背景信息，例如产品文档、会话历史、用户约束、检索片段或前一步工具返回。它回答的是“模型基于什么信息工作”，而非“模型该怎么工作”。

输出格式

输出格式（Output Format）规定结果应该长什么样，例如纯文本、项目符号、JSON、表格或固定字段。格式要求越明确，后续系统越容易解析、验证与链接到其它模块。

受众

受众（Audience）决定解释深度、术语密度与默认背景知识。例如 ELI5（Explain Like I'm 5）指面向完全没有背景知识的读者，需要更浅白的表达；面向资深工程师时，则应保留专业术语、边界条件与实现细节。

语气

语气（Tone）控制表达风格，例如正式、简洁、鼓励式、审慎式或客服式。它影响的是话语风格和风险表达方式，但不应改变事实本身或任务判断标准。

数据

数据（Data）指与任务本身直接相关的材料，例如待分类文本、待总结文档、用户表单、日志片段、表格记录或检索回来的证据。很多提示词失败，根源在于真正决定任务结果的数据并没有进入上下文。

上下文构建

系统提示（System Prompt）

系统提示（System Prompt）是整个上下文的最高层行为约束，通常用于定义角色、原则、边界和长期稳定规则。它应该稳定、简短且高信号，承载通用策略，而不适合塞入频繁变化的任务细节。

对话历史与记忆

多数大模型 API 是无状态（Stateless）的：模型在一次调用中只“看到”你发送的输入（Prompt），不会自动记住上一次调用的对话内容。因此对话应用通常需要把对话历史（Conversation History）连同当前用户输入一起发给模型。

这会带来两个直接后果：

token 占用会随着历史增长而上升（直到触达上下文窗口上限）。
并非“发得越多越好”：冗余历史会稀释注意力、提高成本，并可能引入过时或冲突信息。

工程上常见的记忆（Memory）分层是：

短期记忆（Short-term Memory）：保留最近 N 轮原文对话，确保局部连贯。
工作记忆（Working Memory）：把对话状态压缩成结构化摘要，例如用户偏好、已确认事实与当前任务约束。
长期记忆（Long-term Memory）：把历史片段写入外部存储（向量库/数据库），需要时检索回填。

工具调用上下文

工具调用上下文（Tool Context）指模型在调用搜索、数据库、代码执行器或业务 API 后得到的中间结果。它的关键不仅“把结果贴回模型”，还把工具返回整理成模型真正可用的状态：保留必要字段、去掉噪声、标明来源与时间，并避免把原始日志整段塞进上下文。

渐进式披露

渐进式披露（Progressive Disclosure）强调：不要在一开始把所有文档、规则、工具说明和历史对话一次性塞进上下文，而应只注入当前步骤真正需要的那一层信息。模型先看到最小可行上下文，只有当任务推进到下一层时，才继续展开更具体的约束、领域知识或执行细节。

这样做的原因不只是节省 token，更是为了保持推理质量。多组工程实践都观察到，上下文利用率一旦超过大约 40%，模型就可能从“聚焦求解”进入“信息过载”状态，开始出现幻觉、循环、格式错误或低质量实现。渐进式披露的目标，就是让 Agent 长时间停留在这个甜蜜区，而非被无关材料拖进噪声区。

上下文窗口管理

Token 预算

Token 预算（Token Budget）是把上下文窗口（Context Window）当作一种稀缺资源来管理：一次请求的输入 token 与输出 token 都要计入模型的最大长度限制，并直接影响延迟与成本。

经验做法是把 prompt 切成可控的几块：系统提示尽量短且稳定；对话历史只保留近期原文；把长期信息通过检索（Retrieval）按需注入。

压缩与摘要

压缩与摘要（Compression & Summarization）的核心，是把信息从逐字转录（Transcript）变成可被模型继续使用的状态（State），而非单纯把文本“变短”。常见策略：

滚动摘要（Rolling Summary）：每轮对话后更新一段固定长度的当前状态。
层级摘要（Hierarchical Summarization）：长文先分块总结，再总结摘要。
结构化记忆（Structured Memory）：用 JSON 或表格保存关键字段（偏好、约束、已决策项），避免自然语言摘要漂移。

摘要要可验证：优先保留可操作事实（约束、数值、名称、决策），少写主观评价。

长文本处理策略

当最新一次对话依赖很久以前的信息时，更可靠的方法是检索增强：把历史切成片段并建立索引（向量索引、关键词索引、主题标签），在每次请求前先检索与当前问题最相关的片段，再把这些片段注入上下文。无限追加历史通常会带来更高噪声和更差上下文利用率。

在当前智能体开发里，最主流的组合通常是：滑动窗口 + 滚动摘要 + 向量检索（RAG）。早期的外部记忆网络（Memory Networks / Neural Turing Machine）更多是研究范式，工程落地上更常见的是向量数据库与检索管线。

结构化输出

JSON Schema 约束

JSON Schema 约束把“输出应该长什么样”前置为机器可验证的结构定义，例如字段名、字段类型、必填项、枚举值与嵌套关系。它的价值在于把格式控制从“模型尽量照做”提升到“系统可以检查对不对”，从而显著降低后处理复杂度。

函数调用（Function Calling）

函数调用（Function Calling）把模型输出从自由文本转成“选择哪个工具、填写哪些参数”的结构化决策。它的工作方式是让模型先生成一个可被程序消费的调用意图，再由外部系统负责权限校验、真实执行与结果回填。

高级提示词策略

这里讨论的高级提示词策略，指的是仅通过提示词设计改变模型求解过程，而不借助额外框架、搜索控制器或推理编排器。它们本质上仍属于上下文工程：通过改变输入结构，让模型在一次或少数几次调用中显式展开中间推理步骤。

思维链（Chain-of-Thought）

思维链（Chain-of-Thought, CoT）的核心做法是：在提示词中明确要求模型先分步分析，再给出最终答案。例如，可以把任务写成“先列出关键事实，再逐步推理，最后只输出结论”。若任务本身较复杂，也可以在 few-shot 示例里直接展示“问题 ➡ 分步推理 ➡ 最终答案”的格式，让模型在上下文中模仿这种求解模式。

在纯提示词使用方式下，CoT 的关键在于把推理过程结构化地写进输出要求，而非迷信某一句固定咒语。例如，可以把输出格式限定为“步骤 1 / 步骤 2 / 结论”，或要求模型先检查条件、再排除候选、最后汇总结论。这样做通常有利于多步算术、条件判断、规则推导与长链依赖任务；但对简单任务、严格结构化输出任务或成本敏感场景，强行要求展开思维链反而会增加 token 开销与噪声。

思维树（Tree of Thoughts）

思维树（Tree of Thoughts, ToT）可以看作思维链的分支化版本：提示词不仅要求模型给出一条线性推理路径，还要求它先生成多个候选思路，再比较这些思路，最后选择更优的一条继续展开。在不借助框架的前提下，这种策略仍可以通过提示词实现，例如要求模型“先给出三个可能方案，分别说明优缺点，再选择最合理的方案给出最终答案”。

纯提示词版 ToT 的本质，是把“分支生成 + 分支比较 + 继续展开”都压进一次或少数几次模型调用里。它适合开放式规划、方案比较、复杂写作提纲和策略搜索这类任务，因为这类任务往往不存在唯一直接路径。代价同样明显：提示词更长，输出更长，模型也更容易在分支之间漂移。因此，ToT 更适合高价值、需要比较多个候选方案的任务，而不适合作为所有请求的默认模式。

Harness Engineering

Harness Engineering（驾驭工程）研究的是：当模型推理与生成能力已经足够强时，决定 Agent 能否稳定完成复杂任务的，往往是模型外围的整套工作系统。Harness 指模型之外的所有代码、配置与执行逻辑——工具接口、状态管理、上下文装配、架构约束、验证机制、回滚策略与持续清理，全部属于这一层。裸模型只能接收输入、输出文本；只有当 Harness 为它提供状态、工具、约束和反馈回路后，它才能成为一个持续干活的 Agent。

目前 Harness Engineering 落地最广、讨论最充分的场景仍然是 Coding Agent，因此本章中的很多方法首先来自代码生成、调试、验证、跨会话交接和多 Agent 编排的工程实践。但它并不局限于写代码。凡是 Agent 需要长期持有状态、调用外部工具、在约束下执行任务、接受反馈并持续纠偏的场景，都可以应用同样的方法论，例如研究 Agent、数据分析 Agent、运维自动化 Agent、业务流程 Agent 以及多模态交互系统。随着 Agent 从“生成回答”走向“持续执行任务”，Harness Engineering 也会从 Coding Agent 的经验集合，扩展为更一般的 Agent 系统工程。

下文将沿着“为什么 Agent 会失效 ➡ 如何搭建控制面 ➡ 如何长期治理系统 ➡ 工程师角色如何变化”这条主线展开。

三层模型和五大支柱

Prompt Engineering（提示词工程）、Context Engineering（上下文工程）与 Harness Engineering 构成了层层外扩的系统模型：前者决定如何表达任务，中间层决定模型能看到什么，最外层决定整个系统如何执行、纠偏与长期维持质量。

三层模型

提示词工程

提示词工程回答的是“如何把任务说清楚”。它关注指令措辞、角色设定、Few-shot 示例、输出格式和推理引导，目标是在单次调用里把任务表达得足够明确，让模型更容易走向期望行为。

上下文工程

上下文工程回答的是“模型应该看到什么”。它关注记忆注入、检索回填、窗口压缩、状态摘要和工具返回整理，目标是控制输入信息的相关性与密度，使模型在有限上下文里获得完成当前任务所需的关键材料。

Harness Engineering

Harness Engineering 回答的是“模型在什么系统里工作”。它处理的已经从输入文本扩展到工具接口、状态持久化、架构边界、验证回路、错误恢复、执行顺序与持续清理。到了这一层，关注点已经从“如何让模型回答得更好”转向“如何让 Agent 在真实系统中稳定完成工作”。

Harness 并不等同于某一句系统提示，也不等同于某个框架的名称。框架（Framework）、运行时（Runtime）和工具链都可以参与实现 Harness，但 Harness 这个词强调的是模型外围整套工作系统，而非其中任何一个单独组件。

五大支柱

从系统设计视角，一个可用的 harness 通常由五类承重件组成：上下文管理（Context Management）、工具编排（Tool Orchestration）、安全护栏（Safety Guardrails）、反馈回路（Feedback Loops）与可读性/可观测性（Legibility / Observability）。前两者解决“Agent 知道什么、能做什么”，中间两者解决“何时纠偏、如何避免越界”，最后一类解决“系统当前到底发生了什么”。

上下文管理

上下文管理决定 Agent 在每一步究竟能看到什么信息。它的目标是把系统提示、短期记忆、长期知识、工具返回和任务状态按层组织，让模型始终工作在信息足够但不过载的区间，而非简单堆砌更多材料。

工具编排

工具编排决定 Agent 能做什么，以及如何把动作接回推理链路。搜索、数据库、代码执行器、浏览器自动化和业务 API 只有在权限、输入输出格式、调用顺序与结果回填都被设计清楚后，才会从“外挂能力”变成稳定的执行系统。

安全护栏

安全护栏负责限制 Agent 的越界空间。它包括写权限边界、架构约束、审批节点、沙箱、敏感操作限制与结构化状态约束，作用是把“模型可能做错事”转化为“系统不允许它在关键位置随意犯错”。

反馈回路

反馈回路负责告诉 Agent 当前结果究竟对不对。测试、lint、evaluator、Sprint Contract、健康检查和人工验收都属于这一层。没有反馈回路，Agent 只能凭语言流畅性误判成功；有了反馈回路，系统才能把错误重新送回执行链路中修复。

可读性与可观测性

可读性与可观测性负责让 Agent 看见系统真实状态。UI、日志、指标、追踪、截图、DOM 快照和运行时事件，都是 Agent 判断“系统发生了什么”的依据。若系统对 Agent 不可见，很多问题即使存在，也只能靠盲目试错去碰。

Harness 的成熟度，本质上就是这五类控制面被工程化到什么程度。后文的各个部分，基本都可以看作对这五类支柱的展开：先看 Agent 为什么会系统性失效，再分别讨论上下文、编排、知识、约束、可读性、验证与熵控制如何把这些失效压回系统边界之内。

长运行 Agent 的系统性失效

长运行 Agent（Long-Running Agent）必须跨多个上下文窗口持续工作，每个新会话在启动时对前一会话发生的事情没有任何记忆。即使使用最强的前沿模型，如果只给一个高级别的提示词，Agent 也无法稳定构建出生产质量的复杂系统。实践观察到四类典型失效：

过早宣告完成（Premature Victory Declaration）：在项目进行到一定阶段后，Agent 环视已完成的工作，宣告整个项目已经完成，忽略仍未实现的功能。
脏状态遗留（Dirty State Handoff）：会话结束时遗留未修复的 bug 或未记录的进度，下一个会话必须先花大量 token 恢复工作环境，而非推进新功能。
伪完成标记（False Completion）：Agent 完成代码改动并运行单元测试或 curl 命令后，在没有进行端到端验证的情况下把功能标记为已完成，而该功能实际上并不能正常工作。
上下文焦虑（Context Anxiety）：部分模型在上下文窗口填充到一定程度后，会主动收尾、提前结束任务——即便任务尚未完成，这种过早的"善后行为"会导致中途截断的工作状态。

这四类失效都不能靠"换一个更好的模型"自动解决。它们是系统性问题，需要 Harness 层面的工程设计来对抗。

失败驱动的 Harness 演化

Harness 是通过失败持续生长的控制层。一个重要的工程判断是：当 Agent 在某类任务上反复失败时，应先把失败当作 Harness 缺口的定位信号。失败可能意味着工具接口缺失、文档不可达、架构边界不清、状态交接不足，或验收标准仍停留在模糊自然语言层面。

因此，Harness Engineering 的关键动作是把失败外化成新的系统组件：增加脚本、补充文档、收紧 lint 规则、拆出更明确的 Contract、补上 evaluator 或可观测性接入。每次失败若都能回写为新的约束与支撑物，Agent 系统就会逐步从“靠经验驱动”演化为“靠机制驱动”。

上下文管理策略

上下文焦虑与两种应对策略

上下文焦虑（Context Anxiety）是指模型在感知到上下文窗口即将耗尽时，主动把任务包装成"已完成"状态——即便还有大量工作未做。Anthropic 在 Claude Sonnet 4.5 上观察到这一现象尤为明显。

应对上下文耗尽有两种互相对立的策略：

策略	机制	保留连续性	消除上下文焦虑	代价
压缩（Compaction）	将早期对话摘要替换原文，同一 Agent 继续运行	是	否（焦虑可能持续）	摘要信息损失
重置（Context Reset）	清空上下文，新 Agent 从结构化交接物（Handoff Artifact）重启	否（全新起点）	是	需要构造高质量交接物；增加编排复杂度与延迟

对于 Sonnet 4.5，仅靠 Compaction 不足以支撑长任务，Context Reset 成为 Harness 设计的必要组件。随着 Opus 4.6 的推出，其长上下文检索能力显著提升、上下文焦虑基本消除，Context Reset 可以从 Harness 中移除——这正是 Harness 组件应随模型能力动态调整的典型示例。

一个很有价值的经验规律是：上下文窗口并非“越满越好”。多组实践都观察到，随着无关文档、工具说明和历史对话不断堆积，Agent 的推理质量会先升后降。工程上可以把这理解为上下文利用率的“甜蜜区间”：模型需要足够信息才能稳定工作，但一旦被冗余材料淹没，就会出现幻觉、循环、格式错误或低质量实现。Harness 的任务核心是让 Agent 在任意时刻只看到当前步骤真正需要的信息。

跨会话状态传递

长运行 Agent 在会话之间传递状态，不能依赖模型的内部记忆，必须依靠外化的持久化制品（Persistent Artifacts）。实践中形成了一套固定的状态传递套件：

进度文件（Progress File）：纯文本日志，记录每个会话完成了什么、遇到了什么问题、下一步是什么。每个会话开始时读取，结束时更新。
功能列表文件（Feature List）：结构化的功能需求清单，初始全部标记为未完成，Agent 逐项实现并通过测试后方可标记通过。使用 JSON 而非 Markdown——实验发现模型不当覆写或修改 JSON 文件的概率远低于 Markdown 文件。
启动脚本（init.sh）：由初始化代理预先写好的环境恢复入口，负责安装依赖、启动必要服务并打印访问入口。后续 fresh session 从重新猜测项目如何运行转向把它作为标准恢复脚本，在需要时检查并调用。
Git 历史：每个会话以描述性的 commit message 结束。Git 历史既是进度时间线，也是恢复机制——Agent 可以通过
```
git revert
```
从错误改动中恢复。

这套设计借鉴的是人类软件工程师的轮班交接实践：进度文件对应交班笔记，git commit 对应有记录的工作移交，init.sh 对应标准化的环境搭建步骤，功能列表对应待办看板。

当单个 Agent 已经能够跨会话持续推进后，下一个问题就从“如何记住过去”转向“如何把复杂任务拆给更合适的执行者”。这正是多 Agent 架构出现的背景。

多 Agent 架构模式

GAN 启发的 Generator–Evaluator 结构

让单个 Agent 对自己的输出进行评估会产生自评偏差（Self-Evaluation Bias）：即使输出质量明显一般，模型也倾向于给出积极评价。这一问题在主观任务上尤为突出，在可验证任务上同样存在。

一个有效的应对结构来自生成对抗网络（Generative Adversarial Network, GAN）的启发：将生成者和评估者分离成两个独立 Agent。

[Generator Agent] ←── feedback ──[Evaluator Agent]
        │                                 │
        └──────── output artifact ────────┘

关键发现：调教一个独立的评估者使其保持怀疑态度，远比让生成者对自己的输出保持批判性更为可行。评估者仍然是 LLM，仍然有宽容倾向，但针对评估者进行专项提示调优的效果可以稳定收敛，而自评调优往往无效。

Planner–Generator–Evaluator 三 Agent 架构

在 Generator–Evaluator 基础上增加一个 Planner Agent，构成完整的三 Agent 架构：

Agent	输入	输出	设计要点
Planner	1–4 句用户提示	完整产品规格书	只关注产品上下文与高层技术设计，不指定实现细节（过度具体的规格会将错误级联到下游）；被提示在规格中寻找机会融入 AI 功能
Generator	产品规格 + Sprint Contract	可运行代码	按 Sprint 增量构建（早期模型）或持续运行（强模型）；完成 Sprint 后先自评，再交 Evaluator 审查；拥有版本控制权限
Evaluator	运行中的应用 + Sprint Contract 验收标准	通过/失败判定 + 具体可行的问题报告	通过 Playwright MCP 实际操作运行中的应用；设有硬性阈值，任一标准未达到则 Sprint 失败并返回修复

Agent 之间的通信完全基于文件：一个 Agent 写文件，另一个读文件并响应。这种方式简单、可追溯、不依赖框架内部状态。

初始化 Agent 与编码 Agent 的分离

对于需要跨多个上下文窗口持续工作的场景，一种实用模式是将第一次会话与后续会话用不同的提示驱动：

初始化 Agent（Initializer Agent）：仅在第一个会话运行，负责构建整套脚手架：根据项目规格生成 init.sh、功能列表 JSON、初始 git commit 和进度文件，把“项目如何启动、功能如何追踪、状态如何恢复”一次性外化成可执行制品。
编码 Agent（Coding Agent）：从第二个会话起运行，先读取进度文件、功能列表和最近的 git 历史，再按需调用 init.sh 恢复环境，每次只实现一个功能，并以"干净状态（Clean State）"结束会话。

两个"Agent"在技术上是同一套系统提示和工具集，区别仅在于初始用户提示不同——这是一种提示策略，而非架构分离。

这种设计的关键，在于把“如何把项目跑起来”从高 token 成本的推断问题，转成低成本、可重复、可审计的脚本执行问题，而非简单多一个 shell 脚本。后续每个 fresh session 的标准启动序列因此可以稳定下来：先用

pwd

与最近的

git log

确认当前工作状态，读取进度文件和功能列表定位下一项任务，再检查并在需要时调用

init.sh

恢复依赖、服务和访问入口。模型不再反复猜测包管理器、启动顺序、端口和运行命令，上下文预算因此可以集中到真正的实现与验证上。

Sprint Contract：预协议的完成定义

Sprint Contract 是 Generator 与 Evaluator 在任何代码被写下之前，对"这一阶段完成的标准"达成共识的协议制品：Generator 提出将要构建什么以及如何验证成功，Evaluator 审查并确认，双方迭代直到达成一致。其目的是弥合高层用户故事与可测试实现之间的鸿沟，防止模糊需求在实现阶段演变为争议。

任务拆分解决了“谁来做”，但还没有解决“知识从哪里来、如何保持最新”。一旦 Agent 工作跨越多个会话、多个角色和多个代码域，知识组织方式本身就会成为 Harness 的一部分。

知识库工程（Repository as System of Record）

给 Agent 地图而非手册

“给 Agent 地图而非手册”讨论的是知识入口（Knowledge Entry Point）的设计原则：在大型、持续演化的代码库中，Agent 需要的是一套能够把它稳定引导到正确信息源的导航结构，而非一份试图囊括所有细节的单体说明书。知识库工程的关键目标是让上下文可定位、可更新、可裁剪，而非一次性塞满。

因此，这里的首要挑战是"如何让 Agent 在需要时找到正确信息"。"一个巨型 AGENTS.md 文件"的方案会失败，原因是多方面的：

上下文是稀缺资源。一个巨大的指令文件会挤占任务本身、代码和相关文档的空间，导致 Agent 要么遗漏关键约束，要么对错误的目标进行优化。
过多的指导等于没有指导。当所有内容都被标记为"重要"时，Agent 会退化成局部模式匹配，而非有目的地导航。
单体文档会迅速腐烂。人类停止维护，Agent 无法分辨哪些规则仍然有效，文件变成一个充满过期规则的吸引力陷阱。

有效的替代方案是：AGENTS.md 充当目录（Table of Contents），而非百科全书。一份约 100 行的精简 AGENTS.md 作为上下文的入口，通过指针将 Agent 引导至结构化 docs/ 目录中的具体知识源。

AGENTS.md 还有一个更重要的角色：它不应是一次写完后长期冻结的静态文档，而应是失败驱动的活反馈循环。每当 Agent 因为命令使用错误、目录理解偏差、架构约束遗漏或工具接入方式不清而出错，最直接的修复方式往往就是把这类经验回写进 AGENTS.md 或其指向文档。这样，文档已经从说明书扩展到把历史失败压缩成未来会话可直接继承的系统记忆。

AGENTS.md            ← 约100行，地图角色
ARCHITECTURE.md
docs/
├── design-docs/
│   ├── index.md
│   └── core-beliefs.md
├── exec-plans/
│   ├── active/
│   └── completed/
├── generated/
│   └── db-schema.md
├── product-specs/
│   └── index.md
├── references/
│   ├── design-system-reference-llms.txt
│   └── ...
├── DESIGN.md
├── FRONTEND.md
├── PLANS.md
└── QUALITY_SCORE.md

这种结构实现了渐进披露（Progressive Disclosure）：Agent 从一个小而稳定的入口开始，被引导到它需要的具体知识，而非在启动时被所有信息淹没。

组织级 Golden Path

当团队反复构建相似类型的系统时，Harness 不应只停留在单项目经验，而应上升为组织级的服务模板（Service Template）或黄金路径（Golden Path）。现实中的软件形态并非无限多样的，常见项目通常集中在少数几类技术拓扑：前端应用、后端服务、数据流水线、内部工具。若能把每类拓扑常用的目录结构、启动脚本、验证流水线、可观测性接入、架构约束和 Agent 指令打包成模板，新项目就不必从零设计 Harness。

这类模板的价值不只是“脚手架复用”，更在于组织把高频工程判断沉淀成标准化控制面。团队成员在真实项目中学到的约束、回滚经验和验证方法，可以持续回流到模板；模板更新后，又会反过来提升后续所有项目的默认质量。Harness 一旦进入这个阶段，便已经从某个工程师的个人技巧扩展到组织级生产力资产。

Agent 可见性边界

从 Agent 的视角来看，任何它在运行时无法在上下文中访问的知识，实际上不存在。存在于 Google Docs、Slack 线程或人脑中的决策，对 Agent 来说与从未发生过没有区别。唯一对 Agent 有效的知识是代码库中版本化的制品：代码、Markdown、Schema、可执行计划。

这一约束倒逼团队把越来越多的上下文推入代码库：对齐团队架构决策的 Slack 讨论、产品原则、工程规范，都需要以 Agent 可读的形式在仓库中存在。这不仅是文档实践，更是系统设计约束。

机械化知识维护

知识库的有效性需要机械化强制执行，而不能依靠人工自律。专用的 linter 和 CI 任务验证知识库是否最新、交叉引用是否完整、结构是否正确。一个周期性运行的"文档园丁 Agent（doc-gardening agent）"扫描文档与实际代码行为之间的偏差，发现过期或不一致的内容后自动开启修复 Pull Request。

知识工程解决的是“找得到信息”，架构约束工程解决的是“即使知道该做什么，也不能随意乱做”。两者结合，Agent 才既有方向感，也有边界感。

架构约束工程

分层领域架构

Agent 在具有严格边界和可预测结构的环境中工作效果最好。在全 Agent 生成的代码库中，这一原则需要在工程层面提前落地：等到有数百名工程师时再引入架构规则，通常已经太晚了——而在 Agent 驱动的代码库中，混乱会以比人类团队快得多的速度蔓延。

一种行之有效的结构是分层领域架构（Layered Domain Architecture）：每个业务域被划分为固定的层集合，依赖方向被严格验证，仅允许有限的跨层边。例如，在一个业务域内部，代码只能沿固定顺序向前依赖（Types → Config → Repo → Service → Runtime → UI）；跨切面关注点（认证、连接器、遥测、特性标志）通过单一显式接口进入。其他所有依赖方向都被机械地禁止。

机械化强制执行

架构规则通过定制 linter 和结构测试强制执行，而非依赖文档和代码审查中的人工判断。关键实践：

linter 的错误信息被设计成直接包含修复指令，从而将约束违反转化为 Agent 可消费的上下文。
在对人类团队而言显得迂腐的细粒度规则，对 Agent 来说是乘数效应：一旦编码，立即在所有代码上生效，无需逐一审查。
约束划定边界，边界内部的实现方式允许 Agent 自由选择——这类似于大型平台工程组织的管理模式：集中强制边界，局部授权自治。

这套约束还包括"品味不变量（Taste Invariants）"：结构化日志、Schema 与类型命名规范、文件大小限制、平台特定的可靠性要求。这些规则用静态分析强制执行，将人类工程师的审美判断固化成可机器检查的规则。

结构化状态与写权限约束

对 Agent 可以修改的内容施加精确的写权限，是防止状态腐蚀的重要手段。典型模式：功能列表文件中，Agent 只允许修改

passes

字段，不得删除或改写任何测试条目。这种狭义写权限用强措辞的指令约束来传达："删除或编辑测试是不可接受的行为，这会导致功能遗漏或引入 bug。"

此外，在数据边界处解析数据形状（而非 YOLO 式地推断数据结构），使用类型化 SDK 或 Schema 验证库，是保持 Agent 可以安全推理的代码库形态的基础约束。

边界清晰之后，系统仍然需要对 Agent “可见”。否则即使约束被写得很严，Agent 也只能在黑箱里试错，无法高效定位运行时问题。

Agent 可读性（Legibility）

Agent 可读性（Agent Legibility）指的是：系统的 UI、日志、状态和指标对 Agent 来说是否足够可见、可解析、可操作，从而使模型能够直接观察应用行为、复现问题并验证修复结果。它关注的是系统是否为推理提供了足够清晰的外部反馈面。

随着代码吞吐量提升，人工 QA 容量会成为瓶颈。此时，关键路径从增加人力转向让应用自身的 UI、日志和指标对 Agent 直接可读，使 Agent 能够自主复现 bug、验证修复并对应用行为进行推理。

应用可读性

使应用对 Agent 可读的关键手段：

每个 git worktree 独立启动一个应用实例：Agent 可以针对自己的变更启动隔离的应用版本，互不干扰。
Chrome DevTools Protocol（CDP）接入：将 CDP 接入 Agent 运行时，并封装操作 DOM 快照、截图和页面导航的技能，使 Agent 能够驱动浏览器、复现 bug 并验证修复，而不依赖人工截图传递。
Playwright/Puppeteer MCP：在多 Agent 架构中，评估 Agent 使用浏览器自动化工具实际操作运行中的应用，而非静态分析代码。这使得"应用看起来工作"与"应用实际可用"之间的差距得以被发现。需注意：浏览器原生弹窗（alert modal）对这类工具不可见，这是已知盲区。

可观测性栈

将完整的可观测性栈暴露给 Agent，使其可以查询日志、指标和追踪数据，是将模糊性能目标转化为 Agent 可执行任务的关键。每个 worktree 配备临时的本地可观测性栈（完成后自动销毁），Agent 可通过 LogQL 查询日志、PromQL 查询指标、TraceQL 查询链路追踪。

有了这种接入能力，"确保服务启动在 800ms 以内完成"或"这四条关键用户路径中没有 span 超过两秒"这类提示就变得可执行——Agent 可以直接查询数据、定位问题根源并实施修复，而不需要人工解读日志然后描述问题。

不过，看得见系统状态还不同于能正确判断任务是否完成。可读性回答的是“发生了什么”，验证闭环回答的是“这样是否算成功”。

验证闭环

主观评判的量化

对于没有二元正确性检验的任务（如界面设计、用户体验），需要将主观判断转化为具体的、可评分的标准，才能构建有效的验证闭环。一套已验证有效的前端设计评分框架包含四个维度：

维度	评估内容	权重
Design Quality（设计质量）	配色、字体、布局、视觉意象是否融合为一个有清晰气质和独特身份的整体，而非各部分的简单堆砌	高
Originality（原创性）	设计决策是否经过定制，还是使用了模板布局、库默认值、AI 生成惯例模式（紫色渐变白色卡片、未经修改的 stock 组件）	高
Craft（工艺）	字体层级、间距一致性、颜色对比度等技术执行质量	低（模型默认已做得较好）
Functionality（功能性）	用户能否理解界面功能、找到主要操作、完成任务而无需猜测	低（模型默认已做得较好）

重要发现：评估者提示中的措辞本身（如"最好的设计是博物馆级别的"）会直接影响生成器的输出风格——不仅仅在评估反馈阶段生效，在第一次生成时就已经开始引导模型远离通用默认值。评估者需通过 Few-shot 示例加详细评分解析进行校准，以保持判断一致性并减少分数漂移。

端到端测试与健康检查门控

单元测试和 curl 命令验证的是代码片段，而非用户体验。端到端测试的原则是：像人类用户一样测试——通过浏览器自动化工具实际操作运行中的应用，才能发现"代码逻辑看似正确但功能整体不可用"的问题。

实施健康检查门控（Health-Check Gate）：在每个会话开始时，Agent 必须先运行基础端到端功能测试，确认应用处于正常工作状态，再开始实现新功能。如果发现应用处于损坏状态，应先修复，否则新功能会在损坏的基础上叠加，问题会更难追溯。

干净状态（Clean State）的定义：每个会话结束时，代码库应处于可合并到主分支的状态——无重大 bug，代码有序且有文档，后续开发者（或 Agent）可以直接开始新功能，而无需先清理遗留的乱局。

功能验证缺口

Harness 案例里常见一个容易被忽略的盲点：系统也许已经很好地约束了内部质量，却未必充分验证了外部行为是否真的符合产品意图。目录结构、架构 lint、单元测试、Clean State 和持续回收都很重要，但这些机制首先保证的是内部一致性，而非最终功能一定可用。

因此，成熟的 Harness 必须把功能验证（Functionality Verification）视为独立承重件，而非默认附属物。真正可靠的系统需要对“用户是否真的能完成任务”建立单独的验证回路，例如任务级验收标准、浏览器自动化、独立评估 Agent、人工 spot check，或基于运行时信号的行为检查。能持续写代码只是起点；能持续验证行为，才是 Harness 真正闭环的标志。

即使单次任务已经具备了约束、可读性和验证，长期运行后的系统仍会累积漂移。Harness 因此不仅要管每一轮执行是否正确，还要管整个代码库是否在时间尺度上持续失真。

熵控制与垃圾回收

Agent 会复制代码库中已存在的模式——即使这些模式并不理想。随着时间推移，全 Agent 生成的代码库会发生不可避免的漂移：重复工具函数扩散、文档与代码行为不同步、架构规则被逐渐侵蚀。早期的应对方式是每周花费 20% 的团队时间手动清理，但这完全不可扩展。

有效的替代方案是将"黄金原则（Golden Principles）"直接编码进代码库，并建立周期性的自动化垃圾回收流程：

在代码库中明确记录有主见的、机械可检查的原则（如：优先使用共享工具包而非手写 helper；必须在边界处解析数据形状，不得基于猜测的结构构建逻辑）。
周期性运行后台 Agent 任务，扫描原则违反、更新质量评分、开启针对性重构 Pull Request。
大多数这类 PR 可以在一分钟内完成审查并自动合并。

技术债务与高息贷款相似：持续小额偿还几乎总是优于积累后集中清算。人类工程师的品味判断被捕获一次，随后在每一行代码上持续强制执行——这是 Agent 驱动开发模式下特有的杠杆效应。

但这些组件本身并非一成不变的。任何垃圾回收策略、验证门控或多 Agent 编排，背后都隐含着对当前模型能力的判断；一旦模型变化，Harness 的承重结构也需要重新评估。

Harness 随模型演化（Load-Bearing Analysis）

Harness 中的每一个组件都编码了一个假设：模型目前无法独立完成这件事，所以需要这层脚手架。这些假设有两个失效原因：

假设从一开始就是错的——模型其实能做到，但工程师没有测试验证就加了脚手架。
假设因模型能力提升而过时——昨天需要 Sprint 分解的任务，今天的模型可以持续完成而不失去连贯性。

因此，评估哪些 Harness 组件是真正的承重结构（Load-Bearing Components）——每当新模型发布时，剥除不再有效的部分，添加利用新能力的新部分——是 Harness 工程师持续的工作职责。

一个典型的演化轨迹：Claude Sonnet 4.5 需要 Context Reset + Sprint 分解 + 完整三 Agent 架构；Opus 4.5 在三 Agent 架构下表现更好，Sprint 结构依然必要；Opus 4.6 消除了上下文焦虑，Generator 可以持续运行超过两小时而无需 Sprint 分解，Evaluator 从"始终必要"变为"在任务超出模型原生能力时才有价值"。这套 Harness 对于 Sonnet 4.5 来说恰到好处，对于 Opus 4.6 来说则是过度设计。

一个重要的元原则：随着模型能力提升，有趣的 Harness 组合空间不会缩小，会移动。工程师的工作核心是持续找到下一个新颖的组合。

一旦系统的主要难点从“写出代码”转移到“设计并维护这套控制面”，工程师的职责也会随之改变。

工程师角色的演变

在 Harness Engineering 语境下，工程师的工作重心发生了系统性上移。原本直接产出代码的工作，转变为设计 Agent 工作的环境、指定意图与验收标准、构建使 Agent 能可靠工作的反馈闭环，以及将人类判断和品味持续编码进系统。

核心原则可以概括为一句话：Humans steer, agents execute。这意味着人类在更高的抽象层次上工作：确定优先级、将用户反馈转化为验收标准、验证结果。当 Agent 遇到障碍时，工程师更应追问"缺少什么能力？如何让这个需求变得对 Agent 可理解且可强制执行？"

随着代码吞吐量的提升，许多传统工程规范变得适得其反。PR 在高吞吐系统中应该是短命的；测试 flakiness 有时更适合通过后续补丁修复而非阻塞合并；纠错的成本极低，等待的成本极高。这与低吞吐人工团队的工作假设完全相反。

不过，这些方法目前验证得最充分的，仍然主要是绿地项目或受控实验环境。一旦进入历史包袱深重的老系统，Harness 的建设顺序与成本结构都会发生变化。

棕地改造的难题

当前公开的成功 Harness 案例大多发生在绿地项目、受控实验或可以从零搭脚手架的环境中。真正更难的问题，是如何把 Harness Engineering 引入一个已经运行多年、缺少架构边界、测试质量不稳定、文档残缺且历史包袱沉重的棕地代码库。这里最大的风险核心是现有系统本身已经缺乏足够清晰的控制面，Agent 一旦接手，只会更快复制并放大原有混乱。

因此，棕地改造不能照搬绿地模板，通常需要渐进式引入：先补最关键的边界约束，再建立最小可用的知识入口、验证门控和可观测性接入，最后才考虑多 Agent 编排或更高自治级别。棕地场景里，Harness 的首要任务是先把代码库变成一个对 Agent 可理解、可约束、可验证的环境，速度提升反而排在后面。

参考案例

OpenAI Codex 内部实验（2026 年 2 月）：三名工程师在约五个月内，通过零人工手写代码的流程，构建了一个拥有内部日常用户和外部 alpha 测试用户的内部 beta 产品。代码库规模约一百万行，覆盖应用逻辑、测试、CI 配置、文档、可观测性和内部工具。约 1500 个 PR 被合并，平均吞吐为每名工程师每天 3.5 个 PR，且随团队扩张吞吐还在提升。核心投入集中在：精简的 AGENTS.md 目录结构、分层领域架构 + 机械化 linter、应用 + 可观测性对 Agent 的完整可读性、黄金原则与周期性垃圾回收 Agent。

Anthropic 复古游戏编辑器对比实验（2026 年）：使用 Claude Opus 4.5，对同一个 prompt "构建一个 2D 复古游戏制作工具"进行两种模式的比较。单 Agent 单次运行：20 分钟，花费 9 美元，结果是布局浪费空间、核心玩法无法运行。完整三 Agent Harness（Planner + Generator + Evaluator，含 Sprint Contract）：6 小时，花费 200 美元，结果是 Planner 将一句 prompt 扩展为横跨 10 个 Sprint 的 16 项功能规格，游戏核心机制正常运行，并额外实现了精灵动画、AI 辅助关卡设计等超出原始 prompt 的功能。成本约为单次运行的 22 倍，但输出质量远超。

Anthropic 浏览器 DAW 实验（2026 年）：使用 Claude Opus 4.6（已移除 Sprint 分解），通过 prompt "构建一个基于 Web Audio API 的全功能浏览器 DAW"，三轮构建 + QA 循环总计 3 小时 50 分钟，花费 124.70 美元。最终产物包含可用的编排视图、混音台和传输控制；内置 AI Agent 可通过自然语言提示设置节拍/调性、演奏旋律、建立鼓轨、调节混音和添加混响，完成一段完整的短曲创作。

检索增强生成（RAG）

检索增强生成（Retrieval-Augmented Generation, RAG）把“外部知识”通过检索在推理时注入到上下文里：先检索，再生成。它解决的核心是信息可得性与可控性问题：把知识放在可更新的外部存储里，而非指望模型参数记住一切。

真正落地到生产后，RAG 很快会从“模型 + 向量库”的玩具结构，变成一套完整的知识处理系统。一个更接近现实的抽象是：知识源接入、文档获取、分块、增强、索引、召回、融合、重排、上下文回拼、生成。其中任何一步做得粗糙，最终回答质量都会明显退化。

从工程视角看，RAG 的核心是把知识库建成一个可持续演化的外部记忆系统，而非简单把文本切块后丢进向量数据库。这里通常至少会区分三层对象：知识库（Base）负责来源配置、召回策略与索引策略；文档（Document）负责内容文件、语言、状态与分块配置；块（Chunk）负责可检索的最小语义单元及其摘要、问题、向量、命中统计等元数据。再往上，很多系统还会加一个目录（Catalog）层，把知识按业务树、产品线、权限域或租户边界组织起来。这种分层的意义在于：RAG 检索的核心是一个带治理、带生命周期、带配置继承的知识对象系统。

生产 RAG 的系统视角

一个成熟的知识库系统通常会显式区分知识源（Source）与检索目标（Target）。知识源回答“内容从哪里来”，例如上传文件、网页抓取、代码仓库、目录扫描；检索目标回答“内容最终由谁提供召回能力”，可以是系统自建索引，也可以是外部知识平台。这样设计的好处是把“接入来源”与“服务出口”解耦：同一套文档采集和治理流程，可以接到不同的检索后端，而不用把采集逻辑和向量库实现绑死。

另一个关键决策是把知识处理做成异步流水线，而非同步上传即就绪。现实中的知识库往往需要经历扫描、下载、解析、分块、摘要生成、问题生成、向量化、索引构建等多个阶段。把这些阶段拆开，一方面是因为它们耗时、依赖不同资源且失败模式不同；另一方面是为了支持恢复、重试、并发控制与增量更新。于是，生产 RAG 往往天然带有一个状态机：知识库有自己的状态，文档有自己的状态，块也有自己的状态。这个状态机的作用是把长链路处理过程显式化，使每个阶段都能被观察、重跑和局部修复。

教程中的“上传文档 ➡ embedding ➡ 检索 ➡ 回答”只覆盖了最小闭环。真实系统里的知识库会持续新增、修改、下线、重建索引，并不断调整切分方式和召回参数。因此，RAG 更接近“搜索系统 + 知识处理中台 + 生成模型”的组合，而非一次性的离线脚本。

分块策略（Chunking）

分块（Chunking）决定了“检索的最小单位”。块太大：召回相关信息但携带大量噪声；块太小：召回片段零散，缺上下文导致生成不稳。分块应与文档结构、问题类型、上下文窗口预算一起设计。

固定大小分块

固定大小分块（Fixed-size Chunking）按 token/字符数切片，简单稳定，适合结构较弱的纯文本与大规模离线构建。常配合重叠窗口（Overlap）避免跨边界信息断裂。

语义分块

语义分块（Semantic Chunking）用段落/标题/语义边界切分，目标是让一个 chunk 自洽（Self-contained）。它通常更适合技术文档与带层级结构的内容，但需要更复杂的解析与规则。

递归分块

递归分块（Recursive Chunking）先按大结构切（章节/标题），再对子块继续切（段落/句子/固定大小），兼顾结构与长度约束，是很多工程实现的折中方案。

生产系统里的分块通常远比这三类更细。除了固定大小、递归和语义切分，还会按 Markdown、HTML、PDF、代码、表格、JSON、LaTeX、句子、段落、滑动窗口等内容类型选择不同 chunker。这背后的设计判断非常重要：分块核心是内容理解策略的一部分。代码和 API 文档更适合按语法结构或标题层级切；表格和 PDF 更需要保留版面边界；Markdown/HTML 则需要保留层次结构，甚至形成父子 chunk 树。

这类设计会直接改变召回质量。若把所有内容都按固定长度切块，标题、层级、页面边界、代码块和表格结构都会被抹平；若系统保存 chunk 的父子关系、边界分隔符、正文起止位置、重叠前后文与结构元数据，那么检索命中的就已经从孤立片段扩展到文档结构中的一个明确位置。此时的 RAG 更接近结构化文档检索。

Agentic Chunking 进一步把 LLM 引入切分阶段，由模型判断哪些内容应属于同一语义单元。它在复杂文档上可能带来更强的语义完整性，但代价同样明显：构建成本高、可重复性差、调试难度大，提示词质量会直接影响索引结果。因此它更适合作为高价值内容的增强型切分，而不适合作为默认的全量基础设施。

向量数据库

向量数据库（Vector Database）存储每个 chunk 的向量表示（Embedding Vector）及其元数据（Metadata），支持近似最近邻（Approximate Nearest Neighbor, ANN）检索。向量并不“包含全文”，它是语义相似度的索引键；检索结果仍然需要回源拿到原文片段。

工程上需要区分“向量索引（Vector Index）”与“向量数据库（Vector Database）”：前者强调 ANN 检索算法与数据结构；后者强调持久化、增量更新、元数据过滤（Metadata Filtering）、分片/副本与多租户（Multi-tenancy）等系统能力。

生产知识库通常会同时维护多个索引平面：chunk 正文索引、chunk 摘要索引、chunk 问题索引，必要时还有文档摘要索引。它们对应的是不同的检索语义：正文索引擅长直接召回原文；摘要索引更适合长文压缩后的主题级匹配；问题索引则把 chunk 改写成更贴近用户查询的可检索意图。因此，生产 RAG 的索引设计本质上是“同一内容的多种检索视图”。

双后端架构也是常见现实。高质量知识库常把 Milvus/Qdrant 一类向量系统与 Elasticsearch/OpenSearch 一类全文检索系统并行使用：前者负责稠密向量、稀疏向量与 ANN 检索，后者负责 BM25、字段过滤和业务搜索。这种组合对应的是信号分工：向量擅长语义匹配，词项系统擅长精确关键词与过滤。真正的难点随之转移到一致性和融合上：索引命名要对齐，更新要同步，删除要清理，跨系统分数不能直接比较。

实现形态与选型

向量检索组件通常有三种部署形态：向量索引库（如 FAISS/ScaNN）偏“库”；向量数据库（如 Milvus/Qdrant/Weaviate）偏“服务”；全文检索引擎（如 Elasticsearch/OpenSearch）则以 BM25 为核心并逐步补齐向量检索能力。许多生产系统采用“双引擎”组合：向量库负责高性能 ANN，全文检索负责复杂过滤与关键词召回，最终在融合/重排阶段统一排序。

形态	代表实现	优势	局限	适用场景
向量索引库（In-process Vector Index）	FAISS / ScaNN	单机性能极强；集成简单；易做离线批构建	分布式/多租户/权限/运维能力弱；元数据过滤能力有限	原型验证；单机检索；离线候选生成
向量数据库（Vector Database Service）	Milvus / Qdrant / Weaviate	持久化 + CRUD；支持元数据过滤；更易做水平扩展	需要运维；延迟/吞吐取决于索引与集群配置	生产 RAG；增量更新频繁；需要过滤/权限
全文检索 + 向量检索（Hybrid Search Engine）	Elasticsearch / OpenSearch	BM25 + 过滤能力强；生态成熟；适合业务检索	向量能力与性能细节高度依赖具体版本/配置；向量索引形态可选项较少	强关键词依赖；复杂过滤/字段检索；混合检索一体化
组合架构（Vector DB + Search Engine）	Milvus/Qdrant + ES	各取所长；向量与词项召回分别优化；融合/重排可控	系统更复杂；需要去重、打分对齐与一致性策略	对检索质量要求高，且有复杂过滤/排序逻辑
托管服务（Managed Service）	Pinecone / 各云厂商向量服务	运维成本低；弹性扩缩容；通常带权限与监控	成本较高；可控性与部署形态受限	快速上线；团队缺乏检索基础设施经验

ANN 索引与过滤

ANN 索引（ANN Index）在“速度、召回率（Recall）与内存”之间权衡。检索侧常见痛点是“向量相似度可算，但业务过滤很难做快”：元数据过滤会破坏 ANN 的近邻结构，使得系统需要在“先过滤再向量检索”和“先向量检索再过滤”之间做策略选择。

在生产知识库里，过滤通常核心是第一等公民。目录树（Catalog Tree）、启用状态、文档类型、租户边界、语言、内容类型、业务域前缀，都可能成为过滤条件。许多系统会把 catalog 前缀过滤、enabled 标志、source_type/source_id 等字段同时写入 Milvus 和 ES，两边都能先做过滤再做召回。否则，召回质量再高，也可能把“本不该返回的内容”混进上下文。

索引/策略	核心思路	优点	代价
Flat（Exact）	全量计算相似度	精确；实现最简单	规模上去后延迟/成本不可接受
HNSW	分层小世界图近邻搜索	高召回、低延迟；对在线增量友好	内存占用较高；过滤条件复杂时性能波动
IVF / IVF-PQ	先粗聚类（倒排），再在桶内搜索；PQ 进一步压缩	更省内存；适合大规模离线构建	更新成本高；召回/延迟依赖参数调优
DiskANN / Hybrid Memory	把索引/向量放到 SSD，内存放导航结构	降低内存压力；可支持更大规模	I/O 成为瓶颈；工程复杂度更高

检索策略

稠密检索（向量相似度）

稠密检索（Dense Retrieval）用向量相似度（如余弦相似度或内积）做 top-k 召回，擅长语义匹配与同义改写，但可能漏掉精确关键词（如错误码、版本号）。

它还有一个常被低估的前提：embedding 模型的训练分布必须与目标领域足够接近。若把主要基于互联网通用语料训练出来的嵌入模型，直接拿去检索法律、医疗、专利或企业内部术语密集的文本，向量空间中的“相似”往往就不再等于业务上的“相关”，召回质量会明显下降。此时更稳妥的做法通常是引入领域微调 embedding、混合检索，或让 sparse / full-text 路径共同兜底。

全文检索（BM25 / ES）

全文检索（Lexical Retrieval）以 BM25 等词项匹配为核心，擅长精确匹配与关键词召回。它对拼写、专有名词、数字更敏感，但对语义改写不够鲁棒。

稀疏检索（Sparse Retrieval / SPLADE）

稀疏检索（Sparse Retrieval）用“稀疏向量”表示文本：向量维度对应词项（或子词），权重表示该词项对匹配的贡献。与 BM25 相比，稀疏检索的权重来自模型学习而非纯统计；与稠密检索相比，它保留了词项级可解释性与对罕见词/数字的敏感性。

典型路线包括 SPLADE（Sparse Lexical and Expansion Model）：通过学习得到“词项扩展（Lexical Expansion）”，让语义相关但不共词的文本仍能在词项空间相遇。工程上，稀疏检索常作为混合检索的一路召回信号，而非单独替代 BM25。

混合检索

混合检索（Hybrid Retrieval）把稠密检索与全文检索结合：先分别召回，再融合排序（如加权、去重、学习排序）。这是目前最稳健的通用策略之一。

在更完整的知识库系统里，混合检索不只是“dense + BM25”两路，而可能是 chunk / summary / question 三类检索目标与 dense / sparse / fulltext 三类检索路径的组合矩阵。生产 RAG 实际召回的是多个“信号通道”，而非单一相似度函数。它的优势是覆盖面更强：原文命中、主题命中、问句改写命中可以互补；但代价也很直接：路径暴涨、分数更不可比、日志更难读、回归测试更复杂。

这类系统往往还会按知识库能力做“有效方法裁剪”。例如，用户请求 fullhybrid，但某个知识库只建了 dense 和 sparse 索引，那么实际就只能退化成 hybrid；某个库没有开启 question recall，就不该在该路径上浪费资源。这个细节反映出一个成熟的 RAG 判断：检索策略核心是知识库级配置与请求级策略共同决定的。

分数融合（Score Fusion）

混合检索的难点不在“多路召回”，而在“分数不可比（Incomparable Scores）”：BM25 分数、余弦相似度/内积分数、稀疏向量分数往往不在同一尺度，不能直接相加。常见融合策略：

归一化后加权：对各路分数做 min-max / z-score 等归一化，再做加权求和或加权乘积。
基于排序的融合：不依赖原始分数尺度，例如 RRF（Reciprocal Rank Fusion）：$\mathrm{score}(d)=\sum_{s}\frac{1}{k+\mathrm{rank}_s(d)}$。
学习排序（Learning to Rank）：把各路分数与特征（BM25、embedding sim、字段匹配、长度等）作为特征，训练一个排序模型做融合。

生产系统通常更偏爱基于排序的融合，而非直接拼原始分数。这是因为 ES 的 $_score$、Milvus 稠密距离、Milvus 稀疏 BM25 分数往往来自完全不同的评分体系。RRF 或加权 RRF 的价值就在于鲁棒：它不要求各后端分数可比，只要求各路径给出相对顺序。若再往上追求精度，则会在粗召回后接一个模型重排器，对融合后的候选做统一判断。

人工智能知识 - Transformers和大模型

Alex — Wed, 15 Apr 2026 17:45:34 +0000

这一篇聚焦现代大模型主线，内容从 Transformer 架构出发，延伸到语言模型、多模态模型、预训练与微调，以及推理阶段优化。前一篇已经建立了神经网络与训练机制，这一篇继续回答现代基础模型是如何堆叠出来、如何适配任务、又如何在部署侧提升吞吐、延迟与显存效率；最后一篇将转入上下文工程、RAG 与 Agent 系统。

Transformers

概述

Transformer 是现代大模型最核心的统一架构。它最初被提出用于序列到序列（Sequence-to-Sequence）任务，但很快演化成大语言模型（Large Language Model, LLM）、视觉 Transformer、多模态模型以及各类基础模型（Foundation Model）的共同骨架。它之所以重要，不只是因为“效果好”，更因为它提供了一种高度模块化、可并行扩展、易于堆叠放大的建模方式：输入被表示成一串 token，对这些 token 的关系建模主要依赖注意力（Attention），而每一层又通过前馈网络（Feed-Forward Network, FFN / MLP）继续做非线性变换与特征重组。

从工程角度看，Transformer 的成功来自三件事的结合：第一，注意力机制让模型能直接建模长距离依赖，而不必像循环网络那样逐步传递状态；第二，层与层之间结构统一，非常适合在 GPU / TPU 上做大规模并行训练；第三，模型规模可以沿着层数、隐藏维度、注意力头数、词表大小与训练数据量持续扩展，于是它天然适合作为“可放大”的通用架构。

因此，理解 Transformer 不应只停留在“注意力公式怎么写”，还要把它看成一条完整的信息处理流水线：token 如何变成向量，向量如何在注意力里彼此通信，MLP 如何重组和放大模式，残差流（Residual Stream）如何把各层计算串接起来，最后这些中间表示又如何被任务头（Task Head）读出，变成分类结果、生成 token 或其他下游输出。

整体架构

Transformer 的“基本计算单元”是一个 Transformer block：把注意力子层（Attention Sublayer）与前馈子层（FFN Sublayer）串联起来，并在每个子层外包一层残差连接（Residual Connection）与归一化（Normalization）。注意力子层的输出核心是作为中间表示继续送入 FFN 与下一层 Transformer block，逐层构建更抽象的特征。

典型层结构（概念上）可以写成：

\[H'=\mathrm{Add\&Norm}(H,\ \mathrm{Attention}(H)),\quad H^{\text{next}}=\mathrm{Add\&Norm}(H',\ \mathrm{FFN}(H'))\]

这条式子描述的是一个 Transformer block 内部最核心的两步。这里 $H$ 表示进入当前层的隐藏状态矩阵（Hidden States），形状通常是 $L\;\times d_{\text{model}}$： $L$ 是序列长度， $d_{\text{model}}$ 是每个 token 的隐藏维度。 $\mathrm{Attention}(H)$ 表示注意力子层对整段序列做一次“彼此通信”后的结果：每个 token 会结合其他位置的信息，得到新的上下文化表示。

第一步 $H'=\mathrm{Add\&Norm}(H,\ \mathrm{Attention}(H))$ 中，Add 表示残差相加：把原输入 $H$ 与注意力输出相加；Norm 表示再做归一化（通常是 LayerNorm）。残差的作用是保留原始信息并让梯度更容易穿过深层网络，归一化的作用是让数值尺度更稳定。经过这一步后，得到的 $H'$ 可以理解为“已经完成一次上下文交互”的中间表示。

第二步 $H^{\text{next}}=\mathrm{Add\&Norm}(H',\ \mathrm{FFN}(H'))$ 则把 $H'$ 送入前馈网络（Feed-Forward Network, FFN）。FFN 对每个位置的向量分别做非线性变换与特征重组，不负责 token 之间的信息交换。它更像是在每个 token 内部重新编码：放大有用模式、抑制无关模式，并把低层线索组合成更抽象的表示。再经过一次“残差相加 + 归一化”后，输出 $H^{\text{next}}$，作为下一层 Transformer block 的输入。

因此，这个公式的阅读顺序可以概括为：先让 token 之间通过注意力交换信息，再让每个 token 自己通过 FFN 重组特征。多层堆叠之后，模型就会沿着这条路径逐层把原始输入变成越来越适合任务头读取的高层表示。

这里还需要区分 Pre-LN（Pre-LayerNorm）与 Post-LN（Post-LayerNorm）。它们的区别在于 LayerNorm 放在子层计算之前，还是放在残差相加之后。

若是 Post-LN，概念上更接近前面那条写法：先做子层计算，再与输入做残差相加，最后归一化。例如注意力子层可写成 $H'=\mathrm{LN}(H+\mathrm{Attention}(H))$。若是 Pre-LN，则顺序改成“先归一化，再做子层计算，再走残差”：注意力子层更接近 $H'=H+\mathrm{Attention}(\mathrm{LN}(H))$，FFN 子层同理。

两者表达的功能主线相同：信息都要经过注意力与 FFN，再靠残差流向后传递。差异主要体现在训练动力学（Training Dynamics）上。Post-LN 更贴近原始 Transformer 论文的写法，直观上像“每次子层更新完，再把结果规范一下”；Pre-LN 则让梯度更容易沿残差路径稳定传播，因此在很深的大模型里更常见。工程实现会在 Pre-LN / Post-LN 之间选择，这会影响训练稳定性、学习率可用范围以及深层可训练性，但不会改变我们对 block 主流程的理解：注意力负责跨 token 交互，FFN 负责单 token 特征重组，残差负责让信息与梯度顺畅穿层流动。

Transformer 这个名字源自 “Attention Is All You Need” 论文：模型从依赖循环结构来处理序列转向通过注意力把序列表示不断变换（Transform）为更适合预测的表征。

Transformer 的参数（Parameters）核心是一组可学习张量的集合，主要包括嵌入（Embedding）、注意力投影（Attention Projections）、前馈网络（FFN）以及归一化的缩放/平移参数等。

参数组	符号	典型形状（Typical Shape）	备注
Token Embedding	$E$	$\mathbb{R}^{V\;\times d_{\text{model}}}$	词表大小 $V$；常与输出头权重共享（Weight Tying）。
位置嵌入（Learned）	$P$	$\mathbb{R}^{L_{\max}\;\times d_{\text{model}}}$	仅当使用可学习绝对位置嵌入时存在；正弦位置编码无此参数。
注意力投影	$W_Q,W_K,W_V$	$\mathbb{R}^{d_{\text{model}}\;\times d_{\text{model}}}$	实现上常把多头合并成一次线性投影，等价于 $\mathbb{R}^{d_{\text{model}}\;\times (H d_k)}$。
注意力输出投影	$W_O$	$\mathbb{R}^{d_{\text{model}}\;\times d_{\text{model}}}$	对拼接后的多头输出做线性混合；并非 $H\;\times d_v\;\times d_{\text{model}}$ 的三维张量。
FFN	$W_1,W_2$	$W_1\in\mathbb{R}^{d_{\text{model}}\;\times d_{\text{ff}}},\ W_2\in\mathbb{R}^{d_{\text{ff}}\;\times d_{\text{model}}}$	通常 $d_{\text{ff}}\gg d_{\text{model}}$。
LayerNorm	$\gamma,\beta$	$\mathbb{R}^{d_{\text{model}}}$	每个 LayerNorm 有一组缩放与平移参数。
输出头（LM Head）	$W_{\text{vocab}},b$	$W_{\text{vocab}}\in\mathbb{R}^{d_{\text{model}}\;\times V}$	把隐藏状态映射为词表 logits；常与 $E$ 共享权重。

不同 Transformer 变体在维度设置上差异很大。下面列的是几类典型公开模型的常见配置，既包括中等尺寸的主流模型，也包括 2025 到 2026 年仍处前沿位置的开源大模型。它们的共同点在于：即使是“中等尺寸”的主流模型，隐藏维度、层数、头数和 FFN 宽度也已经足够大；而到了开源前沿模型阶段，参数扩展往往已经从靠加深层数扩展到同时叠加更宽的隐藏维度、更大的 FFN、MoE（Mixture of Experts）和更激进的注意力/KV 设计，因此模型内部表示天然是高维、分布式且跨层叠加的。

模型	架构类型	参数规模	层数	隐藏维度 $d_{\text{model}}$	注意力头数	KV 头数	FFN / Intermediate 维度
BERT-base	Encoder-only	110M 级（dense）	12	768	12	12	3072
GPT-2 Small	Decoder-only	124M 级（dense）	12	768	12	12	3072
Mistral 7B	Decoder-only	7B 级（dense）	32	4096	32	8	14336
Llama 3.1 8B	Decoder-only	8B 级（dense）	32	4096	32	8	14336
Qwen2.5 7B	Decoder-only	7B 级（dense）	28	3584	28	4	18944
Qwen3-235B-A22B	Decoder-only + MoE	235B 总参 / 22B 激活	94	4096	64	4	12288（dense）/ 1536（per-expert）
DeepSeek-V3 系列	Decoder-only + MoE + MLA	671B 总参 / 37B 激活	61	7168	128	128	18432（shared）/ 2048（per-expert）

这张表也说明了一个很重要的趋势。到 2026 年，开源前沿模型已经从沿着“单纯加深层数”这一条路线演化转向出现了明显分化：Qwen3-235B-A22B 把层数推到 94 层，同时保持相对克制的隐藏维度，并通过 128 个专家、每 token 激活 8 个专家来放大总容量；DeepSeek-V3 系列则维持 61 层，但把隐藏维度提升到 7168，并叠加 DeepSeekMoE 与 MLA（Multi-head Latent Attention）来同时优化容量与推理成本。也就是说，前沿模型的“强”并不只表现为更深，而更多表现为深度、宽度、专家稀疏性与注意力工程的联合扩展。

对闭源顶级模型的层数，外界通常拿不到可靠公开配置，因此只能做工程上的区间推断。若它们仍以 Transformer block 为主体，那么从公开开源前沿模型的尺度看，显式层数大概率仍落在数十层到一百多层这一带，而非简单增长到几百层甚至上千层；更常见的扩展手段，是增大隐藏维度、放大 FFN、引入 MoE、延长上下文、增加训练 token，或在同等层数下叠加稀疏注意力、递归计算与工具链调用。因此，对 GPT、Claude、Gemini 这类闭源顶级模型，更稳妥的判断核心是“它们很可能已经处在百层级上下、并辅以更复杂的宽度与稀疏化设计”。

Transformer 的不可解释性（Lack of Interpretability）核心是由整体机制共同产生：表示是分布式（Distributed）且高维的，多层叠加的非线性变换把因果链条变长；注意力权重可视化能提供线索，但它并非完整解释。

知识如何存储

大模型中的知识通常以分布式表示（Distributed Representation）的形式分散在大量参数里，而非由某一个感知机单独存储一条事实。单个单元更像一个局部特征探测器（Feature Detector）：它只对某种模式敏感；许多单元级联后，网络才能把低层简单模式组合成高层抽象概念。模型规模越大、层数越深、参数越多，可被编码的模式组合也越丰富，这正是大模型具备强表达能力与“知识容量”的原因之一。

对于 Transformer 这样的模型，知识并更像是沿着残差流（Residual Stream）在多层之间不断被提取、重组、放大和读出。注意力层更擅长在上下文中定位相关信息、建立 token 之间的依赖；MLP 层则更像参数化的模式变换器或记忆单元，会把某些已经被触发的模式映射成更强的语义方向，再写回主表示中。

从经验上看，这种知识分布有一些常见规律。较低层往往更接近词形、局部模式与浅层统计相关性；中间层更容易出现实体属性、关系模式和事实联想的组合；较高层则更接近任务相关读出，也就是更接近“最后怎样把内部表示变成具体输出”的阶段，例如下一 token 预测、答案选择或标签判别。但这更像统计趋势，而非严格分工：同一类知识往往会跨多个层段冗余存在，并通过许多参数共同表达。

因此，对知识分层的理解应落在“不同层在知识处理流水线里承担了什么功能”上，而非机械地追问“第几层存了什么知识”。有的层更偏检索线索，有的层更偏关系组合，有的层更偏把结果变成可供输出头使用的表示。单个 MLP 模块有时可以表现出类似键值记忆（Key-Value Memory）的行为，但真正稳定的知识通常仍然是跨层、跨参数、跨方向分布的。分布式编码既带来了较强的知识容量，也使模型难以直接解释和精确定位。

编码器-解码器

编码器-解码器（Encoder–Decoder）结构对应经典 Seq2Seq：编码器先对输入序列做双向自注意力（Bidirectional Self-Attention）编码，即编码器里的每个 token 都可以直接看到源序列中的其他 token，不使用因果掩码（Causal Mask），因此更擅长形成充分的上下文化输入表示；随后解码器在自回归生成（Autoregressive Generation）时，一边做因果自注意力（Causal Self-Attention），只看已经生成的前缀，一边通过交叉注意力（Cross-Attention）读取编码器输出。于是，编码器负责把“输入内容本身”编码清楚，解码器负责在“已生成前缀 + 编码器语义表示”条件下逐步生成输出。典型用于机器翻译、摘要、问答等“输入到输出”的条件生成任务（Conditional Generation），代表模型如 T5、BART。

仅编码器

仅编码器（Encoder-only）结构使用双向自注意力（Bidirectional Self-Attention）：位置 $i$ 可以看见所有位置（不做因果屏蔽）。它更擅长做“理解与表示”（Representation Learning），常见预训练目标是掩码语言建模（Masked Language Modeling, MLM）：把输入里部分 token 替换为 $[\mathrm{MASK}]$，训练模型根据上下文预测被遮住的 token。代表模型如 BERT、RoBERTa；ELECTRA 则用“替换检测（Replaced Token Detection）”作为预训练任务，但架构仍是 Encoder-only。

注意“掩码（Mask）”在这里指的是 MLM 的 token masking，并非自回归解码里的因果 attention mask。

仅解码器

仅解码器（Decoder-only）结构使用因果自注意力（Causal Self-Attention）：位置 $i$ 只能看见 $j\le i$ 的历史 token，通过三角形掩码避免“偷看未来”。它天然对应自回归语言建模（Causal Language Modeling, CLM）：最大化 \(\prod_t p(x_t|x_{。代表模型如 GPT 系列、LLaMA、Qwen。

这里的“掩码（Mask）”指的是 attention 里的因果屏蔽，与 MLM 的 $[\mathrm{MASK}]$ token 概念不同。

预填充

对生成式 Transformer，尤其是 Decoder-only 模型以及 Encoder–Decoder 中的解码器侧，推理过程通常可分成两个阶段：预填充（Prefill）与解码（Decode）。Prefill 先把整段已知提示词（Prompt）一次性送入模型，计算每一层的隐藏状态，并把各层的 Key / Value 写入 KV Cache；Decode 则在此基础上逐步生成新 token，每一步只新增一个位置，再与历史缓存做注意力计算。

Prefill 阶段虽然仍然使用因果掩码（Causal Mask），但因为整段 prompt 在进入模型时已经全部已知，所以输入处理过程中所有 token 仍可并行处理：同一层里的 Query / Key / Value 投影、矩阵乘法以及 masked attention 都可以一次性并行完成。因果掩码只负责限制“当前位置不能看未来位置”，并不会把已知 prompt 重新变回按时间步串行处理。

生成阶段则通常是串行的。因为每一个新输出 token 都要作为前缀的一部分，参与下一个 token 的预测，所以 token 与 token 之间存在真实的自回归依赖，不能像 Prefill 那样沿序列长度整段并行展开。此时系统仍然可以利用 batch 并行、head 并行、张量并行、专家并行和内核并行，但在“生成顺序”这一维上通常必须逐步推进。因此，长 prompt 场景下常说系统先经历一次计算密集（Compute-bound）的 Prefill，而进入连续生成后，瓶颈又经常转向 KV Cache 读取、显存带宽与调度开销主导的 Decode。

这个两阶段视角非常重要，因为后续很多工程优化都直接对应其中一个阶段：FlashAttention 对长序列 Prefill 的收益通常最显著；KV Cache、GQA / MQA、Paged Attention、Prompt Caching 与 Speculative Decoding 等，则更多是在优化 Decode 或同时兼顾两者。理解了 Prefill 与 Decode 的分工，再看 Transformer 推理优化时，许多“为什么这里快、那里慢”的现象就会变得自然。

主流 Decoder-only 细节差异（选型表）

Decoder-only 成为主流之后，架构创新集中在“稳定性、KV Cache 成本与训练效率”三个轴：归一化/激活影响深层训练稳定性；注意力侧的 KV 结构决定长上下文推理成本；FFN 稠密/稀疏（MoE）与训练目标改造影响单位算力的有效学习信号。

技术点	常见选项	动机	影响
归一化（Normalization）	LayerNorm / RMSNorm	提升深层训练稳定性	RMSNorm 省掉去均值，算子更简单；实际表现依赖整体配方
激活/FFN（Activation/FFN）	GELU / SwiGLU / GLU 变体	门控提升表达力与稳定性	通常带来更好效果，但实现与吞吐会受内核支持影响
KV Cache 压力	MHA / GQA / MQA	减少 KV heads，降低显存与带宽	长上下文收益显著；可能牺牲部分表示自由度
KV 压缩（Latent KV）	低秩/潜变量压缩（如把 KV 投影到低维潜空间）	进一步压缩 KV Cache	上下文长度与并发能力提升，但架构更复杂、实现更依赖细节
FFN 稠密 vs 稀疏	Dense / MoE	用稀疏激活扩大参数容量	训练更复杂（路由/负载均衡）；推理吞吐依赖专家并行与缓存
预训练目标	Next-token / Multi-token Prediction（MTP）	提升单位 token 的监督信号密度	MTP 可能提高训练效率，但会改变解码对齐与训练配方

输入处理

Transformer 并不直接处理原始字符串。文本进入模型之前，必须先经过一条输入处理流水线：文本规范化、切分为 token、映射为 token id，再查表转成向量表示。只有完成这一步，后续的注意力、FFN 和位置编码才有可计算的离散输入。输入处理决定了模型“看见世界的最小单位”是什么，因此它不仅影响参数规模与推理效率，也会影响稀有词覆盖、跨语言能力、长度利用率以及生成结果的边界质量。

Tokenization

Tokenization 的核心任务是把连续文本切分成模型可处理的离散符号序列。这个离散化过程看似只是“切词”，实际上定义了词表（Vocabulary）、序列长度、未知词处理方式以及字符到语义表示的映射粒度。若切得过粗，词表会过大、稀有词泛化差；若切得过细，序列会变长、计算成本升高。因此，现代语言模型通常采用子词分词（Subword Tokenization）：用有限词表在“整词”和“字符”之间取得平衡。

分词并不只是训练前的一道预处理工序，它深度参与了模型能力边界的形成。相同一句文本，换一种 tokenizer，模型看到的 token 序列长度、常见片段分布、数字和符号的切分方式都会变化，进而影响上下文利用率、训练效率、长文本成本、代码与多语言表现，甚至影响困惑度（Perplexity）等指标的可比性。因此，跨模型比较时，若 tokenizer 不同，很多“每 token 指标”都不能直接横向解读。

此外，现代 tokenizer 通常不只负责“切分”，还负责一组配套约定：例如保留哪些特殊 token（Special Tokens），如何处理大小写、空格、换行、标点、表情与 Unicode 字符，以及遇到词表里没有的片段时如何回退。像

[UNK]

这样的未知词标记（Unknown Token）就是早期整词分词里常见的退路：当输入片段不在词表中时，直接映射成一个统一的“未知”符号。它的问题是信息损失很大，不同未知词都会塌缩成同一个 token。子词分词与字节分词之所以重要，一个核心原因就是它们大幅减少了对

[UNK]

的依赖。

从风格上看，分词大致可以分为四类。第一类是整词分词（Word-level Tokenization）：把单词当作基本单位，优点是语义直观，缺点是词表会迅速膨胀，且对未登录词（Out-of-Vocabulary, OOV）非常敏感。第二类是字符分词（Character-level Tokenization）：把每个字符都当作 token，几乎没有 OOV 问题，但序列会显著变长，模型需要自己学习更多组合关系。第三类是子词分词（Subword Tokenization）：用常见片段构成词表，让高频词保持完整、低频词拆成片段，这是现代 NLP 最主流的折中路线。第四类是字节分词（Byte-level Tokenization）：直接在字节层处理输入，覆盖能力最强，跨语言和特殊符号最稳，但序列通常更长，对模型容量和训练配方要求更高。

因此，不同分词风格的本质取舍是：词表越大，单个 token 的语义通常越完整，但 OOV 与稀疏性越严重；词表越小，覆盖越稳，但序列越长、建模负担越重。现代大模型之所以大量采用 BPE、WordPiece、SentencePiece 或 byte-level BPE，本质上都是在这条权衡曲线上寻找更合适的工程平衡点。

分词风格	基本单位	主要优点	主要代价	常见场景
整词分词	单词	语义直观；序列较短	词表膨胀；OOV 严重	早期 NLP；规则较强的封闭词表任务
字符分词	字符	覆盖稳定；几乎无 OOV	序列长；组合学习负担大	鲁棒输入建模；字符级任务
子词分词	高频片段 / 子词	词表与序列长度折中较好	切分方式影响语义边界	BERT、T5、LLaMA 等主流文本模型
字节分词	字节	覆盖最强；特殊符号与多语言稳健	序列更长；训练成本更高	byte-level BPE、多语言与噪声文本

BPE

BPE（Byte Pair Encoding）从字符（或字节）开始，通过统计合并高频相邻符号对（Pair Merge）逐步构建子词（Subword）词表。它的核心收益是用有限词表覆盖开放词汇：常见词被合并成整体，罕见词被拆成更小片段，减少 $[\mathrm{UNK}]$。

BPE 的直觉可以概括为“把最常一起出现的片段逐步固化成一个 token”。例如，若训练语料里

和

经常相邻，就可能先合并成

th

；若

th

与

又高频共现，就可能继续合并成

the

。经过大量合并之后，词表里会同时存在完整高频词、常见词根、后缀、数字片段和标点组合。这样一来，模型既能用短序列表达常见模式，又不必为每个罕见词都预留独立词条。

从工程谱系上看，GPT 家族总体属于 BPE 路线的延伸：早期 GPT / GPT-2 风格 tokenizer 采用 byte-level BPE，把文本先映射到字节层，再做 BPE 合并；这种设计能更稳地覆盖任意 Unicode 文本、空格和特殊符号。对 OpenAI 当前模型生态而言，官方开发工具链中程序化分词通常使用 tiktoken；它对应的是面向具体模型的 encoding 体系，但核心思想仍然是 BPE 家族的子词压缩与高覆盖率路线。对开发者来说，更重要的实践结论是：GPT 核心是按 BPE 家族 tokenizer 切成子词或字节片段；同一个自然语言单词，可能被切成一个 token，也可能被切成多个 token，取决于它在词表中的合并状态。

WordPiece

WordPiece 与 BPE 同属子词分词（Subword Tokenization），但合并准则更偏向最大化语言模型似然（Likelihood）。BERT 系列常用 WordPiece，因此会看到以

##

标记的子词前缀（如

play

##ing

）。

SentencePiece

SentencePiece 是一种分词器（Tokenizer）训练与推理框架（常见算法包括 BPE 与 Unigram LM）。它可以直接在原始文本上训练（不依赖空格分词），因此在多语言与无空格语言（如中文、日文）上更常用；LLaMA 等模型的 tokenizer 通常基于 SentencePiece。

Token Embedding

Token Embedding 的核心是一个可训练的嵌入表（Embedding Table，也常被称为嵌入矩阵（Embedding Matrix））：

\[E\in\mathbb{R}^{V\;\times d_{\text{model}}}\]

其中 $V$ 是词表大小（Vocabulary Size），每一行对应一个 token 的向量表示。给定输入 token id 序列 $(t_1,\dots,t_L)$，查表得到输入嵌入序列（Embedding Output）：

\[X=\begin{bmatrix}E_{t_1}\\ \vdots\\ E_{t_L}\end{bmatrix}\in\mathbb{R}^{L\;\times d_{\text{model}}}\]

一些材料会把 $E$（参数表）和 $X$（某次输入的嵌入结果）都叫“嵌入矩阵”，容易混淆。区分的一个简单方式是：E 是全词表参数，X 是当前输入的嵌入输出。

在语言模型里，这张输入嵌入表常与输出处理中的语言模型头（LM Head）共享参数，即权重共享（Weight Tying）。这里先记住这一点即可；它的具体计算方式与工程含义放在后面的“输出处理”中展开。

位置编码

位置编码（Positional Encoding）解决一个根本问题：注意力机制本身对输入顺序是置换不变（Permutation-Invariant）的，如果不显式注入位置信息，模型无法区分“AB”和“BA”。因此需要把“位置”以某种方式编码进每个 token 的表示。

绝对位置编码

绝对位置编码（Absolute Positional Encoding）最常见的做法之一是学习一个位置嵌入表（Position Embedding Table）：

\[P\in\mathbb{R}^{L_{\max}\;\times d_{\text{model}}}\]

$L_{\max}$ 是模型支持的最大位置索引数量（Maximum Position Index）。对长度为 $L$ 的输入序列，取 $P_{0:L}$（或 $P_{1:L}$，取决于实现）得到当前序列的位置嵌入矩阵 $P_{\text{seq}}\in\mathbb{R}^{L\;\times d_{\text{model}}}$。

Transformer 通常用逐元素相加把 token 嵌入与位置嵌入融合：

\[H^{(0)} = X + P_{\text{seq}}\]

这里 $H^{(0)}$ 仍然是 $d_{\text{model}}$ 维向量序列，并非“位置标量”。位置是否用一个标量并不重要；重要的是这种表示能让后续的线性层与注意力计算利用位置关系。高维位置向量提供了更丰富的可学习空间。

“相加会不会把信息混在一起、无法区分？”这个直觉常见，但对表示学习而言关键核心是可用性：模型不需要从 $H^{(0)}$ 精确还原 $X$ 与 $P_{\text{seq}}$，只需要用它们的组合完成预测。并且在高维空间里，模型可以把“语义”和“位置”分配到近似正交（Approximately Orthogonal）的方向，使得线性变换能有效解耦。

一个二维玩具例子：令 token 向量 $x=(1,0)$，位置向量 $p=(0,0.1)$，则 $h=x+p=(1,0.1)$。如果模型的某个线性读出只看第二维（例如乘以 $(0,10)$），就能强烈感知位置而几乎不受语义影响。真实模型在上千维空间里有更大的自由度（Degree of Freedom, DOF）。

把位置“拼接”（Concatenation）到额外维度也能工作，但它会改变隐藏维度，影响后续层形状与参数规模；而加法保持 $d_{\text{model}}$ 不变，是一种参数与工程都更稳定的设计选择。

正弦位置编码（Sinusoidal Positional Encoding）

另一类绝对位置编码是正弦位置编码（Sinusoidal Positional Encoding），它用不同频率的正弦/余弦把位置 $\text{pos}$ 映射为向量（原始 Transformer 的设计）：

\[\mathrm{PE}(\text{pos},2i)=\sin\!\left(\frac{\text{pos}}{10000^{2i/d_{\text{model}}}}\right),\quad \mathrm{PE}(\text{pos},2i+1)=\cos\!\left(\frac{\text{pos}}{10000^{2i/d_{\text{model}}}}\right)\]

为什么要成对使用 $\sin$ 与 $\cos$（而非全用 $\sin$）？因为对同一频率而言，$(\sin\phi,\cos\phi)$ 组成一个二维正交基（Orthogonal Basis），位置平移 $\phi\mapsto \phi+\Delta$ 等价于二维平面上的旋转（Rotation）：

\[\begin{bmatrix}\sin(\phi+\Delta)\\ \cos(\phi+\Delta)\end{bmatrix}=\begin{bmatrix}\cos\Delta & \sin\Delta\\ -\sin\Delta & \cos\Delta\end{bmatrix}\begin{bmatrix}\sin\phi\\ \cos\phi\end{bmatrix}\]

这让“相对位移”变成一个固定的线性变换，从而更容易被后续线性层和点积注意力利用；如果只用 $\sin$，相位信息会丢失，平移不再能用线性变换稳定表达。

若只取一个最小的 4 维例子，即 $d_{\text{model}}=4$，那么位置编码就会具体化成：

\[\mathrm{PE}(\text{pos})=\big[\sin(\text{pos}),\ \cos(\text{pos}),\ \sin(\text{pos}/100),\ \cos(\text{pos}/100)\big]\]

这时每个位置都从“一个编号”转向一个 4 维向量。前两维变化很快，负责较短尺度的位置区分；后两维变化很慢，负责较长尺度的位置区分。例如 $\text{pos}=0$ 时编码是 $[0,1,0,1]$；$\text{pos}=1$ 时约为 $[0.84,0.54,0.01,1.00]$；$\text{pos}=2$ 时约为 $[0.91,-0.42,0.02,1.00]$。因此，不同位置会同时在多种频率刻度上留下痕迹，而非只靠一个单调递增的数字区分。

上图把这个 4 维例子拆成三种读法。左侧热力图直接列出位置 $0\sim 7$ 在四个维度上的编码值；右上角把前两维 $(\sin(\text{pos}),\cos(\text{pos}))$ 直接当成二维平面坐标，因此可以把它理解成：位置每增加一点，平面上的点就沿圆周往前走一步；右下角则把快频对与慢频对分开画出。图里第 3、4 维之所以先前看起来几乎是平的，核心是因为在标准公式里它们对应更低频率：在 $\text{pos}=0\sim 12$ 这样很短的区间上， $\sin(\text{pos}/100)$ 只从 0 变化到约 0.12， $\cos(\text{pos}/100)$ 只从 1 下降到约 0.99，必须单独放大才容易看见变化。

模型利用这套编码的方式，可以直接理解成“拿多把不同刻度的尺子同时量位置关系”。同一对 token 的距离，在高频维度上会表现成较快的相位差，在低频维度上会表现成较慢的相位差；于是模型看到的是一组跨多个尺度同时变化的模式。对于很近的 token，高频维度会给出很敏感的区分；对于距离更远的 token，低频维度仍然能保留稳定变化，不会太快绕回去。注意力层随后会在训练中学习：某些相位差组合通常意味着“相邻修饰”“短程依赖”，另一些更慢变化的组合更像“跨句呼应”或“长程对应”。这里并不存在一个必须被显式恢复出来的“角度标量”或“距离标量”。只要位置变化能够稳定地改变表示与点积结果，后续线性层和注意力头就可以把这种差异当作可利用特征。正弦位置编码的作用正是在于把位置关系改写成一组可被模型利用的周期信号，让模型自己在不同频率上学会读出距离与相对顺序。

相对位置编码

相对位置编码（Relative Positional Encoding）不直接编码“绝对索引”，通常会让注意力更显式地依赖 token 之间的相对距离 $i-j$。典型做法是在注意力打分里加入相对位置偏置（Relative Position Bias）：

\[\alpha_{ij}\propto \exp\!\left(\frac{q_i k_j^\top}{\sqrt{d_k}} + b_{i-j}\right)\]

这条式子描述的是：位置 $i$ 的 query 去看位置 $j$ 的 key 时，未归一化注意力权重会受到两部分共同决定。第一部分 $\frac{q_i k_j^\top}{\sqrt{d_k}}$ 是标准内容相关性打分：其中 $q_i$ 是第 $i$ 个位置的查询向量（Query Vector），$k_j$ 是第 $j$ 个位置的键向量（Key Vector），二者点积 $q_i k_j^\top$ 衡量“位置 $i$ 当前想找的信息，与位置 $j$ 持有的信息是否匹配”；$d_k$ 是 key/query 的维度，除以 $\sqrt{d_k}$ 是为了控制数值尺度，避免维度增大后 softmax 过早饱和。

第二部分 $b_{i-j}$ 是只由相对距离决定的偏置项（Bias Term）。若 $i-j=1$，表示当前 token 正在看它左边紧邻的位置；若 $i-j=10$，表示它正在看更远的上文。这个偏置可以通过查表得到：给每一种相对距离，或给若干距离分桶（bucket）后的区间，各分配一个可学习标量；也可以由一个小网络根据 $i-j$ 生成。它的作用是把“距离本身是否重要”直接加进打分，而不必完全依赖内容向量自己去隐式学出这种规律。

式子左边的 $\alpha_{ij}$ 表示位置 $i$ 对位置 $j$ 的注意力权重；这里写成 $\propto$ 而非等号，是因为右边还只是指数化前的未归一化权重。真正的注意力概率还要在固定 $i$ 后，对所有 $j$ 一起做 softmax 归一化：

\[\alpha_{ij}=\frac{\exp\!\left(\frac{q_i k_j^\top}{\sqrt{d_k}} + b_{i-j}\right)}{\sum_{j'}\exp\!\left(\frac{q_i k_{j'}^\top}{\sqrt{d_k}} + b_{i-j'}\right)}\]

因此，相对位置编码的含义可以概括为：注意力不只比较“内容是否匹配”，还显式比较“这个位置离我有多远”。很多语言现象更依赖相对距离而非绝对序号，例如局部搭配、邻近修饰、长程指代和句法依赖，因此把 $i-j$ 直接写进打分，往往比单纯依赖绝对位置索引更贴近任务结构。

RoPE

RoPE（Rotary Position Embedding）把位置信息以“旋转”的方式注入到 $Q$/$K$ 中。若按实数矩阵来写，就是把向量的每两维视为一个二维平面，再用角度与位置成正比的旋转矩阵作用在这两维上。对第 $i$ 个二维分量，令 $\theta_{m,i}$ 表示位置 $m$ 在该（每两维一个）频段上的旋转角，则

\[\begin{bmatrix}x'_{2i}\\ x'_{2i+1}\end{bmatrix}=\begin{bmatrix}\cos\theta_{m,i} & -\sin\theta_{m,i}\\ \sin\theta_{m,i} & \cos\theta_{m,i}\end{bmatrix}\begin{bmatrix}x_{2i}\\ x_{2i+1}\end{bmatrix}\]

实现上，RoPE 核心是对每个位置的 $Q$ 和 $K$ 都各自按该位置做旋转；随后不同位置之间再做点积匹配。这样一来，位置 $m$ 的 $Q_m$ 和位置 $n$ 的 $K_n$ 在相遇时，二者各自携带的位置相位就会共同决定匹配结果。通常只有 $Q$/$K$ 参与这种旋转， $V$ 不旋转，因为位置信息的关键作用点在“如何计算注意力权重”，而非在“被加权汇总的内容值”本身。

上述矩阵式在实现上是正确的，但从理解角度看仍然偏“机械”。更直接的方式是用复数视角（Complex Perspective）：把每两维 $(x_{2i},x_{2i+1})$ 看成一个复数

\[z_i = x_{2i} + \mathrm{i}x_{2i+1}\]

于是 RoPE 的位置注入就可以写成一个极其紧凑的式子：

\[z_i' = z_i \, e^{\mathrm{i} m \theta_i}\]

这里 $m$ 是位置索引， $\theta_i$ 是第 $i$ 个频段的基础角速度， $e^{\mathrm{i} m \theta_i}$ 表示“在复平面上旋转 $m\theta_i$ 角”。这时 RoPE 的直觉就变得很清楚：同一个向量本身不变，变化的是它在不同位置上附带的相位（phase）。位置越靠后，相位就继续往前转。

这种写法的关键价值在于：相对位置会自然地从乘法里浮现出来。若位置 $m$ 的 query 与位置 $n$ 的 key 都经过旋转，则它们的匹配项可写成

\[q_m^{(i)} e^{\mathrm{i} m \theta_i}\cdot \overline{k_n^{(i)} e^{\mathrm{i} n \theta_i}} = q_m^{(i)} \overline{k_n^{(i)}} e^{\mathrm{i}(m-n)\theta_i}\]

这里上划线表示复共轭（Complex Conjugate）。前文“二维向量的复数表示”已经给出同一条基本关系：二维点积可以写成复共轭乘积的实部，因此把二维块写成复数后，位置相位会直接进入匹配项。最重要的结果是指数项里只剩下 $(m-n)\theta_i$：绝对位置 $m$ 与 $n$ 被自动折叠成了相对位移 $m-n$。因此，RoPE 核心是通过“给每个位置乘一个相位因子”的方式，让相对位移直接出现在注意力匹配里。

若用一句更通俗的话概括，RoPE 做的事情是：给每个位置的 $Q$/$K$ 都拧上一点角度；两个位置一做点积，位置差就会体现在匹配分数里。矩阵形式更像工程实现的展开式，复数形式更接近它的数学本质。模型并不需要在内部先还原出一个单独的“角度值”再决定如何注意；它只需要利用这种旋转所造成的分数差异与模式差异。只要某类相位关系稳定对应某类局部依赖、顺序关系或长程对应，训练过程就会把这些模式吸收到注意力头和后续层的参数里。也正因为这种“相对位移直接进入匹配”的结构，RoPE 在 Decoder-only 大模型中成为主流选择（例如 LLaMA 系列）。

RoPE 长度外推（Length Extrapolation）

RoPE 的旋转角随位置线性增长。若训练阶段最大长度为 $L_{\text{train}}$，推理时直接扩展到 $L_{\text{test}}\gg L_{\text{train}}$，部分频段会出现“过快旋转”：模型开始在比训练时更长得多的位置区间上继续累积相位，而这些大角度相位组合在训练中几乎没有见过。结果是远距离 token 之间的相对相位关系超出训练分布，注意力更容易退化为近邻偏好，长上下文检索与推理准确率下降。

典型评测是大海捞针（Needle in a Haystack）：在很长的上下文中埋入一条关键信息（needle），要求模型在指定问题下准确复述该信息。常见现象是针落在开头/结尾时表现更好，但针落在中间位置时准确率显著下降；这通常与位置编码外推、注意力实现细节与 KV Cache 行为共同相关。

工程上常见的 RoPE 外推改造包括：

位置插值（Position Interpolation, PI）：把推理位置按比例压缩回训练范围，相当于把 RoPE 角速度整体放慢。
NTK-aware 缩放（NTK-aware Scaling）：按“有效核宽度”视角调整频率谱，缓和远距离相对位移失真。
YaRN：对不同频段做分段/渐变缩放，尽量同时保住短程精度与长程外推。

以 PI 为例，一个常用写法等价于把 RoPE 的位置 $\text{pos}$ 映射为 $\text{pos}'=\text{pos}/s$（$s=L_{\text{test}}/L_{\text{train}}$），从而把角度压回训练范围：

\[\theta'_{\text{pos},i}=\frac{\text{pos}/s}{\text{base}^{2i/d}},\quad s=\frac{L_{\text{test}}}{L_{\text{train}}}\]

方法	是否需要再训练	核心超参	优势	风险/备注
PI	建议配合长上下文继续预训练/微调	缩放因子 $s$	实现简单；可在保持短程行为的同时扩展长度	若只做推理时改造，可能出现分布错配；需用 needle 测试验证“中间段”能力
NTK-aware scaling	可仅推理侧启用；配合微调更稳	频谱/基数缩放规则	对远距离更平滑；常用于把“可用上下文”拉长	不同实现差异大；需关注与 KV Cache、GQA/MQA 等工程优化的耦合
YaRN	通常建议配合继续预训练	分段/渐变缩放参数	兼顾短程精度与长程外推；对 needle 中段退化更友好	超参更多；需要系统评测（含不同位置、不同检索难度）

ALiBi

ALiBi（Attention with Linear Biases）直接在注意力 logits 上加一个与距离线性相关的偏置，而不改变表示维度，也不引入位置向量：

\[\alpha_{ij}\propto \exp\!\left(\frac{q_i k_j^\top}{\sqrt{d_k}} - m\cdot (i-j)\right),\quad j\le i\]

其中斜率 $m$ 可按 head 设置。直觉上它鼓励模型更关注近邻 token，同时具备较好的长度外推（Length Extrapolation）行为。

注意力机制

注意力机制（Attention Mechanism）是序列模型中的动态信息选择机制。对于一个由多个 token 构成的输入序列，模型不会把所有上下文位置等量混合，会会针对当前正在计算的位置，动态判断哪些位置更相关、相关程度有多大，以及这些位置的信息应当如何组合成新的表示。这个过程本质上是一个与输入内容相关的加权汇聚：当前位置先形成查询信号，再在上下文中寻找与之匹配的位置，最后把这些位置承载的信息按权重聚合回来。

这种设计改变了传统序列建模的信息传递路径。循环结构主要依赖状态沿时间步逐步传递，卷积结构主要依赖固定大小的局部感受野，而注意力机制允许任意两个位置直接建立联系，并且联系强度由内容决定而非由距离预先写死。长距离依赖（Long-Range Dependency）因此可以被更直接地建模：一个 token 可以立刻读取很远处但与当前语义高度相关的信息，而不必等待信息穿过很长的递归链条或许多层局部卷积。

Transformer 将注意力机制置于核心位置。自注意力（Self-Attention）让同一序列内部的各个 token 相互读取；交叉注意力（Cross-Attention）让一个序列读取另一个序列的表示；因果注意力（Causal Attention）则通过掩码限制当前位置只能访问过去的信息，从而支撑自回归生成（Autoregressive Generation）。这些形式都遵循同一条主线：先计算相关性分数，再把分数归一化为权重，最后对承载内容的向量做加权求和。其最经典、最常见的数学形式就是缩放点积注意力（Scaled Dot-Product Attention）。

Scaled Dot-Product Attention

自注意力（Self-Attention）中，输入表示 $X$ 通过三组参数投影为：

\[Q=XW_Q,\quad K=XW_K,\quad V=XW_V\]

注意力输出为：

\[\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V\]

其中 $W_Q,W_K,W_V$（以及多头里的 $W_O$）都是模型参数（Parameters），训练的目标核心是在损失函数（Loss）下通过梯度下降（Gradient Descent）把它们优化到能完成任务的取值。

把公式按 token 展开更清楚。设当前只看一个注意力头，序列长度为 $L$。对第 $i$ 个 token，模型先取出它的查询向量 $q_i\in\mathbb{R}^{d_k}$，再与序列中每个位置 $j=1,\dots,L$ 的键向量 $k_j\in\mathbb{R}^{d_k}$ 做点积，得到一个标量打分：

\[s_{ij}=q_i k_j^\top\]

这里 $d_k$ 表示每个头里 Key / Query 向量的维度，也就是 $q_i$ 与 $k_j$ 的长度。它之所以记作 $d_k$，是因为这个维度首先由 Key 空间定义；而 Query 必须与 Key 处在同样维度里，才能做点积匹配。因此 $q_i$ 和 $k_j$ 的长度通常相同。Value 向量的维度记作 $d_v$；实践中常见设置是 $d_v=d_k$，但这并非数学上的硬要求。

接着，对第 $i$ 个 query 的整行打分做缩放和 softmax，得到一组对所有位置的注意力权重：

\[\alpha_{ij}=\mathrm{softmax}_j\!\left(\frac{s_{ij}}{\sqrt{d_k}}\right)=\frac{\exp\!\left(s_{ij}/\sqrt{d_k}\right)}{\sum_{t=1}^{L}\exp\!\left(s_{it}/\sqrt{d_k}\right)}\]

因此，对固定的 $i$ 来说， $\alpha_{i1},\dots,\alpha_{iL}$ 构成一个标量概率分布：它们都非负，且总和为 1。这个分布回答的是“第 $i$ 个 token 应该从整段序列的哪些位置读取多少信息”。

输出 $o_i$ 则是一个向量（Vector），由所有 Value 向量 $v_j\in\mathbb{R}^{d_v}$ 按权重加权求和得到：

\[o_i=\sum_{j=1}^{L}\alpha_{ij} v_j\]

把这一步画成示意图会更直观：固定第 $i$ 个 query 后，先得到一组对各位置 $j$ 的注意力权重；再用这些权重去加权汇总对应的 Value 向量；右侧输出向量的每一维，都是左侧各个 Value 向量对应维度的加权和。

查询向量（Query）与键向量（Key）负责“匹配打分”；值向量（Value）承载被聚合的信息内容。把注意力看作“内容寻址（Content-based Addressing）”：先用 $QK^\top$ 计算“应该看谁”，再用权重对 $V$ 做加权求和得到“看到了什么”。

缩放因子 $\sqrt{d_k}$ 的作用是控制数值尺度。由于 $q_i$ 与 $k_j$ 的点积是 $d_k$ 个乘积项的求和，若各维分量方差相近，则点积分数的方差通常会随着 $d_k$ 增长。维度一大， $s_{ij}$ 的绝对值就更容易变大，softmax 会更快进入饱和区：某几个位置的权重接近 1，其余位置接近 0，梯度也会变小。除以 $\sqrt{d_k}$ 后，分数尺度被拉回更稳定的范围，不同 head 维度设置下的 softmax 行为会更可控。

理论上可以让寻址与内容共用投影（例如令 $V=K$ 或直接取 $V=X$），但实践中通常把 Q/K 与 V 分开，是为了让“打分空间”和“内容表示空间”解耦，提升表示能力与训练稳定性。

一个极简数值例子：若某个 Query 与 3 个 Key 的相似度（未缩放）为 $[2,1,0]$，softmax 权重大约是 $[0.665,0.245,0.090]$，输出就是把三个 Value 按这个比例加权求和。

Masked Attention

Masked Attention（因果注意力 / Causal Attention）在自回归（Autoregressive）生成中使用：通过掩码（Mask）禁止位置 $i$ 看到未来位置 $j>i$。实现上通常是在 softmax 前把被禁止位置的打分加上一个极小值（如 $-\infty$）。

若把未加掩码的打分矩阵记为 $S=\frac{QK^\top}{\sqrt{d_k}}\in\mathbb{R}^{L\times L}$，则因果掩码可写成一个上三角被屏蔽的矩阵 $M$。以 $L=4$ 为例：

\[M=\begin{bmatrix} 0 & -\infty & -\infty & -\infty\\ 0 & 0 & -\infty & -\infty\\ 0 & 0 & 0 & -\infty\\ 0 & 0 & 0 & 0 \end{bmatrix}\]

然后在 softmax 之前做逐元素相加：

\[P=\mathrm{softmax}(S+M)\]

这里主对角线及其左下区域为 0，表示当前位置及其历史位置允许被访问；右上区域为 $-\infty$，表示未来位置被强制屏蔽。softmax 之后，这些位置的权重会变成 0，因此第 $i$ 行只能在 $j\le i$ 的范围内分配概率。

从矩阵形状看，这就是一个保留下三角、屏蔽上三角的结构。它保证了解码器在位置 $i$ 计算注意力时，只能读取已经出现的 token，而不能偷看未来 token。

注意力机制在训练阶段和推理阶段都会执行。区别在于：训练时通常一次性输入整段序列（Teacher Forcing）并使用因果掩码；推理时逐 token 解码，并结合 KV Cache 避免重复计算历史。

Cross-Attention

交叉注意力（Cross-Attention）让一个序列“去读另一个序列”。在 Encoder–Decoder Transformer 里：解码器当前状态提供 Query，编码器输出提供 Key/Value。若编码器输出为 $H_{\text{src}}\in\mathbb{R}^{L_{\text{src}}\times d}$，解码器输入为 $H_{\text{tgt}}\in\mathbb{R}^{L_{\text{tgt}}\times d}$，则

\[Q=H_{\text{tgt}}W_Q,\quad K=H_{\text{src}}W_K,\quad V=H_{\text{src}}W_V\] \[\mathrm{CrossAttn}(H_{\text{tgt}},H_{\text{src}})=\mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V\]

它与自注意力（Self-Attention）的区别仅在于 $K,V$ 来自“别的序列”，因此能把“源序列信息”按需注入到“目标序列生成”中。

在交叉编码器（Cross-Encoder）语境里，很多实现并不显式写 cross-attention：它们把两段文本拼接成一个序列，用全连接自注意力直接建模跨序列交互；从效果上看等价于“允许任意 token 互相注意”。

Decoder-only 架构本身没有 cross-attention 子层；只有在做 Seq2Seq（有 encoder 输出）或显式引入外部记忆（Memory）时，才会在解码器里加入 cross-attention。

Multi-Head Attention

多头注意力（Multi-Head Attention）把注意力拆成 $H$ 个头（Heads），每个头在不同的子空间里独立做一次注意力，然后在特征维度上拼接（Concatenation）并用输出矩阵混合：

\[\text{head}_h=\mathrm{Attention}(XW_Q^{(h)},XW_K^{(h)},XW_V^{(h)})\] \[\mathrm{MultiHead}(X)=\mathrm{Concat}(\text{head}_1,\dots,\text{head}_H)W_O\]

若 $d_{\text{model}}$ 固定，常见做法是每个头的维度 $d_k=d_v=d_{\text{model}}/H$，拼接后回到 $d_{\text{model}}$。多头的收益来自“并行关注不同关系”：有的头偏向局部邻域，有的头偏向长程依赖，有的头学到语法/实体指代等不同模式。

这种分工在标准训练里通常核心是优化过程中的自发结果。每个头都拥有各自独立的 $W_Q^{(h)},W_K^{(h)},W_V^{(h)}$ 参数，因此即使输入相同，它们也会把表示投影到不同子空间里，形成不同的匹配规则。随机初始化首先打破了头与头之间的对称性；随后，损失函数只约束“多头合起来的整体输出”是否有利于完成任务，而不要求每个头承担同一种功能。在这种条件下，若多个头完全重复，整体表示效率往往偏低；优化更容易把不同头推向不同关系模式，于是逐渐出现局部邻近、长程依赖、分隔符、指代、句法边界等不同偏好。

这种功能分化并非严格保证。实际模型里常能观察到部分头高度相似，部分头贡献很小，甚至剪掉后性能几乎不变。若希望更强地控制不同头学习不同东西，就需要额外机制，例如对不同头加入多样性正则（Diversity Regularization）、局部窗口约束、特定监督信号，或在训练后做 head pruning / head specialization 分析。

GQA/MQA

从多头注意力再往下走一步，就会遇到一个非常重要的工程分叉：Query 头数与 Key/Value 头数是否必须一一对应。标准 MHA 默认每个 Query head 都有自己独立的 Key/Value head；而在长上下文大模型里，工程重点往往会进一步转向KV Cache 到底有多大、带宽到底有多贵。GQA 与 MQA 的区别，正是在回答这个问题。

GQA

GQA（Grouped Query Attention）用“更少的 KV 头”服务“更多的 Query 头”。它的核心做法是：多个 Query heads 共享同一组 Key/Value heads，从而显著降低 KV Cache 的显存与带宽压力。若仍记 Query 头数为 $n_q$，KV 头数为 $n_{\text{kv}}$，则 GQA 满足 \(1。

对比标准多头注意力，GQA 的本质是把“每个 head 都独立维护一套 KV”改成“若干 Query head 结成一组，共享一套 KV”。注意力仍然按 head 计算，但 KV 表示从完全一一对应转向以组为单位共享。在长上下文推理中，它带来的收益往往比对算力的节省更关键：KV Cache 与内存带宽近似按 $n_{\text{kv}}/n_q$ 比例下降。

因此，很多现代大模型把 GQA 当作默认配置。它在表达能力与缓存成本之间提供了一个很实用的折中：比 MHA 便宜得多，但通常又比最极端的共享方案更稳。

MQA

MQA（Multi-Query Attention）可以看作 GQA 的极端情形，即 $n_{\text{kv}}=1$。这意味着全部 Query heads 共用同一套 Key / Value 表示。于是，KV Cache 被进一步压到最小，推理阶段的显存和带宽压力也达到最强压缩。

它的优点非常明确：在超长上下文和高并发解码场景下，MQA 往往是最省缓存的一类头部组织方式。缺点也同样明确：表示自由度下降得最厉害，不同 Query heads 看到的 Key/Value 空间过于相似，因此更容易带来质量损失。工程上通常会用更大的模型维度、更多 Query heads、或更强的 FFN 来补偿这种压缩。

因此，三者的关系可以概括成一条连续谱：MHA 表达最自由、成本最高；MQA 成本最低、共享最强；GQA 则处在两者之间，提供最常用的工程折中。进一步降低 KV Cache 成本的路线，还包括 Latent KV / MLA 一类潜空间压缩，以及 TurboQuant 一类面向内积保真的 KV 量化压缩。它们优化的仍然是长上下文推理里的 KV 存储与带宽，只是已经不再停留在“头数共享”这一层。

线性注意力

线性注意力（Linear Attention）是在注意力层内部改写计算顺序，使代价不再显式依赖完整的 $L\times L$ 注意力矩阵。标准 softmax 注意力可写为：

\[\mathrm{Attn}(Q,K,V)=\mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V\]

其中 $Q\in\mathbb{R}^{L\times d_k}$ 是整段序列的 query 矩阵， $K\in\mathbb{R}^{L\times d_k}$ 是 key 矩阵， $V\in\mathbb{R}^{L\times d_v}$ 是 value 矩阵； $L$ 是序列长度， $d_k$ 是 query / key 维度， $d_v$ 是 value 维度。矩阵 $QK^\top\in\mathbb{R}^{L\times L}$ 的第 $(i,j)$ 项就是 $q_i^\top k_j$，表示第 $i$ 个位置对第 $j$ 个位置的原始匹配分数。也就是说，标准注意力需要让每个 query 与每个 key 两两打分，因此时间与显存压力通常都是 $\mathcal{O}(L^2)$ 级别。线性注意力的目标，就是把这种“先算完整两两相互作用，再做归一化”的流程，改写成“先把历史信息压缩成一组可累计统计量，再让每个 query 去读取这些统计量”。

标准注意力里，第 $i$ 个位置的输出可以写成

\[o_i=\sum_{j=1}^{L}\alpha_{ij}v_j,\qquad \alpha_{ij}=\frac{\exp(q_i^\top k_j/\sqrt{d_k})}{\sum_{\ell=1}^{L}\exp(q_i^\top k_\ell/\sqrt{d_k})}\]

这里 $q_i\in\mathbb{R}^{d_k}$ 是第 $i$ 个位置的 query 向量，表示“当前位置想找什么信息”； $k_j\in\mathbb{R}^{d_k}$ 是第 $j$ 个位置的 key 向量，表示“这个历史位置提供什么匹配线索”； $v_j\in\mathbb{R}^{d_v}$ 是同一位置真正承载内容的 value 向量； $\alpha_{ij}$ 是归一化后的注意力权重，表示第 $i$ 个 query 最终给第 $j$ 个位置分了多少注意力； $o_i$ 则是当前位置输出。于是 softmax 注意力的本质很明确：先用 $q_i$ 和所有 $k_j$ 算相似度，再用这些权重去加权求和所有 $v_j$。

这里的 $\phi$ 是特征映射（Feature Map）或核特征映射（Kernel Feature Map）。它把原本位于 $\mathbb{R}^{d_k}$ 的 query / key 向量，映射到另一个通常更容易做内积分解的空间 $\mathbb{R}^{m}$：

\[\phi:\mathbb{R}^{d_k}\rightarrow\mathbb{R}^{m}\]

其中 $m$ 是映射后的特征维度。直观上， $\phi$ 的作用是把原来的向量变成另一种表示，使得原本难以直接拆开的相似度，能够改写成内积形式。

若某种相似度函数 $\kappa(q,k)$ 可以写成

\[\kappa(q,k)=\phi(q)^\top \phi(k)\]

其中 $\kappa(q,k)$ 是 query 与 key 的相似度函数；右边写成 $\phi(q)^\top \phi(k)$ 之后，相似度就被拆成了“只依赖 query 的一项”和“只依赖 key 的一项”的内积形式。这样一来，注意力里“query 与所有 key 的逐一比较”就能被拆成两部分：一部分只和 key/value 有关，另一部分只和当前 query 有关。对单个 query $q_i$ 而言，若记

\[S=\sum_{j=1}^{L}\phi(k_j)v_j^\top,\qquad z=\sum_{j=1}^{L}\phi(k_j)\]

其中 $S\in\mathbb{R}^{m\times d_v}$ 是把整段历史中“key 的特征表示”和“对应的 value 内容”绑定后累计起来得到的矩阵，可以理解为一份带内容的历史摘要； $z\in\mathbb{R}^{m}$ 只累计 key 的特征表示，用来充当归一化分母。则输出可改写为

\[o_i\approx\frac{\phi(q_i)^\top S}{\phi(q_i)^\top z}\]

其中分子 $\phi(q_i)^\top S$ 表示“当前 query 去读取带内容的历史摘要”，分母 $\phi(q_i)^\top z$ 用来做归一化，防止输出尺度失控。这一步是线性化的核心。因为 $S$ 与 $z$ 可以沿着序列顺序递推累计，不需要先显式构造完整的 $L\times L$ 打分矩阵。于是复杂度从“所有 token 两两交互”转成“每个 token 更新一次全局统计量并读取一次统计量”，在很多实现里就能接近 $\mathcal{O}(L)$ 的序列复杂度。

为什么这里可以做近似，关键在于 softmax 注意力本身也可以被看成一种核化相似度。softmax 的未归一化权重本质上依赖 $\exp(q^\top k/\sqrt{d_k})$；如果能找到某个 $\phi$，使得

\[\exp\!\left(\frac{q^\top k}{\sqrt{d_k}}\right)\approx \phi(q)^\top \phi(k)\]

就能用可分解的内积结构近似原来的指数核。不同线性注意力方法对 $\phi$ 的选择并不相同：有的方法用显式正特征映射，例如 $\mathrm{ELU}(x)+1$ 之类的正值变换；有的方法用随机特征（Random Features）去逼近 softmax kernel；还有一些方法更进一步，直接放弃“精确逼近 softmax”，转而定义一种新的核化注意力族。于是“线性注意力”在数学上是一大类可分解注意力路线，数学上并不总是同一条公式。

“什么样的核函数能够做这件事”可以分成两类理解。第一类是可显式近似 softmax 的核。例如 Performer 使用 FAVOR+（Fast Attention Via Positive Orthogonal Random Features）路线，用随机特征把指数核 $\exp(q^\top k)$ 近似成有限维内积 $\phi(q)^\top\phi(k)$。这里的 $\phi$ 从一个随手指定的非线性转向专门为逼近指数核构造出来的随机特征映射。

第二类是直接改用另一种正核。例如早期 Linear Transformer 一类方法常取 $\phi(x)=\mathrm{ELU}(x)+1$ 或其他保持正值的映射。这样做的重点不在于把 softmax 严格逼近得多么精确，而在于构造一个满足非负性、可递推累计、数值上相对稳定的核化注意力形式。此时模型学到的已经并非“softmax 的近似实现”，而更接近“另一种可线性化的注意力定义”。

一个最小例子

设序列里只有两个历史位置，当前位置的 query 为 $q$，历史 key / value 分别为 $(k_1,v_1)$ 与 $(k_2,v_2)$。标准注意力会先显式算出两个分数：

\[s_1=q^\top k_1,\qquad s_2=q^\top k_2\]

再做 softmax：

\[\alpha_1=\frac{e^{s_1}}{e^{s_1}+e^{s_2}},\qquad \alpha_2=\frac{e^{s_2}}{e^{s_1}+e^{s_2}}\]

最后输出

\[o=\alpha_1 v_1+\alpha_2 v_2\]

线性注意力则尝试把这一步改写成“先对历史做摘要，再让 $q$ 读取摘要”。若有某个 $\phi$ 使得 $e^{q^\top k}\approx \phi(q)^\top\phi(k)$，那么先预计算

\[S=\phi(k_1)v_1^\top+\phi(k_2)v_2^\top,\qquad z=\phi(k_1)+\phi(k_2)\]

然后输出近似为

\[o\approx\frac{\phi(q)^\top S}{\phi(q)^\top z}\]

这里的关键变化很明确：原公式需要先单独算 $q$ 对 $k_1$、$k_2$ 的两个打分；而线性化后的公式把历史两项先合成 $S$ 与 $z$，后续任何新 query 都直接读取这个摘要即可。把“两项历史”换成“$L$ 项历史”时，这种先摘要、后读取的结构才真正体现出线性复杂度优势。

从直觉上看，标准注意力像是“每个 query 都把整张历史表逐行翻一遍，再决定该关注谁”；线性注意力则像是“先把历史 key/value 在特征空间里压缩成一个可累计的摘要，再由每个 query 去读取这份摘要”。前者保留了最细粒度的两两比较，后者牺牲了一部分精细交互，换取长序列下更低的显存与更高的吞吐。

一个典型形式（省略实现细节）是：

\[\mathrm{Attn}(Q,K,V)\approx \frac{\phi(Q)\big(\phi(K)^\top V\big)}{\phi(Q)\big(\phi(K)^\top \mathbf{1}\big)}\]

线性注意力更适合“极长序列下的吞吐/显存”目标，但它往往需要在表示、数值稳定性与效果之间做取舍；在通用 LLM 上，主流路径仍然是“精确注意力 + 更好的内核 + 更强的位置/缓存工程”，线性注意力更多作为特定场景或混合架构的选项。

flash-linear-attention

flash-linear-attention

常缩写为

fla

。它更适合被理解为线性注意力、递推更新与部分状态空间模块的高性能实现库，而非一种独立的新模型家族。它提供的是面向 GPU 前向路径的高效 kernel：通过融合、分块、块内累计和更紧凑的中间状态组织，降低长序列计算中的访存与中间张量开销。

从运行阶段看，fla 的影响并不局限于训练。只要模型在推理时仍然调用同一套由 fla 实现的层或算子，推理阶段也会直接受益，因为推理本质上只是在执行前向传播（Forward Pass）。这意味着它通常会同时带来两类收益：第一，延迟下降，因为前向 kernel 更快；第二，显存占用下降，因为融合实现往往减少了中间张量写回与额外缓存。序列越长，这类收益通常越明显。

不过，fla 的收益并非无条件出现。若模型本身根本没有使用 fla 支持的模块，而只是标准 Transformer 加普通 PyTorch attention，那么安装 fla 不会自动带来变化；若部署时已经把模型导出到另一套不支持相应 kernel 的执行引擎，例如某些 ONNX / 图编译推理链路，原本的加速路径也可能丢失；若运行环境是 CPU，或 GPU / Triton / CUDA 条件不满足，系统通常会回退到普通实现，此时收益会显著减弱甚至完全消失。

它与 FlashAttention 的关系也需要分清。两者都属于“前向路径加速会同时惠及训练与推理”的工程优化，但作用对象并不相同：FlashAttention 优化的是精确 softmax 注意力的实现，数学结果保持不变；fla 更常服务于线性注意力、递推或 SSM 风格模块的高效实现。因此，是否影响推理，关键不在于“训练还是推理”，而在于推理时走的是否仍是那条由 fla 支撑的前向计算路径。

稀疏注意力

标准密集自注意力（Dense Self-Attention）会让每个位置与所有可见位置计算打分，因此在长度 $L$ 上通常带来 $O(L^2)$ 级别的注意力矩阵与计算压力。稀疏注意力（Sparse Attention）的核心思路，就是预先限制“每个 token 允许看哪些位置”，只保留一部分连接，从而把长上下文建模的代价降下来。

稀疏注意力是一类注意力连接模式的总称。它可以是局部窗口（Local Window）、块状稀疏（Block Sparse）、跨步连接（Strided Pattern）、少量全局 token（Global Tokens），也可以是这些模式的组合。Longformer、BigBird 这类长序列模型，都属于这条路线的经典代表。它保留 softmax 注意力的基本定义，同时把原本“谁都能看谁”的全连接关系改成一个更受约束的稀疏图。

从 2026 年的工程现实看，稀疏注意力仍然重要，但它已经并非通用旗舰语言模型的默认路线。它更常出现在长文档理解、超长上下文、显存/带宽受限，或专门强调长序列效率的模型中；而很多主流通用基座仍然更常采用密集因果注意力，再叠加 GQA、KV Cache、FlashAttention、KV 压缩等优化。这是因为稀疏模式虽然更省，但也会直接限制单层里可建立的依赖范围，训练与实现复杂度通常更高。

滑动窗口注意力

滑动窗口注意力（Sliding Window Attention）是稀疏注意力里最常见、也最工程化的一种形式：位置 $i$ 只看距离自己最近的一段窗口，例如前面 $w$ 个 token。这样单层注意力的代价就从“与整段长度线性增长的每行宽度”，压缩成“与固定窗口宽度相关”的局部计算。

它的优点是非常直接：局部模式、邻近依赖和短程语义通常仍能被稳定捕捉，而长上下文成本显著下降。代价是，两个相距很远的位置无法在同一层里直接交互，只能依靠多层传播，或额外引入全局层、全局 token、周期性全注意力层等机制来弥补。因此很多实际架构会采用“局部层 + 少量全局层”的混合设计，而非把所有层都做成纯局部窗口。

到 2026 年，滑动窗口注意力仍然被部分主流模型持续使用，尤其是在长上下文或高性价比路线中；例如 Mistral 一类模型会显式采用 Sliding Window Attention，Gemma 2/3 一类模型也会在 local / global hybrid 结构中交替使用局部注意力层。但它并非所有主流模型的统一默认配置。更准确的说法是：通用“稀疏注意力”并非当代旗舰模型的普遍默认架构，而“滑动窗口注意力”则仍是今天主流工程实践里一条活跃的局部注意力路线。一旦局部窗口再与全局 token、周期性全注意力层或其他远程连接模式联合使用，它就进入了混合注意力的范畴。

混合注意力

混合注意力（Hybrid Attention）是一类设计思想：在同一个模型、同一层或同一组层里，同时组合两种或多种不同的注意力模式，让它们分别承担不同职责。可被混合的对象很多，例如局部窗口与全局连接、稠密与稀疏、未压缩与压缩表示、不同层采用不同注意力机制。它的核心目标始终一致：在不牺牲太多表达能力的前提下，同时兼顾局部细节、长程依赖和计算成本。

之所以需要“混合”，是因为单一注意力模式往往只能在一个方向上做到极致。纯密集注意力最通用，但长上下文成本太高；纯局部窗口注意力便宜，但单层看不到远处；纯压缩注意力能把上下文做得很长，但容易丢掉近邻精细结构。因此现代模型越来越多地采用“让不同注意力模式协作分工”的路线：局部部分负责细节保真，全局部分负责长距离背景，稀疏部分负责把计算集中在最重要的位置，压缩部分负责控制 KV Cache 和 FLOPs。

从实现方式看，混合注意力至少有三种常见形态。第一种是同层混合：在同一层里并行放入两条注意力分支，再把结果合并，例如局部窗口分支加全局分支。第二种是按层交替：不同层使用不同的注意力模式，例如一层偏局部，一层偏全局。第三种是主干 + 补充分支：主体注意力负责主要读写，同时再加一个窗口分支、全局 token 分支或压缩块分支补足缺失的信息路径。前面的滑动窗口路线，以及后文的 DeepSeek V4 `CSA / HCA`，都可以放在这条“混合注意力”主线上理解。

长上下文路线

这里需要把两类经常被混在一起的优化明确分开。第一类是架构级注意力创新：它直接改写注意力层内部的参数化方式、KV 表示形式或 block 级计算路径，例如 MLA（Multi-head Latent Attention）以及 DeepSeek V4 的 CSA / HCA（Compressed Sparse Attention / Heavily Compressed Attention）。第二类是推理期运行时优化：它在部署阶段降低显存、带宽或调度开销，不改变模型训练时学到的注意力结构，例如 Paged Attention、Prompt Caching、KV 量化等。

这一区分很重要，因为 MLA、CSA、HCA 都属于主干网络内部的注意力设计。它们直接定义了模型在训练时看到的注意力几何结构：哪些历史信息会先被压缩，哪些块会被稀疏选中，局部窗口与压缩块如何共同参与注意力，Query 与压缩 KV 在什么空间里交互，这些都属于主干网络本身的前向计算路径。DeepSeek V4 也把 Hybrid Attention Architecture、mHC 和 Muon 并列为架构与优化升级，并明确说明该系列模型是在这些设计下完成超大规模预训练的。这说明 `CSA / HCA` 从一开始就是训练期与推理期共同生效的主干设计，而非训练完以后再附加的后处理层。

更具体地说，MLA 把“每个 token 的 KV 应该以什么潜空间形式被缓存和恢复”写进了注意力层；CSA / HCA 则把“历史序列该怎样在序列轴上压缩、检索与混合”写进了注意力层。模型在预训练阶段就必须适应这种信息流，因此它们会同时影响表示学习、优化稳定性、长程依赖建模和最终推理成本。与之相对，KV 量化和 Paged Attention 更接近部署侧技术：即使它们也会显著影响可用上下文和吞吐，它们通常不要求模型从头按该结构重新预训练。

其中 DeepSeek V4 的 `CSA + HCA` 应被明确看作一种混合注意力机制。它把 CSA 这种“压缩后做稀疏重点检索”的模式，与 HCA 这种“重压缩后做全局粗读”的模式组合起来，并额外保留滑动窗口分支补足局部细节。因此它同时具备“局部 / 全局”“稀疏 / 稠密”“轻压缩 / 重压缩”三层混合特征。把 `CSA / HCA` 只理解成 KV Cache 压缩技巧并不充分；更准确的定位是：它首先是一种混合注意力架构，其次才带来显著的缓存和 FLOPs 压缩收益。

因此，从文章结构看，DeepSeek 这一类注意力创新应当先在“注意力机制”这里出现，作为混合注意力的长上下文分支做总引；后文“KV Cache 压缩”再展开它们为何能显著降低缓存和 FLOPs、各自内部具体有哪些组件。这样章节关系才准确：前者回答“它是否属于注意力机制本身的创新”，后者回答“这种创新最终把成本压到了哪里”。

KV Cache

KV Cache（Key-Value Cache）是自回归（Autoregressive）解码的关键工程优化：生成到第 $t$ 步时，历史 token 的 Key/Value 已经在前序计算中得到；缓存它们可以避免每一步都重算整段历史的 K/V。

形式上，单层注意力在序列长度为 $L$ 时需要缓存：

\[K,V\in\mathbb{R}^{L\times n_{\text{kv}}\times d_k}\]

其中 $n_{\text{kv}}$ 是 KV 头数量（对标准多头注意力通常等于头数；对 GQA/MQA 通常更小），$d_k$ 是每个 head 的维度。忽略实现细节（对齐、分块、paged layout）时，KV Cache 的显存规模近似线性增长：

\[\mathrm{Mem}_{\mathrm{KV}}\approx 2\cdot N_{\text{layers}}\cdot B\cdot L\cdot n_{\text{kv}}\cdot d_k\cdot \text{bytes}\]

这里前面的 2 来自同时缓存 K 与 V；$B$ 是并发请求（batch）数；$\text{bytes}$ 是每元素字节数（FP16/BF16 为 2）。因此 KV Cache 常成为长上下文与高并发推理的显存瓶颈。

KV Cache 的典型优化方向包括：

减少 $n_{\text{kv}}$，例如使用 GQA / MQA。
压缩 KV，例如 KV 量化、低秩表示、选择性缓存。
改进分配与复用，例如 Paged Attention、前缀缓存（Prompt Caching）。

FlashAttention

FlashAttention 是一种对标准注意力（Standard Attention）的高性能精确实现：它通过分块（Tiling）、融合计算与在线 softmax，减少大规模中间矩阵在 HBM 与片上存储之间的来回搬运。因此，它首先是一种注意力算子实现优化，而非新的模型结构。应用阶段上，训练与推理都可以使用 FlashAttention；在推理里，它最典型地加速的是预填充（Prefill）阶段，因为这时需要对整段输入做完整注意力计算，序列长、 $QK^\top$ 代价高，FlashAttention 的收益最明显。到了逐 token 解码（Decode）阶段，单步 query 很短，瓶颈更常转向 KV Cache 读取、采样与调度，此时仍可使用面向解码优化的 Flash-Decoding / FlashAttention 变体，但收益模式已不同于预填充阶段。

从软件栈位置看，FlashAttention 可以放在内核级别（Kernel-level）/ 后端级别（Backend-level）来理解：上层框架仍然调用“注意力”这个算子，但底层可以改由高度融合的 GPU kernel 完成，而不一定走朴素的矩阵乘法 + softmax + 再乘 $V$ 三步显式实现。是否真的启用 FlashAttention，取决于框架版本、后端实现、数据类型、head 维度、掩码形式以及硬件架构是否匹配。工程上常见支持平台是 NVIDIA 的 Ampere / Ada / Hopper，以及 AMD ROCm 生态中的部分高端 GPU；若硬件或后端条件不满足，框架通常会自动回退到 memory-efficient attention、cuDNN attention 或更普通的数学实现。

为什么需要 FlashAttention

FlashAttention要解决的是标准注意力（Standard Attention）在长序列上的中间张量 IO 成本过高。标准缩放点积注意力（Scaled Dot-Product Attention）可写为：

\[S=\frac{QK^\top}{\sqrt{d_k}},\quad P=\mathrm{softmax}(S),\quad O=PV\]

其中：

$Q\in\mathbb{R}^{N\times d_k}$：查询矩阵（Query Matrix），$N$ 是序列长度， $d_k$ 是每个 head 的查询/键维度。
$K\in\mathbb{R}^{N\times d_k}$：键矩阵（Key Matrix），与 $Q$ 做点积打分。
$V\in\mathbb{R}^{N\times d_v}$：值矩阵（Value Matrix），$d_v$ 是每个 head 的值维度。
$S\in\mathbb{R}^{N\times N}$：注意力分数矩阵（Score Matrix），其中 $S_{ij}$ 表示第 $i$ 个 query 对第 $j$ 个 key 的未归一化打分。
$P\in\mathbb{R}^{N\times N}$：softmax 归一化后的注意力权重矩阵（Attention Probability Matrix）。
$O\in\mathbb{R}^{N\times d_v}$：最终输出矩阵（Output Matrix）。

问题集中在 $S$ 和很多实现中的 $P$：它们都是 $N\times N$ 规模。序列一长，中间矩阵就会迅速膨胀。计算复杂度依然是 $\mathcal{O}(N^2)$ 级别，但在 GPU 上更先撞上的往往核心是高带宽显存（High Bandwidth Memory, HBM）与片上共享内存 / SRAM（Static Random Access Memory, SRAM）之间的数据搬运成本。

传统实现通常经历三步：先算出整个 $S=QK^\top$ 并写回显存；再把它读出来做 softmax，得到 $P$ 并再次写回；最后再把 $P$ 读出来与 $V$ 相乘得到 $O$。这意味着真正拖慢速度的往往核心是对 $N^2$ 中间结果的反复显式物化（Materialization）与反复搬运。

一个直接类比是流水线工厂。普通注意力像“先把全部半成品都堆进仓库，再统一拿出来做下一道工序”；仓库本身就成了瓶颈。FlashAttention 则像“边加工边流转”的流水线：中间块只在车间里短暂停留，不建立巨大的中间仓库。

核心思想

FlashAttention 的核心可以压缩成一句话：分块（Tiling）+ 在线 softmax（Online Softmax）+ 融合输出（Fused Output Accumulation）。

它并不改变注意力的数学目标，仍然精确计算同一个 $\mathrm{softmax}(QK^\top/\sqrt{d_k})V$；它改变的是计算顺序与中间结果的存储方式。具体来说，FlashAttention 从把整个 $N\times N$ 的注意力矩阵一次性算完并落到 HBM 中转向把 $Q,K,V$ 切成若干小块（tiles），每次只在 SRAM 中处理一小块分数、归一化和输出累加。

设查询块（query tile）为 $Q_i\in\mathbb{R}^{B_q\times d_k}$，键块和值块分别为 $K_j\in\mathbb{R}^{B_k\times d_k}$ 与 $V_j\in\mathbb{R}^{B_k\times d_v}$。这里 $B_q$ 和 $B_k$ 是 tile 大小，远小于完整序列长度 $N$。FlashAttention 每次只把这样的局部块搬进 SRAM，在块内完成当前 query tile 对当前 key/value tile 的全部贡献计算。

数学本质：块级注意力与在线 softmax

对第 $i$ 个 query 块和第 $j$ 个 key/value 块，先计算块级分数矩阵：

\[S_{ij}=\frac{Q_iK_j^\top}{\sqrt{d_k}},\qquad S_{ij}\in\mathbb{R}^{B_q\times B_k}\]

其中：

$S_{ij}$：当前块内的注意力打分矩阵。
$S_{ij}[r,c]$：query 块中第 $r$ 行与 key 块中第 $c$ 行的打分。
$\sqrt{d_k}$：缩放因子，用于抑制点积随维度增长而导致的 softmax 饱和。

难点在于 softmax 的分母依赖整行所有 key：对一个 query 而言，必须把它对所有位置的打分都考虑进去，才能完成归一化。FlashAttention 的关键突破是：不必先看到整行全部元素，再做 softmax；可以用在线算法维护“到目前为止的最大值、分母和分子累加量”，随着块不断读入而精确更新。

对当前 query 块 $Q_i$，FlashAttention 维护三个按行统计的状态：

\[\mathbf{m}_i\in\mathbb{R}^{B_q},\qquad \boldsymbol{\ell}_i\in\mathbb{R}^{B_q},\qquad R_i\in\mathbb{R}^{B_q\times d_v}\]

$\mathbf{m}_i$：每个 query 行到目前为止见过的最大分数（row-wise running max）。
$\boldsymbol{\ell}_i$：每个 query 行当前的 softmax 分母累加量。
$R_i$：每个 query 行对输出向量的未归一化加权和（unnormalized weighted sum）。

初始时可设：

\[\mathbf{m}_i=-\infty,\qquad \boldsymbol{\ell}_i=\mathbf{0},\qquad R_i=0\]

当读入第 $j$ 个块时，先求该块每一行的局部最大值：

\[\tilde{\mathbf{m}}_{ij}=\mathrm{rowmax}(S_{ij})\]

这里 $\mathrm{rowmax}(\cdot)$ 表示对矩阵每一行取最大值，因此输出是长度为 $B_q$ 的向量。再把旧最大值和当前块最大值合并成新的全局参考点：

\[\mathbf{m}_i^{\mathrm{new}}=\max\!\left(\mathbf{m}_i,\tilde{\mathbf{m}}_{ij}\right)\]

这里的 $\max$ 是逐元素最大值（element-wise max），因为每个 query 行都维护自己的 softmax 参考值。

接着把当前块的指数项按新参考点重写：

\[P_{ij}=\exp\!\left(S_{ij}-\mathbf{m}_i^{\mathrm{new}}\mathbf{1}^\top\right)\]

其中：

$P_{ij}\in\mathbb{R}^{B_q\times B_k}$：当前块中按新最大值平移后的指数权重。
$\mathbf{1}\in\mathbb{R}^{B_k}$：全 1 向量，用于把 $\mathbf{m}_i^{\mathrm{new}}$ 广播到块内每一列。
$\exp(\cdot)$：逐元素指数函数。

然后更新分母累加量：

\[\boldsymbol{\ell}_i^{\mathrm{new}}=\exp\!\left(\mathbf{m}_i-\mathbf{m}_i^{\mathrm{new}}\right)\odot \boldsymbol{\ell}_i+\mathrm{rowsum}(P_{ij})\]

这里 $\odot$ 表示逐元素乘法， $\mathrm{rowsum}(P_{ij})$ 表示对 $P_{ij}$ 每一行求和。这个式子的含义是：旧块已经累积的分母，先因为参考最大值改变而按 $\exp(\mathbf{m}_i-\mathbf{m}_i^{\mathrm{new}})$ 重新缩放，再加上当前块的新贡献。

再更新输出分子的累加量：

\[R_i^{\mathrm{new}}=\mathrm{Diag}\!\left(\exp\!\left(\mathbf{m}_i-\mathbf{m}_i^{\mathrm{new}}\right)\right)R_i+P_{ij}V_j\]

其中：

$\mathrm{Diag}(\cdot)$：把向量放到对角线上形成对角矩阵，用于按行缩放 $R_i$。
$P_{ij}V_j\in\mathbb{R}^{B_q\times d_v}$：当前块对输出的新增贡献。

所有 $K_j,V_j$ 块处理完之后，当前 query 块的最终输出为：

\[O_i=\mathrm{Diag}\!\left((\boldsymbol{\ell}_i)^{-1}\right)R_i\]

这里 $(\boldsymbol{\ell}_i)^{-1}$ 表示对向量每个元素取倒数，作用是把“未归一化加权和”除以 softmax 分母，从而得到真正的注意力输出。

为什么这仍然是精确 softmax

FlashAttention 通过一种保持数值等价的累计方式精确计算 softmax。设某一行已经处理过的旧分数集合为 $\mathcal{A}$，其旧最大值为 $m_{\mathrm{old}}$，旧分母为：

\[\ell_{\mathrm{old}}=\sum_{x\in\mathcal{A}} e^{x-m_{\mathrm{old}}}\]

新读入一块分数集合 $\mathcal{B}$ 后，若新的全局最大值变成 $m_{\mathrm{new}}$，则旧部分相对于新参考点的分母贡献恰好变成：

\[\sum_{x\in\mathcal{A}} e^{x-m_{\mathrm{new}}}=e^{m_{\mathrm{old}}-m_{\mathrm{new}}}\sum_{x\in\mathcal{A}} e^{x-m_{\mathrm{old}}}=e^{m_{\mathrm{old}}-m_{\mathrm{new}}}\ell_{\mathrm{old}}\]

这正是在线更新公式里那一项缩放因子的来源。分子累加量 $R_i$ 也是同样的道理：旧部分先按新参考点缩放，再加上新块贡献。因此块级处理结束后得到的 $O_i$ 与一次性对整行做 softmax 再乘 $V$ 的结果完全一致。

与普通 Attention 的区别

维度	普通 Attention	FlashAttention
数学目标	计算 $\mathrm{softmax}(QK^\top/\sqrt{d_k})V$	计算同一个精确结果，不改目标函数
中间矩阵	常显式存 $S$，很多实现还显式存 $P$	不显式存完整 $N\times N$ 矩阵，只保留 tile 级临时块与行级累加状态
计算顺序	先全部算完分数，再整体 softmax，再乘 $V$	边读块边更新 softmax，边把当前块对输出的贡献累加进去
显存特征	中间激活常呈 $\mathcal{O}(N^2)$ 增长	额外中间存储近似降到 $\mathcal{O}(N)$ 级别
性能瓶颈	更容易受 HBM 读写限制，属于强 memory-bound 场景	显著减少 HBM 往返，更接近 compute-bound

为什么它会快

FlashAttention 的速度优势主要来自 IO 模式优化，而非渐近计算复杂度下降。它的核心收益主要来自四点：

减少 HBM 访问：不再反复把 $S$ 与 $P$ 这类 $N^2$ 中间张量写回、读回。
提升 SRAM 复用：一个 tile 被搬进片上后，会在同一块内连续完成分数计算、归一化和输出累加。
算子融合（Kernel Fusion）：原本分散的 $QK^\top$、softmax、$PV$ 被压成一条更短的数据通路。
数值稳定：在线 softmax 仍然使用减最大值（max trick），避免指数溢出，也避免了“先大矩阵 softmax 再回写”带来的额外数值压力。

因此，FlashAttention 的本质是减少无效搬运，而非改变注意力本身的数学定义。从硬件视角看，它把一个明显受内存带宽制约的算子，改造成更能吃满矩阵乘法单元和 Tensor Core 的实现。

复杂度与工程直觉

复杂度上需要严格区分“算了多少”和“存了多少”。FlashAttention 与普通注意力在算术复杂度上仍然同阶，因为每个 query 与每个 key 的交互并没有消失：

\[\text{FLOPs: }\mathcal{O}(N^2d_k)\quad\text{vs.}\quad \mathcal{O}(N^2d_k)\]

但中间激活的显存复杂度发生了根本变化。若只看注意力算子额外需要保留的中间结果，则：

\[\text{普通 Attention: }\mathcal{O}(N^2),\qquad \text{FlashAttention: }\mathcal{O}(N)\]

这里的 $\mathcal{O}(N)$ 指的是按行维护的 softmax 统计量与输出累加量；tile 临时块的大小由 $B_q,B_k$ 控制，不随完整序列平方增长。工程直觉可以概括为：算力阶数没变，但仓库规模从平方级中间仓库变成了线性级流水线缓存。

一个极简伪代码

for each query tile Q_i:
    m_i = -inf
    l_i = 0
    R_i = 0
    for each key/value tile (K_j, V_j):
        S_ij = Q_i K_j^T / sqrt(d_k)
        m_new = max(m_i, rowmax(S_ij))
        P_ij = exp(S_ij - m_new)
        l_i = exp(m_i - m_new) * l_i + rowsum(P_ij)
        R_i = diag(exp(m_i - m_new)) * R_i + P_ij * V_j
        m_i = m_new
    O_i = diag(1 / l_i) * R_i

这段伪代码对应的正是“边看块、边归一化、边输出”的流水线结构。与普通实现相比，最大的变化核心是调度顺序。

反向传播（Backward）：为什么也能不存 $N^2$

FlashAttention 的关键价值不仅在前向传播（Forward Pass），也在反向传播（Backward Pass）。训练时真正吃显存的不只是前向输出，还包括为了求梯度而保留的中间激活。如果 backward 仍然要求把完整的 $S$ 或 $P$ 存下来，那么前向省出来的显存会被反向阶段重新吃掉。因此，FlashAttention backward 的核心原则与前向一致：在 backward 中按块重算（recompute）它们，不保存 $N\times N$ 注意力矩阵。

设前向定义为：

\[S=\frac{QK^\top}{\sqrt{d_k}},\qquad P=\mathrm{softmax}(S),\qquad O=PV\]

设损失函数为 $\mathcal{L}$，并记上游传回的输出梯度为：

\[G=\frac{\partial \mathcal{L}}{\partial O},\qquad G\in\mathbb{R}^{N\times d_v}\]

这里：

$\mathcal{L}$：整个模型的标量损失（scalar loss）。
$G$：损失对注意力输出 $O$ 的梯度，也就是 backward 进入注意力层时收到的上游信号。

普通 attention 的 backward 可以按链式法则拆成四步。先对 $V$ 求梯度：

\[\frac{\partial \mathcal{L}}{\partial V}=P^\top G\]

这个式子表示：某个 value 向量 $v_j$ 对多少个 query 产生了贡献，就会按相应注意力权重 $P_{ij}$ 把这些上游梯度累加回来。

再对概率矩阵 $P$ 求梯度：

\[\frac{\partial \mathcal{L}}{\partial P}=GV^\top\]

这里 $\frac{\partial \mathcal{L}}{\partial P}\in\mathbb{R}^{N\times N}$ 的第 $(i,j)$ 项表示：若第 $i$ 行第 $j$ 列的注意力权重略有变化，会怎样影响损失。

关键一步是 softmax 的梯度。对第 $i$ 行，记 $p_i$ 为第 $i$ 行概率向量， $g_i^P$ 为 $\frac{\partial \mathcal{L}}{\partial P}$ 的第 $i$ 行，则：

\[\frac{\partial \mathcal{L}}{\partial s_i}=p_i\odot \left(g_i^P-\delta_i\mathbf{1}\right),\qquad \delta_i=\sum_{j=1}^{N} g_{ij}^P p_{ij}\]

其中：

$s_i$：分数矩阵 $S$ 的第 $i$ 行。
$\odot$：逐元素乘法。
$\delta_i$：第 $i$ 行 softmax Jacobian 压缩后的标量项，用来扣掉“整行归一化”带来的耦合影响。
$\mathbf{1}\in\mathbb{R}^{N}$：全 1 向量。

把所有行拼起来，可写成矩阵形式：

\[D=\mathrm{rowsum}\!\left(\frac{\partial \mathcal{L}}{\partial P}\odot P\right),\qquad \frac{\partial \mathcal{L}}{\partial S}=P\odot \left(\frac{\partial \mathcal{L}}{\partial P}-D\mathbf{1}^\top\right)\]

这里 $D\in\mathbb{R}^{N}$ 是逐行标量向量，第 $i$ 个分量就是 $\delta_i$。最后再通过 $S=QK^\top/\sqrt{d_k}$ 回传到 $Q$ 与 $K$：

\[\frac{\partial \mathcal{L}}{\partial Q}=\frac{\partial \mathcal{L}}{\partial S}\frac{K}{\sqrt{d_k}},\qquad \frac{\partial \mathcal{L}}{\partial K}=\left(\frac{\partial \mathcal{L}}{\partial S}\right)^\top\frac{Q}{\sqrt{d_k}}\]

若直接照这些公式实现，最大问题是：看起来必须先拿到完整的 $P$ 和 $\frac{\partial \mathcal{L}}{\partial P}$，而它们又都是 $N\times N$。FlashAttention backward 的突破在于，真正必须永久保存的量远比这少。

第一，前向阶段只需保存每一行的 log-sum-exp 统计量（Log-Sum-Exp Statistics），而不必保存整张 $P$。若前向某一行的最大值为 $m_i$，归一化因子为 $\ell_i$，则可存：

\[L_i=m_i+\log \ell_i=\log\sum_{j=1}^{N} e^{S_{ij}}\]

这里 $L_i$ 是第 $i$ 行 softmax 分母的对数。只要 backward 时重新算出某个块的分数 $S_{ij}$，就可以把该块的概率精确重建为：

\[P_{ij}=\exp\!\left(S_{ij}-L_i\mathbf{1}^\top\right)\]

这说明 backward 不需要读取前向保存下来的整张 $P$；它只需要 $Q$、$K$、行级统计量 $L_i$，就能按块把局部概率重新算出来。

第二，softmax backward 中的行级标量 $\delta_i$ 也可以用一个更紧凑的等价式，避免通过整张 $\frac{\partial \mathcal{L}}{\partial P}$ 显式求和：

\[\delta_i=\sum_{j=1}^{N} g_{ij}^P p_{ij}=g_i^\top o_i\]

其中 $g_i$ 是上游梯度矩阵 $G$ 的第 $i$ 行， $o_i$ 是前向输出 $O$ 的第 $i$ 行。这个恒等式来自：

\[g_i^P=g_iV^\top,\qquad o_i=p_iV\]

于是：

\[\sum_{j=1}^{N} g_{ij}^P p_{ij}=\sum_{j=1}^{N}(g_i v_j^\top)p_{ij}=g_i\left(\sum_{j=1}^{N}p_{ij}v_j\right)^\top=g_i o_i^\top\]

这一步非常关键，因为它说明 softmax backward 所需的行级校正项 $\delta_i$，可以直接由前向输出 $O$ 和上游梯度 $G$ 得到，而不需要显式展开整个 $N\times N$ 概率矩阵。

因此，FlashAttention backward 的块级流程可以概括为：

读取一个 query tile $Q_i$、对应输出 tile $O_i$、上游梯度 tile $G_i$，以及该 tile 的行级统计量 $L_i$。
逐块读取 $K_j,V_j$，重算当前块分数 $S_{ij}=Q_iK_j^\top/\sqrt{d_k}$。
由 $L_i$ 重建当前块概率 $P_{ij}=\exp(S_{ij}-L_i\mathbf{1}^\top)$。
用 $G_iV_j^\top$ 得到当前块的 $\frac{\partial \mathcal{L}}{\partial P_{ij}}$，再结合 $\delta_i=g_i^\top o_i$ 计算当前块的 $\frac{\partial \mathcal{L}}{\partial S_{ij}}$。
把该块对 $dQ_i$、$dK_j$、$dV_j$ 的贡献直接累加到输出梯度中。

写成块级公式，就是：

\[dV_j \mathrel{+}= P_{ij}^\top G_i\] \[dP_{ij}=G_iV_j^\top\] \[dS_{ij}=P_{ij}\odot \left(dP_{ij}-\delta_i\mathbf{1}^\top\right)\] \[dQ_i \mathrel{+}= dS_{ij}\frac{K_j}{\sqrt{d_k}},\qquad dK_j \mathrel{+}= dS_{ij}^\top\frac{Q_i}{\sqrt{d_k}}\]

这里 $dQ_i,dK_j,dV_j$ 分别表示当前块对 $\frac{\partial \mathcal{L}}{\partial Q}$、$\frac{\partial \mathcal{L}}{\partial K}$、$\frac{\partial \mathcal{L}}{\partial V}$ 的局部累加贡献；符号 $\mathrel{+}=$ 表示“把当前块的贡献继续累加到已有梯度里”，而非一次性覆盖赋值。

这个设计的代价是：backward 需要重算部分前向中的块级分数和概率，因此算术量会比“全存中间矩阵”的朴素实现略多；但现代 GPU 上，额外矩阵乘法通常比反复读写 $N^2$ HBM 张量便宜得多。于是 FlashAttention backward 的工程哲学可以概括为：用少量重算换大幅节省显存与 IO。

一个直观类比是：普通 backward 像把前向每一道工序的全部半成品都堆满仓库，等回头算梯度时再逐件取出来；FlashAttention backward 则更像保留每条流水线的关键账本和最终产物，真正需要某段中间细节时，再按原流程快速重演一小段。仓库变小了，流水线也更连贯。

FlashAttention v1：算法层优化

FlashAttention v1 的核心贡献在于算法层：它首先把“注意力必须显式存下 $N\times N$ 矩阵”这一默认前提打破，给出了一种精确、稳定、块级流式的注意力实现。v1 的关键词是 memory optimization：让注意力从“被中间矩阵拖慢”转向“更像一个流式矩阵核”。

在这个阶段，最重要的是先证明：在不物化注意力矩阵的条件下，仍然可以精确完成前向与反向计算，并把显存墙显著后移。GPU 利用率优化属于后续问题。它首先解决的是“能不能这样算”的问题。

FlashAttention v2：并行层优化

FlashAttention v2 保留了 v1 的数学等价性与在线 softmax 思路，但把优化重点从“省内存”推进到“把 GPU 吃满”。它关注的是并行工作划分（Work Partitioning）：如何把 query 块、head 维度、batch 维度和线程块（Thread Block）组织得更均匀，让更多流式多处理器（Streaming Multiprocessor, SM）同时处于忙碌状态。

v1 的一个现实限制是：虽然显存访问已经大幅减少，但某些场景下并行粒度仍然偏粗，导致 GPU 占用率（Occupancy）不够高。v2 因此重写了 kernel 调度策略，让同一个大任务能够拆给更多线程块并行处理，同时尽量减少线程同步（Synchronization）带来的停顿。

从本质上看，v2 做的核心是“同一公式在 GPU 上的更优任务分发”。如果说 v1 的问题是“别把中间矩阵落盘”，那么 v2 的问题就是“别让 GPU 的很多 SM 闲着”。

这也是 v2 在反向传播（Backward Pass）上价值很高的原因。前向只解决一半问题；训练吞吐还取决于 backward kernel 能否在不恢复 $N^2$ 显存占用的前提下保持高并行度。v2 在这一点上比 v1 更成熟，因此更适合作为训练时的高性能默认实现。

FlashAttention v3：硬件协同优化

FlashAttention v3 的重点进一步从并行层推进到硬件协同设计（Hardware Co-design），尤其针对 NVIDIA Hopper / H100 这类新一代 GPU。它已经从关心“块怎么切、线程怎么分”扩展到进一步追问：数据加载、矩阵计算、结果写回能否形成异步流水线。

v3 的几个代表性关键词包括：

异步流水线（Asynchronous Pipeline）：加载下一块数据时，当前块已经在计算，从而重叠 load 与 compute。
Warp 专职分工（Warp Specialization）：不同 warp 分别负责搬运、计算、写回，减少彼此等待。
Tensor Core 深度利用：tile 尺寸与数据流更贴近 Tensor Core 最擅长的矩阵乘法路径。
更适合低精度数据类型：如 FP16、BF16，以及面向新硬件的 FP8 路径。

如果把 v1 看成“算法上不建大仓库”，把 v2 看成“让更多工人同时开工”，那么 v3 更像“把整座工厂变成不停顿的装配线”：搬运、计算、写回三条流水同时进行，尽量让每一级硬件资源都不空转。

版本演进总结

版本	主要优化层次	核心目标	本质关键词
v1	算法层	避免 $N^2$ 中间矩阵物化	分块、在线 softmax、融合计算
v2	并行层	提高 Occupancy，减少同步，提升训练吞吐	更细粒度 work partitioning
v3	硬件层	让 load / compute / store 深度重叠	异步流水线、warp specialization、Tensor Core 对齐

因此，FlashAttention 的演进可以概括为三层推进：v1 解决“能否不存矩阵”、v2 解决“如何把 GPU 跑满”、v3 解决“如何贴着新硬件的数据通路跑”。三代版本的数学目标完全一致，差异主要体现在实现层面对 IO、并行性与硬件流水的挖掘深度。

状态空间模型（State Space Model, SSM / Mamba）

状态空间模型（State Space Model, SSM）用“隐状态递推（State Recurrence）”建模序列：每步用一个小状态 $s_t$ 累积历史信息，避免显式构造 $L\times L$ 注意力矩阵。经典线性 SSM 的抽象形式是：

\[s_{t+1}=As_t+Bx_t,\quad y_t=Cs_t+Dx_t\]

近年的 Mamba 等结构可理解为在此基础上引入输入依赖的选择性/门控机制（Selective / Input-dependent Dynamics），使得模型在保持线性复杂度的同时具备更强的表征能力。工程上，SSM 的优势通常体现在长序列吞吐与显存；代价是“按内容随机访问历史”的能力不如注意力直观，因此在需要强检索/对齐的任务上常见的是混合架构或与注意力模块组合使用。

路线	序列复杂度	显存瓶颈	强项	典型代价
精确注意力（FlashAttention 等）	$\mathcal{O}(L^2)$	注意力中间张量 + KV Cache	强检索/对齐；通用能力稳健	长上下文成本陡增；需要大量工程优化（GQA/分页/缓存）
线性注意力	近似 $\mathcal{O}(L)$	缓存布局与数值稳定性	极长序列吞吐/显存友好	近似误差；需要专门核函数/特征映射设计
SSM / Mamba	$\mathcal{O}(L)$	状态与算子实现	长序列吞吐；流式友好	随机访问历史不如注意力直观；常需混合架构补齐能力

前馈网络（FFN）

MLP

Transformer 层里的前馈网络（Feed-Forward Network, FFN）本质上就是一个位置前馈（Position-wise）MLP：它对每个 token 的向量独立作用，不在序列维度做混合（序列维度的混合由注意力完成）。典型形式是两层线性变换加非线性：

\[\mathrm{FFN}(x)=\sigma(xW_1+b_1)W_2+b_2\]

这里为了贴近工程实现，把单个 token 表示写成行向量 $x\in\mathbb{R}^{1\;\times d_{\text{model}}}$。若中间宽度为 $d_{\text{ff}}$，则 $W_1\in\mathbb{R}^{d_{\text{model}}\;\times d_{\text{ff}}}$、$W_2\in\mathbb{R}^{d_{\text{ff}}\;\times d_{\text{model}}}$，因此这层先把 $d_{\text{model}}$ 维表示升到更宽的 $d_{\text{ff}}$ 维，再投回原宽度。很多教材把它叫“MLP 模块”，强调的是它在每层里与注意力并列构成 Transformer block 的两大子层。

经典 FFN：先升维，再降维

“升维（Up-Projection）”指的是用线性投影把输入映射到更高维的特征空间。新维度并非补零得到的，也并非旧特征的简单复制。若

\[h_{\text{up}}=xW_1+b_1\in\mathbb{R}^{1\;\times d_{\text{ff}}}\]

则第 $j$ 个中间维度满足

\[(h_{\text{up}})_j=\sum_{i=1}^{d_{\text{model}}}x_i(W_1)_{ij}+b_{1j}\]

这意味着：升出来的每一维都在重新组合输入特征。有些维度更像“检测某种局部模式”，有些维度更像“混合多种语义线索”，中间宽度越大，可供模型学习的组合方式就越多。随后，非线性函数 $\sigma$（常见如 GELU / ReLU）对这些组合结果做逐元素变换，把线性组合提升为非线性特征。

“降维（Down-Projection）”也核心是再做一次线性组合：

\[h_{\text{down}}=\sigma(h_{\text{up}})W_2+b_2\in\mathbb{R}^{1\;\times d_{\text{model}}}\]

因此，经典 FFN 的结构可以概括成：先在更宽的特征空间里生成大量候选特征，再把有用的那部分重新组合回模型主宽度。这就是“升维—非线性—降维”的真正含义。

门控 FFN：以 SwiGLU 为例

很多现代大模型会用门控线性单元（Gated Linear Unit, GLU）的变体替代“Linear → 激活 → Linear”的经典 FFN，例如 SwiGLU（Swish-Gated Linear Unit）：把中间层拆成两路并行投影，再做逐元素门控：

\[\mathrm{SwiGLU}(x)=\Big(\mathrm{SiLU}(xW_1)\odot (xW_3)\Big)W_2\]

若仍按行向量写法，则 $W_1,W_3\in\mathbb{R}^{d_{\text{model}}\;\times d_{\text{ff}}}$， $W_2\in\mathbb{R}^{d_{\text{ff}}\;\times d_{\text{model}}}$。这里 $W_1$ 与 $W_3$ 都是“升维投影”，但角色不同： $xW_1$ 经过 $\mathrm{SiLU}$ 后形成门控分支（gate branch），决定每个中间维度应当放大、通过还是抑制； $xW_3$ 则形成内容分支（value / candidate branch），携带候选特征本身。两者做逐元素乘法 $\odot$ 后，得到“被门控筛选过的中间表示”，最后再由 $W_2$ 投回 $d_{\text{model}}$。

因此， $W_3$ 核心是门控 FFN 里的第二条并行升维支路。没有它，模型只有“激活后的门”，却没有“真正被门控制的候选内容”；有了它，FFN 才能表达“哪些特征值得通过、哪些特征应被压制”这一层选择机制。

这种“哪些维度打开、哪些维度抑制”的规则核心是通过训练从数据中学出来的。对第 $j$ 个中间维度，门控值可以写成 $g_j=\mathrm{SiLU}((xW_1)_j)$，候选内容写成 $c_j=(xW_3)_j$，二者相乘后该维输出为 $m_j=g_j c_j$。若某类输入模式下，让这个维度更大能够降低最终损失，则反向传播会推动 $W_1$ 和 $W_3$ 把对应的 $g_j$ 与 $c_j$ 调到更有利的方向；若某个维度会带来噪声、干扰或错误特征，则梯度会推动该维在这类输入上变小，于是门控值逐渐靠近 0，内容即使存在也难以通过。

因此，门控学习到的核心是一组随输入变化的连续缩放系数。某些维度在数学推理样本上可能长期被放大，在闲聊样本上则被压弱；某些维度对代码括号、缩进、关键字组合更敏感，另一些维度则更偏向实体关系或长距离语义线索。门控 FFN 的本质，是让模型在更宽的中间空间里先生成大量候选特征，再由可学习的输入相关门控决定哪些特征应该被保留、哪些应被抑制。

门控（Gating）让 FFN 具备“按特征选择通过 / 抑制”的能力，在相近参数规模下常带来更好的效果与训练稳定性。与经典两层 FFN 相比，门控 FFN 核心是把中间表示拆成“控制信号”和“候选内容”两路，再在中间宽空间里完成细粒度筛选。

从能力角度看，增大 $d_{\text{ff}}$ 会增加中间表征的自由度（Degree of Freedom, DOF）与参数量，使模型能构造更丰富的非线性特征；但“维度更高”不同于“信息一定更多”，它提供的是可学习的表示空间与容量（Capacity），是否有效取决于数据与训练目标。

Mixture of Experts（MoE）

MoE（Mixture of Experts）把 FFN 子层替换成“多个专家网络（Experts）+ 路由器（Router/Gate）”：对每个 token，路由器只激活少数几个专家（Top-k），因此计算量近似不随专家总数线性增长，但参数容量可以大幅增加。

一种常见形式（概念表达）是：

\[\mathrm{MoE}(x)=\sum_{e\in\mathrm{TopK}(x)} p_e(x)\,\mathrm{Expert}_e(x),\quad p(x)=\mathrm{softmax}(W_g x)\]

其中 $p_e(x)$ 是路由概率，专家通常就是不同参数的 FFN。与稠密 FFN 的区别在于：稠密 FFN 对每个 token 都执行同一套参数；MoE 则先由路由器决定“这个 token 该送去哪些专家”，再只计算被选中的少数几个专家。

专家的差异化（Specialization）来源于路由选择、梯度暴露和训练约束共同塑造的长期分工。随机初始化只负责打破完全对称；真正让专家“越学越不一样”的，是后续每个专家持续处理不同 token 子分布，并在这些子分布上反复累积参数更新。

这个过程通常由以下几类机制共同推动：

稀疏路由：每个 token 前向时通常只进入 top-k 个专家，因此反向传播时，也只有被选中的专家接收到该 token 的主要梯度。不同专家长期看到的训练样本分布因此不再相同，参数更新方向也随之分化。
路由—能力自增强：路由器先按当前表示给专家打分；某个专家一旦更常处理一类模式，就会在这类模式上进一步拟合得更好；下一轮遇到相似 token 时，路由器又更容易把它们送回这个专家。久而久之，专家会演化成代码型、数学型、长句法型或领域词汇型等不同处理器。
负载均衡损失：若完全放任训练，路由器容易把大量 token 都送往少数“热门专家”，其余专家几乎得不到梯度。负载均衡（Load Balancing）辅助损失会惩罚这种失衡，推动更多专家获得稳定训练信号，从而保留分工空间，而非塌缩成少数几个超忙专家。
容量限制：工程实现常给每个专家设置每个 batch 最多接收多少 token 的上限。热门专家一旦满载，后续 token 就必须改道到其他专家。这相当于在训练期强行制造“分流”，避免所有高频模式都被同一专家垄断。
路由噪声与探索：训练早期常在路由分数上加入噪声（Noisy Gating / Jitter）或采用更平滑的选择策略，使模型不会过早把某些专家永久冷启动掉。它的作用类似探索机制：先让更多专家接触不同 token，后续再由训练结果把分工逐步固化。
Top-k 竞争结构：当多个专家为同一 token 竞争有限的 top-k 名额时，路由器天然在做离散化分配。专家之间核心是在竞争中各自吸附不同区域的输入分布。这比稠密加权平均更容易形成明确边界。
专家参数独立：每个专家有自己独立的 FFN 权重，因此一旦早期路由稍有偏向，后续参数更新就会沿不同轨迹不断放大差异。若专家共享大部分参数，仅保留极少差异分支，则这种专门化能力会明显减弱。
数据分布本身的可分性：训练语料若天然包含代码、自然语言、表格、数学推导、多语种等明显子分布，专家更容易形成稳定分工；若数据分布高度均匀、模式差异很弱，则专家专门化也会更弱，更接近“多份相似 FFN”。

这些机制叠加后，MoE 中“每个专家学不同东西”就已经从参数副本的偶然漂移扩展到带有明确结构约束的分工过程。与多头注意力主要依赖独立参数的自发分化不同，MoE 额外利用显式路由、稀疏梯度、负载约束与容量分流来持续放大专家之间的功能差异。

MoE 结构本身不必然引入随机性。若路由使用确定性的 top-k，且推理使用确定性算子，则同一输入在同一权重下输出应是确定的。训练阶段常见的随机性主要来自 dropout、路由噪声（Noisy Gating）以及硬件/并行计算的非确定性；这些会影响训练轨迹，但不等价于“模型本质随机”。

归一化

Layer Normalization

层归一化（Layer Normalization, LayerNorm）在每个 token 的特征维度上做归一化（Normalization），与 BatchNorm 不同，它不依赖 batch 统计量，因此更适合变长序列与自回归推理。对向量 $x\in\mathbb{R}^{d_{\text{model}}}$：

\[\mathrm{LN}(x)=\gamma\odot \frac{x-\mu}{\sqrt{\sigma^2+\epsilon}}+\beta,\quad \mu=\frac{1}{d}\sum_{i=1}^{d}x_i,\ \sigma^2=\frac{1}{d}\sum_{i=1}^{d}(x_i-\mu)^2\]

其中 $\gamma,\beta$ 是可学习的缩放与平移参数（Learnable Scale/Shift），$\epsilon$ 是一个很小的正数，用于数值稳定性（Numerical Stability）。归一化本质上要除以标准差或均方根；若当前 token 的各维几乎相同，分母就可能非常接近 0，进而导致输出或梯度被异常放大，甚至出现 NaN / Inf。加入 $\epsilon$ 相当于给分母设置一个下界。它通常很小，只在“方差或 RMS 过小”时介入；若 $\epsilon$ 取值过大，则会把分母中的真实尺度差异压平，使归一化变弱，模型对幅值变化的敏感度下降。

当前主流的 Transformer 几乎都采用“token 内部归一化”，而非跨 batch 的 BatchNorm：经典 Transformer、BERT、ViT 这一路架构以 LayerNorm 为主；许多更新的 Decoder-only 大模型则把每个残差块写成 Pre-Norm 结构，并进一步用 RMSNorm 取代标准 LayerNorm。

Pre-LN（Pre-LayerNorm）指先做归一化，再进入 Attention 或 MLP 子层，最后与残差分支相加；其典型形式可写为：

\[y=x+\mathrm{Sublayer}(\mathrm{LN}(x))\]

这种写法把归一化放进残差支路内部，有利于维持深层网络中的梯度流稳定。结合后文残差连接的分析来看，Pre-LN 的一个直接优势是：梯度更容易沿着 $x\to x+\cdots$ 这条恒等主路向后传播，而不会在进入子层之前就先经历一次“相加后再归一化”的整体重标定。与之对应，Post-LN 会写成 $y=\mathrm{LN}(x+\mathrm{Sublayer}(x))$；它在早期 Transformer 中出现较多，但随着层数、上下文窗口和参数规模持续增大，Pre-LN 在大模型训练中更常见。

BatchNorm 很少出现在 Transformer 主干中的原因，是它要求当前表示依赖同一 batch 里其他样本的统计量。对于序列模型，这会带来几个直接问题：

变长序列和 padding 会污染 batch 统计。
训练与推理使用的统计规则不同，自回归逐 token 生成时尤其不自然。
大模型训练常依赖小 batch、梯度累积和跨设备切分，batch 统计噪声更大。

LayerNorm / RMSNorm 则完全避免了这些问题，因为每个 token 的归一化只依赖其自身特征。

RMS Normalization

RMSNorm（Root Mean Square Normalization）与 LayerNorm 的相同点是：都在每个 token 的特征维度上做归一化；不同点是 RMSNorm 不做去均值，只按均方根（RMS）缩放：

\[\mathrm{RMSNorm}(x)=\gamma\odot \frac{x}{\sqrt{\frac{1}{d}\sum_{i=1}^{d}x_i^2+\epsilon}}\]

其中 $\gamma\in\mathbb{R}^{d}$ 是可学习缩放参数（通常不需要 $\beta$），$\epsilon$ 则是数值稳定项（Numerical Stability Term）。当 RMS 很小时，若没有 $\epsilon$，分母会过小，微小噪声也可能被异常放大；若 $\epsilon$ 过大，又会把不同 token 之间本应存在的尺度差异压平，使归一化变弱。RMSNorm 省掉了均值计算，算子更简单，因此在许多 Decoder-only 大模型中被广泛采用（例如 LLaMA 系列）。

RMSNorm 之所以使用均方根，而非直接对各维做算术平均，是因为这里要刻画的是向量整体有多大，而非“各维带符号求平均后的中心位置”。若直接用 $\frac{1}{d}\sum_i x_i$，正负分量会彼此抵消：例如 $(10,-10)$ 的算术平均是 0，但这个向量的整体幅值显然并不小。均方根先平方再平均，保留了各维对整体能量的贡献，又与二范数只差一个 $\sqrt d$ 的常数因子，因此很适合用来刻画表示的整体尺度。

RMSNorm 即使不做去均值，仍然常常有效，原因正在于此。对 Transformer 主干而言，更核心的问题通常核心是表示的整体尺度能否在深层网络中保持稳定。残差流里真正容易失控的，往往是表示向量的整体幅值在层与层之间持续放大或缩小，进而影响梯度传播、残差叠加与数值稳定。RMSNorm 保留了各维之间的相对方向与相对比例，只对整体大小做统一缩放，因此不会反复改写表示基线；对深层 Transformer 来说，这种“只管尺度、不强行去中心”的处理往往已经足够，而且算子更轻，更适合大规模训练与推理。因此，归一化与残差连接通常总是一起出现：前者负责稳定尺度，后者负责保留主通路。

残差连接

残差连接（Residual Connection）把子层输出与输入做逐元素相加：

\[y=x+\mathrm{Sublayer}(x)\]

它不改变主表示的维度（Dimension）——前提是 $x$ 与 $\mathrm{Sublayer}(x)$ 形状相同。这个写法的核心价值，核心是把深层网络的每一层改写成：在已有表示上追加一小步修正，而非每层都彻底重写整份表示。

若没有残差，网络某一层必须直接学出从输入到输出的完整映射；有了残差后，子层只需学习增量项 $\Delta(x)=\mathrm{Sublayer}(x)$。当最优行为接近恒等映射时，学习“加多少修正”通常比学习“整层重新变换成什么样”更容易。这也是残差连接与恒等映射（Identity Mapping）关系紧密的原因：主通路默认保留原信息，子层负责在其上叠加必要变化。

从优化角度看，残差连接直接改变了梯度传播路径。若把一层的输入 $x$ 看成 $d$ 维向量，输出写成 $y=x+f(x)$，那么这里的求导就从标量对标量的导数转向向量对向量的 Jacobian 矩阵。

先看最简单的恒等映射 $g(x)=x$。若 $x=(x_1,\dots,x_d)^\top$，则 $g_i(x)=x_i$。它的 Jacobian 第 $(i,j)$ 个元素是

\[\frac{\partial g_i}{\partial x_j}=\frac{\partial x_i}{\partial x_j}=\begin{cases}1,& i=j\\0,& i\ne j\end{cases}\]

因此，向量对自身的导数核心是恒等矩阵：

\[\frac{\partial x}{\partial x}=I\]

再对残差块 $y=x+f(x)$ 求导，就得到

\[\frac{\partial y}{\partial x}=\frac{\partial x}{\partial x}+\frac{\partial f(x)}{\partial x}=I+\frac{\partial f(x)}{\partial x}\]

这里的 $I$ 正对应那条“把输入原样传过去”的恒等分支。它并不表示整层没有维度之间的交互，而只表示：在这条直连路径上，每一维对自身的导数是 1、对其他维的导数是 0。真正的维度混合、特征重组与 token 间交互，仍然由 $\frac{\partial f(x)}{\partial x}$ 负责。含义是：即使子层 $f(x)$ 的局部 Jacobian 很小、很噪，或训练初期还没有学好，梯度仍然可以沿着这条恒等路径直接穿过该层，而不必完全依赖 $\frac{\partial f(x)}{\partial x}$。深层网络因此更不容易出现梯度迅速衰减，训练也更稳定。

从表示角度看，残差连接建立了一条贯穿全网的主通道，这正是前面多次出现的残差流（Residual Stream）。在 Transformer 中，注意力子层负责跨 token 交换信息，MLP / FFN 负责对单个 token 做非线性重组，而它们的输出都核心是写回这条主通道。于是每一层都更像是在同一块工作记忆上持续读写：有的层补充局部依赖，有的层补充长程关系，有的层强化事实模式或语法结构。

残差连接还有一个很重要的工程意义：它允许模型在“保留已有信息”和“注入新特征”之间取得平衡。若某层子层输出很弱，网络行为就更接近恒等传递；若某层确实学到了有价值的新模式， $f(x)$ 就会沿某些表示方向显著写回主通道。后续层不需要把两部分精确拆开，只需要继续利用这个叠加后的结果即可，因为后续线性映射、注意力和归一化会在新的坐标方向上重新组织这些信息。

从反向传播（Backpropagation）的角度看，残差连接的价值同样直接。若没有残差，深层网络中的梯度必须连续穿过许多子层 Jacobian，相当于做多次矩阵连乘；当这些局部导数长期偏小，梯度就容易逐层衰减，出现梯度消失（Vanishing Gradient）；当它们长期偏大，又可能造成梯度爆炸（Exploding Gradient）。加入残差后，每一层的局部导数从 $\frac{\partial f(x)}{\partial x}$ 变成了 $I+\frac{\partial f(x)}{\partial x}$，于是梯度不再只能依赖子层本身，而始终保留了一条沿恒等分支传播的主路径。可以把它概括成一句话：前向传播时保留原信息，反向传播时保留主梯度通路。这正是残差连接能显著缓解深层网络优化困难的根本原因。

因此，残差连接几乎成为现代深网络的标准部件。对于非常深的模型，真正困难的核心是层数增加后，前向信息更容易被后续变换不断改写，反向梯度也更容易在长链路中衰减或失稳。残差连接用一条恒等主路同时缓解了这两个问题：前向上保留原信息，反向上保留主梯度通路。因此，ResNet、Transformer、扩散模型乃至许多大型序列模型，都会把它作为主干结构的一部分。

流形约束超连接（mHC）

标准残差连接默认只有一条主残差流：每层都在同一条表示通道上执行 $x\mapsto x+f(x)$。Hyper-Connections（HC）则把这条单通道残差流扩展成多通道残差流，使不同子流之间可以在层与层之间发生受控混合。若把第 $l$ 层的多路残差状态记为 $X_l\in\mathbb{R}^{n_{\text{hc}}\times d}$，则 HC 可以抽象写成

\[X_{l+1}=B_lX_l+C_lF_l(A_lX_l)\]

这里 $A_l$ 负责把多路残差流混合后送入子层 $F_l$， $C_l$ 负责把子层输出写回多路残差流， $B_l$ 则负责更新“残差主路本身如何在多路之间流动”。与标准残差相比，这相当于把单车道恒等高速路扩展成多车道互通系统：信息不再只能沿一条固定车道直行，而可以在若干并行残差流之间重新分配与汇合。

这类设计的收益是表达力增强。不同残差子流可以承担不同功能，有的更偏局部模式，有的更偏全局抽象，有的更像中间缓存或专家路由；层间的线性混合再把这些信息重新编排。但问题也随之出现：一旦 $B_l$ 这类残差映射矩阵完全自由学习，原本标准残差中那条稳定的恒等主路就可能被破坏。于是多路残差虽然更灵活，却可能丢掉残差连接最宝贵的性质，即深层堆叠时对信号传播稳定性的保障。

DeepSeek 在这一点上引入了 mHC（Manifold-Constrained Hyper-Connections）。它的核心是把其中最关键的残差映射 $B_l$ 约束到一个具备稳定性的矩阵流形上。具体地，mHC 要求 $B_l$ 位于双随机矩阵（Doubly Stochastic Matrix）构成的集合中：

\[\mathcal{M}_{\text{DS}}=\{B\in\mathbb{R}^{n\times n}\mid B\mathbf{1}=\mathbf{1},\ \mathbf{1}^{\top}B=\mathbf{1}^{\top},\ B_{ij}\ge 0\}\]

这个约束意味着 $B_l$ 的每一行和每一列都和为 1，而且所有元素非负。它不再允许残差主路做任意线性变换，而只能做一种“总量守恒的流间混合”。从矩阵角度看，这相当于要求残差信息在多条流之间重新分配时，既不能凭空放大，也不能通过正负抵消把主信号抹掉。

这类约束有三层直接好处。第一，双随机矩阵的谱范数满足 $\|B_l\|_2\le 1$，因此残差主路是非扩张的（Non-expansive），有助于抑制深层堆叠中的信号爆炸。第二，双随机矩阵在矩阵乘法下保持封闭；也就是说，多层残差主路连续相乘后，整体仍然保持同类结构，因此稳定性不会在深度方向上迅速丢失。第三，双随机矩阵构成所谓的 Birkhoff polytope，它等价于置换矩阵集合的凸包。这给出了非常清晰的几何解释：mHC 中的残差混合，本质上是在若干“重排残差子流”的方式之间做加权平均，而非任意扭曲整条残差高速路。

若把标准残差看成只有一条车道，因此主路映射固定为 $1$；那么 mHC 的意义就是把系统扩展到多车道，但所有匝道与分流规则都必须满足“车流守恒、不会凭空放大、也不会相互抵消”的交通约束。这样一来，模型既获得了多路残差混合带来的表达力，又保住了恒等映射思想强调的稳定主路。这也是它与普通可学习残差混合最根本的区别。

在参数化与实现上，mHC 会先学习一个一般实矩阵，再通过类似 Sinkhorn-Knopp 的投影步骤把它拉回双随机矩阵流形，从而确保约束在训练过程中始终成立。DeepSeek V4 把这一路径用于大规模 Transformer 主干，实质上是在回答一个非常具体的问题：当模型层数、上下文长度和 MoE 结构都继续扩张时，残差连接如何在保留稳定性的前提下容纳更复杂的信息路由。mHC 给出的答案是：残差连接仍然是主干，但主干不必永远只有一条线；只要多路混合被限制在合适的几何约束内，残差主路依然可以稳定。

放回 DeepSeek V4 的整体结构里看，这种“多路残差混合”并非只在层尾出现一次。图中的 Pre-Block Mixing、Residual Mixing 与 Post-Block Mixing，可以理解为 mHC 在 block 内不同位置的具体落地：进入注意力前先混一次，把多路残差流整理成当前子层更适合读取的输入；注意力后在残差主路上再混一次，决定新信息如何写回；进入 MoE 前再混一次，把表示重新组织成更适合专家路由与前馈扩展的形态。也就是说，mHC 不仅给残差连接“加一个约束矩阵”，还在每个 block 的读入、写回和子层衔接处共同维护多路残差流的稳定传播。

输出处理

Transformer 主干（Backbone）本身的直接产物通常核心是一组上下文化隐藏状态（Contextual Hidden States）。也就是说，在一次标准前向计算里，模型会先处理当前输入序列中的所有 token，把每个位置都编码成上下文化表示；若输入序列长度为 $T$，模型宽度为 $d_{\text{model}}$，经过最后一层后常得到：

\[H^{(L)}\in\mathbb{R}^{T\;\times d_{\text{model}}}\]

其中 $L$ 是 Transformer 层数，因此 $H^{(L)}$ 表示“经过第 $L$ 层之后得到的隐藏状态矩阵”； $T$ 是当前序列的 token 数，所以这个矩阵一共有 $T$ 行，每一行对应一个位置。若把第 $t$ 个位置那一行单独记作 $h_t^{(L)}$，它表示的就是：第 $t$ 个 token 在通过全部 $L$ 层、吸收了上下文信息之后得到的最终向量表示。输出处理（Output Processing）的任务，就是把这组隐藏状态映射到具体任务所需的输出空间：可以是词表概率、类别分数、序列标签、起止位置分数，或回归数值。这里常说的读出（Readout），指的就是：主干网络先形成内部表示，再由最后的输出层把这种表示转换成任务空间里的可解释结果。更准确地说，Transformer 主干先产生整段序列的隐藏表示，再由具体任务的输出层决定如何读取这些表示：有的任务会逐位置读出，有的任务只取某个聚合位置；生成任务则在当前前缀对应的隐藏状态基础上，继续决定下一个 token 的输出。

从隐藏状态到输出空间

最常见的输出处理是在线性读出（Linear Readout）层中，把 $d_{\text{model}}$ 维隐藏状态投影到目标维度 $d_{\text{out}}$。若按 token 逐位置读出，可写成：

\[Z=HW_{\text{out}}+\mathbf{1}b^\top\]

这里 $H\in\mathbb{R}^{T\;\times d_{\text{model}}}$ 是最后一层隐藏状态； $W_{\text{out}}\in\mathbb{R}^{d_{\text{model}}\;\times d_{\text{out}}}$ 是输出投影矩阵； $b\in\mathbb{R}^{d_{\text{out}}}$ 是偏置； $\mathbf{1}\in\mathbb{R}^{T}$ 是全 1 列向量，用来把同一个偏置加到每个位置； $Z\in\mathbb{R}^{T\;\times d_{\text{out}}}$ 则是每个位置对应的输出分数。若任务是词表预测，则 $d_{\text{out}}=V$， $V$ 是词表大小；若任务是 token 分类，则 $d_{\text{out}}=C$， $C$ 是标签类别数。

并非所有任务都对每个 token 独立读出。序列分类常从整段序列中先取一个聚合表示，再做线性映射。例如 BERT 类模型常使用 $[\mathrm{CLS}]$ 位置的隐藏状态 $h_{\mathrm{CLS}}$，再输出：

\[z=h_{\mathrm{CLS}}W_c+b_c\]

其中 $z\in\mathbb{R}^{C}$ 是整句的类别 logits。跨度抽取（Span Extraction）任务则常对每个位置分别给出“作为起点”和“作为终点”的分数；序列到序列任务中，解码器则对每个时间步读出一个词表分布。

语言模型中的输出处理

在 Decoder-only 或 Encoder-Decoder 的生成端，输出处理通常还包含最后一次归一化层（如 LayerNorm 或 RMSNorm）以及语言模型头（Language Modeling Head, LM Head）。概念上可写成：

\[\tilde H=\mathrm{Norm}(H^{(L)}),\qquad Z=\tilde H W_{\mathrm{vocab}}+\mathbf{1}b^\top\]

这里 $\tilde H\in\mathbb{R}^{T\;\times d_{\text{model}}}$ 是最终归一化后的隐藏状态； $W_{\mathrm{vocab}}\in\mathbb{R}^{d_{\text{model}}\;\times V}$ 是词表投影矩阵； $Z\in\mathbb{R}^{T\;\times V}$ 是每个位置对整个词表的 logits。矩阵第 $t$ 行 $z_t\in\mathbb{R}^{V}$ 描述的是：当模型已经看到当前位置之前允许访问的上下文后，当前位置对每个候选 token 的偏好分数。

这里最后再做一次归一化，核心是把“主干内部的表示空间”整理成更适合词表读出的数值形态。Transformer 主干中的隐藏状态一路沿着残差流（Residual Stream）传播，虽然语义信息已经形成，但向量整体尺度仍可能随着层数、上下文和激活模式发生波动。若直接把 $H^{(L)}$ 送入 $W_{\mathrm{vocab}}$，这些尺度变化会被直接放大到 logits 上，使 softmax 有时过尖、有时过平，输出分布与梯度都更难稳定。

最后一次归一化的作用，是在进入词表空间之前先把隐藏状态重新放回一个稳定坐标系里：一方面减弱“幅值忽大忽小”对 logits 的直接干扰，另一方面让 LM Head 更专注于“当前表示朝哪个语义方向更接近某个 token”，而非过度依赖向量长度本身。换言之，主干网络负责把内容表示出来，最后的归一化负责把这种内容整理到一个尺度可控、便于读出的状态，再交给 $W_{\mathrm{vocab}}$ 做最终投影。这也是许多现代 Decoder-only 大模型会在输出头前保留一层 LayerNorm 或 RMSNorm 的原因。

权重共享（Weight Tying）

语言模型里常把输入嵌入表 $E\in\mathbb{R}^{V\;\times d_{\text{model}}}$ 与输出头权重绑定为同一组参数。若不共享，输出头通常写成 $W_{\mathrm{vocab}}\in\mathbb{R}^{d_{\text{model}}\;\times V}$；若共享，则直接令

\[W_{\mathrm{vocab}}=E^\top\]

这核心是让同一个参数矩阵在前向计算的两个位置重复使用：输入阶段按 token id 取出 $E$ 的某一行作为该 token 的嵌入；输出阶段则把隐藏状态 $h$ 与所有 token 向量做点积，得到整张词表的 logits：

\[z=hE^\top+b\]

这里 $z\in\mathbb{R}^{V}$，第 $i$ 个分量 $z_i=h\cdot E_i+b_i$ 表示当前隐藏状态 $h$ 与第 $i$ 个 token 向量 $E_i$ 的匹配分数。输入嵌入回答“这个 token 进来时长什么样”，输出头回答“当前语境最像词表里的哪个 token”；Weight Tying 让这两种词向量语义共用同一个坐标系。

这里共享的是参数。训练时，这张矩阵同时接收两类梯度：一类来自输入查表路径，更新当前 batch 真正出现过的 token 行；另一类来自输出 softmax 路径，推动隐藏状态与目标 token 更接近、与竞争 token 拉开。自动求导会把这两部分梯度加到同一份参数上，形成联合更新。因此它通常能减少参数量、增强输入与输出语义空间的一致性，并起到一定正则化（Regularization）作用。

只有在输入嵌入维度与输出读出维度一致时，这种共享才最直接。若模型在读出前额外引入了投影层，使输出维度不再等于 $d_{\text{model}}$，则需要先做维度变换，或不共享。Weight Tying 因此是常见做法，但并非所有架构都必须采用的硬规则。

从分数到最终结果

输出处理的最后一步，是把 logits 变成任务可用的结果。训练时，很多损失函数会直接接收 logits，例如交叉熵损失（Cross-Entropy Loss）内部会把 softmax 与负对数似然（Negative Log-Likelihood）合并计算，以提高数值稳定性。推理时，则通常再做显式后处理：分类任务对 logits 做 softmax 或 sigmoid 得到概率；序列标注任务可在 logits 之上接 CRF 解码；生成任务则对词表 logits 做 softmax 后，再通过贪心搜索（Greedy Decoding）、束搜索（Beam Search）、Top-k 采样或 Top-p 采样等策略选择下一个 token。

以生成任务为例，若当前位置的词表 logits 为 $z_t\in\mathbb{R}^{V}$，则先得到条件分布：

\[p(x_{t+1}=i\mid x_{\le t})=\frac{e^{z_{t,i}}}{\sum_{j=1}^{V}e^{z_{t,j}}}\]

这里 $V$ 是词表大小， $z_{t,i}$ 是第 $t$ 个位置对第 $i$ 个候选 token 的 logit， $p(x_{t+1}=i\mid x_{\le t})$ 则是在当前前缀 $x_{\le t}$ 下，下一个 token 取第 $i$ 个词的概率。解码策略的区别，不在于 logits 或 softmax 公式不同，而在于：拿到这组概率之后，究竟用什么规则选出真正输出的 token。

贪心搜索

贪心搜索（Greedy Decoding）是最直接的策略：每一步都选当前概率最大的那个 token。写成公式，就是

\[x_{t+1}=\arg\max_{i} \ p(x_{t+1}=i\mid x_{\le t})\]

它的优点是速度快、实现简单、结果确定；缺点是过于短视。因为它每一步都只看“眼前概率最高”，而不考虑“当前稍差一点、但后续整体更优”的路径。于是贪心搜索很容易陷入局部最优：第一步看起来最稳的选择，不一定能导向整句概率最好的结果。

直觉上，它像每到路口都选眼前最宽的一条路，而不回头评估整条路线是否更通畅。因此贪心适合需要稳定、低延迟输出的场景，但在开放生成任务里往往较保守，也更容易重复。

束搜索

束搜索（Beam Search）是在每一步同时保留多个高分候选前缀，而非像贪心那样只保留 1 条路径。设束宽（Beam Width）为 $B$，则在第 $t$ 步，算法会维护 $B$ 条当前最优候选序列；每条序列再向外扩展多个 token，最后从所有扩展结果中重新筛出新的 $B$ 条最高分路径继续前进。

若一条候选序列为 $x_{1:T}$，其常见打分方式是对数概率和：

\[\mathrm{score}(x_{1:T})=\sum_{t=1}^{T}\log p(x_t\mid x_{

因为概率连乘会非常小，所以实现里通常比较对数概率之和，而非直接比较概率乘积。有时还会加长度惩罚（Length Penalty），避免模型系统性偏爱过短序列。

束搜索的优点是全局性比贪心更强，常用于机器翻译、摘要等更强调整体序列质量的任务；缺点是计算量更高，而且它本质上仍是“找高分路径”的搜索，不会主动引入随机性，因此输出可能仍然偏保守、偏模板化。

Top-k 采样

Top-k 采样（Top-k Sampling）先把概率最高的 $k$ 个 token 保留下来，其余 token 概率全部截断为 0，然后在这 $k$ 个候选里重新归一化并随机采样。设保留下来的候选集合为 $\mathcal{K}_k$，则采样分布可写成：

\[p_k(i)= \begin{cases} \frac{p_i}{\sum_{j\in \mathcal{K}_k}p_j}, & i\in \mathcal{K}_k\\ 0, & i\notin \mathcal{K}_k \end{cases}\]

这里 $p_i$ 是 softmax 后原始概率， $\mathcal{K}_k$ 是当前概率最高的 $k$ 个 token 集合。这样做的效果是：极小概率的长尾 token 不再参与抽样，从而降低胡言乱语或离谱跳转的风险；同时又保留了随机性，不会像贪心那样永远输出同一条路径。

Top-k 的关键超参数是 $k$。 $k$ 太小，分布会重新变得接近贪心； $k$ 太大，又会把很多低质量候选放回来。它本质上是在“稳定性”和“多样性”之间做硬截断式折中。

Top-p 采样

Top-p 采样（Top-p Sampling, Nucleus Sampling）先按概率从高到低排序，不固定保留多少个 token，再取最小的前缀集合 $\mathcal{N}_p$，使其累计概率至少达到阈值 $p$：

\[\sum_{i\in \mathcal{N}_p} p_i \ge p\]

然后只在这个“概率核心区”里重新归一化并随机采样。与 Top-k 相比，Top-p 的保留集合大小是动态变化的：如果当前分布非常尖锐，可能只需要少数几个 token 就能覆盖 90% 或 95% 的概率质量；如果当前分布较平，保留下来的 token 数量就会自动增多。

这种自适应机制更贴合语言生成的实际状态：有些位置模型非常确定，例如固定短语或语法闭合，此时候选空间本来就应很小；有些位置模型不那么确定，例如开放内容展开，此时候选空间应更大。Top-p 因而通常比固定的 Top-k 更灵活，也是现代大模型推理中非常常见的采样策略。

温度与策略取舍

温度（Temperature）常与上述采样策略配合使用。若把 logits $z_{t,i}$ 除以温度 $\tau$ 后再做 softmax，则有：

\[p_\tau(i)=\frac{e^{z_{t,i}/\tau}}{\sum_{j=1}^{V}e^{z_{t,j}/\tau}}\]

当 $\tau<1$ 时，分布会变尖，模型更保守；当 $\tau>1$ 时，分布会变平，采样更发散。于是，解码策略的工程取舍可以概括为：

贪心搜索：最快、最稳定，但最短视。
束搜索：更重视整句高分路径，但计算更贵、表达更保守。
Top-k 采样：固定候选数，简单直接，易于控制长尾噪声。
Top-p 采样：候选数自适应，通常更自然、更适合开放生成。

当温度设为 $0$ 时，工程语境里通常就是把系统推向“只取当前最大概率 token”的极限，也就是接近贪心解码（Greedy Decoding）。若模型权重固定、算子实现固定、数值计算路径也完全固定，这种解码理论上应当是确定的；同一输入会得到同一输出。但在线推理系统里，结果仍可能出现轻微不一致，因为真实部署环境常包含非确定性来源（Non-determinism），例如并行归约时浮点加法顺序不同、不同硬件或 kernel 实现带来微小数值差异，以及服务端动态调度、缓存策略或批处理拼接方式改变了底层执行路径。

因此，$\text{temperature}=0$ 只能说明“解码策略本身不再主动引入随机采样”，并不自动等于“整条推理链路绝对确定”。若业务确实需要强确定性，工程上通常还要同时满足几件事：禁用 Top-k、Top-p 等采样选项，固定随机种子（Seed）（若框架支持），并尽量启用确定性计算（Deterministic Kernels）或等价的确定性执行模式。温度控制的是分布如何被取样，强确定性还取决于数值计算路径是否也被锁死。

重复惩罚与频率控制

仅靠解码策略本身，往往还不足以避免模型进入重复、啰嗦或机械回环的状态。例如开放生成时，模型可能连续输出相同短语，或不断在几个近义表达之间打转。工程上因此常在 logits 层再加入一类后处理规则：对已经出现过的 token 施加惩罚，从而改变下一步的候选分布。

最常见的一类是重复惩罚（Repetition Penalty）。它的思想很直接：若某个 token 已经在当前上下文中出现过，就下调它再次被选中的倾向。实现细节在不同框架里略有差异，一种常见写法是对已出现 token 的 logit $z_i$ 施加按符号分段的缩放：

\[z_i'= \begin{cases} z_i / r, & z_i>0\\ z_i \cdot r, & z_i\le 0 \end{cases},\qquad r>1\]

这里 $r$ 是重复惩罚系数。这样处理的目的，是在不破坏 logit 正负号语义的前提下，整体压低“已经出现过的 token 再次被选中”的优势。 $r$ 越大，惩罚越强；过大则可能把正常重复也压掉，使输出变得生硬。

另一类常见控制项是 presence penalty（出现惩罚）与 frequency penalty（频次惩罚）。它们的共同目标是抑制重复，但力度来源不同：前者只关心“出现过没有”，后者关心“已经出现了多少次”。若原始 logit 为 $z_i$，token $i$ 在当前已生成文本中的出现次数为 $c_i$，则一个常见抽象写法是：

\[z_i' = z_i - \lambda_{\mathrm{pres}}\mathbf{1}[c_i>0] - \lambda_{\mathrm{freq}}c_i\]

这里 $\lambda_{\mathrm{pres}}$ 是 presence penalty 系数， $\mathbf{1}[c_i>0]$ 是指示函数：只要 token $i$ 出现过至少一次，就减去一个固定惩罚； $\lambda_{\mathrm{freq}}$ 是 frequency penalty 系数， $c_i$ 越大，惩罚越强。因此：

presence penalty 更像“出现过就提醒一次”，主要鼓励模型换新词、开新话题。
frequency penalty 更像“出现越多罚越重”，主要抑制机械重复和啰嗦堆叠。

三者的作用位置都在 softmax 之前：先修改 logits，再重新归一化成概率。它们核心是在推理阶段临时改写候选分布。因此，它们更像输出控制器（Output Controller），而非模型能力本身的一部分。

工程上，这些惩罚项通常与温度、Top-k、Top-p 一起调节。若目标是严谨、稳定、少跑偏的回答，常采用较低温度并只施加较轻的重复控制；若目标是创意写作或开放发散，则可能提高温度，同时保留较温和的 presence penalty，鼓励内容展开但避免原句循环。它们解决的核心是模型在已知概率分布下，最终说话风格如何被约束。

因此，Transformer 的“输出”需要分成两个层次理解。主干网络输出的是高维隐藏表示；真正面向任务的可解释结果，来自这些隐藏表示经过归一化、线性读出、概率映射与解码后的最终读出。输出处理连接了通用表示学习与具体任务目标，是 Transformer 从“会表示”走向“会预测、会生成、会决策”的最后一跳。

语言模型

语言模型（Language Model）是对自然语言序列概率分布进行建模的模型。给定一段上下文，它学习并估计后续词元（token）或整个序列出现的概率，从而捕捉语言中的词法、语法、语义以及长程依赖结构。现代语言模型通常由参数化神经网络实现，其本质是把语言规律压缩进一个可计算的概率模型中。

语言模型基础知识

序列概率视角

从严格定义看，语言模型处理的对象是有顺序的 token 序列，而非无序词集合。若把一句话写成 $x_1,x_2,\dots,x_T$，语言模型的核心任务就是为这段序列分配概率；等价地，它也可以被看成在每一步根据已有上下文估计下一个 token 的条件概率。

\[p(x_1,\dots,x_T)=\prod_{t=1}^{T}p(x_t\mid x_1,\dots,x_{t-1})\]

这一定义说明了为什么语言模型天然关心词序、上下文依赖与条件生成。无论后续采用 n-gram 统计模型还是 Transformer，本质上都在近似这类序列概率分布。

分词（Tokenization）

这里的分词（Tokenization）指的是：把原始文本切分成模型实际处理的 token 序列，并据此映射到词表（Vocabulary）中的离散 id。它服务于语言模型建模本身，决定模型看到的基本单位是什么。

这与全文检索（Full-text Retrieval）里的“分词”并非同一个概念。检索系统里的分词更强调索引构建、倒排表匹配与查询召回；语言模型里的 tokenization 更强调如何把文本编码成适合训练与推理的离散序列。一个 token 不一定等于自然语言里的“词”，它也可能是子词、单字、标点、空格片段，甚至字节。更具体的 tokenizer 类型与工程差异，见 Transformers 部分的

Tokenization

小节。

词袋模型（Bag of Words, BoW）

词袋模型（Bag of Words, BoW）本质上只做一件事：统计一段文本里各个词出现了多少次，或只记录它是否出现。它把文本表示成词表上的计数向量 $\mathbf{c}\in\mathbb{R}^{|\mathcal{V}|}$，其中每一维对应某个词的出现次数。除了这些词频统计之外，BoW 不保留任何顺序信息，也不建模句法结构、上下文依赖或条件概率。

因此，BoW 严格说核心是一种早期文本表示方法。它常与朴素贝叶斯（Naive Bayes）、逻辑回归（Logistic Regression）或 TF-IDF 一起用于文本分类、检索和主题分析。它的重要性在于：它展示了“先把文本映射成向量，再交给下游模型处理”的经典思路；但由于它仅仅统计词是否出现以及出现次数，无法区分“我喜欢你”和“你喜欢我”这类序列差异，也不能承担现代语言模型那种条件生成任务。

词嵌入（Word Embedding）

词嵌入（Word Embedding）把每个词映射到一个低维稠密向量。与 BoW 的计数统计不同，词嵌入从把每个词看成彼此独立的离散符号转向让共现模式或语义相近的词在向量空间里彼此接近。Word2Vec、GloVe 和 FastText 都属于这一类方法。

经典词嵌入通常是静态的：同一个词在任何上下文里共享同一个向量。以

bank

为例，在

open a bank account

中它指银行，在

sit on the river bank

中它指河岸；传统词嵌入一般仍会给它同一组参数，因此无法在表示层直接区分这两种词义。这也是后来上下文化表示（Contextual Representation）变得重要的原因。

句子嵌入（Sentence Embedding）

句子嵌入（Sentence Embedding）进一步把整句或整段文本表示为一个向量。它关注的对象从单词层面的局部语义转向整个输入的综合语义，常用于分类、检索、匹配与聚类。

历史上，基于循环神经网络（Recurrent Neural Network, RNN）的序列到序列模型（Sequence-to-Sequence, Seq2Seq）曾经采用“先编码成一个固定长度向量，再由解码器生成输出”的路径。Sutskever、Vinyals 和 Le 在 2014 年提出的 Seq2Seq 工作，就用深层 LSTM 把输入序列压缩为固定维度向量；这种单向量压缩在长句上容易形成信息瓶颈，而 RNN 本身的串行计算方式也限制了并行效率，并使长程依赖建模变得困难。Bahdanau、Cho 和 Bengio 在 2014 年提出的注意力机制（Attention Mechanism）开始缓解这一问题：解码器在每一步都能直接参考输入序列的不同位置，而不必把整句信息全部压缩进单一向量中。

真正的结构转折点来自 2017 年的 Attention Is All You Need。这篇论文提出了 Transformer 架构，用自注意力（Self-Attention）替代 RNN 的递归路径，使模型更擅长并行训练，也更有效地建模长距离依赖。当前主流句子嵌入方法，通常都建立在 Transformer 之上：无论是编码单句得到表示的 Encoder-only 模型，还是用于检索的双编码器（Bi-Encoder）结构，如 SBERT、E5、BGE 和 text-embedding 系列，都属于这一路线的延伸。

稠密向量（Dense Vector）

从表示形式看，无论词嵌入还是句子嵌入，本质上都属于稠密向量：用较低维的实值向量承载词、句子或文档的信息。向量的每一维从直接对应某个具体词转向由训练过程自动学习得到；因此，模型可以把共现模式、语义相似性以及部分上下文规律压缩进连续向量空间。

这也是后文嵌入模型（Embedding Model）、Word2Vec、Sentence-BERT 和 text-embedding 系列的共同基础。它们的差异在于：表示对象是词、句子还是文档，训练目标是预测上下文、对比学习还是任务特化微调；但核心思想一致，都是让语义结构在向量空间中变得可计算。

上述内容回答的是“文本如何被表示”。回到语言模型本身，还需要进一步区分模型究竟在学什么、输出什么、内部结构如何组织，以及它在工程系统中承担什么角色。

语言模型分类

理解语言模型时，至少需要区分四个互相独立但彼此关联的维度：第一，模型在预训练时学的是什么；第二，模型最终主要输出什么；第三，模型内部的信息流结构如何组织；第四，模型在工程上是通用基座、指令对齐模型，还是任务特定模型。它们回答的是四个不同问题，因此一个模型完全可以同时拥有多重身份。例如，BERT 可以同时被描述为“掩码语言模型（Masked Language Model, MLM）+ 表示模型（Representation Model）+ Encoder-only 模型”；GPT / Qwen / LLaMA 则通常是“自回归语言模型（Autoregressive Language Model）+ 生成模型（Generative Model）+ Decoder-only 模型”。

分类维度	它回答的问题	典型类别
按预训练目标	模型在预训练阶段究竟被要求预测什么	掩码语言模型、自回归语言模型、替换检测、去噪重建
按输出与用途	模型最终主要产出向量、表示还是可直接生成的文本	嵌入模型、表示模型、生成模型
按架构信息流	模型内部如何读取上下文、如何组织编码与生成	Encoder-only、Decoder-only、Encoder–Decoder
按工程形态	模型在实际系统里扮演什么角色	通用预训练基座、指令对齐模型、任务特定模型

按预训练目标分类

按预训练目标分类，关注的是模型在大规模无标注文本上被要求完成什么自监督任务。这一维决定了模型最初学会的信息组织方式，但不直接等价于它最终能做什么任务。最经典的两类是掩码语言模型与自回归语言模型。

类别	核心训练目标	上下文可见性	典型模型	更常见优势
掩码语言模型（MLM）	遮住部分 token，再根据其余上下文恢复被遮住内容	通常可双向看左右文	BERT、RoBERTa、DeBERTa	表示学习强；适合理解、分类、匹配、序列标注
自回归语言模型（CLM / ARLM）	根据前文预测下一个 token	因果约束，只看历史上下文	GPT、LLaMA、Qwen、Mistral	生成自然；统一接口强；适合对话、续写、代码生成

两者的差异首先体现在条件概率分解方式上。自回归语言模型直接建模整段文本的联合概率：

\[p(x_1,\dots,x_T)=\prod_{t=1}^{T}p(x_t\mid x_{

这里 $x_t$ 是第 $t$ 个 token， $x_{ 表示它之前所有 token；模型在第 \(t$ 步输出的是“下一个 token 的词表分布”。掩码语言模型则核心是在输入中随机挑出若干位置 $M$ 做遮蔽，训练目标可写成：

\[\max \sum_{i\in M}\log p(x_i\mid x_{\setminus M})\]

其中 $M$ 是被遮住的位置集合， $x_{\setminus M}$ 表示其余未遮住 token。它学到的是“给定上下文，如何恢复缺失信息”，而非“如何一步步把整段文本续写出来”。因此，MLM 天然更偏表示学习；ARLM 天然更偏生成建模。

这一维并不只有两类。ELECTRA 的替换检测（Replaced Token Detection, RTD）不直接恢复 mask，通常会判断 token 是否被替换；T5、BART 的去噪重建（Denoising Reconstruction）则通过破坏输入再让模型恢复原文。因此，“掩码 vs 自回归”是最核心的一条主线，但并非全部可能性。

按输出与用途分类

按输出与用途分类，关注的是模型最终主要产出什么，以及这些产出在工程系统里被如何使用。这里最容易混淆的是“嵌入模型”和“表示模型”。两者都能产出向量，但优化目标和默认使用方式并不相同。

类别	主要输出	优化重点	典型用途	典型代表
嵌入模型（Embedding Model）	固定维度向量	让语义相近样本在向量空间里更近	检索、聚类、召回、语义匹配	Word2Vec、SBERT、BGE、E5、text-embedding 系列
表示模型（Representation Model）	上下文化隐藏表示	学到可迁移的中间表示，再交给任务头读出	分类、序列标注、匹配、判别式 NLU	BERT、RoBERTa、DeBERTa、ModernBERT
生成模型（Generative Model）	逐步生成的 token 分布与文本序列	最大化生成质量、上下文延续性与指令跟随能力	对话、写作、摘要、翻译、代码生成、结构化输出	GPT、Qwen、LLaMA、T5、BART

嵌入模型的关键特征是：它的向量空间本身就是最终产品。用户真正拿来用的是向量之间的距离、余弦相似度或最近邻结构。表示模型则更像通用特征提取器：它输出的隐藏状态通常还要再接一个任务头（Task Head）或额外池化层，才能变成分类分数、序列标签或其他任务结果。生成模型的最终输出则是一个条件词表分布，经过解码后形成文本或结构化序列。

同一底座模型有时可以被改造成不同用途。例如，BERT 原本是表示模型，但经过对比学习和专门池化后可以变成句向量嵌入模型；Decoder-only 大模型原本是生成模型，但也可以通过取隐藏状态做 embedding。不过从默认训练目标与最强项看，这三类仍然应当区分。

按架构与信息流分类

按架构分类，关注的是模型内部如何读取上下文，以及输入和输出是如何在网络中流动的。这一维对应的是结构设计，而非预训练目标本身。

架构类别	信息流特征	注意力方式	典型任务	典型代表
Encoder-only	把输入编码成上下文化表示，不直接负责逐步生成	通常是双向自注意力	分类、检索、匹配、序列标注	BERT、RoBERTa、DeBERTa、ELECTRA
Decoder-only	按时间步自回归地产生输出	因果自注意力	对话、续写、代码生成、开放式问答	GPT、LLaMA、Qwen、Mistral、DeepSeek
Encoder–Decoder	先编码输入，再由解码器条件生成输出	编码器双向自注意力 + 解码器因果自注意力 + 交叉注意力	翻译、摘要、改写、条件生成	T5、BART

这一维与前两维经常联动，但并非一一对应。Encoder-only 模型常与 MLM 或 RTD 结合，Decoder-only 模型常与自回归目标结合，Encoder–Decoder 模型则常与去噪或条件生成目标结合；但它们分别回答的是“结构长什么样”和“训练时学什么”的两个不同问题。

按工程形态分类

在工程落地中，还需要区分模型处于哪种产品化形态。通用预训练基座（Base Model）强调语言知识与可迁移能力；指令对齐模型（Instruction-tuned Model）强调遵循人类指令、对话风格与格式约束；任务特定模型（Task-specific Model）则围绕某个明确监督目标继续微调，并常配合专门任务头工作。

工程形态	核心特点	适合场景	典型例子
通用预训练基座	保留通用语言知识，强调可迁移性与再训练空间	继续预训练、SFT、LoRA、蒸馏	BERT base、LLaMA base、Qwen base
指令对齐模型	通过指令微调与偏好优化提升对话和任务遵循能力	问答助手、Agent、工具调用、结构化生成	ChatGPT 类、Qwen-Instruct、LLaMA-Instruct
任务特定模型	围绕明确任务输出继续微调，并常接专门任务头	NER、分类、匹配、排序、信息抽取	DeBERTa-CRF、BERT 分类器、LLM + PEFT

把四个维度合在一起看，模型的定位会变得清晰得多：

BERT：更接近 MLM + 表示模型 + Encoder-only + 常作为任务特定模型底座。
SBERT 或 BGE：更接近表示 / 对比学习 + 嵌入模型 + 常为双编码检索结构。
GPT / Qwen / LLaMA：更接近自回归 + 生成模型 + Decoder-only + 常见指令对齐形态。
T5 / BART：更接近去噪或 text-to-text 目标 + 生成模型 + Encoder–Decoder。

主流表示型语言模型

到 2026 年，表示型语言模型（Representation Model）的工程格局已经明显分成两条主线。第一条是以 Encoder-only 为核心的判别式表示模型，主要服务于分类、自然语言推断（Natural Language Inference, NLI）、命名实体识别（Named Entity Recognition, NER）、抽取式问答等理解任务；第二条是专门为句向量、检索、聚类和召回设计的嵌入模型。前者仍沿着 BERT 家族演化，后者则越来越多地直接采用 BGE、E5、Qwen3-Embedding、jina-embeddings 这类专门路线。因此，讨论“更好的表示模型”时，必须先区分目标到底是任务头微调，还是直接产出高质量向量表示。

BERT

BERT（Bidirectional Encoder Representations from Transformers）是典型的 Encoder-only 模型：用双向注意力做表示学习，预训练目标以掩码语言建模（Masked Language Modeling, MLM）为主。原始 BERT 还包含下一句预测（Next Sentence Prediction, NSP）任务：输入通常写成句段 A [SEP] 句段 B，模型需要根据最终的

[CLS]

表示判断 B 是否真的是 A 在原语料中的下一句，而非随机抽来的另一句。与 Word2Vec 常见的负采样训练不同，BERT 的核心预训练是在被遮住的位置上直接做词表预测；而 NSP 则为句级判别额外提供了一条监督路径。输入序列开头通常会加入一个特殊的

[CLS]

token，用来聚合整段输入的信息；经过编码后，这个位置的输出隐藏状态常被当作整个序列的语义摘要，并接到分类头上用于文本分类、自然语言推断（NLI）等下游任务。

但这里必须把两件事分开。

[CLS]

很适合做任务读出位置（readout position），却不天然等于“最好的通用句向量”。它之所以能被拿来接分类头，首先是因为它在结构上位于序列最前面，经过每一层双向自注意力后，都可以从整句其它 token 汇聚信息；其次是因为原始 BERT 的预训练里确实给过它专门监督：在下一句预测（Next Sentence Prediction, NSP）任务中，最终的分类就是直接读

[CLS]

的输出隐藏状态，再接一个二分类头。也就是说，

[CLS]

从一开始就被当成“适合给任务头读取”的位置来训练。正因为如此，原始 BERT 的

[CLS]

既是首位置隐藏状态，也是被句级判别任务直接塑形过的读出接口。

不过，

[CLS]

的训练目标并非“把整句压缩成一个适合做余弦相似度的几何向量”。在 MLM（Masked Language Modeling）中，直接受监督的是被 mask 的 token 位置，而非整句的句向量质量；

[CLS]

只会通过多层自注意力间接参与这些预测。在 NSP 里，它学到的是“这一对句子是否连续”这种特定判别目标，而非“语义相近的句子在向量空间中应彼此靠近”。因此，

[CLS]

更像是为分类器准备的汇总接口，而非为检索、聚类或最近邻搜索专门对齐过的句表示。

这也是它不能自然代替显式池化（Explicit Pooling）的根本原因。显式池化会把所有 token 的隐藏状态用平均、最大值或加权汇聚的方式整合成句向量，例如平均池化可写成

\[e(x)=\frac{1}{n}\sum_{i=1}^{n} h_i\]

这里每个 token 的最终表示都会直接进入句向量构造过程；而

[CLS]

路线则把整句压缩任务隐含地交给某一个特殊位置去完成，相当于要求模型把所有句级信息都写入单个状态向量中。对分类任务，这种单点读出通常足够，因为后面还有任务头继续适配；但对通用句嵌入，这种“单位置承担全部汇总”的方式往往不如显式池化稳定，也更容易受到预训练目标偏置的影响。

从几何上看，这个差异会进一步表现为表示各向异性（Anisotropy）：原始 BERT 的

[CLS]

向量常常集中在高维空间的少数主方向上，不同句子的向量分布会显得过于拥挤，余弦相似度缺乏足够区分度。显式池化本身并不能自动解决所有问题，但它至少把“句向量由哪些 token 共同构成”这件事写成了可控、透明的操作；一旦再叠加 Sentence-BERT 这类句对监督或对比学习目标，模型就会直接围绕池化后的句向量去优化距离结构，而非依赖

[CLS]

在预训练阶段顺带形成的间接汇总能力。

BERT 以及其他表示型语言模型通常先在海量通用语料上做预训练，从而学到词法模式、句法结构、语义关系以及一定程度的世界知识。正因为这些知识并非为某一个具体任务单独学习出来的，它们非常适合作为通用特征提取器（General-purpose Feature Extractor）：在迁移学习框架下，只需接上分类头、序列标注头或匹配头，并在目标任务数据上继续微调，就可以把通用表示快速适配到具体自然语言处理任务。

BERT系列“是否支持中文”关键在词表与分词器（Tokenizer）。英文 BERT-base 的 WordPiece 词表主要覆盖英文子词；对中文文本可能会大量落到 $[\mathrm{UNK}]$ 或被切成极碎片段，效果通常不理想。要做中文任务更常用中文 BERT、mBERT（multilingual BERT）或以 SentencePiece 为主的多语模型。

RoBERTa

RoBERTa（Robustly Optimized BERT Approach）延续 BERT 的 Encoder-only 架构，但通过更大规模数据与训练配方改进（例如更长训练、更大 batch、动态 masking、移除或弱化 NSP 等）显著提升表示质量。它的工程意义在于：在不改变基本架构的前提下，训练细节足以带来可观收益。

RoBERTa 证明了一个重要事实：Encoder-only 模型的性能上限，不完全取决于“是否换了新架构”，训练数据规模、batch 策略、masking 方式和目标设计本身就足以显著改变表示质量。

chinese-roberta-wwm-ext

chinese-roberta-wwm-ext

是哈工大-讯飞联合实验室（HFL）推出的中文 RoBERTa 路线基座之一，定位上属于典型的 BERT-base 量级 Encoder-only 中文判别式底座。它延续了中文 BERT 全词掩码（Whole Word Masking, WWM）路线，并采用 RoBERTa 风格的训练配方改进，例如去掉 NSP、延长训练与强化 MLM 训练过程。它与后续的 Chinese MacBERT、Chinese ELECTRA 等中文预训练模型位于同一条中文 Encoder 演化谱系中。

从工程历史看，它是 2020 年前后到 2022 年中文 NLU 的事实标准之一：社区验证充分，微调范式成熟，适配文本分类、句对匹配、自然语言推断（Natural Language Inference, NLI）与命名实体识别（Named Entity Recognition, NER）都非常稳定。到 2026 年，这个模型的优势仍然清晰存在：中文语料预训练充分、生态成熟、部署经验丰富、对中小规模监督数据通常相当稳健。它特别适合作为中文闭集理解任务的经典强基线，用于给新模型或新训练策略提供可复现、低风险的比较参考。

它的局限也同样明确。架构主体仍然停留在 BERT-base 时代：上下文长度通常围绕 512 token，长文档处理能力有限；注意力与推理路径没有吸收长上下文时代的高效实现；分词与词表路线也仍属于较早一代中文 Encoder 设计。因此，若把它放到 2025-2026 年的主流表示模型谱系里，更准确的定位是成熟、稳定、中文友好的经典底座，而非长上下文或现代高吞吐判别式编码器的前沿代表。

替代方案的选择应按目标分层。若目标仍是中文单语分类、NER、句对匹配，且优先级是稳定微调与成熟生态，那么继续使用

chinese-roberta-wwm-ext

完全合理；若希望在保持中文专训路线的同时提高整体效果，HFL 自己后续的 MacBERT 往往是更自然的同谱系升级方向。若目标转向更强的跨语言迁移、更新的判别式结构或更大的英文生态复用，则 DeBERTa-V3 / mDeBERTa-V3 一类底座通常更接近 2026 年的主流高质量选择。若任务明显受制于长输入、长文档分类或现代推理吞吐，则 ModernBERT 这类原生 8K 上下文的现代编码器会更有吸引力；但这类模型主要按英文与代码语料设计，直接替换到中文任务上并不自动保证优于中文专训底座，最终仍需以具体任务与中文语料上的微调结果为准。

更好的替代方案（按场景分层）

围绕

chinese-roberta-wwm-ext

做替换时，更有效的比较方式核心是先判断替换发生在同一参数量级，还是直接切换到更大规模 encoder。两类替换的收益来源、工程代价和失败模式并不相同。

同级别直接替换

模型	优势	劣势
Chinese ModernBERT-base	22 层、词级 BPE 词表、RoPE、8192 上下文、现代 bf16 推理路径	在某些 MIL 架构中文任务里，直接替换 base encoder 的收益可能并不明显；瓶颈未必在 encoder 本身
MacBERT（hfl/chinese-macbert-base）	用近义词替代 [MASK]，缓解预训练与微调之间的目标落差；是中文 BERT / RoBERTa 谱系里最自然的升级点之一	上下文长度通常仍限于 512 token；长文档场景帮助有限
PERT（hfl/chinese-pert-base）	基于排列式预训练，对语序敏感任务有潜在优势	社区采用度、教程与工程生态都弱于 RoBERTa / MacBERT
Chinese ELECTRA（hfl/chinese-electra-180g-base）	判别式预训练效率高，在分类与 NER 任务上常有竞争力	长文本仍受 512 左右上下文限制；与中文 RoBERTa 相比迁移收益取决于具体任务

这一层的替换更像是在相近预算内调整预训练目标、词表与工程实现。收益通常来自更合适的中文训练配方或更现代的编码实现，而非简单的“参数更多”。若现有系统已经有成熟的特征聚合层、样本构造策略或 MIL 结构，encoder 升级未必自动转化成同幅度任务收益。

更大规模 Encoder

模型	规模	更适合的场景
hfl/chinese-roberta-wwm-ext-large	约 325M，24 层	推理资源允许、且任务确实受语义表达上限约束时，直接切到 large 版往往比横向换同级 base 更容易获得稳定增益
Chinese ModernBERT-large	约 395M，更深且原生长上下文	长上下文分类、长文档理解、需要更强语义建模且能接受显著更高推理成本的场景

若任务真正受限于表达容量而非训练配方，扩大 encoder 往往比在多个 base 模型之间横向切换更容易带来可见提升。代价也非常直接：显存、延迟、吞吐和微调稳定性压力都会同步上升。因此 large 路线适合作为“资源换上限”的升级，而非默认替代。

ELECTRA

ELECTRA（Efficiently Learning an Encoder that Classifies Token Replacements Accurately）仍属于 Encoder-only 模型，但它不再让主模型只做“把被遮住的词猜出来”的掩码语言建模（Masked Language Modeling, MLM）。它先用一个较小的生成器替换部分 token，再让主模型判断每个位置上的 token 是原词还是替换词，这就是替换检测（Replaced Token Detection, RTD）。这种训练方式让模型几乎在每个 token 上都获得监督信号，因此在相近预训练预算下通常比纯 MLM 更高效。

DeBERTa / DeBERTa-V3

DeBERTa（Decoding-enhanced BERT with Disentangled Attention）可以看作对 BERT / RoBERTa 的一次结构级强化。它仍然是典型的判别式 Encoder-only 语言模型，因此特别适合文本分类、自然语言推断（Natural Language Inference, NLI）、命名实体识别（Named Entity Recognition, NER）和情感分析等理解类任务；但它直接对注意力机制本身做了精细改造，而不满足于只靠“更大数据、更长训练”来变强。

它最核心的突破是解耦注意力（Disentangled Attention）。在传统 BERT 中，词的内容信息与位置信息通常会较早融合；DeBERTa 则把“这个 token 是什么”和“这个 token 在哪里”分开处理。对位置 $i$ 与 $j$ 的注意力打分，可直观写成三部分：

\[A_{i,j}=\underbrace{C_iC_j^\top}_{\text{内容-内容}}+\underbrace{C_iP_{j|i}^\top}_{\text{内容-相对位置}}+\underbrace{P_{i|j}C_j^\top}_{\text{相对位置-内容}}\]

其中 $C_i$ 表示第 $i$ 个位置的内容表示（Content Representation），$P_{j|i}$ 和 $P_{i|j}$ 表示相对位置表示（Relative Position Representation）。这个拆分的意义在于：模型不必把“词义”和“位置”混成一个整体再去匹配，而可以更精细地学习“哪个内容会关注什么位置关系”。对于短语修饰、依存关系和实体边界判定这类任务，这种改造往往更有利。

DeBERTa 的第二个关键设计是增强型掩码解码器（Enhanced Mask Decoder, EMD）。它的动机是：相对位置固然重要，但在掩码预测时，绝对位置有时也能提供额外信息。因此 DeBERTa 在接近输出端的位置再次显式注入绝对位置信息，让模型在做 MLM 预测时同时利用相对与绝对位置信号。这相当于在保持主体编码过程解耦的前提下，在最后的“读答案”阶段补上一层位置提醒。

从工程结果看，DeBERTa 长期是判别式 NLU 的强基线之一。它的重要性不只在于“分数更高”，还在于它说明了一个事实：Encoder-only 模型的上限不只是由数据和算力决定，内容表示、位置表示和解码方式本身的结构设计也会显著影响表示质量。后续的 DeBERTa-V3 又把替换检测（RTD）这类更高效的预训练目标引入进来，进一步改善了训练效率与效果，使其在很多精细理解任务里依然保持很强竞争力。

ModernBERT

ModernBERT 代表的是 BERT 风格双向编码器在 2025 年之后的一次现代化重写。它仍然属于 Encoder-only，但从停留在 2018 年 BERT 的上下文长度、注意力实现和推理路径上转向把长上下文支持与现代高效实现直接纳入底座设计。其官方模型卡给出的关键信息包括：预训练规模达到 2T tokens，原生上下文长度扩展到 8192 token，并引入 RoPE、本地-全局交替注意力（Local-Global Alternating Attention）、unpadding 和 Flash Attention 等现代工程机制。

与原始 BERT 还有一个重要区别在于

[CLS]

的默认训练来源。ModernBERT 官方定位是纯粹的掩码语言模型（Masked Language Model, MLM）：预训练时默认存在的是 MLM head，而非像原始 BERT 那样再额外叠加 NSP 这种句级二分类目标。这意味着 ModernBERT 的

[CLS]

主要是作为首位置隐藏状态在 MLM 路线下间接形成的可读出表示，而非被预训练阶段的句级分类任务直接塑形过的“现成分类接口”。因此，ModernBERT 当然仍然适合做分类，但更准确的理解应是：它提供了一个现代化、长上下文、可高效微调的编码底座；真正的分类头通常仍要在下游任务里显式接上并训练出来。

这类改造的意义非常直接。传统 BERT 家族最舒服的输入长度通常仍停留在几百 token 到一两千 token 量级，而 ModernBERT 这一路则把长文档分类、长文本检索、代码检索和大段上下文理解一并纳入可用范围。于是，在英文或以英文 / 代码为主的判别式任务里，ModernBERT 往往比 DeBERTa-V3 更接近 2026 年的默认新基线；DeBERTa-V3 仍然是高质量经典强基线，但 ModernBERT 明显更符合当前对长上下文与吞吐效率的要求。

它的交替局部-全局注意力也进一步改变了人们对

[CLS]

的直觉。经典 BERT 可以把

[CLS]

看成每层都在做全局汇总的位置；ModernBERT 则只在周期性的全局层里进行真正的全局信息混合，局部层更强调效率与长序列处理能力。因此，把 ModernBERT 的

[CLS]

直接理解成“天然全局句向量”会更加不准确；它更像一个可被下游读取的首位置表示，而非默认就已经为通用句嵌入优化好的几何向量。

多语表示模型

多语表示模型的选型逻辑与英文单语场景并不完全相同。XLM-R（XLM-RoBERTa）仍然是经典多语 Encoder-only 基线之一：其预训练覆盖 100 种语言，核心价值是把多语文本映射到共享表示空间，再用于序列分类、序列标注和问答等下游任务。mDeBERTa-V3 则把 DeBERTa-V3 的结构与训练目标迁移到多语场景，在跨语言自然语言推断等零样本迁移任务上，相比 XLM-R-base 给出更强的官方基线结果。因此，若目标是稳定、成熟、适合任务头微调的多语编码器，XLM-R 与 mDeBERTa-V3 依然是 2026 年非常现实的主流选择。

更前沿的一支则沿着 ModernBERT 的方向继续推进。2025 年发布的 mmBERT 直接把 ModernBERT 的现代编码器路线扩展到大规模多语场景，官方介绍强调其训练覆盖 3T 以上 token 和 1800 多种语言，并把它定位为首个在性能和速度上同时明显超过 XLM-R 的新一代多语编码器。这说明多语表示学习也正在从“经典 XLM-R 世代”向“ModernBERT 世代”迁移，只是就生态成熟度与工程复用性而言，XLM-R / mDeBERTa-V3 仍然更稳，mmBERT 更像下一阶段的高端新底座。

模型	架构	预训练目标	特点	常见用途
BERT	Encoder-only	MLM（+ NSP 变体）	经典通用基线；生态成熟	分类、匹配、序列标注
RoBERTa	Encoder-only	MLM	更强训练配方；经典英文 NLU 强基线	理解类任务强基线
chinese-roberta-wwm-ext	中文 Encoder-only	MLM（WWM；RoBERTa 风格训练）	经典中文 NLU 强基线；生态成熟；微调稳定	中文分类、句对任务、NER、NLI
ELECTRA	Encoder-only	替换检测（Replaced Token Detection）	训练效率高；对小算力友好	理解类任务、低成本预训练
DeBERTa-V3	Encoder-only	MLM / RTD	解耦注意力 + 更高效预训练；经典高精度 NLU 底座	高精度 NLU、NER、文本分类
ModernBERT	Encoder-only	MLM	2T tokens 预训练、8192 上下文、现代高效实现	长文档分类、长文本理解、代码检索、现代英文编码任务
XLM-R	多语 Encoder-only	MLM	100 语言经典共享表示空间；多语生态成熟	多语分类、NER、问答、跨语言迁移
mDeBERTa-V3	多语 Encoder-only	MLM / RTD	DeBERTa-V3 的多语延伸；零样本迁移更强	多语 NLU、多语分类、跨语言推断
Qwen3-Embedding / BGE-M3 / multilingual-e5 / jina-embeddings-v3	专用表示模型	对比学习 / 指令化检索 / 检索特化目标	直接优化向量空间质量，而非以任务头分类为首要目标	语义检索、聚类、召回、RAG、跨语言匹配

因此，到 2026 年若任务是分类、序列标注、NLI 或抽取式问答，主流候选通常已经变成 DeBERTa-V3、ModernBERT，以及多语场景下的 XLM-R / mDeBERTa-V3。若任务明确是中文单语理解，

chinese-roberta-wwm-ext

仍然是值得保留的经典强基线，只是它在架构代际上已经偏老，更适合承担“稳健基准”而非“前沿默认底座”的角色。若任务本质上是检索、聚类、向量召回或 RAG，则应直接转向后文的主流嵌入模型，而非继续把通用 Encoder-only 分类底座当作最优句向量来源。

主流生成式语言模型

GPT 系列

GPT 系列是典型 Decoder-only：以 CLM（自回归 next-token）为主目标，把各种任务统一为“续写”。工程上其优势来自统一接口与强 in-context learning；代价是推理成本高（尤其长上下文与高并发场景）。

LLaMA

LLaMA 系列是开源 Decoder-only 基座的重要代表，强调稳定的训练配方与生态可用性（tokenizer、推理支持、微调社区）。它常作为“可控、可复现”的研究/工程基线，用于 SFT、LoRA、RAG 与本地部署。

Qwen

Qwen 系列同属开源 Decoder-only 生态，中文与多语言能力通常更受关注；在工具调用、代码与多模态等方向也有较多衍生版本。工程上，它常被用作中文业务与多语言场景的基座候选。

Mistral

Mistral 系列强调“更高性价比的推理与训练”：通过架构与工程优化在相近成本下获得更强的生成质量与吞吐表现，常见于高并发推理与轻量级部署场景。

DeepSeek

DeepSeek 系列更强调训练与推理效率的极致：在注意力 KV 压缩、稀疏结构（MoE）与训练目标（如 Multi-Token Prediction）等方向探索更激进的工程取舍，目标是在同等算力预算下提升有效容量与上下文能力。

若从 block 级结构看，DeepSeek V4 的主干把三条路线绑在同一层里协同工作，远超“普通 Transformer 换一个注意力模块”：CSA / HCA 负责注意力，mHC 负责多路残差混合，DeepSeekMoE 负责前馈容量扩展。一层的阅读顺序可以概括为：输入 token 先进入 embedding；随后经过 mHC 的 Pre-Block Mixing，把多路残差流混合后送入当前 block；注意力子层再按层使用 CSA 或 HCA；其输出经过 Residual Mixing 写回残差主路；接着通过 Post-Block Mixing 送入 DeepSeekMoE；MoE 输出再写回主干，进入下一层。V4 的每个 Transformer block 内部实际上是“混合注意力 + 流形约束残差 + 稀疏 MoE”的三件套，不由单一算子主导全层行为。

这也解释了 CSA 与 HCA “如何交替堆叠”这个问题。它们核心是 block 内部的注意力实现位。某一层装配的是 CSA，这一层就更偏向“压缩后召回重点块”；某一层装配的是 HCA，这一层就更偏向“极粗粒度地扫全局背景”。而同一层前后的 mHC mixing 与 DeepSeekMoE 保持不变，于是模型能够在同一主干框架里，让不同层承担不同的阅读粒度，同时继续依靠统一的残差主路和稀疏专家容量维持深层表达。

在训练端，DeepSeek V4 也并非只在最后接一个普通 LM Head。其顶层除标准语言模型损失外，还叠加了多 token 预测（Multi-Token Prediction, MTP）这一辅助监督信号。于是从整体上看，V4 的设计是四层联动的：注意力层解决百万上下文，mHC 解决深层稳定性，MoE 解决有效容量，MTP 解决训练信号密度。也正因为这几部分是一起设计的，DeepSeek V4 不能被简单归类成“只是 MLA 的延伸”或“只是更大的 MoE 模型”。

家族	定位	常见优势	常见代价
LLaMA	稳健开源基座	生态成熟；微调与推理支持广	配置与版本较多，需选对上下文/推理配方
Qwen	多语言/中文友好基座	中文场景覆盖好；衍生模型多	需关注 tokenizer/指令对齐数据分布
Mistral	高性价比推理	吞吐与质量兼顾；工程落地友好	不同版本/配方差异会影响最佳实践
DeepSeek	效率优先（MoE/压缩）	在算力/显存约束下追求更强能力	架构复杂度更高；推理与部署依赖实现细节

主流嵌入模型

Word2Vec（CBOW / Skip-gram）

Word2Vec 用一个简单的自监督目标（Self-supervised Objective）学习词向量（Word Embeddings）：监督信号来自文本的共现上下文（Context），而非人工标签。

它可以理解为学习两个嵌入表：输入词向量 $V\in\mathbb{R}^{|{\cal V}|\times d}$ 与输出词向量 $U\in\mathbb{R}^{|{\cal V}|\times d}$（$|{\cal V}|$ 为词表大小）。训练结束后，常用 $V$（或 $(V+U)/2$）作为词向量。

Word2Vec 有两种经典训练方式：CBOW（Continuous Bag of Words）根据上下文预测中心词，Skip-gram 则根据中心词预测上下文。二者的预测方向相反，但都利用局部共现关系学习词向量。下面以 Skip-gram 为例说明它最核心的训练机制。

Word2Vec 的样本核心是通过滑动窗口（Sliding Window）在语料上自动生成。设窗口半径为 $m$，当滑动窗口扫到位置 $t$ 时，中心词 $x_t$ 会与它左右 $m$ 个位置内的上下文词组成正样本对；越靠近句首句尾，可用上下文自然会变少。对单个中心词，Skip-gram 的局部目标可写成：

\[\sum_{-m\le j\le m,\ j\ne 0}\log p(x_{t+j}\mid x_t)\]

这意味着：窗口每向前滑动一步，模型就把“中心词与邻近词共同出现”当作新的监督信号。CBOW 则反过来，把窗口内多个上下文词聚合起来预测中心词；但两者的训练样本都来自同一套滑动窗口机制。

在 Skip-gram 中，给定中心词（center word）$w_c$，预测窗口内的上下文词（context word）$w_o$。若用 full softmax：

\[p(w_o|w_c)=\frac{\exp\left(u_{w_o}^\top v_{w_c}\right)}{\sum_{w\in{\cal V}}\exp\left(u_{w}^\top v_{w_c}\right)}\]

如果保留这个完整 softmax，模型会被迫在整个词表上做归一化比较；真实上下文概率升高时，其他词的概率就必须相应下降。但如果改成更便宜的“只学习哪些词对是真的”而又只提供正样本，模型就会立刻出现投机空间：它完全可以把几乎所有词对都打成高分，因为目标里从来没有人告诉它哪些配对是假的。于是，只基于正样本训练一个二分类式共现目标，最容易学到的往往是“永远预测真”，而非稳定的语义结构。

因此，实践里常用负采样（Negative Sampling）：对每个正样本对 $(w_c,w_o)$，再随机采样 $K$ 个噪声词 $w_k$，把 $(w_c,w_k)$ 当作负样本，并最大化

\[\log\sigma(u_{w_o}^\top v_{w_c})+\sum_{k=1}^{K}\log\sigma(-u_{w_k}^\top v_{w_c})\]

第一项要求真实共现词对的内积更大，第二项要求随机噪声词对的内积更小。这样模型学到的就从“所有词都彼此相似”转向“哪些词在局部上下文里更可能共同出现”。这里的“模型参数”主要就是这些词向量；模型输入通常是 token id（或 one-hot）经查表得到的 $v_{w_c}$。

Word2Vec 的负样本通常也不需要过度精心设计。经典做法就是按词频分布的 $0.75$ 次方做随机采样，让高频词仍然更常被抽到，但不会垄断全部负样本。它的核心目标核心是持续给模型提供足够多的噪声对照，让真实共现和随机拼接之间产生可学习的区分。后来的对比学习常会显式挖掘 hard negatives，但在经典 Word2Vec 里，简单而稳定的随机负采样通常已经足够有效。

GloVe

GloVe（Global Vectors for Word Representation）用全局共现统计学习词向量：目标是让词向量的内积拟合共现概率（或其对数）。与 Word2Vec 相比，它更强调全局统计的一致性；但二者都属于“静态词向量”（Static Embedding），无法像 Transformer 那样根据上下文动态改变词义表示。

Sentence-BERT

Sentence-BERT（SBERT）是文本嵌入（Text Embedding）中的经典双编码器（Bi-Encoder / Dual Encoder）范式。它与后面的 text-embedding 系列并非两种不同任务；二者都把文本映射为向量，用于相似度计算、检索、聚类与召回。区别主要在于：SBERT 更像一条开源方法路线，而 text-embedding 系列更像近年的通用嵌入模型或 API 产品家族。

交叉编码（Cross-Encoder）

在 SBERT 之前，句子嵌入任务通常沿用交叉编码器（Cross-Encoder）+ BERT 的范式实现相似度建模：把两个句子同时输入 Transformer 网络，常见形式是将句子 A 与句子 B 拼接成单个序列，中间用分隔符隔开，然后在原始 BERT 顶部增加分类头或回归头，直接输出这一对句子的相似度分数。这种架构的优势在于两个句子的 token 可以在同一次自注意力计算中充分交互，因此非常擅长做细粒度匹配判断；但它输出的是“句对分数”，而非两个可独立复用的句向量。

这会直接带来大规模计算问题。若要在一个包含 10000 个句子的集合中找出相似度最高的匹配对，交叉编码器原则上需要对几乎所有句对分别做一次联合编码，计算量约为 $\frac{10000\times 9999}{2}=49{,}995{,}000$ 次前向比较。也就是说，问题规模从“编码 10000 个句子”膨胀成了“编码近五千万个句对”。由于每个候选句子都必须与其他句子重新拼接、重新过一遍 BERT，这类方法几乎无法承担大规模语义检索、聚类或召回的第一阶段计算。SBERT 的关键突破，正是在保留 BERT 语义建模能力的同时，把句子表示改造成可预先编码、可缓存、可直接做余弦相似度比较的独立向量。

双编码（Bi-Encoder）与孪生网络

因此，SBERT 的核心价值首先体现在计算结构的改变上：它把原本“对句对打分”的问题，改写成“分别编码句子，再比较向量距离”的问题。这样一来，候选句子可以预先编码并缓存，检索阶段只需要做向量相似度计算，而不必让每一对候选都重新经过一次完整的 BERT 联合编码。

它与 Cross-Encoder 的关键差异在于计算结构：

双编码器：两个输入分别编码，可离线预计算候选向量，适合大规模检索（ANN）。
交叉编码器（Cross-Encoder）：把两个输入拼接后一起编码，匹配更精细但无法离线索引，适合重排序（Reranking）。

在结构上，SBERT 的核心是孪生架构（Siamese Architecture）：两侧使用一模一样的编码器，参数完全共享，但分别接收一个句子作为输入。训练时，句子对会分别经过这两个共享权重的编码塔，各自得到固定维度的句向量，再基于余弦相似度、三元组损失（Triplet Loss）或对比损失（Contrastive Loss）优化距离关系。共享权重保证了两个句子被投射到同一个表示空间中，因此向量之间的距离才具有可比较性。

训练方式

SBERT 的训练过程可以拆成两个步骤。第一步是把每个句子单独编码成向量。设句子 $x=(t_1,\dots,t_n)$，经过共享编码器后得到逐 token 的隐藏状态 $H=[h_1,\dots,h_n]$；随后用池化（Pooling）把它压缩成句向量 $e(x)\in\mathbb{R}^d$。经典实现最常用平均池化：

\[e(x)=\frac{1}{n}\sum_{i=1}^{n} h_i\]

有些实现还会继续做 L2 归一化，得到 $\hat e(x)=e(x)/\|e(x)\|_2$，以便后续直接用余弦相似度比较方向。这里的关键点是：左右两侧核心是同一组参数共享的编码器分别处理句子 A 和句子 B，最终得到 $\hat e_a$ 与 $\hat e_b$ 两个可独立复用的句向量。

训练语料的形状也必须与损失函数匹配。最常见的几类数据形式如下：

带连续分数的句对：形如 $(x_a,x_b,y)$，其中 $y$ 是 0 到 1、或 0 到 5 再归一化后的语义相似度分数。这类数据最适合 STS（Semantic Textual Similarity）任务，监督信号核心是“到底有多像”。
二元正负句对：形如 $(x_a,x_b,y)$，其中 $y\in\{0,1\}$。这里 $y=1$ 表示复述句、同义问法、相关 query-document 或其它正样本对；$y=0$ 表示语义无关、错误匹配或人工拒绝的负样本对。
检索式正配对：形如 $(q,p)$，只显式给出 query 与其正确匹配的正样本，不单独列出负样本。训练时，通常把同一 batch 中其它 $p_j$ 当作 $q_i$ 的负例，这就是批内负样本（In-batch Negatives）的基本数据组织方式。
三元组：形如 $(a,p,n)$，其中锚点 $a$ 与正样本 $p$ 应靠近，而与负样本 $n$ 应拉开距离。这类数据天然适合排序与检索，因为它直接表达了“哪个比哪个更相关”。

因此，SBERT 训练并不要求数据必须带精确分数；它既可以吃连续相似度打分，也可以吃正负标签，甚至只需要 query-positive 配对或三元组。真正关键的是，训练样本必须能清楚告诉模型：哪些句子应该靠近，哪些句子应该远离，以及这种关系是绝对打分还是相对排序。

第二步是根据标注关系定义损失。若训练数据给的是连续相似度分数，例如 0 到 1 之间的语义相似度标签 $y$，最直接的做法是先计算两向量的余弦相似度

\[s(\hat e_a,\hat e_b)=\cos(\hat e_a,\hat e_b)=\frac{\hat e_a^\top \hat e_b}{\|\hat e_a\|_2\|\hat e_b\|_2}\]

再让模型输出的相似度逼近人工标签，例如最简单的回归式目标可以写成

\[L=(s(\hat e_a,\hat e_b)-y)^2\]

这时，相似句子的标签 $y$ 更高，损失会推动两向量余弦相似度上升；不相似句子的标签更低，损失则推动相似度下降。原始 SBERT 在 STS（Semantic Textual Similarity）类任务上，常用的正是这种“句对回归到相似度分数”的训练方式。

若训练数据只有二元标签，即“相似”或“不相似”，则更常见的是对比式损失（Contrastive Loss）。设距离 $d(\hat e_a,\hat e_b)$ 可以取欧氏距离，也可以取 $1-\cos(\hat e_a,\hat e_b)$，则典型形式为

\[L=y\cdot d(\hat e_a,\hat e_b)^2+(1-y)\cdot \max(0,m-d(\hat e_a,\hat e_b))^2\]

其中 $y=1$ 表示正样本对，损失会逼迫距离变小；$y=0$ 表示负样本对，损失会要求两句至少相隔一个 margin $m$。这就把“相似句子拉近，不相似句子推远”写成了显式几何约束。

若任务更接近检索或召回，现代实践更常用批内负样本（In-batch Negatives）或多负样本排序损失（Multiple Negatives Ranking Loss）。设一个 batch 中第 $i$ 个查询句子的正样本是 $p_i$，其余 $p_j$ 都视为负例，则可写成

\[L_i=-\log \frac{\exp(s(\hat e_{q_i},\hat e_{p_i})/\tau)}{\sum_{j=1}^{B}\exp(s(\hat e_{q_i},\hat e_{p_j})/\tau)}\]

其中 $\tau$ 是温度（Temperature）参数。这个目标直接把同一 batch 里的其它正样本当作自己的负样本，无需显式为每个查询单独准备大量负样本；于是优化方向很清楚：正确配对的句子相似度必须高于 batch 中所有错误配对。许多现代 embedding 模型，包括大量 SBERT 派生模型，都是沿着这条路线训练出来的。

另一类经典形式是三元组损失（Triplet Loss）。它已经从看一对句子扩展到同时给出锚点 $a$、正样本 $p$ 和负样本 $n$，要求锚点与正样本的距离小于锚点与负样本的距离，且至少留出一个 margin：

\[L=\max\bigl(0,\ d(\hat e_a,\hat e_p)-d(\hat e_a,\hat e_n)+m\bigr)\]

它表达的仍然是同一个原则：相似句子靠近，不相似句子远离；只是监督信号从“单对标签”变成了“相对排序关系”。

前文已经提到，原始 BERT 的

[CLS]

表示更适合接分类头，而非直接充当高质量通用句向量；同样地，若未经句向量任务优化就简单平均最后一层表示，效果通常也不理想。SBERT 的关键改动，正是在共享权重的双编码训练框架中，把池化和句对监督显式写入训练过程，使生成出来的 $e(x)$ 已经从“顺手拿来的中间表示”扩展到被专门优化成适合做余弦相似度、最近邻检索与聚类的句向量。其改进原因之一，正是缓解了原始 BERT 表示的各向异性（Anisotropy）问题：向量不再高度挤在高维空间的少数方向上，余弦相似度也因此更有区分度。

这里也需要区分 Sentence-BERT 与 sentence-transformers。前者更严格地指 2019 年提出的 SBERT 方法路线：在 BERT、RoBERTa 等编码器基础上，通过孪生网络（Siamese Network）/三元组网络（Triplet Network）或后续对比式训练，把原本不适合作为通用句向量的表示空间改造成更适合相似度计算的句向量空间。后者则主要指围绕这一路线发展出来的开源框架与模型生态，用于统一训练、评测、发布和调用各类句向量模型。因此，sentence-transformers 更像 SBERT 方法在工程上的延伸与集合。

从工程角度看，SBERT 仍然有明确实用价值：它特别适合私有化部署、领域微调、本地低延迟语义检索，以及“双编码器召回 + Cross-Encoder 重排”的两阶段检索流水线。它核心是在开源可控、可微调、可离线部署这些约束下依然非常常用。

text-embedding 系列

如果把 SBERT 看作“如何训练和使用句向量”的经典范式，那么 text-embedding 系列代表的就是近年的通用嵌入模型实现。BGE、E5、GTE、OpenAI 的 text-embedding、Cohere Embed 等，本质上都属于同一任务族：生成可用于相似度、检索、聚类、召回的向量表示。它们的主要差异不在“是否属于 embedding”，而在训练数据、模型规模、多语言能力、上下文长度、向量维度压缩策略，以及是开源模型还是托管 API 服务。

通用嵌入模型（General-purpose Embedding Model）的目标通常是“语义相似近、语义无关远”，因此天然适配检索与聚类。也可以把嵌入模型微调成“任务特化嵌入”（Task-specialized Embedding）：用监督标签构造正/负样本对（同类为正、异类为负），用对比学习目标把同类拉近、异类推远，然后用最近邻/类原型（Prototype）实现分类。

与“表示模型 + 分类头（Representation Model + Classifier Head）”相比，二者取舍通常是：

特化嵌入：推理时只算一次向量 + 相似度，便于大规模检索/多标签扩展；但输出是距离分数，概率校准与细粒度判别能力通常不如专门的分类头。
分类头微调：直接最小化分类损失，闭集分类效果与可解释的概率输出更强；但对大规模候选检索不友好，且不同任务往往需要不同 head。

类别	代表模型/服务	特点	适用场景	备注
开源通用嵌入（General-purpose）	BGE / E5 / GTE	部署可控；可做领域微调	私有化 RAG；向量检索；聚类	选型关注多语言、长度与 license
商用 API 嵌入	text-embedding-3 / Cohere Embed	效果稳定；无需运维	快速上线；跨团队复用	成本与数据合规是主约束
领域特化嵌入（Task-specialized）	对比学习微调后的 embedding	对业务分布拟合更强	垂直领域检索；闭集分类	需要高质量正/负样本构造
多向量/late interaction	ColBERT 类	token-level 匹配更细	高精度检索；精排候选压缩	索引与存储成本更高

主流 Encoder–Decoder 模型

T5（Text-to-Text Transfer Transformer）是典型 Encoder–Decoder：把所有任务统一为“文本到文本”的生成问题（text-to-text）。它既可用于摘要、翻译等生成任务，也可用于分类，此时模型直接生成类别名对应的 token 序列。

在预训练阶段，T5采用的是掩码式去噪目标（Denoising Objective），但它核心是会对连续的 token span 做遮掩（Span Corruption）。输入中的若干片段会被替换为哨兵标记（Sentinel Token），模型则在解码端按顺序生成这些被遮住的片段。这样的训练方式既保留了“根据上下文恢复缺失内容”的掩码语言建模思想，又让模型从一开始就以 Encoder–Decoder 的生成方式学习条件重建。

在后续适配阶段，T5 延续了统一的 text-to-text 框架：翻译、摘要、问答、分类等任务都写成文本输入到文本输出的形式。沿着这条路线继续发展后，研究者又引入了更大规模的多任务指令微调（Instruction Tuning）：把大量带自然语言任务描述的监督任务混合起来训练，迫使模型学习“读懂任务说明，再按说明生成答案”。FLAN-T5 就是这一路线的代表，即在 T5 底座之上经过 FLAN 指令微调得到的系列模型；它相比原始 T5 更强调零样本（Zero-shot）和少样本（Few-shot）泛化能力。

BART

BART（Bidirectional and Auto-Regressive Transformers）同属 Encoder–Decoder，但预训练更强调去噪自编码（Denoising Autoencoding）：对输入做扰动（mask、shuffle、delete 等），让模型恢复原文。它在摘要、生成式改写与条件生成任务上常用作强基线。

模型	架构	预训练直觉	强项
T5	Encoder–Decoder	统一 text-to-text	任务统一；文本生成与分类都自然
BART	Encoder–Decoder	去噪重建	摘要与生成式改写强基线

任务特定语言模型

概述

任务特定语言模型（Task-specific Language Model）指在通用预训练模型基础上，围绕某个明确监督任务附加任务头（Task Head）并继续微调的模型。常见任务包括句段级分类、token 级序列标注、文本匹配、排序与信息抽取。这里“句段级”指分类对象是一段独立文本，可以是单句，也可以是能够整体输入模型的段落。工程上它核心是“预训练主干 + 任务头 + 对应损失函数”的组合：同样是 BERT、DeBERTa、T5 或大语言模型（Large Language Model, LLM），接什么头、优化什么目标，决定了它最终服务什么任务。

对 BERT 类 Encoder-only 模型，多分类通常采用“句向量 + 线性分类头（Linear Classification Head）”的形式。设句子表示为 $h\in\mathbb{R}^{d}$，类别数为 $K$，则分类头输出 logits：

\[z=Wh+b,\quad W\in\mathbb{R}^{K\times d},\quad b\in\mathbb{R}^{K}\]

其中 $h$ 是主干模型抽取出的整句语义表示，常取自

[CLS]

对应隐藏状态或池化结果；$W$ 把 $d$ 维表示映射到 $K$ 个类别；$b$ 是偏置项；$z_k$ 是第 $k$ 类的原始分数（logit）。若需要概率，可再经过 softmax：

\[p(y=k|x)=\frac{e^{z_k}}{\sum_{j=1}^{K}e^{z_j}}\]

训练时通常直接把 logits $z$ 输入交叉熵（Cross-Entropy）损失，softmax 与对数运算一般由损失函数内部完成，以获得更好的数值稳定性；推理时若需要概率分布、阈值决策或置信度排序，再显式做 softmax。实践中还常在分类头前加入 Dropout，以降低小样本场景下的过拟合风险。

命名实体识别（Named Entity Recognition, NER）等 token 级任务的输出结构不同。设序列长度为 $T$，第 $t$ 个 token 的隐藏状态为 $h_t$，则每个位置的标签打分可写成：

\[z_t=Wh_t+b,\quad t=1,\dots,T\]

此时分类头从输出“整句一个类别”转向为每个 token 输出一组 BIO / BIOES 标签 logits。若任务更强调标签转移的一致性，还可在 token 分类头后叠加条件随机场（Conditional Random Field, CRF），显式约束标签序列的合法转移。

因此，任务头的输出形式始终取决于任务本身：句子分类输出 $\mathbb{R}^{K}$ 上的一组 logits，token 分类为每个位置输出一组 logits，匹配/排序任务常输出单个相关性分数，生成任务则在词表维度输出下一 token 的 logits。主干负责提供中间表示（Intermediate Representation），任务头负责把这种表示投影成可直接优化的任务空间。

到 2026 年，任务特定语言模型的工程选型已经稳定分化。对高并发、闭集标签、边界清晰且标注数据相对充足的文本分类与 NER，DeBERTa、ModernBERT 一类 Encoder-only 模型仍然具有极高性价比：延迟低、吞吐高、概率校准更稳、部署成本更可控。若任务明确是中文单语理解，

chinese-roberta-wwm-ext

仍然是值得保留的经典稳健基线，MacBERT 则通常是更自然的同路线升级点。这里的输入并不只限于单句；传统 Encoder-only 模型常见有效长度大约在 512 tokens，而较新的长上下文 Encoder-only 模型已经普遍扩展到 8K tokens，因此数百字的段落在 2026 年通常也仍属于可直接处理的范围。对样本极少、语义规则复杂、输出结构开放，或需要“理解 + 生成”一体化的任务，LLM 配合参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）通常更有优势。

在这类 LLM 任务里，LoRA 仍然是默认起点：它最适合指令跟随、风格迁移、格式约束、轻量领域适配等大多数常规需求。若显存是第一约束，QLoRA 往往是最自然的落点；若任务要求更接近全参数微调的表达力，例如深领域知识吸收、复杂推理、困难边界判别或更强的稳定性，则可优先考虑 DoRA 或 Q-DoRA。全参数微调仍然保留在少数高门槛场景：领域迁移极深、训练数据极大，或需要改动词表、上下文长度、位置编码等底层结构时，它仍然提供最高上限。

任务形态	更常见方案	主要原因	典型模型
闭集文本分类	Encoder-only + 分类头	判别边界清晰；推理便宜；概率输出稳定	BERT / RoBERTa / DeBERTa / ModernBERT
标准 NER / 序列标注	Encoder-only + token head（可叠加 CRF）	天然适配 token 级标签；边界学习直接	BERT-CRF / DeBERTa-CRF
低资源复杂分类	LLM + LoRA / QLoRA	预训练知识丰富；少样本泛化强；显存门槛低	Qwen / Llama / Gemma + LoRA
复杂结构抽取 / JSON 输出	LLM + PEFT 或指令微调	可同时完成理解、抽取、归纳与结构化生成	Qwen / Llama / Mistral 系列
高难推理 / 深领域适配	LLM + DoRA / Q-DoRA	比普通 LoRA 更接近全参数微调；适合高质量知识注入	Qwen / Llama + DoRA
极致吞吐线上服务	LLM 标注或蒸馏，Encoder-only 上线	兼顾数据质量、速度与运维成本	LLM 教师 + DeBERTa 学生
生成式嵌入	Decoder-only / Encoder–Decoder 隐藏状态池化	复用生成模型语义能力与长上下文能力，将隐藏状态读出为向量	Qwen / Llama / T5 派生 embedding
检索精排 / RAG 重排	基于表示模型的重排：Encoder-only Cross-Encoder + ranking/classification head	经典精排路线；query 与候选在同一次编码中交互，延迟和成本低于 LLM reranker	BGE Reranker / monoBERT / cross-encoder/ms-marco
复杂语义精排 / 长文档重排	基于生成模型的重排：LLM 交叉编码 + 标量打分或 yes/no token 打分	更适合复杂指令、长文档、多跳证据和需要语义推理的少量候选	Qwen Reranker / LLM reranker
超大规模深度迁移 / 底层结构改造	全参数微调	需要改动表示空间本身，低秩适配容量不足	领域基座继续训练或全量 SFT

工业系统中也常采用混合路线：先用强 LLM 做数据清洗、弱标注、难例发现或标签体系归并，再把任务蒸馏到更轻的 Encoder-only 模型上线。这种做法利用了 LLM 的语义泛化能力，也保留了小模型在延迟、吞吐与稳定性上的优势。

基于生成模型的嵌入

基于生成模型的嵌入（Generative-model-based Embedding）指用 GPT、LLaMA、Qwen、T5 这类生成式主干产生文本向量。计算过程通常不执行开放式解码；系统在一次前向计算中读取模型内部隐藏状态（Hidden States），再经过池化、投影和归一化，把整段输入压缩成可用于检索、聚类、匹配或分类的向量。

设输入文本被 tokenizer 转成 token 序列 $x=(t_1,\dots,t_T)$，生成模型最后一层输出隐藏状态

\[H=f_\theta(x)=[h_1,\dots,h_T],\quad h_t\in\mathbb{R}^{d}\]

其中 $f_\theta$ 是生成模型主干，$h_t$ 是第 $t$ 个 token 在最后一层的上下文化表示，$d$ 是隐藏维度。嵌入模型不会直接使用完整的 $H$，而会定义一个池化函数 $\mathrm{Pool}(\cdot)$：

\[e(x)=\mathrm{Normalize}\left(W_p\cdot \mathrm{Pool}(H)\right)\]

这里 $\mathrm{Pool}(H)$ 可以取最后一个有效 token 的隐藏状态、EOS token 的隐藏状态、attention mask 下的平均池化，或经过专门训练的 pooling head；$W_p$ 是可选投影矩阵，用于把模型隐藏维度映射到最终向量维度；$\mathrm{Normalize}(\cdot)$ 通常是 L2 归一化，方便后续用内积或余弦相似度比较。

Decoder-only 模型有一个特殊点：因果注意力让第 $t$ 个位置只能看见 $t$ 之前的上下文，因此最后一个有效 token 的隐藏状态往往最自然，因为它已经读取了整段输入的前缀信息。平均池化也可使用，但早期 token 的隐藏状态没有看到后续内容，直接平均会混入“只看过局部前缀”的表示。很多生成式 embedding 路线会通过 EOS pooling、特殊汇聚 token、双向化注意力、对比学习微调或专门 pooling head 来缓解这个问题。

这种路线的价值在于复用生成模型的语义知识、指令理解能力和长上下文能力。对于“给定查询，找出最相关段落”这类任务，可以把 query 写成带任务说明的输入，让模型在隐藏状态中形成“面向当前检索目标”的表示；对于长文档场景，也可以利用生成模型已经扩展过的上下文长度，把更长的段落编码成单个向量。代价同样明确：Decoder-only 主干通常比专门 Encoder embedding 模型更慢，向量质量也依赖 pooling 方式和对比训练目标，不能直接假设任意 LLM 的最后层隐藏状态天然就是高质量句向量。

基于表示模型的重排

基于表示模型的重排（Representation-model-based Reranking）是经典的 reranker 路线。这里的“表示模型”主要指 BERT、RoBERTa、DeBERTa、ModernBERT、BGE Reranker 这类以隐藏状态表示为核心产物的 Encoder-only 模型或交叉编码器（Cross-Encoder）。它把 query 与候选文档拼接成同一个输入序列，让两者的 token 在同一次自注意力计算中充分交互，然后读取 $[\mathrm{CLS}]$、首 token、最后 token 或池化后的隐藏状态，通过一个标量打分头输出相关性分数。

设查询为 $q$，候选文档为 $d$。Cross-Encoder reranker 的输入通常写成：

\[x=[\mathrm{CLS}]\ q\ [\mathrm{SEP}]\ d\ [\mathrm{SEP}]\]

模型前向得到隐藏状态矩阵：

\[H=f_\theta(x)=[h_1,\dots,h_T]\]

若使用 $[\mathrm{CLS}]$ 表示作为句对表示，则重排分数可以写成：

\[s(q,d)=w^\top h_{\mathrm{CLS}}+b\]

其中 $s(q,d)$ 是 query-document 的相关性分数；$h_{\mathrm{CLS}}$ 是编码后 $[\mathrm{CLS}]$ 位置的隐藏状态；$w$ 和 $b$ 是打分头参数。训练时可以用二分类交叉熵处理相关 / 不相关标签，也可以用 pairwise 或 listwise 排序损失直接优化候选顺序。

这条路线是检索系统里非常成熟的两阶段范式：第一阶段用 BM25、dense embedding 或 hybrid retrieval 快速召回候选；第二阶段用 Cross-Encoder reranker 对 top-k 候选做精排。它比双编码 embedding 更慢，因为每个候选都要和 query 一起前向；但它比生成式 LLM reranker 更轻，通常吞吐更高、延迟更低、训练更直接，适合作为生产 RAG、搜索和问答系统中的默认强基线。

基于表示模型的重排和基于生成模型的重排共享“联合读取 $(q,d)$”这一思想。差别在于，表示模型 reranker 的输出通常是一个判别式分数，模型主体多为 Encoder-only 架构；生成式 reranker 复用 LLM 的生成主干，可以用 yes/no token、自然语言判断或显式打分头输出相关性。工程选型上，表示模型 reranker 更适合作为成本可控的精排主力；生成式 reranker 更适合复杂指令、长文档、多跳证据或需要强语义推理的少量候选。

基于生成模型的重排

基于生成模型的重排（Generative-model-based Reranking）把 query 与候选文档放进同一次模型前向，让生成模型直接判断相关性。它通常用于两阶段检索系统的第二阶段：第一阶段由 BM25、向量检索或混合检索召回几十到几百个候选，第二阶段由更强但更慢的生成模型 reranker 对候选重新排序。

设查询为 $q$，候选文档为 $d$。重排输入通常会被组织成一个明确的判断提示，例如“Query: ... Document: ... 判断文档是否回答查询”。模型前向后得到最后位置隐藏状态 $h_{\mathrm{end}}$。若采用显式打分头，可以写成：

\[s(q,d)=w^\top h_{\mathrm{end}}+b\]

其中 $s(q,d)$ 是 query-document 相关性分数，$w$ 和 $b$ 是 reranker 新增或微调得到的标量打分参数。训练时可以使用二分类交叉熵，让相关文档得分高、不相关文档得分低；也可以使用 pairwise/listwise 排序损失，让同一 query 下的正例排在难负例之前。

另一种常见做法是利用生成模型原本的 LM Head，把相关性判断改写成极短的生成问题。模型读完 $(q,d)$ 后，只比较下一个 token 是“yes”还是“no”的 logits：

\[P(\mathrm{yes}\mid q,d)=\frac{\exp(z_{\mathrm{yes}})}{\exp(z_{\mathrm{yes}})+\exp(z_{\mathrm{no}})}\]

这里 $z_{\mathrm{yes}}$ 和 $z_{\mathrm{no}}$ 是模型在下一个 token 位置对 yes/no 两个标签词给出的原始分数。实际系统常把 $P(\mathrm{yes}\mid q,d)$ 或 $z_{\mathrm{yes}}-z_{\mathrm{no}}$ 当作重排分数。这个方法依然依赖隐藏状态，因为 token logits 本质上来自 $h_{\mathrm{end}}$ 经过输出头投影后的词表分布。

生成式 reranker 与 embedding 的核心差异在计算结构。Embedding 模型分别编码 query 和文档，适合离线建索引和大规模召回；reranker 把 query 与文档拼在一起联合编码，token 之间可以在同一次注意力计算中交互，因此更擅长处理细粒度匹配、否定、条件限制、多跳证据和“看起来相似但其实答非所问”的候选。它的代价是每个候选都要单独前向，无法像 embedding 那样提前为所有文档算好一次向量。

基于嵌入的推荐系统

推荐系统也经常以“任务特定模型”的方式落地，尤其是在召回（Recall）阶段。若每首歌曲都能通过歌词、标题、风格标签、歌手简介或多模态信息编码成一个向量 $e_i$，那么系统就可以把用户已经选择、收藏或反复播放的歌曲向量聚合成一个用户兴趣表示 $u$。一个最常见的做法是把若干已选歌曲的嵌入做平均或加权平均：

\[u=\frac{1}{N}\sum_{i=1}^{N} e_i\]

随后，对候选歌曲 $s_j$ 计算它与用户兴趣向量的相似度，例如余弦相似度（Cosine Similarity）：

\[\mathrm{score}(u,s_j)=\cos(u,e_j)\]

得分越高，说明该歌曲与用户已选择歌曲在嵌入空间里越接近，也就越可能在风格、主题、情绪或语义上相似。于是，如果用户最近连续选择了几首节奏轻快、独立流行、以失恋叙事为主题的歌曲，系统就会优先召回在向量空间中靠近这些歌曲的其它曲目，而非只依赖“同歌手”或“同标签”的硬规则。

这类推荐的关键核心是把“用户喜欢什么”和“歌曲像什么”统一表示到同一嵌入空间，再用最近邻搜索完成相似歌曲推荐。工程上它通常对应双塔模型（Two-Tower Model）或文本/多模态嵌入模型：一侧编码用户历史，一侧编码候选歌曲，训练时用点击、收藏、完整播放等行为构造正样本，再配合负采样或对比学习把用户喜欢的歌曲拉近、不感兴趣的歌曲推远。这样得到的推荐结果，本质上是基于语义相关性而非基于精确关键词匹配。

基于表示模型的分类

一条常见路线是把 BERT、RoBERTa、DeBERTa 这类表示模型（Representation Model）当作固定特征提取器（Feature Extractor）使用：先用预训练基座把输入文本编码成一个向量表示，再在其上训练一个轻量分类器，而不继续更新基座模型参数。这种做法的重点核心是直接利用其已经学到的通用语义表示。

工程上，一个典型流程是：先冻结（Freeze）BERT 系列底座的全部参数，只保留前向编码功能；然后对每条输入文本提取句级表示 $h\in\mathbb{R}^{d}$，这个表示可以取自

[CLS]

位置，也可以取池化后的整句向量；最后在 $h$ 之上训练一个分类器。若用逻辑回归（Logistic Regression）或等价的线性 softmax 分类头，则可写成：

\[z=Wh+b,\quad p(y=k\mid x)=\frac{e^{z_k}}{\sum_{j=1}^{K}e^{z_j}}\]

这里 $W$ 与 $b$ 是新训练的分类器参数，而 BERT 底座参数保持不变。这样做的优点是训练成本低、显存压力小、过拟合风险更可控，也便于把同一个表示底座复用到多个小任务上。代价是分类边界完全依赖预训练表示的可分性：如果任务与通用语料差距较大，或标签语义非常细，冻结底座通常不如继续微调主干模型灵活。

基于嵌入模型的分类

与此相近的还有基于嵌入模型（Embedding Model）的分类。它的做法更直接：先用 SBERT、BGE、E5、GTE 或 text-embedding 一类嵌入模型，把整段文本映射成一个句向量 $e(x)\in\mathbb{R}^{d}$；然后直接在这个嵌入向量后面接一个分类器，例如逻辑回归、线性分类器或一个很小的 MLP，学习从嵌入空间到类别空间的映射。

若使用最简单的线性分类器，这条路线在形式上与前面的表示模型分类并没有本质区别，仍然可以写成

\[z=We(x)+b\]

不同之处不在“后面接不接分类器”，而在于前面的底座向量是怎么来的：表示模型通常是为理解类任务设计的上下文化表示；嵌入模型则更强调在向量空间中保持语义距离结构，使相似文本彼此接近、不相似文本彼此远离。因此，基于嵌入模型的分类与基于表示模型的分类，主要区别在底座优化目标而非分类头形式。表示模型更偏向判别式理解，输出表示通常更适合直接服务闭集分类、序列标注和细粒度 NLU；嵌入模型更偏向语义检索与相似度结构，优势在于跨任务复用、向量检索兼容性和“分类 + 召回”一体化。

工程上可以把两者概括成一句话：表示模型分类强调“先得到适合判别的表示，再做分类”；嵌入模型分类强调“先得到适合度量的向量，再在其上学习分类边界”。如果任务是标准闭集分类、标签边界清晰、追求最高分类精度，BERT 一类表示模型通常更自然；如果系统本身已经以 embedding 为中心，例如既要分类又要相似检索、聚类、召回或原型匹配，那么直接在嵌入模型后接分类器会更统一，也更容易复用同一套向量基础设施。

基于嵌入模型的聚类

嵌入模型（Embedding Model）的另一条典型用途是文本聚类（Text Clustering）。代表性方法如 BERTopic：先用句向量模型把文档映射到嵌入空间，再做降维与聚类，最后从每个簇中抽取代表词或主题词。这里真正决定簇结构的并不只有嵌入模型；降维模型与聚类模型本身仍然是经典机器学习方法。

一个通用流程通常分成三步：

使用嵌入模型将文档转换为向量表示，例如把每篇文档编码为 $e(x_i)\in\mathbb{R}^{d}$。
使用降维模型把高维向量压缩到更适合聚类的低维空间。
使用聚类模型在降维后的表示上得到簇标签，或进一步识别离群点。

降维阶段的典型选型是 PCA（Principal Component Analysis）或 UMAP（Uniform Manifold Approximation and Projection）。PCA 是线性方法，适合作为快速、稳定的基线；UMAP 更擅长保留非线性邻域关系与整体簇结构，因此在文本聚类里往往更常见。工程上常把 UMAP 先降到 5 到 10 维，作为后续聚类的默认起点；这个范围通常已经足以保留主要结构，同时明显降低噪声与计算成本。

UMAP 的一些常见设置也会直接影响聚类形状。

min_dist

控制低维空间中点与点允许靠得多近；若把它设为 0，低维表示通常会形成更紧密的簇。距离度量常设为

cosine

，因为文本表示在高维空间中更常体现为方向相似性；无论是高维稀疏词向量还是高维稠密嵌入，欧氏距离都容易出现判别力下降的问题。

聚类阶段则常见 K-means 或 HDBSCAN。K-means 适合簇数大致已知、簇形状相对规则的场景；HDBSCAN 更适合密度不均、簇形状复杂，或希望显式识别“不属于任何簇”的离群文档。BERTopic 之所以常见，正是因为它把“嵌入模型 + UMAP + HDBSCAN + 主题表示”这条工程链路封装成了一个相对稳定的默认方案。

基于嵌入模型的主题建模

基于嵌入模型的主题建模（Topic Modeling）与上一节的聚类路线一脉相承：先把文档映射为向量，再做降维与聚类；不同之处在于，这里还要继续回答“每个簇到底在谈什么”。因此，在聚类结果之上还需要增加一个主题提取（Topic Extraction）步骤，为每个簇生成一组能概括其内容的主题关键词。

这一步的典型做法是 c-TF-IDF（class-based TF-IDF）。它核心是先把同一簇里的所有文档拼接成一个“类别文档”，再统计词在该簇中的相对频率，并结合它在其它簇中的区分度计算权重。于是，一个词若在当前簇中频繁出现、但在其它簇中并不常见，它的 c-TF-IDF 权重就会更高；反之，那些在所有簇里都常见的泛化词，其权重会被压低。这样提取出来的关键词，描述的是“这个簇相对于其它簇最有代表性的内容”，而非“整个语料里最常见的词”。

从工程流程看，这条路线可以写成四步：先用嵌入模型得到文档向量，再用降维与聚类得到簇，随后用向量化器统计每个簇中的词项分布，最后用 c-TF-IDF 为每个簇生成主题词。BERTopic 的核心价值就在于，它把“嵌入模型 + UMAP + HDBSCAN + c-TF-IDF”串成了一个统一框架，因此既保留了 embedding 在语义空间中的表达能力，也保留了词袋统计在主题解释上的可读性。

不过，c-TF-IDF 产出的关键词顺序仍然主要依赖词频统计与类间区分度，语义相关性未必总是最优。于是 BERTopic 又提供了主题表示微调（Representation Tuning）机制：先用 c-TF-IDF 生成候选关键词，再对这些候选词做重新排序。这里最常见的表示模型之一是 KeyBERTInspired。它会先利用 c-TF-IDF 为每个主题挑出一组代表性文档，把这些代表文档聚合成该主题的语义表示，再用与文档编码相同的嵌入模型去计算“候选关键词与主题表示”的语义相似度，最后按相似度重排关键词顺序。在实践中，这种表示方式通常还能进一步压低停用词在最终主题表示中的占比，使主题词列表更干净。

因此，KeyBERTInspired 并非重新做一遍聚类，也并非替代 c-TF-IDF；它更像是在 c-TF-IDF 给出的候选集之上增加一层语义重排序。这样做的结果通常是：靠前的主题词更连贯、停用词和噪声词更少，主题标签也更接近人类对“这个簇在讲什么”的直觉。对 BERTopic 而言，这一步属于主题表示优化，而非主题发现本身。

即便经过上述处理，主题关键词之间仍可能存在明显冗余，例如多个高频近义词反复出现在同一主题里。此时还可以进一步使用最大边际相关性（Maximal Marginal Relevance, MMR）做关键词多样化：它在选择下一个关键词时，同时考虑“该词与主题表示有多相关”以及“该词与已经选中的关键词有多相似”，从而找到一组彼此具有差异性、但仍然和目标文档或主题表示保持相关的关键词。于是，MMR 的作用核心是让最终主题表示更分散、更少重复，也更适合人工阅读与命名。

在此基础上，还可以再走一步：把已经得到的一组主题关键词交给生成模型（Generative Model），例如 FLAN-T5，让模型基于这些关键词生成一个更短、更自然的主题标签或一小段摘要式说明。这样做把“关键词列表”进一步压缩成更适合展示给用户阅读的主题名称。

基于嵌入模型的零样本分类

嵌入模型还可以直接用于零样本分类（Zero-shot Classification）。做法是先把每个候选类别改写成自然语言标签描述，无需训练额外分类器，再把输入文本与这些标签描述同时编码到同一嵌入空间中，通过相似度完成类别判断。若影评任务只有“正面”和“负面”两类，就可以构造两个标签文本，例如“这是一条正面影评”和“这是一条负面影评”，然后分别计算影评向量与两个标签向量的余弦相似度：

\[\mathrm{score}_k=\cos(e(x),e(t_k))\]

其中 $x$ 是待分类影评，$t_k$ 是第 $k$ 个类别对应的标签描述。若 $\mathrm{score}_{\text{positive}}$ 高于 $\mathrm{score}_{\text{negative}}$，系统就把该影评判为正面评价。这个过程本质上是把分类问题改写为“文本与标签描述谁更接近”的相似度匹配问题。

这条路线的优点是部署快、几乎不需要任务专用标注数据，也不必重新训练分类头；只要标签语义写得足够清晰，就可以立刻在新任务上工作。它的代价同样直接：由于模型并未使用该任务的监督信号显式学习分类边界，零样本分类的准确率通常低于有标注数据时训练出的监督式分类器，尤其在标签定义细、类别边界接近、文本包含反讽或领域术语时更明显。

基于生成模型分类

另一条更轻量的工程路线是基于生成模型（Generative Model）做分类，即直接调用大语言模型（Large Language Model, LLM），通过提示词工程（Prompt Engineering）把分类任务表述为指令，例如要求模型在读完一段文本后只输出“正面”或“负面”。这种做法本质上是把分类看作条件生成：模型先理解输入，再生成最符合提示约束的类别标签。这里的“生成模型”不只包括 Decoder-only LLM；像 T5 这样的 Encoder–Decoder 模型，虽然结构上属于编解码器，也同样可以在不给额外训练的情况下，直接通过输入提示词完成分类，因此在使用方式上也可以视作这一类路线。

它的优点是上手快、改标签体系方便、对少样本或零样本任务尤其灵活；局限是输出稳定性、延迟和成本通常不如专门训练的分类器，而且类别边界是否清晰、提示词是否严格，会明显影响结果一致性。因此，这条路线更适合作为快速原型、弱标注工具或低频复杂任务的分类接口，而非高吞吐、强约束场景下的默认方案。

多模态模型

多模态模型（Multimodal Model）的主线，核心是不同模态如何进入同一套表示、同一套推理链路、同一套训练目标。从技术演进看，这条路线大致经历了四步：先有稳定的单模态编码器，再有跨模态对齐模型，然后发展出“视觉编码器 + 大语言模型”的连接式系统，最后才逐步走向原生多模态（Native Multimodality）。

阶段	核心做法	代表能力	主要局限
单模态编码器	分别把图像、文本、音频编码成各自表示	分类、检索、单模态理解	模态之间没有统一语义空间
对齐式多模态	用对比学习把不同模态映射到同一嵌入空间	图文检索、零样本分类	生成与复杂推理能力有限
连接式 VLM	视觉编码器输出特征，经连接器送入 LLM	看图问答、视觉对话、OCR 推理	融合发生在后端，仍有模态鸿沟
原生多模态	多模态尽量共享表示、主干与训练过程	更细粒度的跨模态理解与生成	训练成本、数据对齐和系统复杂度都更高

视觉编码器

ViT

ViT（Vision Transformer）本身并非多模态模型，因为它只处理图像，不直接处理文本、语音或视频。它更准确的定位是视觉编码器（Visual Encoder）或视觉骨干网络（Backbone）：把原始像素转换成可供下游检索、分类或跨模态建模使用的视觉表示。

ViT 的关键做法是把图像切成固定大小的 patch，再把每个 patch 视作一个视觉 token。每个 patch 先被展平，再经线性投影映射到统一维度的向量空间，最后叠加位置编码送入 Transformer。这样，二维图像就被改写成了一维 token 序列，Transformer 可以像处理文本序列那样处理图像局部块之间的关系。

因此，ViT 的意义不在于“它已经实现了多模态”，而在于它为后续的多模态系统提供了一个稳定、强大的图像侧前端。无论是 CLIP、BLIP-2 还是 LLaVA，一类很常见的路径都是：先让 ViT 之类的视觉编码器把图像变成高层特征，再考虑如何与文本模型对齐或融合。

多模态对齐

CLIP 与 OpenCLIP

第一代真正有代表性的多模态突破，核心是先把模态对齐。CLIP（Contrastive Language-Image Pre-training）的核心做法是：图像编码器与文本编码器分别输出向量，再通过对比学习（Contrastive Learning）让匹配的图文对更接近、不匹配的图文对更远离。这样，图像与文本就被压到同一嵌入空间中。

这种路线的价值非常直接。只要图像和文本已经进入同一向量空间，就可以做图文检索、文本检索图片、图片检索文本，以及把类别标签写成自然语言描述来完成零样本分类（Zero-shot Classification）。OpenCLIP 则把这条路线做成了可复现、可扩展的开源基础设施，因此在研究和工程里都比原始 CLIP 更常作为起点。

对齐解决了什么，没解决什么

对齐式多模态的贡献是打通跨模态语义空间。模型开始能够理解“这张图和这段文字在说同一件事”，而不再只是各自做各自的单模态任务。但它的能力边界也很清楚：对齐不同于复杂推理，更不同于自由生成。双编码器模型很擅长相似度匹配，却不天然擅长长链推理、细粒度问答和多轮对话。

因此，对齐式系统更像是在给多模态建模打地基。它先解决“不同模态能否进入同一个语义坐标系”这个问题，再把更复杂的生成与推理问题留给下一阶段的系统去解决。

视觉-语言模型

在多模态系统的下一阶段，重点从“把图文对齐”转向“让大语言模型真正看见图像并围绕图像说话”。这就形成了视觉-语言模型（Vision-Language Model, VLM）的主流范式：视觉编码器负责看图，语言模型负责生成，中间再用一个连接器（Connector / Projector）把二者接起来。

BLIP-2

BLIP-2 的方法论非常有代表性。它尽量复用两边已经训练好的单模态模型，而非从零联合训练整个多模态系统：视觉侧使用预训练视觉编码器，语言侧使用预训练大语言模型（Large Language Model, LLM），中间只训练一个较轻量的桥接模块。这样做的目的，是在保留两侧成熟能力的前提下，用较小成本建立跨模态接口。

这个桥接模块在论文中的标准名称是 Q-Former（Querying Transformer）。它通过一组可学习的 query，从视觉编码器输出的图像特征中抽取最适合语言模型消费的信息，再把这些压缩后的视觉表示投影到 LLM 的输入空间。它本质上解决的是“图像特征如何变成语言模型能理解的前缀表示”这个接口问题。

LLaVA

LLaVA（Large Language and Vision Assistant）把这条路线进一步推向“视觉对话”与“视觉指令遵循”。它通常采用视觉编码器提取图像特征，再通过投影层把视觉特征接入语言模型，然后用视觉指令微调（Visual Instruction Tuning）训练模型按图像与文本指令联合回答问题。这样，模型已经从做相似度匹配扩展到可以围绕图像展开问答、描述、解释与推理。

这类系统已经比 CLIP 更接近通用助手，但从结构上看，它仍然属于连接式多模态：图像先由视觉模型单独处理，文本再由语言模型主导生成，融合主要发生在后期接口层，而非从一开始就在统一主干里共同建模。

原生多模态

原生多模态（Native Multimodality）讨论的是多模态是否在模型内部形成统一的信息流。判断重点不在“支持几种输入”，而在输入表示、时间对齐、主干推理、输出链路和训练过程是否都尽量摆脱“先拆开、后拼接”的流水线。当前前沿系统已经把这个问题分成两条路线：一条偏理解与推理，例如 Gemini 与 Qwen Omni；另一条偏生成，例如 Seedance 这类原生音视频生成模型。

什么情况下才算“原生”

工程上，原生多模态通常核心是一组连续特征。系统越是在模型内部统一处理模态，越接近原生；越依赖外部桥接、先转文本再推理、先出文本再外接语音或视频模块，越接近连接式系统。

层面	连接式系统	更原生的系统
输入表示	图像、语音、视频先各自编码，再压缩成少量前缀特征送入 LLM	多模态 token 或 embedding 直接进入统一上下文，尽量减少外部转译
时间与空间对齐	对齐更多依赖外部模块或后处理	在模型内部显式建模时序、位置和跨模态同步关系
主干推理	视觉负责“看”，LLM 负责“说”，中间靠连接器传递摘要	不同模态共享更大的隐藏状态流或统一主干，跨模态约束在中间层持续传播
输出链路	文本作为中心中介，再外接 TTS、配音或视频模块	直接输出语音 codec、视觉 latent 或联合音视频表示
训练方式	先训单模态，再训桥接层	更多采用联合训练、端到端微调或统一后训练流程

统一表示与统一时间轴

原生多模态的第一层难点，是把不同模态改写成模型能共同消费的内部对象。图像相对容易，因为静态图像只需要处理二维空间；音频和视频更难，因为它们天然带有时间轴。模型既要知道“看到了什么”，也要知道“什么时候发生”，还要知道多个模态之间是否同步。

因此，当前更先进的系统不只做“把图像变成 token”这一步，还会显式处理跨模态时间对齐。例如在实时音视频交互场景中，视频帧和音频片段必须在同一时间轴上组织，否则模型很难稳定理解口型、说话节奏、环境声音与画面事件之间的对应关系。原生多模态在这里解决的已经核心是跨模态时空对齐。

统一主干与输出链路

更进一步的区别出现在主干网络和输出端。连接式 VLM 往往已经能把图像看懂，但输出通常仍然以文本为中心；若要说话，就再接一个语音模块；若要生成视频，再接另一套生成器。原生多模态希望把这条链路收进同一系统，让“理解图像”“围绕图像推理”“输出文本”“输出语音”“生成视频”之间的中间状态尽量共享。

这一步对语音和视频尤其关键。文本生成更多是离散 token 的自回归；自然语音需要兼顾内容、音色、韵律和实时延迟；视频生成则同时要控制空间结构、时间连续性、镜头运动和角色一致性。当前真正具有代表性的原生系统，往往会在输出链路上引入更专门的设计，而非把一切都压成单一路径。

当前代表模型怎么做

从公开资料看，当前最值得拿来理解原生多模态的代表，大致分成三类：理解优先的长上下文 omni 模型、端到端语音交互模型，以及原生音视频联合生成模型。生成侧里，Seedance 2.0 代表了技术报告完整、控制能力非常强的闭源工业路线；HappyHorse 1.0 则代表了近期受到高度关注的开源路线。

代表模型	更接近哪类原生能力	值得关注的架构点	说明了什么
Gemini 1.5 / 2.5	理解与推理优先	多模态 MoE、超长上下文、视频与音频直接进入同一推理上下文	原生多模态可以首先体现在统一感知与统一推理上，而不必先追求所有模态都直接生成
Qwen2.5-Omni / Qwen3-Omni	实时 omni 交互	交错音视频序列、时间对齐位置编码、Thinker-Talker、流式语音生成	原生多模态的难点会从“看见图像”转向“实时理解并自然说出来”
Seedance 2.0 / HappyHorse 1.0	原生音视频联合生成	前者强调统一多模态参考与编辑控制；后者强调统一 Transformer、联合音视频生成与开源部署	生成侧的原生多模态不仅要出画面，还要同时控制声音、时序同步、镜头连续性与工程可用性

Gemini 系列：理解优先的原生多模态

Gemini 路线的代表意义，在于它把“原生”首先落在统一感知与统一推理上。Gemini 1.5 技术报告已经把它定义为高效的多模态 MoE 系统，强调可以在百万级上下文中处理长文档、音频和长视频；Gemini 2.5 则进一步把思维链式推理、长上下文和多模态理解合到同一代模型中。这条路线说明：原生多模态并不只等于“模型会出语音或会生成视频”，更重要的是不同模态能否在同一个长上下文里被一起检索、比较、归纳和推理。

Qwen Omni：端到端实时交互

Qwen2.5-Omni 和 Qwen3-Omni 展示了另一种更彻底的做法：系统不仅统一感知文本、图像、音频和视频，还直接生成实时语音响应。其关键难点不在“多接几种输入”，而在音视频时间对齐与输出干扰控制。Qwen2.5-Omni 采用交错组织的音视频序列与时间对齐位置编码 TMRoPE，再用 Thinker-Talker 把“负责推理的语言主干”和“负责流式说话的语音输出链路”拆开但端到端协同；Qwen3-Omni 则进一步把这一路线升级到 MoE，并围绕首包延迟和 codec 级语音生成做了更强的流式优化。

Seedance 2.0 与 HappyHorse：生成优先的原生多模态

生成侧的原生多模态，目标已经核心是直接联合生成视频与音频。ByteDance 在 2026 年 2 月正式发布的 Seedance 2.0，把这一方向推进到更完整的工业化形态：统一的多模态音视频联合生成架构，同时支持文本、图像、音频和视频输入，并把参考、编辑、扩展、镜头控制与音视频同步放进同一系统。它解决的重点，是如何让复杂控制信号真正进入视频生成主干，而非只靠提示词描述一个大概方向。

HappyHorse 1.0 则体现了另一条值得关注的路线：更强调开源可部署与统一 Transformer 架构。公开模型页把它描述为 15B 参数、统一自注意力 Transformer、联合生成视频与同步音频，并突出 1080p、7 语种 lip-sync 和较快推理。和 Seedance 2.0 相比，它当前公开的技术透明度明显更低，缺少完整论文级技术报告，但它的重要性在于：原生音视频生成已经不再只是少数闭源大厂的能力，开源路线也开始逼近前沿体验。

因此，这两类模型放在一起看，技术含义很清楚。Seedance 2.0 更像“高控制度、强参考编辑、面向专业生产工作流”的路线；HappyHorse 更像“统一架构、快速推理、可开源落地”的路线。它们共同说明，视频生成已经从单纯比较单帧画质，转向比较时序稳定性、音视频同步、镜头叙事、可控性与部署形态。

为什么原生多模态更难

原生多模态的训练与部署成本明显高于连接式系统，原因并不神秘：它要处理的问题本来就更多。连接式 VLM 主要解决“视觉特征如何喂给 LLM”；原生系统还要额外处理时序同步、多模态采样率差异、输出链路异构、流式延迟、模态之间的训练平衡，以及更复杂的安全过滤。

难点	为什么更难
token / 序列爆炸	视频帧、语音片段和高分辨率图像会迅速放大上下文长度，训练和推理的注意力成本明显高于纯文本
跨模态同步	模型需要在内部保持“画面发生了什么”和“声音何时出现”之间的稳定对应，而非事后补对齐
输出异构	文本、语音 codec、视觉 latent 的统计结构不同，统一输出链路远比单一文本解码复杂
训练配比	文本数据规模通常远大于高质量音视频数据，若配比失衡，模型会重新退回“文本中心”的偏态系统
服务复杂度	实时语音和视频生成要求更低延迟、更稳定的缓存和更强的流式调度，远重于普通文本 API

这也是为什么连接式 VLM 仍然长期存在。它更容易复用成熟视觉编码器与 LLM，训练成本更低，部署链路更稳定。原生多模态代表的是能力上限更高的方向，而非所有场景都必须立即切换到的唯一范式。

图像与视频生成模型

图像与视频生成模型可以看作多模态生成的一条重要分支：输入通常是文本、图像或更复杂的条件信号，输出是图像或视频。它们处理的核心是“模型如何把条件约束转成可感知内容”。因此，它们和视觉-语言问答系统同属多模态，但核心目标不同。

DALL-E / Imagen

DALL-E 与 Imagen 都属于文本到图像（Text-to-Image, T2I）生成路线的代表。工程上更关心的是文本-图像对齐、提示词控制、风格一致性与安全过滤，而非单一的像素级指标。它们的共同点是：都把文本条件作为生成控制信号，让图像生成过程服从语言约束。

Stable Diffusion

Stable Diffusion 则代表开源扩散模型（Diffusion Model）路线。它通常在潜空间（Latent Space）中进行扩散与去噪，再把潜变量解码回图像。它的工程意义尤其大，因为这条路线不仅支持文本生成图像，还容易叠加 LoRA、ControlNet、风格微调与本地部署，因此形成了非常完整的开源工作流生态。

视频生成模型

视频生成比图像生成多了一个真正困难的维度：时间。模型不只要把单帧画出来，还要保证人物身份、动作轨迹、镜头运动、物理连续性和叙事节奏在多帧之间保持稳定。因此，视频生成天然更接近原生多模态问题，因为它几乎总要同时处理空间、时间，进一步还可能处理语音、音乐和环境音。

这一方向的前沿已经从“无声文本生视频”继续推进到音视频联合生成。Seedance 2.0 已经把文本、图像、音频和视频都纳入同一个参考与编辑框架，并支持多段素材混合输入、多镜头音视频输出和更稳定的复杂动作场景；这意味着视频模型开始更像“可编排的生成引擎”，而不只是一次性吐出一段短片。HappyHorse 1.0 则把另一条路线推到台前：以统一 Transformer 和开源权重为卖点，把文本/图片到视频、同步音频和多语言 lip-sync 打包成更容易部署的开源系统。

这两条路线各有强调。前者更重多模态参考、编辑与专业创作控制，后者更重统一架构、开源可用性与推理效率。但它们都在说明同一件事：视频生成的比较标准已经从“画得像不像”升级成“是否能稳定控制时间、镜头、声音和角色一致性”。

类别	代表	优势	常见用途
商业 T2I	DALL-E / Imagen	效果稳定；产品化成熟	通用创作、商业生成、提示词控制
开源扩散	Stable Diffusion	可本地部署；可深度定制	LoRA、ControlNet、工作流编排、私有化部署
视频 / 音视频生成	Seedance 2.0、HappyHorse 1.0	同时建模时序、镜头、同步音频，以及更强的控制或部署能力	文本生视频、图像生视频、参考驱动编辑、原生音视频生成

语音模型

语音也是多模态体系中的重要一支。它一方面可以单独形成语音识别（ASR）和语音合成（TTS）任务，另一方面也可以作为更大多模态系统中的输入或输出模态，与文本和视觉共同构成统一交互链路。

语音识别（ASR）

自动语音识别（Automatic Speech Recognition, ASR）把音频转成文本。Whisper 是这一方向的代表之一。它本身更接近“语音到文本”的专用模型，而非完整的原生多模态基础模型；但它在工程上非常重要，因为许多语音助手和语音 Agent 系统的第一步，仍然是先把音频稳定转写为文本，再进入后续语言推理链路。

语音合成（TTS）

语音合成（Text-to-Speech, TTS）则反过来把文本转成音频波形。工程关注点通常包括音色一致性（Voice Consistency）、韵律（Prosody）、延迟控制与多说话人能力。对多模态系统而言，TTS 的意义不仅“朗读文本”，还把文本侧推理结果重新投射到语音模态，使系统具备完整的语音交互闭环。

从语音流水线到统一语音-语言模型

传统语音系统更像流水线：ASR 先把音频转写成文本，语言模型基于文本做推理，最后 TTS 再把文本回答合成为语音。原生多模态路线则倾向于减少这种层层转译，尽量让语音中的情绪、停顿、说话风格和实时交互信号直接进入统一推理链路。语音也因此逐步从“单独外接模块”变成原生多模态系统中的一等模态。

预训练与微调

对生成式大语言模型（Large Language Model, LLM）而言，训练通常核心是一个逐层收紧目标的三阶段过程。第一阶段是预训练（Pretraining）：让模型“学会语言”，掌握通用世界知识、语言统计规律与基础生成能力。第二阶段是监督微调（Supervised Fine-Tuning, SFT）：让模型“学会按指令做事”，把通用生成能力收束到更明确的任务格式、回复风格和指令遵循能力上。第三阶段是偏好对齐（Preference Alignment）：让模型“生成得更好”，在多个候选答案中更稳定地偏向人类认为更有帮助、更安全、更相关的输出。

这三步也对应了三种不同的模型状态。只做完预训练的模型通常称为基础模型（Base Model）：它拥有语言能力，但并不天然理解“用户现在真正想要什么”。经过监督微调后，模型开始具备指令理解与任务对齐能力，这一步常被称为指令微调（Instruction Tuning）。再往后，通过偏好对齐把模型行为进一步向人类目标、价值约束和回答偏好靠拢，这一步才构成更完整的对齐（Alignment）过程。当前主流通用助手模型，基本都建立在这条“预训练 → SFT → 偏好对齐”的标准范式之上。

阶段	核心目标	主要训练信号	产出能力
预训练（Pretraining）	学会语言与通用知识	大规模通用语料上的自监督目标，如 next-token prediction	基础语言建模能力，形成 Base Model
监督微调（SFT）	学会遵循指令与任务格式	高质量指令-回答、任务输入-输出配对数据	更稳定的指令理解、格式控制与领域适配能力
偏好对齐（Preference Alignment）	让输出更符合人类偏好	偏好排序、奖励模型（Reward Model）、RLHF / DPO 等对齐信号	更有帮助、更安全、更符合人类判断的回答

从工程视角看，微调的本质是在保留预训练通用能力的前提下，对模型进行二次开发。领域适配、风格约束、指令遵循、安全边界和用户体验优化，几乎都发生在预训练之后。微调是把“会说话的模型”变成“可用的产品模型”的关键环节。

模型训练经验法则

模型训练并非所有因素等权叠加的黑箱过程。不同决策对结果的影响层级并不相同：有些因素决定性能上限，有些因素决定能否稳定逼近这个上限，还有些因素更多只影响复现实验时的波动。把这些层级看清，比机械扩大超参数搜索空间更重要。

先看什么最决定结果

一个足够稳定的工程经验是：数据定义与数据质量决定上限，训练目标决定模型究竟被要求学什么，模型架构决定它擅长表达什么，超参数主要决定训练能否稳定地逼近该上限，随机种子则决定同一方案在局部范围内会波动多少。这五类因素都重要，但重要性的层级并不相同。

因素	主要作用	更像决定上限还是逼近速度	典型失败形式
数据质量与标注定义	决定模型到底能学到什么，以及标签边界是否自洽	更接近决定上限	噪声标签、分布偏移、长尾缺失、数据泄露使所有后续优化失真
训练目标 / 损失函数	决定模型被奖励什么、惩罚什么	同时影响上限与训练方向	目标错配导致模型学会与业务目标不一致的行为
模型架构	决定模型的归纳偏置、容量与可表达结构	更接近决定可达到的能力形态	用不合适的结构处理任务，容量再大也会吃亏
超参数与优化配置	决定训练是否稳定、是否高效收敛	更接近逼近速度与稳定性	学习率、batch、正则化失衡导致发散、欠收敛或过拟合
随机种子与运行噪声	决定实验波动与边缘差异能否复现	主要影响方差，不直接创造新能力	小数据任务里不同 seed 结果差异过大，误判方案优劣

数据优先于调参

在大多数真实任务里，数据问题比超参数问题更早构成瓶颈。标注标准不一致、负样本定义含混、类别长尾覆盖不足、训练集与线上分布偏移、重复样本过多、低信息密度样本占比过高，这些问题会直接抬低性能天花板。此时即使继续精细搜索学习率、dropout 或 warmup 步数，得到的往往也只是对现有缺陷数据的更精致拟合。

因此，训练停滞时最先应排查的通常核心是以下四件事：监督信号是否可信，训练数据是否覆盖真实决策边界，验证集是否真的代表部署分布，以及坏例是否能被归纳成明确的数据缺口。若这些环节存在结构性问题，数据集工程（Dataset Engineering）通常比额外的超参数搜索更有价值。

传统模型与 Transformer 的影响力分布

不同模型家族里，各因素的影响力分布并不完全一样。传统机器学习模型更依赖显式特征与模型假设是否匹配；Transformer 一类现代深度模型则更依赖数据规模、训练目标与训练配方是否成熟。两者的优化重点不能混成一套。

因素	传统机器学习 / 早期深度模型	Transformer / 大模型体系
数据	高质量特征与标签定义最关键；样本量常比模型复杂度更早成为瓶颈	数据规模、质量、清洗、去重与配比直接决定基座能力分布，影响通常最大
架构	模型假设差异很大，线性模型、树模型、核方法之间的选型影响巨大	同一家族成熟配方下，架构差异仍重要，但往往弱于数据分布与训练目标的主导作用
损失函数 / 目标函数	对分类、排序、回归、异常检测等任务边界影响直接，错配会立刻拉低效果	预训练目标、对齐目标和辅助损失的设计会深刻塑造能力形态，影响非常大
超参数	常更敏感，尤其是 SVM、Boosting、早期 RNN / CNN 等体系	现代 Transformer 在成熟优化器、残差连接和归一化配方下通常更宽容，但学习率、batch、warmup、weight decay 仍然是高杠杆参数
随机种子	在小数据、非凸训练或高方差集成场景中影响明显	大规模预训练中单次 seed 影响相对被平均，但小样本微调、PEFT 和 few-shot 任务中仍可能显著波动

对传统模型而言，常见主线是“先把特征、标签定义和模型假设对齐，再调超参数”；对 Transformer 而言，常见主线更接近“先把数据、目标和基座路线做对，再用一套成熟训练配方稳定落地”。因此，现代大模型工程里最常见的成功路径，核心是先建立可信基线，再围绕数据与目标做高价值迭代。

训练过程监控

训练是否健康，不能只看“loss 最后降到了多少”。真正有经验的训练监控，关注的是曲线形态、不同指标之间是否彼此一致，以及这些指标是否在给出同一种信号。例如训练损失下降但验证损失持续恶化，说明问题往往不在“模型没学到”，而在泛化；学习率正常但梯度范数突然飙升，则更像数值稳定性问题。

监控项	说明
训练损失（Training Loss）常见名称： loss 、 train_loss	反映模型在当前训练批次或当前 epoch 上的拟合误差。它通常应随训练推进整体下降，但短期抖动是正常现象。若长期不降，常见原因是学习率过低、数据管线异常、标签错误或目标函数设置不当。
验证损失（Validation Loss）常见名称： val_loss 、 eval_loss	反映模型在未参与参数更新的数据上的误差，是观察泛化状态的核心指标之一。训练损失下降而验证损失持续升高，通常意味着过拟合、分布不一致，或训练目标与评估目标之间存在错配。
验证指标（Validation Metric）常见名称： val_accuracy 、 eval_f1 、 val_auc 、 eval_bleu	用于直接衡量任务目标是否改善。分类任务常看 Accuracy、F1、AUC，生成任务常看 BLEU、ROUGE、Win Rate 或人工偏好指标。它与验证损失应结合解读，因为 loss 变差而任务指标稳定，往往意味着概率校准恶化而非决策边界崩溃。
Token 级准确率（Token-level Accuracy）常见名称： token_accuracy 、 eval_token_acc 、 eval_mean_token_accuracy	衡量验证集上 token 级别的预测正确率，常用于自回归语言模型、CoT 生成任务和结构化生成任务。它比整序列 loss 更贴近“模型是否持续生成更多正确 token”，尤其适合观察答案 token 或关键推理片段是否在变好；但它仍然不能完全替代任务级正确率，因为不同等价表达、长度差异与标点格式都可能影响统计结果。
学习率（Learning Rate）常见名称： lr 、 learning_rate	表示当前优化步长，是判断训练是否按预期执行 warmup、衰减或重启调度的关键参考。许多“训练突然变坏”的问题，本质上来自学习率曲线与预期不符，例如 warmup 未生效、scheduler 配错或恢复训练时学习率状态丢失。
梯度范数（Gradient Norm）常见名称： grad_norm 、 gradient_norm	表示当前一步所有可训练参数梯度向量的 L2 范数，也就是“这一步模型想更新多大幅度”。它稳定在合理范围通常说明训练平稳；若突然飙到很大，常提示梯度爆炸、异常 batch 或数值不稳定；若长期极小，则可能是梯度消失、学习率过低或大部分参数几乎没有被更新。
参数范数（Parameter Norm / Weight Norm）常见名称： param_norm 、 weight_norm	反映模型权重整体尺度。它不像梯度范数那样高频用于日常看板，但在长训练或大模型微调中很有用。若参数范数异常膨胀，常提示权重衰减过弱、优化不稳或 logit scale 正在失控。
步耗时（Step Time / Iteration Time）常见名称： step_time 、 iter_time 、 time_per_step	表示每一步训练耗时，是判断吞吐和系统瓶颈的重要指标。若步耗时突然上升，常见原因包括数据加载阻塞、远程存储抖动、NCCL 通信问题、动态 padding 失控或某类样本序列长度突然变长。
吞吐量（Throughput）常见名称： samples_per_second 、 tokens_per_second 、 it/s	反映单位时间内处理的数据量，是评估训练效率和成本的核心指标。吞吐下降而 loss 曲线形态不变，通常说明问题在系统层；吞吐下降且梯度统计异常，则可能是训练图、batch 组成或显存压力同时发生了变化。
显存占用（GPU Memory Usage）常见名称： gpu_memory 、 memory_allocated 、 max_memory_reserved	用于观察 batch size、序列长度、激活检查点、KV 缓存或 mixed precision 设置是否按预期生效。显存占用逐步爬升且不回落，往往提示内存泄漏、缓存未释放、日志持有张量引用，或某些框架回调在累积中间状态。
数值稳定性信号（Numerical Stability）常见名称： loss_scale 、 overflow 、 nan_count	在混合精度训练里尤其重要。若频繁出现 overflow、loss_scale 持续下降，或日志中出现 NaN/Inf，问题通常来自学习率过高、梯度异常、算子数值不稳或输入样本存在极端值。它们往往是训练真正崩坏之前最早出现的预警信号。

其中，grad_norm 常被误读成“某层梯度大小”或“loss 的导数值”。更准确地说，它是当前这一步所有可训练参数梯度拼成一个大向量后的 L2 范数，因此表示的是整体更新冲动的强弱。若训练初期较大、随后回落并稳定在适中区间，通常是健康现象；若突然从稳定区间跃升到极大值，则应优先排查异常 batch、学习率、混合精度溢出与梯度裁剪是否失效。

grad_norm 怎么理解

梯度范数（Gradient Norm）的标准写法是把所有可训练参数的梯度看成一个整体向量，再计算这个整体向量的 L2 范数：

\[\mathrm{grad\_norm}=\left\|\nabla_\theta L\right\|_2=\sqrt{\sum_i \left\|g_i\right\|_2^2}\]

其中，$\theta$ 是所有可训练参数，$L$ 是当前 batch 或当前累积步对应的损失函数，$g_i$ 是第 $i$ 个参数张量上的梯度。这个值越大，表示当前 batch 诱导出的参数更新方向越“用力”；这个值越小，表示当前 batch 对参数的推动越弱。它描述的是更新强度，不直接等同于模型好坏，也不等同于验证集效果。

曲线形态	常见含义	优先排查
训练初期偏大，随后下降并进入稳定区间	模型从随机或预训练参数出发，早期需要较大修正；进入稳定区间后，优化器开始围绕较平滑的区域更新。	通常属于健康信号，继续结合 loss、验证指标和学习率曲线观察。
某一步突然尖峰，随后 loss 也变成 NaN/Inf	更像梯度爆炸、异常 batch、标签异常、输入极端值或混合精度溢出。	检查该 batch 的样本、学习率、loss scale、梯度裁剪阈值、序列长度分布和数据预处理。
长期接近 0，训练 loss 也几乎不动	更像学习率过低、梯度消失、参数被冻结、loss 没有正确连接到模型输出，或 AMP 下小梯度被下溢。	检查可训练参数列表、requires_grad、optimizer 参数组、loss.backward 是否执行、GradScaler 状态。
grad_norm 稳定，但验证指标持续恶化	数值更新本身可能平稳，问题更可能来自过拟合、数据分布错配或停止指标选择不当。	检查验证集分布、early stopping 指标、正则化、数据泄漏与任务指标。
grad_norm 跟学习率同步出现异常拐点	常见于 warmup、scheduler、resume 训练状态恢复错误，或梯度累积步数改变后未同步调整学习率。	检查 scheduler step 粒度、global_step、optimizer state、恢复训练时的 lr 与 warmup 位置。

梯度裁剪（Gradient Clipping）和

grad_norm

密切相关。按范数裁剪时，系统会先计算当前梯度的总范数；若它超过阈值 $c$，就把整组梯度按比例缩小到阈值附近：

\[g \leftarrow g\cdot \frac{c}{\max(\left\|g\right\|_2,c)}\]

其中，$g$ 表示所有梯度拼成的整体向量，$c$ 是裁剪阈值。这个操作不会改变梯度方向，只会限制更新幅度。因此，日志里同时记录

grad_norm

和是否触发裁剪，可以区分“训练本来平稳”和“训练靠频繁裁剪勉强压住”。如果几乎每一步都触发裁剪，通常需要重新审视学习率、batch 组成、loss 尺度或模型初始化。

一条实用经验是：不要孤立解读单个监控项。训练健康与否，通常要联立观察“训练损失、验证损失、验证指标、学习率、梯度范数、吞吐和显存”这几条曲线。只有当这些信号彼此一致时，结论才可靠；若它们相互矛盾，真正的问题往往就藏在这种矛盾里。

Epoch 数与训练步数如何判断

一个极常见的问题是：如果训练集已经很大，例如有 200 万条样本，是否 1 个 epoch 就一定够了。答案是否定的。epoch 数从来并非脱离任务、模型容量、batch size 和学习率调度单独成立的“固定真理”。数据量很大时，重复看同一批数据的边际收益确实会下降；但这并不自动意味着“只看一遍就已经充分收敛”。真正该判断的，核心是模型在当前 step 数、当前噪声水平和当前优化配方下，是否已经把这批数据中的稳定规律吸收进去。

从优化角度看，epoch 表示“把整个训练集完整扫过几遍”，而训练真正发生更新的基本单位是 step。若训练集大小为 $N$，全局 batch size 为 $B$，则每个 epoch 的更新步数近似为

\[\text{steps per epoch}\approx \left\lceil \frac{N}{B}\right\rceil\]

这条式子解释了为什么“同样是 1 个 epoch”，训练强度可能完全不同。若 $N=2{,}000{,}000$ 且 $B=2{,}048$，那么 1 个 epoch 约等于 977 步；若 $B=128$，则 1 个 epoch 已经接近 15625 步。前者可能连 warmup 和衰减都还没完全展开，后者却已经给了优化器大量迭代机会。因此，真正需要关注的是总更新步数是否足够、学习率曲线是否有足够空间完成收敛，而非孤立地看 epoch 数字本身。

什么时候 1 个 epoch 可能已经够了

当数据量相对模型容量已经非常充足，或者任务本身建立在强预训练基座之上时，1 个 epoch 确实可能足够。最典型的例子是大语言模型预训练和大模型微调。预训练阶段若数据规模巨大，重复多次扫同一语料的收益会迅速递减，甚至更容易把模型推向记忆高频样本而非继续扩大有效覆盖；微调阶段若基座已经很强，而 200 万样本又足够多，1 到 2 个 epoch 往往已经能把任务信号写进模型。

这种情形之所以成立，核心是因为模型在第一轮扫描中就已经见到了足够多的新模式，额外重复的边际知识增量开始下降。换一个表述，真正够用的核心是“这 1 个 epoch 已经包含足够多有效、不同且信息密度高的更新”。

什么时候多几个 epoch 仍然有必要

相反，即使样本数已经达到百万级，多 epoch 仍然可能有必要。第一种情形是模型容量很大、任务本身又不只是表面分类，而需要模型充分吸收细粒度规律；此时 1 个 epoch 可能只是让模型“看过”，还未真正“消化”。第二种情形是 batch size 很大，导致每个 epoch 的 step 数偏少，学习率调度甚至还没完全展开，训练就已经结束。第三种情形是数据噪声较大或任务边界本身较模糊，多几轮迭代有助于模型在不同 mini-batch 组合中逐步稳定参数，而非过度受一次随机采样影响。

从优化器视角看，多 epoch 的价值不只是“重复看数据”，还包括让随机梯度下降在更多 mini-batch 路径上反复修正参数。一次 epoch 中，每个样本通常只参与一次梯度更新，但 SGD 的更新方向本身带噪声；多轮迭代使优化器有机会在不同 batch 组合下持续磨平这种噪声，更接近一个稳定解。

真正的权衡：利用率与过拟合

多跑 epoch 的好处是提高数据利用率，坏处则是重复过度后更容易过拟合。这里的过拟合并不一定表现为“训练损失不再下降”，更常见的是训练损失持续变好，而验证损失、验证指标或校准状态开始恶化。对去重不充分的数据，这个问题会更严重：重复样本本身已经降低了有效样本量，再叠加多 epoch，就会把模型进一步推向记忆。

因此，epoch 数的合理区间通常核心是存在一个任务相关的甜蜜点。预训练里这个甜蜜点往往很靠前，因为数据足够大、重复收益低；中小模型从头训练时甜蜜点通常更靠后，因为模型需要更多轮次才能把有限数据中的模式真正吃透；大模型微调和 SFT 则常介于二者之间。

场景	更常见的 epoch 区间	为什么
大规模预训练	常接近 1，或不足 1 到 2	数据覆盖极广，重复收益下降快，更看重新 token 覆盖而非反复回看
大模型监督微调 / 指令微调	常见 1 到 3	基座能力已强，过多重复更容易带来风格过拟合、遗忘或行为退化
分类 / NER / 中等规模任务微调	常见 2 到 5	需要多轮收敛，但又必须严防验证集开始转坏
中小模型从头训练	常明显高于 5，甚至更多	模型需要靠多轮迭代逐步建立表示，单轮往往不够吸收规律

最后仍然要看验证曲线

所有经验法则最终都应回到验证集信号。若训练损失持续下降，而验证损失 $\texttt{val\_loss}$ / $\texttt{eval\_loss}$ 不再下降甚至开始上升，就说明继续增加 epoch 很可能只是在拟合训练集细节。相反，若训练到 1 个 epoch 时验证损失和验证指标仍在稳定改善，那么因为“样本很多”就强行提前停止，反而可能让模型欠收敛。

Epoch 1: train_loss=2.1  val_loss=2.3
Epoch 2: train_loss=1.8  val_loss=2.0
Epoch 3: train_loss=1.5  val_loss=1.9
Epoch 4: train_loss=1.2  val_loss=2.0

这类曲线就是最典型的判断依据。前 3 个 epoch 中，训练损失与验证损失同步下降，说明模型既在学习训练集，也在改善泛化；到第 4 个 epoch，虽然

train_loss

还在继续下降，但

val_loss

已经从 1.9 回升到 2.0，信号已经转向“继续记住训练细节，而非继续学到可泛化规律”。这时更合理的做法通常是在第 3 个 epoch 附近 early stop，或回滚到验证集表现最好的 checkpoint。

上文已经系统列过训练监控项，这里只强调一个更容易被误用的原则：early stopping 的判断不能死板地绑定单一指标。停止准则必须跟任务目标、模型架构和损失函数对齐。对 BERT 一类 Encoder-only 模型的二分类任务，若最终部署关心的是固定阈值下的分类正确率、召回率或 F1，而非输出概率本身是否校准，那么 checkpoint 选择往往应优先盯住

val_f1

或

val_acc

，而不能仅凭

val_loss

上升就立刻停止。

Epoch	train_loss	val_loss	val_acc	val_f1	解读
1	0.4106	0.3122	87.1%	0.8994	首个可用 checkpoint
2	0.2878	0.2461	90.8%	0.9250	验证指标同步改善
3	0.1914	0.3646	90.0%	0.9165	val_loss 反弹，但任务指标只是小幅震荡
4	0.1059	0.4341	91.4%	0.9314	val_f1 创新高，应保存

这类曲线在二分类里并不少见。若损失函数采用二元交叉熵（Binary Cross-Entropy, BCE）或交叉熵（Cross-Entropy），那么

val_loss

衡量的是概率分布与标签的一致性，对“模型是否越来越自信”极其敏感；而

val_f1

衡量的是阈值后的离散决策结果。模型进入后期时，logit 可能变得更极端，导致概率校准变差、损失上升，但只要决策边界仍在朝正确方向移动，F1 仍然可能继续提升。

因此，在这类 BERT 二分类任务中，更合理的策略通常是：把 early stopping 的耐心值绑定在

val_f1

、

val_acc

或业务主指标上，而把

val_loss

主要当作校准与过度自信的辅助信号。只有当任务需要直接使用概率分数做路由、排序、拒识或温度缩放校准时，

val_loss

才应重新上升为主导停止准则。

在 CoT（Chain-of-Thought）生成任务里，这个问题会更明显。更常见的情况是

eval_loss

覆盖的是整条推理链与答案 token 的交叉熵；而推理链本身往往存在大量等价表达，写法稍有变化就会改变 loss，却未必伤害最终答案质量。于是就会出现这样一种典型背离：

eval_loss

在后期微涨，但

token_accuracy

、答案正确率或下游分类指标仍继续上升。例如在某次早停patience=1的训练任务中：

模型

最佳

eval_loss

后续现象

更合理的解读

0.8B / 2B / 4B / 9B 同组 CoT 训练

普遍在 epoch 3 附近达到最低

epoch 4 时

eval_loss

只微涨 0.01 到 0.02，但

token_accuracy

仍继续上升

更像早停准则过紧，或停止指标与任务目标错配，而非已经进入明显过拟合

这类现象尤其容易误伤大模型或较晚才兑现能力的配置。若 9B 模型的绝对

eval_loss

在所有尺寸中最低，却因为

patience=1

且过度依赖

eval_loss

而被提前截断，那么“9B 没赢 4B”并不能直接推出“9B 欠容量”。更稳妥的解释，往往是停止准则先砍掉了它后续 1 到 2 个 epoch 的收益。

因此，还要把三个容易混淆的判断分开。欠拟合（Underfitting）是现象层描述，表示训练集和验证集都做不好；欠容量（Undercapacity）是成因层判断，表示模型或可训练适配器的表达能力确实不够，导致训练误差下不去；而停止准则误判则是监控层问题，表示模型本来还在朝任务目标变好，却被不合适的指标提前停掉。

状态	常见信号	更像该怎么处理
欠拟合	训练集和验证集指标都偏低，二者差距不大；继续训练短时间内也上不去	优先查训练是否充分、特征是否有效、目标是否合理
欠容量	训练 loss 本身下不去，训练指标长期受限；增大模型尺寸、LoRA rank 或可训练模块后，训练集与验证集一起改善	增加表达能力，或放宽可训练参数写入范围
停止准则误判	eval_loss 微涨，但 token_accuracy 、F1 或下游任务指标仍继续上升	放宽 patience ，并把 early stopping 绑定到真正代表任务成败的指标

因此，更可靠的工程结论核心是：先根据任务类型给出一个合理初值，再把停止准则绑定到真正代表任务成败的验证信号上。epoch 只是外层计数单位，停止条件必须服务于任务目标，而非机械服从某一条曲线。

超参数的正确投入边界

超参数仍然重要，但它们最主要的作用通常是把一个合理方案从“训不动”推到“训得稳”，再从“训得稳”推到“训得更高效”，而非凭空创造数据与目标之外的新能力。学习率、batch size、warmup、weight decay、dropout、梯度裁剪与调度策略都属于高杠杆参数，因为它们直接影响优化轨迹；但一旦进入成熟配方附近，继续做大规模穷举搜索，边际收益往往迅速下降。

因此，工程上更强调经验调参（Empirical Baselines）。先从社区已验证的默认范围起步，再围绕少数真正高杠杆参数做小范围、可解释的搜索，通常比无约束网格搜索更高效，也更不容易把验证集偶然性误判成模型能力提升。若一个方案必须依赖极其苛刻的超参数才能成立，它通常也更难在新数据、新种子和新硬件上稳定复现。

随机种子、运气与实验纪律

随机种子并非主导因素，但也绝并非噪声到可以忽略的细节。初始化、数据打乱顺序、负样本采样、dropout 路径和混合精度下的数值非确定性，都会让两次训练出现差异。数据越少、任务越难、可训练参数越多，这种波动通常越明显。小样本微调、few-shot 提示学习、PEFT 与不平衡分类任务，都经常出现“只换一个 seed，指标就有明显起伏”的现象。

因此，实验纪律至少应包括三点：第一，重要结论不要基于单次运行下判断；第二，对关键方案记录 seed、数据切分、依赖版本和硬件环境；第三，若不同 seed 方差已经接近方案之间的提升幅度，就不应把这点差异解读为方法突破。工程上真正可信的改进，应当在多次运行、不同切分或更接近真实分布的验证下仍能站住。

一条实用顺序

若把训练优化压缩成一条实用顺序，通常是：先校正任务定义与评估指标，再修数据分布与标签质量，然后确定模型家族与训练目标，接着使用成熟经验配方建立基线，最后才对少数关键超参数做有节制的搜索。这个顺序并不保证一步到位，但它能最大限度避免把大量算力消耗在低回报环节上。

预训练（Pre-training）

数据收集、清洗与配比

预训练首先是一条数据管线（Data Pipeline）。对大语言模型而言，模型最终学到什么、遗漏什么、偏向什么，首先取决于它看到了哪些语料，以及这些语料在进入训练前经历了怎样的筛选、清洗与混合。训练配方当然重要，但在大规模预训练里，数据分布本身往往比单个优化技巧更具决定性。

第一步通常是收集训练数据。来源往往包括公开网页、百科、书籍、论文、新闻、论坛、代码仓库、问答站点、对话语料以及经过授权的专有文本。不同来源的作用并不相同：网页和百科提供广覆盖的语言统计与世界知识，代码语料强化程序生成与形式化模式，论文和书籍提升长程结构与知识密度，对话数据则更贴近后续助手形态。预训练阶段谈“知识注入”，最底层的载体首先就是这些原始语料源。

第二步是数据清洗（Data Cleaning）。原始互联网语料通常充满模板页、导航栏、广告、乱码、截断文本、语言混杂、低信息密度页面和大规模重复内容，直接拿来训练只会把噪声写进模型。常见清洗动作包括：语言识别、文本抽取、HTML / Markdown 噪声剥离、异常字符过滤、长度过滤、文档质量评分、敏感内容过滤，以及近重复或完全重复文档去除。它的目的核心是把明显无价值、重复或高风险的部分尽量挡在训练集之外。

第三步是数据去重与质量过滤。对现代大模型来说，重复数据并不只是浪费 token 预算，还会放大训练分布中的头部模式，使模型更容易过拟合少数高频模板、降低有效数据多样性，并污染后续评测。于是，工程上通常既要做文档级去重，也要做段落级、片段级甚至近似语义去重；同时配合质量分类器、启发式规则或小模型过滤，把低信息密度、机器生成垃圾、SEO 内容农场和错误密集文本压低占比。

第四步是数据配比（Data Mixture）。预训练通常核心是会显式控制不同来源、语言、领域和模态的采样比例。原因在于：不同语料的规模差异极大，若完全按原始数量采样，网页噪声和头部来源往往会淹没更高质量但规模更小的数据，例如书籍、论文和代码。数据配比的本质，是决定模型应该把多少训练预算分配给广覆盖、多少分配给高质量、多少分配给特定能力方向。

这种配比通常带来直接的能力权衡。代码比例升高，模型的程序生成和形式化推理往往更强，但自然语言对话风格未必同步变好；高质量书面语比例升高，模型的行文稳定性和知识密度往往改善，但口语互动和开放域覆盖可能下降；多语比例升高，则跨语言泛化更强，但单语极致性能未必最优。因此，数据配比核心是预训练目标函数之外最重要的能力分配器之一。

第五步才是把整理后的语料送入真正的训练阶段。前面已经做过收集、清洗、去重和配比，后面的“初期训练、中期训练、退火训练”才有明确的数据基础：初期通常强调大规模广覆盖混合，中后期再逐步提高高质量数据、特定能力语料或长上下文样本的权重。阶段化训练并非独立于数据工程存在的，它建立在先构造可控数据分布，再按阶段调整采样分布这一前提之上。

阶段化训练与知识注入

现代大语言模型的预训练，通常并非把同一种数据、同一种上下文长度和同一组优化超参数一路跑到结束，而更接近一种分阶段课程学习（Curriculum Training）。所谓“知识注入”，本质上也核心是通过逐步调整数据分布、上下文长度、学习率和训练目标，让模型先建立通用语言统计骨架，再吸收更高质量、更长程或更专业的模式。

工程上常见的三段式可以概括为：

初期训练。这一阶段通常以海量、多样、相对较短的上下文为主，重点是尽快建立词法、句法、语义组合、事实共现与基础推理的统计骨架。之所以大量使用短上下文，是因为在标准注意力下，序列长度增加会显著抬高训练成本；在固定算力预算下，较短序列通常能换来更多 token 更新和更稳定的早期收敛。
中期训练（Mid-training）。当模型已经具备基本语言能力后，训练重点会从“广覆盖”逐步转向“高价值分布塑形”。这一阶段更常看到更严格过滤的高质量语料、代码、推理数据、专业领域语料，或逐步扩展的上下文长度。它的作用核心是把模型的能力重心推向更有用的区域，例如更强的代码能力、更稳的长程依赖、更贴近目标领域的表达分布。
退火训练（Annealing Phase）。这是预训练后段的精修阶段，通常伴随更小的学习率、更保守的更新幅度，以及更精选、更低噪声的数据混合。它的目标核心是收束参数、压低噪声影响、强化高质量模式，并把模型最终的能力形态稳定下来。很多现代配方会把更专业或更高质量的数据留到这一阶段，以获得更好的下游表现。

从“注入什么知识”的角度看，这三段关注的重点并不相同。初期训练主要注入广覆盖的语言统计、世界常识共现和通用结构先验；中期训练主要注入能力相关的分布偏好，例如代码、推理、长文档和领域语料；退火训练则更像把高价值知识和高质量行为模式做最后收束，使模型从“已经学会很多”走向“把重要能力学得更稳”。

长上下文能力也常在这一框架下被放到中后期处理。原因并不神秘：长上下文训练既昂贵，又更容易让优化目标与数据工程复杂化；如果在模型尚未建立稳定短程语言骨架时就大规模拉长序列，单位算力的有效学习信号往往并不划算。因此，很多训练配方会先用短上下文把基础能力打牢，再在中后段逐步扩展到更长上下文，或者单独追加一段上下文扩展训练。

因此，预训练阶段谈“知识注入”时，更准确的理解核心是按训练阶段逐步改变模型看到的分布与约束条件：先学会语言，再学会更有价值的语言分布，最后把这些能力收束成一个更稳定的基座模型。

自回归语言建模（CLM）

自回归语言建模（Causal Language Modeling, CLM）把文本建模为从左到右的条件概率连乘：给定前缀 $x_{ 预测下一个 token \(x_t$。训练目标是最小化 next-token 交叉熵：

\[\mathcal{L}_{\mathrm{CLM}}(\theta)=-\sum_{t=1}^{L}\log p_\theta(x_t\mid x_{

CLM 与 Decoder-only 架构天然匹配：因果 attention mask 保证模型只能看见历史 token，避免训练-推理不一致。绝大多数通用生成式大模型都以 CLM 为主目标。

Multi-Token Prediction（MTP）

多 token 预测（Multi-Token Prediction, MTP）是在 CLM 基础上的“监督信号加密”：除了预测 $x_{t+1}$，还额外让模型在同一隐藏状态上预测更远的未来 token（例如 $x_{t+2}$、$x_{t+3}$），从而在相同序列长度下产生更多训练信号。一个抽象写法是：

\[\mathcal{L}_{\mathrm{MTP}}(\theta)=-\sum_{t=1}^{L}\sum_{j=1}^{K}\log p_\theta(x_{t+j}\mid x_{

MTP 通常作为辅助损失（Auxiliary Loss）提升训练效率或长程规划能力；但推理阶段是否能“真正一次生成多个 token”取决于解码与验证策略，不能简单由训练目标推出。

掩码语言建模（MLM）

掩码语言建模（Masked Language Modeling, MLM）随机遮住输入中的一部分 token（替换为 $[\mathrm{MASK}]$ 或其他扰动），训练模型用双向上下文预测被遮住位置的 token。它是 Encoder-only 表示模型（如 BERT 系列）的典型预训练目标：

\[\mathcal{L}_{\mathrm{MLM}}(\theta)=-\sum_{t\in \mathcal{M}}\log p_\theta(x_t\mid x_{\setminus \mathcal{M}})\]

其中 $\mathcal{M}$ 是被 mask 的位置集合。MLM 的优势是能学到更强的双向表示，但它与生成式解码不天然一致，因此“理解类任务”更常用 MLM 预训练模型，“生成类任务”更常用 CLM。

对比学习预训练

对比学习预训练（Contrastive Pre-training）把“相似样本拉近、非相似样本推远”作为核心目标。它广泛用于句向量/图像-文本对齐等场景：例如 CLIP 用图像编码器与文本编码器产生表示，对匹配对最大化相似度；Sentence-BERT 等句向量模型也常用对比目标训练。

典型形式是 InfoNCE：对 batch 内正对（Positive Pair）与负对（Negative Pair）做 softmax，对每个 query 只奖励其匹配的 key：

\[\mathcal{L}=-\sum_{i}\log \frac{\exp(\mathrm{sim}(q_i,k_i)/\tau)}{\sum_{j}\exp(\mathrm{sim}(q_i,k_j)/\tau)}\]

其中 $\tau$ 是温度（Temperature），$\mathrm{sim}$ 常用余弦相似度或内积。

目标	代表架构	擅长	典型下游
CLM	Decoder-only	生成（Generation）	对话、写作、代码生成
MLM	Encoder-only	表示学习（Representation）	分类、匹配、序列标注、reranking
对比学习	Dual Encoder / 多塔	对齐与检索（Alignment/Retrieval）	Embedding、图文检索、聚类

继续预训练（Continual Pre-training）

领域适配

继续预训练（Continual Pre-training）位于“通用预训练”与“下游微调”之间。它不直接把模型改造成某个具体任务的分类器或助手，通常会先用目标领域的大规模无标注语料，对已经完成通用预训练的模型再训练一段时间，让参数分布、词汇统计、上下文共现和知识重心向目标领域迁移。对 Encoder-only 模型，这一步通常仍以掩码语言建模（Masked Language Modeling, MLM）为主；对 Decoder-only 生成模型，则通常继续做自回归语言建模（Autoregressive Language Modeling）。

它的核心价值是先让底座学会“这个领域怎样说话”，再让它学会“这个任务怎样输出”。若直接拿通用模型去做医疗、法律、金融、代码仓库、企业内部知识库等垂直场景的监督微调，模型往往会同时面对两类落差：一类是领域词汇和表达方式本身就不熟，另一类是下游任务的标签或指令又要求它立即做出稳定判断。继续预训练先处理前一类问题，把底座拉近目标域分布，后续监督微调只需要处理任务映射，训练通常会更稳定，也更节省标注数据。

因此，继续预训练本质上是一种领域自适应预训练（Domain-Adaptive Pretraining, DAPT）。如果继续预训练的语料更进一步贴近最终任务的输入分布，而不只来自某个大领域，例如只使用某个具体产品线、某类工单、某种法律文书或某一学科论文语料，那么它也可以被视作任务自适应预训练（Task-Adaptive Pretraining, TAPT）。两者的区别不在训练算法，而在语料与最终应用的距离：DAPT 更强调“进入这个领域”，TAPT 更强调“贴近这个任务”。

领域适配能带来的收益通常体现在四个层面。第一，模型会更熟悉目标域词汇和短语共现，例如医学缩写、金融术语、企业内部专有名词、代码 API 与日志模式。第二，模型对目标域上下文的概率分布会重新校准，原本罕见的搭配在该领域里会变成高频结构。第三，后续监督微调需要学习的东西会减少，因为模型不必一边补语言常识、一边学任务映射。第四，在低标注数据场景下，继续预训练常常比一上来就重监督微调更稳，因为它先利用了最容易获得的大规模原始文本。

继续预训练最适合三类场景：

领域语料很多、标注很少。这是最经典的适用条件，因为继续预训练最能利用大规模无标注文本，而不要求先构造高成本监督数据。
目标文本分布与通用互联网语料差异极大。例如长文档、半结构化记录、专业术语密集文本、代码与自然语言混合语料；这类差异首先是语言分布差异，而非标签定义差异。
模型需要吸收的变化更接近“知识与表达分布迁移”，而非单纯“输出标签变了”或“格式要求变了”。后者通常更适合直接做监督微调或 PEFT。

从训练流程看，更合理的顺序通常是：先完成通用预训练，再做领域继续预训练，最后再进入监督微调、参数高效微调或偏好对齐。原因很简单：继续预训练改变的是基座对语言分布和知识结构的建模，而监督微调改变的是输出行为。先做基座适配，再做行为适配，优化目标更清晰，也更符合迁移学习的层次结构。

灾难性遗忘问题

继续预训练的主要风险，是灾难性遗忘（Catastrophic Forgetting）。它指的是模型在吸收新分布时，原来在通用语料上学到的能力被明显冲掉：例如领域内术语理解变强了，但通用语言理解、跨领域泛化、常识问答、原始格式鲁棒性或多语言能力反而下降。这个问题并非继续预训练独有的，但在“新语料分布很窄、训练步数又较长”时尤其容易出现。

其根本原因在于参数共享。神经网络并不会为“旧知识”和“新知识”自动分出两套互不干扰的存储区；当优化器持续在窄领域语料上更新同一组权重时，原先支持通用能力的参数方向会被新的梯度不断改写。如果新领域文本的语言风格、词频结构和任务偏置都高度集中，模型就会把有限参数容量优先分配给当前最常见的模式，从而牺牲原本更广的覆盖面。

灾难性遗忘最常见的外在表现包括：继续预训练阶段训练损失持续下降，但回到通用基准或旧任务验证集上时指标明显退化；模型在目标领域内更流畅，却在开放域输入上变得更僵硬、更偏模板化；对窄领域高频术语反应更强，但对跨域问题的泛化能力下降。这些现象都说明模型核心是在重新分配有限表示能力。

缓解灾难性遗忘有几条经典路线：

控制继续预训练强度。包括减少训练步数、降低学习率、使用更保守的 warmup 与衰减策略，避免模型在窄分布上过度漂移。
混合语料训练。在领域语料之外保留一定比例的通用语料，让模型在吸收新分布的同时持续回顾旧分布。
参数隔离。例如只对部分层做继续预训练，或采用 Adapter、LoRA 这类参数高效路径，把领域偏移写进新增参数，而非完全重写主干。
保留旧能力验证。继续预训练不应只看领域损失，还应并行跟踪若干通用验证集，否则模型退化往往到很晚才会被发现。

因此，继续预训练并非“领域语料越多、训练越久越好”。更准确的目标应当是：在尽量少破坏通用能力的前提下，把模型的统计重心向目标领域移动。它追求的核心是在通用底座之上增加一层更贴近目标分布的适配。工程上真正好的继续预训练，通常表现为领域内显著增益、领域外可控退化，甚至几乎无退化，而非单纯把领域损失压到最低。

监督微调（SFT）

监督微调（Supervised Fine-Tuning, SFT）用“输入 ➡ 期望输出”的监督数据继续训练预训练模型，使其在特定分布上更符合目标行为。对自回归语言模型（Autoregressive LM）而言，SFT 仍然是 next-token 交叉熵：给定提示词 $x$ 与目标回复 $y$，最小化

\[\mathcal{L}_{\mathrm{SFT}}(\theta)=-\sum_{t}\log \pi_\theta\!\left(y_t\mid x,y_{

其中 $\pi_\theta$ 表示由参数 $\theta$ 决定的模型条件概率分布，也就是“在给定前缀条件下，模型对下一个 token 的预测分布”；$\pi_\theta\!\left(y_t\mid x,y_{ 就表示模型在看到提示词 \(x$ 和目标回复此前各 token $y_{ 时，对当前位置正确 token \(y_t$ 赋予的概率。

训练通常使用教师强制（Teacher Forcing）：把 $x$ 与 $y$ 拼接作为输入，但只在目标回复 token 上计算损失（对提示词部分做标签掩码，label masking），避免模型被迫“复述提示词”。

SFT 的必要性，来自基础模型（Base Model）与“可用助手模型”之间的行为差异。基础模型的原始目标只是预测下一个 token，因此它本质上擅长的是续写（Completion），而非理解人类正在发出什么指令。给它一句 “The car is”，它自然会继续补全常见续文；给它一个问题 “What is 1+1?”，它在没有对齐之前也完全可能把这当成一段待续写文本，而非一个必须回答的任务。SFT 的作用，就是把这种“见到前缀就续写”的行为，重塑成“读懂输入意图，再输出目标答案”的行为。

全量微调

全量微调（Full Fine-tuning）更新模型的全部参数，表达能力最强，但训练成本高、对数据规模与分布漂移更敏感，也更容易出现灾难性遗忘（Catastrophic Forgetting）。它与预训练在优化形式上并没有本质断裂，区别主要在于数据：预训练依赖海量无标注通用语料，全量微调则依赖规模更小但质量更高、目标更明确的标注数据集。正因为所有参数都会被更新，它在特定任务上的性能上限通常最高，但显存、训练时间和权重存储成本也最高；每做一次完整微调，本质上都在生成一个完整的新模型副本。

部分参数微调

部分参数微调（Partial Fine-tuning / Selective Fine-tuning）处在全量微调与参数高效微调（PEFT）之间。它的基本做法核心是只解冻原模型中一部分已有参数，其余参数保持冻结。这样做的直接收益是显存占用更低、训练更快、过拟合风险更可控；代价则是可调空间受限，性能上限通常低于全量微调。

这类方法的核心思想是：并非每个任务都需要改写整套参数。若下游变化主要集中在输出读出方式、输入符号分布或某一局部计算结构，那么只更新最相关的一小部分参数，往往就足以完成适配。它与后文的 LoRA、Adapter 有一个重要区别：部分参数微调优化的是原模型内部已经存在的参数子集；PEFT 则更常通过新增低秩矩阵、瓶颈层或软提示，把任务偏移写进额外参数。

输出层微调

输出层微调（Output-layer Fine-tuning）只更新模型最靠近输出读出的部分，例如语言建模头（LM Head）、分类头（Classification Head）、奖励头（Reward Head），或最后少数几层与任务头直接相连的参数，而把主体 Transformer 基本冻结。它最适合“底层表示已经足够好，但最终读出方式需要重塑”的场景。

对表示模型，这通常意味着冻结编码器主体，只训练顶层分类器；对生成模型或对齐流程，则常见于基于已有 SFT 模型训练奖励模型：保留主干表示层，移除原 LM Head，换成输出单一分数的奖励头，再主要围绕这个输出读出层继续训练。它的优势是参数量极小、训练稳定、成本最低；局限在于它基本不改变主干内部表示，因此当任务真正需要重排中间语义结构时，单靠输出层往往不够。

输入层微调

输入层微调（Input-layer Fine-tuning）主要更新输入嵌入相关参数，例如 token embedding、位置嵌入，或与新词表、新符号、新模态入口直接相连的输入投影层，而冻结大部分主体网络。它适合输入分布变化显著、但主体推理与表示能力仍然可复用的场景，例如新增领域术语、扩展专有 token、接入特殊控制符，或需要让模型先学会“看懂新输入”。

这条路线在词表扩展与领域符号接入时尤其有价值。因为很多变化并不在“模型不会推理”，而在“模型还没有为这些新符号建立合适入口”。此时先调输入层，可以把新 token 映射到已有表示空间附近，减少一开始就全模型漂移的风险。在一些更重的训练配方里，也会先单独训练输入嵌入，再逐步解冻更深层参数做融合；但其本质始终是先处理输入接口适配，再决定是否需要更深层的结构性更新。

局部结构微调

局部结构微调（Local-structure Fine-tuning）只选择模型内部某些特定结构或参数类型来更新，例如仅训练偏置项的 BitFit、仅训练归一化参数的 LayerNorm Tuning、只解冻注意力层参数的 Attention Tuning，或只解冻最后若干层的局部 block。它的共同点是：参数选择核心是按网络内部哪类结构最可能承载任务偏移来划分。

这类方法适合算力极其受限、数据量较小，或已经对任务偏移位置有较强先验的场景。例如，若任务主要要求重新标定特征尺度或阈值边界，LayerNorm Tuning 可能就足够；若任务更多是在改变“关注哪里、聚合哪些信号”，只调注意力层可能比盲目放开全部层更高效；若只是希望用极低成本给模型一点任务校正能力，BitFit 这类只训偏置的方案也有现实价值。它们的上限通常不如更强的 PEFT，但在轻量实验、消融研究和极端资源约束环境中依然很有意义。

BitFit

BitFit 的做法极端简单：冻结几乎所有权重矩阵，只训练偏置项（Bias Terms）。若某一层的线性变换写成 $h'=Wh+b$，BitFit 只更新其中的 $b$，而把 $W$ 保持不动。它的参数量因此极小，通常只占全模型参数的很小一部分。

它背后的核心假设是：对不少下游任务而言，预训练模型已经学到了足够强的表示空间与主要变换方向，任务适配真正需要的，未必是重写整块权重矩阵，而可能只是调整各层激活的平移、阈值和默认响应水平。从这个角度看，BitFit 更像是在重新标定网络内部各单元的“触发基线”，而非重建新的特征子空间。

这也解释了它为什么在一些小数据分类、文本匹配或轻量行为校正任务里常常表现得比直觉预期更强：如果任务边界与预训练表示已经高度接近，那么改变少量偏置，就足以让原本已经存在的特征更容易被激活，或更容易跨过最终判别阈值。反过来，当任务需要新的知识写入、复杂结构重排或明显不同的推理路径时，BitFit 往往会很快触到容量上限，因为它几乎无法改变表示之间的主导交互方向。

LayerNorm Tuning

LayerNorm Tuning 只更新归一化层中的可学习缩放与偏移参数，典型写法可记为：

\[\mathrm{LN}(h)=\gamma\odot \frac{h-\mu}{\sqrt{\sigma^2+\epsilon}}+\beta\]

这里 $\gamma$ 与 $\beta$ 就是主要可训练对象，而主体权重矩阵保持冻结。它的参数量同样很小，但比 BitFit 更直接作用于每层隐藏状态的尺度（Scale）与中心（Shift）。

它背后的假设是：很多任务偏移并不需要创造全新的特征，只需要重新调节已有特征在各层中的相对幅度与数值范围。因为 Transformer 中大量残差路径都会经过归一化，LayerNorm 参数对信息流的“放大 / 压低 / 重新居中”有全局影响。于是，只调归一化参数，就可能在不改写主干矩阵的前提下，系统性地改变哪些特征更容易穿过后续层并主导输出。

这类方法尤其适合已经拥有较强基座、但需要重新校准风格、阈值、稳定性或局部行为边界的场景。它通常比 BitFit 稍强，因为它直接控制每层表示的尺度结构；但它仍然主要是在重标定现有表示，而非构造新的复杂变换，因此面对大幅领域迁移或新知识注入时，上限仍然有限。

Attention Tuning

Attention Tuning 只解冻注意力模块中的参数，例如 $W_Q,W_K,W_V,W_O$，而继续冻结 FFN / MLP 与其他大部分结构。它的核心判断是：不少任务真正需要改变的，核心是模型在当前任务中应该关注哪些 token、怎样聚合远近信息、如何在上下文中分配注意力。

它背后的假设比 BitFit 更强，也更结构化：预训练模型中的知识与模式大体已经存在，任务适配更多是在改变“信息路由（Information Routing）”而非“知识存储（Knowledge Storage）”。如果这个假设成立，只调整注意力层就能显著改变模型的上下文读取方式，例如更关注结尾句、否定词、实体关系、长程依赖或某些格式锚点，而无需重写 FFN 中更重的参数块。

Attention Tuning 在行为调整类任务上常有不错的性价比，原因也正在这里：它比 BitFit 和 LayerNorm Tuning 拥有更强的表示重排能力，又比全量微调和大范围 PEFT 更轻。但它的边界也很清楚。若任务核心是注入新事实、学习新术语本体、补足模型原本缺失的知识映射，仅靠改变注意力路由通常不够，因为许多稳定知识关联最终仍要落在 FFN / MLP 所承载的表示重编码里。

从整体上看，部分参数微调提供的是一种选择性解冻原参数的思路：输出层微调优先改读出，输入层微调优先改入口，局部结构微调优先改网络内部某个被认为最关键的子结构。若这些选择性更新已经足够，就没有必要进入更重的全量微调；若它们的容量仍然不够，下一步才更自然地转向后文的 LoRA、Adapter、Prefix Tuning 这类参数高效微调路线。

指令微调（Instruction Tuning）

指令微调（Instruction Tuning）是 SFT 的一种数据组织方式：把任务描述（Instruction）显式写进输入，使模型学习“读懂指令并按指令输出”。典型样本是三元组：指令（instruction）、输入（input，可为空）、输出（output）。

{"instruction":"回答以下问题","input":"世界上最高的山是什么？","output":"珠穆朗玛峰。"}

对话/FAQ 场景更常用多轮消息格式（Chat Format），把 role（system/user/assistant）显式编码进序列；训练时同样只在 assistant 角色对应的目标 token 上计算损失。

{"messages":[
  {"role":"system","content":"你是一个严谨的技术助手。"},
  {"role":"user","content":"解释什么是交叉熵损失。"},
  {"role":"assistant","content":"交叉熵损失用于衡量预测分布与真实分布的差异……"}
]}

数据规模没有统一答案，但工程上最关键的是质量（Quality）与覆盖（Coverage）。常见实践：

领域 SFT：从 $10^3\sim10^5$ 级别的高质量样本起步，先跑通指标与错误分析，再扩充数据与任务覆盖。
通用指令微调：更常见的是 $10^5\sim10^6+$ 的多任务指令样本，用多样性换泛化。
偏好对齐数据：比较对（Preference Pairs）常在 $10^4\sim10^6$ 级别，且对标注一致性要求更高。

拒绝采样微调（Rejection Sampling Fine-Tuning）

拒绝采样微调（Rejection Sampling Fine-Tuning）本质上仍然属于监督微调路线。这里讨论的是 rejection sampling fine-tuning 这一路线，而非近年某些语境里也会写成 RFT 的 reinforcement fine-tuning。它的核心做法是：监督数据从完全来自人工直接编写转向先由模型生成多个候选，再通过规则、验证器（Verifier）、奖励模型（Reward Model）或人工筛选，只保留其中最优或通过阈值的样本，最后把这些“被接受”的输出重新写回监督数据集，再按普通 SFT 的方式继续训练。

若把提示词记为 $x$，候选回答记为 $\{y^{(k)}\}_{k=1}^{K}\sim \pi_{\mathrm{old}}(\cdot|x)$，评分函数记为 $s(x,y)$，那么拒绝采样微调通常先从这组候选中选出满足 $s(x,y)\ge \tau$ 的回答，或直接取最高分回答 $y^\star=\arg\max_k s(x,y^{(k)})$，再把 $(x,y^\star)$ 当作新的监督样本。后续优化目标并没有变成策略梯度或显式偏好损失，仍然是标准的 next-token 交叉熵。

因此，它可以被理解为一种先筛选、再监督的微调方式。与普通 SFT 相比，它利用模型自身采样与外部评分器把“哪种输出更好”这层信息先转成更高质量的目标答案；与 DPO、PPO 这类偏好优化相比，它并不直接学习候选之间的相对排序关系，通常会把筛选结果硬化成新的监督标签。工程上，它经常处在普通 SFT 与显式偏好优化之间，既比纯手工 SFT 更能利用自动评估信号，又比完整 RLHF 或 DPO 更容易复用现有监督训练栈。

这条路线尤其适合存在较强可验证信号的任务，例如数学推导、代码生成、结构化输出、工具调用轨迹筛选，以及能用单元测试、规则校验、解析器或外部判分器稳定判断好坏的场景。因为一旦评分器足够可靠，拒绝采样就能把“生成多个候选、只留下正确或更优的那个”直接转化为高质量训练样本。

它的边界同样明确。若评分器本身噪声很大，或任务质量强依赖开放式偏好、语气细节、多维安全判断，那么把复杂偏好硬压成“通过 / 不通过”很容易损失信息；筛选过严还会让训练分布变得过窄，导致模型只会复现少数高分写法而削弱多样性。因此，拒绝采样微调更像一种高质量数据再蒸馏手段，而非偏好对齐的终极替代品。

聊天微调（Chat Fine-tuning）

聊天微调（Chat Fine-tuning）强调多轮对话一致性：除单轮问答外，还需要覆盖上下文承接、拒答策略、工具调用格式、长对话记忆等。它通常仍是 SFT，只是数据分布更贴近真实对话。

参数高效微调（PEFT）

参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）把“微调”从“更新全部参数”变成“冻结基座（Base Model），只训练一小部分新增参数”。它仍然是当前大模型落地的主流选择之一：成本更低、训练更快、便于为不同任务保存多份轻量适配（例如每个业务一套 LoRA）。PEFT 并不只包含 LoRA、Adapter、IA3 这类“在模型内部加参数”的方法，也包含 Prefix Tuning、Prompt Tuning 这类软提示（Soft Prompt）路线；它们的共同点核心是都遵循“冻结大部分预训练参数，只训练极小任务参数”这一基本范式。

Adapter

Adapter 是插在每个 Transformer block 内部的一条很窄的可训练残差支路。设某一层原本输出为 $h\in\mathbb{R}^{d}$，Adapter 会先把它投影到一个远小于 $d$ 的瓶颈维度 $r$，经过非线性后再投影回原维度，再以残差形式加回主干：

\[\mathrm{Adapter}(h)=W_{\mathrm{up}}\;\sigma\!\left(W_{\mathrm{down}}h+b_{\mathrm{down}}\right)+b_{\mathrm{up}},\quad h'=h+\mathrm{Adapter}(h)\]

其中 $W_{\mathrm{down}}\in\mathbb{R}^{r\times d}$ 负责降维， $W_{\mathrm{up}}\in\mathbb{R}^{d\times r}$ 负责升维，且通常有 $r\ll d$。这就是所谓的瓶颈结构（Bottleneck Structure）：主干隐藏维度也许是几千，而 Adapter 内部只开放几十到几百维的可训练通道，因此新增参数量远小于全量微调。

它通常插在自注意力子层或前馈网络子层之后，也就是“原子层输出 + LayerNorm / 残差”附近的位置。最常见的做法是在每个 block 中放两处：一处跟在 attention 输出之后，另一处跟在 FFN 输出之后。这样设计的直觉很直接：主干模型仍负责保留通用语言能力，而 Adapter 只学习相对于原模型的任务特定偏移。由于它是加法残差支路，模型一开始可以非常接近原始基座；随着训练推进，Adapter 再逐步学会把主干表示往当前任务需要的方向轻推一把。

Adapter 常被初始化为近似恒等映射，原因也正在这里：例如让升维层初始非常小，使 $\mathrm{Adapter}(h)\approx 0$。这样做的效果是，训练初期模型几乎等同于原始基座，不会因为新增模块而立刻破坏预训练表示；随后再通过反向传播逐步放大这条残差分支，让它承担领域偏移、标签边界重塑或任务路由修正。与“直接改写主干权重”相比，这种路径更稳定，也更容易控制灾难性遗忘。

从参数量角度看，单个 Adapter 的主要新增参数就是两次线性映射，大约是 $2dr$ 量级，而非全层的 $d\times d$ 或 $d\times d_{\mathrm{ff}}$ 量级。因此，只要瓶颈维度 $r$ 足够小，就能在保持表达力的同时，把训练显存、优化器状态和存储成本压到很低。这一点与 LoRA 的“低秩更新”在精神上相近，但它们的结构并不相同：Adapter 是显式新增一条小型 MLP 支路，LoRA 则是在原线性层内部参数化一个低秩增量。

工业实践里，Adapter 通常核心是分布式地插入到所有 Transformer block 中，从而让每一层都具备任务适配能力。它的一个重要工程优势是“插拔式（Plug-and-play）”任务切换：同一个基座模型可以加载不同任务的 Adapter 包，在情感分析、NER、检索重排等任务之间快速切换，而不必为每个任务都保存一整份完整模型。这也是 Adapter 在多任务部署和组织内模型复用场景中一直很有吸引力的原因。

LoRA

LoRA（Low-Rank Adaptation）学习一个低秩增量，同时保持原权重 $W$ 不变 $\Delta W$：

\[W' = W + \Delta W,\quad \Delta W = BA,\quad B\in\mathbb{R}^{d_{\text{out}}\times r},\ A\in\mathbb{R}^{r\times d_{\text{in}}},\ r\ll \min(d_{\text{in}},d_{\text{out}})\]

由于 $r$ 很小，可训练参数与优化器状态显著减少。实践里常把 LoRA 加在注意力投影（如 $W_Q,W_K,W_V,W_O$）和/或 FFN 上。

截至 2026 年，LoRA 仍然是大语言模型参数高效微调里最常见的默认方案。原因并不神秘：它与主流 Transformer 线性层天然兼容，适配器权重体积小，便于为不同任务单独保存、热切换与合并；同时它对训练框架、推理框架和量化框架的兼容性也最成熟。因此，工程上常把 LoRA 看成 PEFT 的基线接口：后续很多方法，本质上都是在 LoRA 的参数化、量化方式或更新几何上继续细化。

A、B 矩阵的区别

在上面的记号里， $A\in\mathbb{R}^{r\times d_{\text{in}}}$ 负责把原始输入方向投影到一个 $r$ 维低秩子空间， $B\in\mathbb{R}^{d_{\text{out}}\times r}$ 再把这个低维表示映射回输出空间。因此，对输入向量 $x$ 而言，LoRA 增量的作用顺序是：

\[\Delta y=\Delta Wx=BAx\]

也就是说，先由 $A$ 做“进低秩空间”的投影，再由 $B$ 做“回原输出空间”的回投。直觉上， $A$ 更像在问“哪些组合方向值得被拿出来单独调”， $B$ 则更像在问“这些低维方向最终该怎样广播回原模型的输出通道”。

不同实现里，A、B 的命名和矩阵形状有时会看起来对调，这是因为有的库按数学乘法顺序命名，有的库按代码中参数张量的存储顺序命名。但概念并没有变：总有一个矩阵负责把高维输入压到低秩子空间，另一个矩阵负责把低秩更新再映射回原空间。只要抓住“先降到 $r$ 维，再升回原维度”这一点，就不会被不同实现的符号差异干扰。

LoRA 的经典初始化也依赖这两个矩阵的不同角色。常见做法是让其中一个矩阵采用小随机初始化，而另一个矩阵初始化为 0；在当前这组记号下，更常见的叙述是让 $A$ 随机初始化、 $B$ 零初始化，于是训练开始时有：

\[\Delta W = BA = 0\]

这样做有两个直接好处。第一，训练初始时模型输出与原基座完全一致，不会因为 LoRA 分支突然注入随机扰动而破坏预训练能力。第二，参数不会陷入完全对称的零状态：若两边都初始化为 0，梯度传播会受阻；若两边都随机初始化，训练一开始又会平白给模型加上不必要的噪声。采用“单边随机、单边为零”的非对称初始化，既保证了初始增量为零，又保留了可学习性，这是 LoRA 训练稳定性的关键细节之一。

从梯度角度看，这个设计也有非常直接的理由。若记损失对增量矩阵的梯度为 $G=\frac{\partial \mathcal{L}}{\partial \Delta W}$，则有：

\[\frac{\partial \mathcal{L}}{\partial B}=GA^\top,\qquad \frac{\partial \mathcal{L}}{\partial A}=B^\top G\]

因此，当 $A$ 随机、 $B=0$ 时，训练开始的第一步通常会先更新 $B$，因为 $\frac{\partial \mathcal{L}}{\partial B}=GA^\top$ 一般不为 0；而 $\frac{\partial \mathcal{L}}{\partial A}=B^\top G=0$，所以 $A$ 会在后续几步中随着 $B$ 脱离零状态后再开始获得梯度。LoRA 的非对称初始化并不会“学不起来”，它只是让学习过程以一种更平稳的方式启动。

主要参数

LoRA 真正需要重点理解的超参数并不多，但每一个都在控制不同维度的权衡：容量、增量强度、挂载范围、正则化和训练稳定性。它们之间并非简单的“越大越好”关系。

参数	控制对象	理论含义与实践影响
rank $r$	低秩子空间维度	决定 $\Delta W$ 最多能沿多少个独立方向修改原权重。 $r$ 越小，参数越省、正则效应越强，但容量也越受限； $r$ 越大，表达力更强，却更容易抬高显存、训练成本与过拟合风险。
$\alpha$	增量缩放强度	通常与 $r$ 一起通过 $\frac{\alpha}{r}$ 作用在 LoRA 分支上。它控制的是“已经学到的低秩方向到底以多大幅度影响原模型”，因此更接近幅值旋钮，而非容量旋钮。调大 $\alpha$ 不能替代更高的 $r$；它只能放大已有方向，而不会创造新方向。
target_modules	挂载位置	决定 LoRA 写入模型的哪一部分。只挂注意力投影时，参数最省、更偏行为与路由调整；把 MLP / FFN 一并纳入时，容量更强，也更适合知识关系与复杂边界适配，但训练更重。
lora_dropout	适配器正则化	主要用于抑制小数据或高重复语料上的过拟合。它在训练时降低低秩分支对局部样本模式的过度依赖，不改变 LoRA 的基本结构。数据量很小时更有价值；数据充分且任务稳定时常保持较低甚至关闭。
学习率	优化步长	虽然学习率并非 LoRA 独有参数，但 LoRA 对学习率通常比全参数微调更敏感。因为可训练参数很少、每一步更新更集中，学习率过高时更容易直接把行为边界推歪；而 $\alpha$ 较大时，这种不稳定会被进一步放大。

这几个参数里，最容易被混淆的是 $r$ 与 $\alpha$。 $r$ 控制的是“允许模型沿多少个方向改”， $\alpha$ 控制的是“这些方向的改动最终放大到多强”。前者对应容量，后者对应强度。增加 $r$ 会改变可表达子空间本身；增加 $\alpha$ 只是把已存在的低秩更新放大。

从经验上看，LoRA 的调参顺序通常也应当遵循这个逻辑：先确定挂载哪些模块、需要多大 rank 才能容纳任务偏移，再去调节 $\alpha$ 与学习率，让训练稳定落在合适幅度上。若一开始就只靠提高 $\alpha$ 去追求效果，得到的往往核心是更剧烈的扰动。

LoRA 挂在哪些线性层上，并非纯工程细节，而与希望改变模型的哪一部分能力直接相关。若目标更偏风格迁移、格式控制、对话行为调整或路由方式改变，注意力投影层上的 LoRA 往往已经能带来明显效果；但若目标是注入新的领域术语、事实关联、实体属性映射或专业概念之间的稳定关系，FFN / MLP 往往更关键。原因在于：Transformer 里的 MLP 常被视为知识写入与模式重编码的重要位置，因此很多“新知识”最终要落到这些大规模前馈权重所张成的表示子空间里。

这也是为什么在不少实践中，LoRA 不只挂在 $W_Q,W_K,W_V,W_O$ 上，还会同时挂在 FFN 的线性层上，甚至在资源允许时为 FFN 分配更高的秩（Rank）。低秩更新的本质是在原有权重空间附近增加一个受限的可训练子空间；如果希望修改的是知识关联本身，而不仅是信息流动方式，那么只改注意力层常常不够，需要让 MLP / FFN 也获得足够的适配容量。沿着这条思路发展的变体，如 DoRA（Weight-Decomposed Low-Rank Adaptation），本质上也是在不做全参数微调的前提下，给参数更新更强的表达能力。

这里的低秩假设作用于微调增量 $\Delta W$，而非作用于预训练知识本身的存储方式。预训练模型中的知识通常以分布式表示（Distributed Representation）的方式编码在大量参数 $W$ 里；LoRA 近似的是“为了适配当前任务，需要沿哪些方向改动这些参数”。前者讨论的是 $W$ 如何承载知识，后者讨论的是 $\Delta W$ 如何改变模型行为与输出边界。

很多微调任务并不要求模型写入大规模新知识，重点是要求它重新组织已有表示：调整回答风格、强化指令跟随、遵守输出格式、放大某些线索、抑制另一些线索。这类任务的有效更新方向往往集中在少数子空间中，小秩 $r$ 就足以带来明显收益。若任务要求模型稳定吸纳新的领域本体（Ontology）、术语体系、事实关系或复杂规则，适配增量的有效维度通常会上升，低秩近似就更容易成为容量瓶颈。

分布式存储也不意味着所有参数同等重要。即便在全参数微调（Full Fine-tuning）中，显著变化的往往也是少数关键方向；LoRA 的核心假设是，这些方向可以被一个较低维的子空间有效覆盖。当任务迁移幅度较小，这个假设通常成立；当关键更新分散在许多彼此独立的方向上，就需要更高的秩、更广的挂载范围，尤其是让 FFN / MLP 参与适配，必要时再转向 DoRA 或全参数微调。工程上，这体现为一条清晰的权衡：LoRA 优先优化效率，全参数微调提供更高上限；二者对应的是不同任务内在维度（Intrinsic Dimension）下的不同最优解。

LoRA 合并

LoRA 的一个工程优势是“可合并（Mergeable）”：推理前可把增量权重并入基座权重，从而不引入额外前向分支。对单个 LoRA，合并后得到的有效权重就是 $W_{\text{merged}}=W+\Delta W$（实践中常包含缩放系数）。

当存在多份 LoRA（多任务/多领域适配）时，最简单的合并是对增量做加权和：

\[W' = W + \sum_{j=1}^{M}\lambda_j\,\Delta W^{(j)}\]

这种“线性缝合”实现简单，但容易出现任务干扰（Interference）：不同 LoRA 在同一参数子空间里叠加，可能让模型对多个任务都变差。若你需要同时服务多个领域，更稳健的方案往往是“运行时选择哪一份 LoRA”或引入路由（Routing）机制，而非把它们永久混成一份权重。

LoRA 缩放

LoRA 的低秩增量在工程实现里通常写成带缩放的形式，而非直接写成 $\Delta W=BA$：

\[\Delta W=\frac{\alpha}{r}BA\]

这里的 $r$ 是秩（Rank），决定低秩子空间的维度；$\alpha$ 是缩放系数（Scaling Factor），决定这条增量支路最终以多大强度作用于原权重。把 $\alpha$ 与 $r$ 放在一起，核心是为了在改变 rank 时尽量保持更新量的数值尺度处于可控范围。若只增大 $r$ 而不做归一化，低秩分支的整体幅度往往也会随之增大，使不同配置之间难以直接比较。

因此， $\alpha$ 控制的是“LoRA 支路有多强”， $r$ 控制的是“LoRA 支路能沿多少个方向改动权重”。前者更接近幅值控制，后者更接近容量控制。单纯调大 $\alpha$，只是放大既有低秩方向的影响；单纯调大 $r$，则是在扩大可表达的更新子空间。

缩放在合并时同样不会消失。真正并回基座的核心是已经乘上系数后的有效增量，因此合并后的权重应写成：

\[W_{\text{merged}}=W+\frac{\alpha}{r}BA\]

工程上，较小数据集与较轻任务迁移通常更适合温和缩放，因为此时更重要的是在保留基座先验的同时做局部修正；当任务迁移更深、希望 LoRA 更积极地重写行为边界或知识关联时，才会提高 $\alpha$ 或放宽 $r$。它本质上是在调节“基座保守性”与“任务增量强度”之间的平衡。

DoRA

DoRA（Weight-Decomposed Low-Rank Adaptation）的核心是先把原始权重 $W$ 按“幅值（Magnitude）+ 方向（Direction）”重写，再只让低秩更新作用在方向部分。对第 $j$ 个输出通道，也就是权重矩阵的第 $j$ 列，可先写成：

\[W_{:,j}=\left\|W_{:,j}\right\|_2\cdot \frac{W_{:,j}}{\left\|W_{:,j}\right\|_2}=m_j\,\hat v_j,\quad \left\|\hat v_j\right\|_2=1\]

这里的 $\frac{W_{:,j}}{\left\|W_{:,j}\right\|_2}$ 就是“把一个向量除以自己的 $\ell_2$ 范数（L2 Norm）”。这样得到的新向量长度恰好等于 1，因此它不再携带原来的大小信息，只保留方向信息，也就是单位方向向量（Unit Direction Vector）。

这里 $m_j$ 是一个标量，表示这一列权重的整体长度； $\hat v_j$ 是单位向量，表示这一列“指向哪里”。这一步只是重参数化（Reparameterization）：没有改动原模型，只是把每一列从“一个普通向量”改写成“长度 × 单位方向”。

DoRA 的更新写法通常记为：

\[W'_{:,j}=m'_j\frac{V_{:,j}+\Delta V_{:,j}}{\left\|V_{:,j}+\Delta V_{:,j}\right\|_2},\quad \Delta V=BA\]

理解这条式子的关键，在于分清谁在控制方向，谁在控制大小。分式里的 $V_{:,j}+\Delta V_{:,j}$ 先经过 $\ell_2$ 归一化，因此无论 $\Delta V$ 本身把这个向量拉长还是压短，归一化之后保留下来的都只有方向信息。换句话说，LoRA 产生的低秩增量 $BA$ 在这里主要决定“这一列朝哪个方向偏转”，而不会直接把这一列的范数放大或缩小，因为范数已经被分母除掉了。

真正决定输出通道大小的是前面的标量 $m'_j$。如果把 $m'_j$ 固定住，那么更新后的列向量范数始终满足 $\left\|W'_{:,j}\right\|_2=m'_j$，此时低秩更新确实只在改方向、不改大小；如果把 $m'_j$ 设为可学习参数，那么 DoRA 就是在两个通道里分别学习：低秩分支 $\Delta V$ 负责方向修正，标量 $m'_j$ 负责幅值修正。无论是哪一种，方向与大小都不再像原始 LoRA 那样纠缠在同一个增量矩阵里。

这也是 DoRA 比原始 LoRA 更接近全参数微调的原因之一。普通 LoRA 直接对 $W$ 加一个低秩增量 $\Delta W$，因此“方向变化”和“范数变化”混在同一个更新里；DoRA 则把这两件事显式拆开，使优化器可以分别决定“该往哪里转”与“该放大多少”。当任务需要更深地改写领域知识、重塑复杂判别边界或吸收更稳定的专业概念关系时，这种解耦往往更有表达力；代价则是额外的参数、归一化计算与实现复杂度。

QLoRA

QLoRA 在 LoRA 基础上进一步把基座权重量化（Quantize）到低比特（常见 4-bit），以极小显存加载大模型；训练时仍只更新 LoRA 参数。它把“能不能放得下”从硬约束变成可控工程问题，是许多个人/小团队微调 7B/13B 的关键技术路径之一。

其核心思路是：冻结量化后的基座权重，只在前向/反向计算时对它们做解量化（Dequantize），而真正需要学习的仍是低秩增量。一个简化写法是：

\[Y=X\,\mathrm{Dequant}(W_q)+\frac{\alpha}{r}XBA,\quad W_q=\mathrm{Quant}(W)\]

其中 $X$ 是输入激活， $W_q$ 是量化后冻结的基座权重， $\mathrm{Dequant}(W_q)$ 表示把低比特权重恢复到计算精度后的近似值， $\frac{\alpha}{r}BA$ 是 LoRA 分支， $\alpha$ 是缩放系数（Scaling Factor），用来控制低秩增量对原模型的影响强度。

这里的“解量化”指：权重在显存或存储中仍以低比特形式保存，只是在一次具体矩阵乘法发生时，临时把对应块恢复成计算所需的近似浮点值，再与输入激活相乘。也就是说，量化主要解决的是存储与显存占用，而解量化解决的是如何让这些低比特权重仍然参与正常线性计算。

因此，所谓“解量化计算路径”指的是：训练框架是否知道如何从低比特权重 $W_q$ 出发，在前向过程中正确恢复近似浮点表示、完成矩阵乘法，并在反向传播时把梯度只传给 LoRA 分支而非错误地写回量化权重本体。若这条路径存在，那么量化基座虽然被冻结，仍然可以作为可计算的主干参与训练；若这条路径不存在，量化权重就只是某种压缩后的静态文件，能用于推理加载，却不能自然地嵌入 QLoRA 的训练图中。

这里的前提核心是必须拥有一份训练兼容的冻结量化基座。如果基座本身已经是可被训练框架直接加载、解量化并挂接 PEFT 的 4-bit / 8-bit 版本，那么它完全可以直接作为 QLoRA 起点；但如果它只是面向推理部署的静态量化模型，例如某些只强调推理速度或离线压缩格式的 checkpoint，那么它往往并不适合作为 QLoRA 的训练底座。决定因素不在于“是关键在于这种量化形式是否仍然保留了训练时所需的解量化计算路径与 PEFT 兼容性。

QLoRA 的关键不仅“4-bit”，还分块量化（Block-wise Quantization）：权重不会用一套全局刻度统一压缩，会被划分成许多小块，每块各自保存缩放因子。若第 $g$ 个块的量化码为 $\hat{w}^{(g)}$，对应缩放因子为 $s_g$，则可抽象写成：

\[w^{(g)}\approx s_g\,\hat{w}^{(g)}\]

这个“分块”通常核心是按固定块大小（例如若干连续权重为一组）直接切开。原因很简单：连续切块最容易实现，也最适合 GPU 并行。对每一个块，系统会单独估计一个比例尺 $s_g$，再用这个块自己的尺度去压缩和还原权重。于是更完整的写法通常是：

\[w^{(g)}\approx s_g\cdot Q\!\left(\frac{w^{(g)}}{s_g}\right)\]

这里的 $Q(\cdot)$ 表示把归一化后的数值映射到低比特量化码。也就是说，比例尺 $s_g$ 的作用是先把第 $g$ 个块拉到一个统一的局部数值范围，再交给 4-bit 码本处理；反量化时再乘回 $s_g$。在最朴素的实现里， $s_g$ 可以由该块的最大绝对值、均方根，或其他稳健统计量导出，本质都是在问同一个问题：这一小块权重大致处在什么量级上。

一个极小的数值例子能说明为什么需要逐块比例尺。假设某一块权重大致落在 $[-0.1,0.1]$，另一块却落在 $[-3,3]$。如果整个张量只共享一个全局比例尺，那么为了容纳大块的幅度，小块里的许多细微差异都会被压扁，量化后落到相同的低比特值；而若分别为这两块设置 $s_1$ 与 $s_2$，两块都能在自己的局部范围里充分利用有限的 4-bit 表示能力。分块量化因此比全局共用一个缩放因子保留了更多有效信息，尤其更能缓解离群值（Outlier）对整体刻度的污染。

NF4（Normalized Float 4）进一步改进的核心是块内映射到哪一套 4-bit 码本。普通均匀量化更像是把一个区间机械地分成若干等宽小段；NF4 则利用很多 Transformer 权重在局部块内常呈现零中心、近似正态分布的事实，预先设计一套更贴近这种分布的离散代表值。于是块内每个权重更接近写成：

\[w_i^{(g)}\approx s_g\cdot c_{q_i}\]

其中 $c_{q_i}$ 是 NF4 码本中的代表值， $q_i$ 是对应的 4-bit 索引。它核心是先按块做尺度归一化，再用更贴近正态权重分布的码本去逼近这些局部值。

双重量化（Double Quantization）与分页优化器（Paged Optimizer）则是在这套分块量化之上继续做工程压缩。前者的思路是：每个块都要保存自己的 $s_g$ 或相关元数据，这些量的数量虽然远少于权重数，但它们的精度通常更高，而且每个因子只服务一个较小的权重块，因此把这部分成本均摊回“每个参数”之后，并不总能忽略。举例说，若一个缩放因子用 32 bit 保存、对应一个 64 权重的块，那么仅缩放因子这一项就相当于给每个参数额外分摊了 $32/64=0.5$ bit；在 4-bit 权重场景里，这已经并非一个可以随手忽略的附加成本。双重量化做的，就是把这些缩放因子或相关元数据再压一层，继续降低这笔“元数据税”。后者则借鉴操作系统的分页思想，把优化器状态按页在 GPU 与 CPU 内存之间调度，从而避免 Adam 一类优化器把峰值显存推得过高。它们在工程层面继续压低“把大模型微调跑起来”的资源门槛。

Q-DoRA

Q-DoRA 可以看作 QLoRA 与 DoRA 的组合：基座仍采用低比特量化以节省显存，但更新形式从普通 LoRA 转向“量化基座 + 方向/尺度解耦”的 DoRA 结构。一个简化表达是：

\[W'_{:,j}=m_j\frac{\mathrm{Dequant}(W_{q,:,j})+\Delta V_{:,j}}{\left\|\mathrm{Dequant}(W_{q,:,j})+\Delta V_{:,j}\right\|_2},\quad \Delta V=BA\]

它的工程含义很直接：用 QLoRA 解决“显存放不下”的问题，用 DoRA 缓解“低秩更新表达力不够”的问题。若资源非常紧、任务主要是格式控制与轻量指令对齐，普通 QLoRA 往往已经足够；若任务更偏逻辑推理增强、专业知识注入、复杂边界判别或高质量垂直领域适配，Q-DoRA 往往是更稳妥的折中。对应代价是训练更慢、实现更复杂，且并非所有推理栈都像原始 LoRA 那样原生支持。

LoRA-MoE

LoRA-MoE 可以理解为“适配器级的 MoE”：保留基座不变，不把 FFN 变成稀疏专家，准备多份 LoRA 作为“领域专家”，再用一个路由器（Router）按请求/句子/甚至 token 选择或加权组合这些 LoRA。直觉上，它用极小的可训练参数，为同一个基座提供多域能力，同时避免把所有任务硬合并到一份权重里。

一种抽象表达是把输出写成“基座 + 适配器混合”：

\[h' = f_{\text{base}}(h) + \sum_{e\in \mathcal{E}} g_e(x)\,f_{\text{lora},e}(h),\quad \sum_e g_e(x)=1\]

其中 $g_e(x)$ 是路由权重，可以来自显式分类器（域识别）、检索到的任务标签，或一个可训练的 gating 网络。工程上，LoRA-MoE 的关键不在公式，而在路由与评测：你需要定义“什么输入该走哪套 LoRA”，并防止路由错误导致质量抖动。

截至 2026 年，LoRA-MoE 的实际地位更接近高级可选架构，而非参数高效微调里的默认主流基线。它已经形成了一条持续演进的方法线，说明“多 LoRA + 路由”并非概念玩具；但在更常见的工业部署里，成熟默认方案仍然往往是“单基座 + 多个独立 LoRA 适配器”，按请求或租户切换，而非把路由器永久并入模型主干。原因并不神秘：LoRA-MoE 除了要训练适配器本身，还要额外处理路由质量、专家利用不均、冷专家几乎不被激活、线上可观测性以及请求分布变化带来的稳定性问题。只有当任务确实需要在同一个运行图里动态融合多域能力，而非简单地在不同 LoRA 之间切换时，LoRA-MoE 的额外复杂度才更值得支付。

多 LoRA 热切换与共享基座

比 LoRA-MoE 更常见、也更容易落地的方案，是多个独立 LoRA 共享同一个基座模型。这里的共享核心是让基座参数在 GPU 中只保留一份；不同请求到来时，再按请求绑定对应的适配器。这样做的直接收益是：显存里最重的那部分参数不需要为每个任务重复存一遍，而任务差异主要体现在额外加载的轻量增量权重上。

从推理执行角度看，这种“热切换”并不意味着每来一个请求就重新加载整个模型。更常见的做法是：基座常驻显存，LoRA 适配器按需驻留在 GPU 或 CPU 侧缓存中；请求只需声明“当前使用哪一份适配器”，调度器就会在对应层上把这一份 LoRA 增量接入当前 forward。若某个适配器近期很少被访问，它可以被换出；当请求再次到来时，再从本地盘、对象存储或 Hub 拉回。于是系统真正管理的是适配器缓存与调度，而非整模型重载。

这条路线之所以在 2026 年更主流，是因为它把“多域能力”问题拆成了两个更容易控制的子问题：第一，训练阶段各自产出独立 LoRA，任务之间天然隔离；第二，推理阶段只做选择和缓存，不必额外训练路由器，也不会把多个领域永久混到同一组权重里。代价主要落在工程侧：适配器的 rank、目标模块集合、张量并行配置与基座版本必须兼容；同时服务系统还要决定 GPU 能同时保留多少份 LoRA、超出容量时按什么策略驱逐，以及批内是否允许不同请求混用不同适配器。

截至 2026 年，这已经核心是主流高吞吐推理框架的标准能力之一。vLLM 支持按请求选择 LoRA，既可以在服务启动时预注册，也支持通过运行时 API 与解析插件动态加载；SGLang 支持同一批次中的不同序列绑定不同 LoRA，并提供适配器加载、驱逐、后端 kernel 与批内 LoRA 数量控制；Hugging Face TGI 也支持在启动时加载多份 LoRA 并在请求中指定 adapter；TensorRT-LLM 则已经提供多 LoRA 推理示例与运行时请求绑定接口。换句话说，多 LoRA 共享基座在今天更像是一种成熟的服务形态，而非实验性质的技巧。

方案	参数/存储	推理开销	多域能力	主要风险
多 LoRA 合并	单份权重	最低（一次 forward）	不稳定（易相互干扰）	合并策略难；回滚困难
LoRA-MoE（路由）	多份 LoRA + 路由器	低~中（取决于是否多专家叠加）	强（可按域选择）	路由错误；线上一致性与可观测性要求更高
全量 MoE（FFN 专家）	多专家权重	中（Top-k 专家计算）	强（容量大）	训练与部署复杂；负载均衡与稳定性

基于 Prompt 的微调

与 LoRA、Adapter 这类“直接改模型内部参数化”的路线不同，基于 Prompt 的微调把任务适配写在输入条件上。它的核心是构造一小段能够引导模型行为的任务条件，让模型在保持基座冻结的前提下，沿着这段条件生成更符合目标任务的输出。

这里需要先把两类 Prompt 区分开。硬提示（Hard Prompt）是人工编写的离散文本提示，本质上属于提示工程（Prompt Engineering），而非参数高效微调；软提示（Soft Prompt）则是一组可训练的连续向量，通常可以看成“不对应真实词表 token 的虚拟 token embedding”。前者没有训练参数，可解释性强但搜索空间受限；后者进入连续空间后更容易通过梯度优化找到有效解，因此才构成 Prompt Tuning、Prefix Tuning、P-Tuning、P-Tuning v2 这一路软提示微调家族。

从机制上看，软提示路线的共同点是：人为构造或学习一小段任务向量，把它们拼接到原始输入或注意力状态中，再让这些额外向量参与模型的注意力计算，从而影响后续真实 token 的生成和判别。它的工程优势非常明确：主干参数无需为每个任务复制一份，多任务场景下只需切换不同的 Prompt 参数即可。

路线	作用位置	可训练参数量	主要优点	主要边界
硬提示	输入文本	0	可读、可解释、适合快速验证	离散搜索困难，效果上限受人工设计限制
Prompt Tuning	输入层	极少	最轻、最易多任务切换	只影响输入端，表达力最弱
Prefix Tuning	各层注意力	很少	比纯输入层软提示更强，能在每层引导注意力	实现更复杂，与模型结构耦合更深
LoRA / QLoRA	模型内部线性层	较少	效果更稳、更通用	需要改写模型参数化与训练图

因此，硬提示、软提示与 LoRA 的差异，不仅“参数多少”，还任务条件被写入模型的层次不同。硬提示只改自然语言输入；Prompt Tuning 把任务条件写进输入嵌入；Prefix Tuning 把任务条件送进每层注意力；LoRA 则直接改写模型内部线性映射的参数化。条件写得越深，通常表达力越强，但实现和系统复杂度也越高。

Prefix Tuning

Prefix Tuning 属于软提示类 PEFT。它学习的核心是一组连续可训练向量（Continuous Prefix），并把这组向量作为每一层注意力里的额外 Key / Value 注入。若某层原本的注意力键值对为 $K,V$，则 Prefix Tuning 可以理解为把它们扩展成 $[K_{\text{prefix}};K]$ 与 $[V_{\text{prefix}};V]$，让后续 token 在每一层都能访问这段任务特定“前缀记忆”。

它的关键不仅“在输入前加几个向量”，还在所有层分别注入前缀状态。不同层的前缀通常并不共享；每一层都有自己的 prefix 参数，因为浅层和深层承担的表示功能并不相同。于是，Prefix Tuning 更像是在每一层都额外挂上一小段可学习上下文，让模型在整条前向路径中持续感知任务条件，而非只在输入口看一眼提示后就完全交给主干自行传播。

若前缀长度记为 $m$、模型隐藏维度记为 $d$、层数记为 $L$，那么最粗略的参数量量级可以理解为 $O(Lmd)$。这也是它为什么通常比全量微调和 LoRA 更轻，但又明显重于单纯输入层 Prompt Tuning：它的参数量来自“每层各有一小段前缀”，而非只在输入层保存一组虚拟 token。

训练稳定性与重参数化

直接把前缀向量当作自由参数去优化，并不总是最稳定。因为这些向量一开始就要进入每层注意力，如果初始化过于随意，训练前期很容易让注意力分布出现较大抖动。为此，Prefix Tuning 的经典实现常引入一层小型重参数化网络，例如用一个 MLP 先把较低维或更结构化的中间表示映射成真正送入各层的 prefix Key / Value。

这种做法的本质是把训练阶段的优化空间改造成更平滑、更容易收敛的形式。训练完成后，这个 MLP 生成出的前缀状态通常可以被直接缓存或固化，推理时未必需要继续保留完整重参数化模块。因此，它更像一种训练期稳定化技巧，而非 Prefix Tuning 必须背负的长期结构成本。

适用性评估

它与 Prompt Tuning 的差别不在于“前缀长短”，而在于注入位置。Prompt Tuning 只在输入嵌入层增加一小段软提示；Prefix Tuning 则把任务参数直接送进每层注意力，因此它通常更有表达力，也更接近“在每层引导模型如何读写上下文”。代价是实现更复杂，模型结构耦合更深，训练与推理栈也更需要原生支持。

到 2026 年，Prefix Tuning 仍然是成立且标准的 PEFT 方法，但它在主流大语言模型指令微调里的存在感已经明显弱于 LoRA。它最有价值的场景通常是：希望极小参数量地控制条件生成行为、使用 Encoder-Decoder 或较经典的条件生成架构，或者研究上需要把“任务条件”明确写进每层注意力。若任务是当代 Decoder-only LLM 的通用指令对齐、风格迁移或领域适配，LoRA / QLoRA 往往仍是默认起点：更稳、更通用、推理框架支持也更成熟。

Prompt Tuning

Prompt Tuning（软提示/Soft Prompt）同样属于 PEFT，但它比 Prefix Tuning 更轻：只在输入嵌入层前面拼接一小段可训练“虚拟 token embedding”，而不改动 Transformer 内部层的参数结构。设输入嵌入序列为 $E(x)$，软提示为 $P\in\mathbb{R}^{m\times d}$，则模型实际看到的是拼接后的序列 $[P;E(x)]$。训练时更新的只有 $P$，基座参数保持冻结。

它的核心假设是：对于某些任务，模型原本的能力已经足够，真正缺少的只是一个足够好的“任务启动条件”。如果这组输入层虚拟 token 能把模型推到合适的工作点，后面的冻结主干就能沿着原有能力完成任务。因此，Prompt Tuning 在参数量上往往可以做到比 LoRA 还小一个量级，尤其适合“大量轻任务共享同一基座”的场景。

与 Prefix Tuning 的区别

Prompt Tuning 与 Prefix Tuning 的根本区别，不在于二者都用了虚拟 token，而在于任务条件写入的深度不同。Prompt Tuning 只在输入层插入软提示，后续所有层看到的都是这段输入在主干网络中自然传播后的结果；Prefix Tuning 则直接在每一层注意力中附加前缀状态，使任务条件持续存在于整条注意力链路中。前者最轻，后者更强。

Prompt Tuning 在超大模型上有时会随着基座规模增大而变得更有效，因为大模型本身已经足够强，输入端的一点点软条件就足以触发所需能力；而在中小模型或需要强行为控制的任务上，它往往不如 Prefix Tuning、LoRA 稳定。

家族扩展与适用性

围绕这一路线还发展出 P-Tuning、P-Tuning v2 等变体。它们的共同目标，都是让软提示不仅停留在“输入前拼一小段向量”这么简单，还通过更强的参数化或更深层的注入方式，提高在理解类任务和较小模型上的表现。若把家族关系压缩来看：Prompt Tuning 是最轻的输入层软提示；Prefix Tuning 把软提示推进到各层注意力；P-Tuning / P-Tuning v2 则在“如何生成这些提示、提示该注入多深”上继续增强。

到 2026 年，Prompt Tuning 仍然实用，但更像轻量特化选项而非主流默认路线：当目标是极小参数、海量任务复用、低存储部署或 prompt-adapter 风格服务时，它仍有现实价值；当目标是指令遵循、复杂格式约束、长对话行为修正或稳定领域适配时，LoRA / QLoRA 往往更稳妥，Prefix Tuning 也通常比纯输入层软提示更有表达力。

微调技术选型

前面列出的全量微调、部分参数微调、Prompt 系软提示、Adapter、LoRA、QLoRA 核心是针对不同约束条件的不同最优解。真正决定选型的，通常核心是四个问题同时成立时的交集：样本量够不够、GPU 预算有多紧、任务到底是在改行为还是改知识、上线时更看重单任务极致效果还是多任务复用与切换。

样本量是第一道分界线。数据很少时，更应优先考虑冻结主干参数的路线，例如 Prompt Tuning、Prefix Tuning、LoRA、QLoRA 或更轻的部分参数微调。原因不仅“省显存”，还冻结主干更容易保留预训练先验，降低小数据把模型硬拉向局部模式的风险。数据足够大、分布足够稳定、目标能力又确实需要深度改写时，全量微调才更值得支付它的高成本，因为只有在这种条件下，放开全部参数带来的表达上限才真正有机会被利用。

GPU 资源是第二道分界线。若显存非常紧，QLoRA 往往是生成模型微调的现实起点；若任务更轻、希望一个基座承载大量小任务，Prompt Tuning 或 Prefix Tuning 的存储优势会更突出；若 GPU 充裕且追求最强任务特化，上限仍然在全量微调一侧。换句话说，量化 LoRA 解决的是“放不放得下”，LoRA 解决的是“如何低成本改行为”，而全量微调解决的是“是否要把整套模型一起重写”。

任务性质决定第三道分界线。若变化主要发生在输入接口，例如新增专有 token、符号或特殊控制标记，输入层微调与软提示通常比全模型更新更自然；若变化主要体现在最终读出或评分方式，输出层微调往往就够；若目标是稳定调整指令遵循、格式约束、风格边界、多轮行为或一般性领域适配，LoRA / QLoRA 通常是默认解；若真正需要吸收大量新知识、重构深层表示、改变词表、上下文长度或位置编码等底层设定，则继续预训练或全量微调才更匹配问题本质。

推理形态决定第四道分界线。多任务在线服务最看重“一个基座 + 多个轻量增量”时，LoRA 及其热切换形态通常最实用；Prompt Tuning 与 Prefix Tuning 也具备同样的任务切换优势，只是主流推理框架与工业实践对 LoRA 的支持更成熟。Adapter 虽然同样具备插拔式优点，但它会在前向路径里保留额外计算分支，因此在当代大模型场景里通常不再是默认首选。若目标是最低推理延迟，合并后的 LoRA 与单体全量微调模型通常更占优；若目标是海量任务共享一个基座、频繁热切换，则运行时加载轻量适配器更灵活。

微调技术	何时优先考虑	主要优点	主要代价或边界
全量微调	GPU 资源充足、样本量充足、任务需要深度改写模型能力	表达上限最高，最适合深领域迁移与强任务特化	显存、时间和存储成本最高，也最容易削弱通用泛化
部分参数微调	只需要改特定层或特定结构，或现有框架不便直接接入 PEFT	选择性强，能用较低成本试探“真正该改哪里”	容量有限，往往更像折中方案而非通用默认解
Prompt Tuning / Prefix Tuning	样本较少、任务很多、希望极小增量复用同一基座	参数极少，保留主干泛化，适合多任务轻量切换	表达力通常弱于 LoRA；Prefix 实现更复杂，Prompt 在复杂行为控制上更弱
Adapter	需要显式模块化、任务插拔或特定架构兼容路径	结构清晰、任务隔离好、便于组织内复用	前向路径保留额外分支，在大模型场景里主流度已弱于 LoRA
LoRA	通用生成模型微调、多任务适配、需要效果与效率平衡	效果稳、生态成熟、可合并、可热切换，是当前主流默认基线	仍需选择 rank、挂载位置与训练稳定性权衡；深知识注入时可能容量不足
QLoRA / 量化 LoRA	GPU 资源非常有限，但仍需要微调较大生成模型	显著降低显存门槛，让 7B / 13B 级模型微调更可落地	训练链路更复杂；若任务要求极强表达力，最终仍可能需要更重路线

因此，微调技术选型可以压缩成一条很实际的经验顺序：先判断是否根本不该训练参数，而应优先做参数外优化；若需要训练，再判断任务是否只是轻量行为适配，此时 LoRA / QLoRA 往往是默认起点；若样本极少且强调多任务极致轻量切换，软提示路线才更有吸引力；若任务要求深度改写底座知识或结构，再考虑继续预训练与全量微调。只有当这些路线都无法满足目标时，才值得继续向更重、更贵的训练方式推进。

再往前走一步，就是下一节的偏好对齐问题：如果模型已经学会了任务本身，却仍然不会在多个可行回答中稳定偏向人类真正想要的那个，那么问题就已经从“选哪种微调技术”扩展到要不要进入奖励模型、DPO、PPO、GRPO 这一层相对偏好优化。

强化学习对齐

路线	直接监督信号来自哪里	参考模型的作用	如何防止偏离 SFT 太远
RLHF + PPO	奖励模型输出的 reward；奖励模型本身来自人类偏好数据	作为参考策略 $\pi_{\mathrm{ref}}$，通常是 SFT 模型的冻结副本	显式加入 KL 项，把当前策略锚定在参考分布附近
DPO	显式偏好对 $(x,y_w,y_l)$	作为锚点，比较“当前模型相对参考模型是否更偏向好答案、远离差答案”	不单独写 KL 惩罚项，但在损失中隐式约束模型不要脱离参考模型过远
GRPO	同一 prompt 下一组回答的评分、排序或规则反馈	常作为参考策略或 KL 正则锚点；具体是否使用取决于实现	通过组内相对优势更新，必要时再叠加参考模型 KL 约束

强化学习对齐（RL-based Alignment）更准确的说法是“偏好对齐（Preference Alignment）”：用偏好信号把模型输出推向“更符合人类/评审标准”的区域。监督微调（SFT）解决的是“模型是否会按指令作答”，偏好对齐解决的则是“在多个看似都能回答问题的候选答案中，模型是否会稳定偏向更有帮助、更安全、更符合人类预期的那个”。两者前后衔接为两层约束，并不重复。

监督微调本身当然可以承担一部分对齐工作。只要训练数据里显式包含拒答样例、安全边界、好坏答案对照、批判依据（Critique Rationale）、自我修正链路，模型就能通过有监督学习吸收相当一部分“什么回答风格更合适、什么回答应当避免”的行为模式。很多现代对齐流程的第一步，本来就是把这些规则先写进 SFT 数据，再让模型学会基础行为边界。

但 SFT 的学习目标本质上仍然是给定输入，去拟合某个目标输出。若把提示词记为 $x$、参考答案记为 $y$，那么它优化的是 $\log \pi_\phi(y|x)$ 这一类似然目标。即使数据里同时给出“好答案、坏答案、批判依据”，SFT 也主要是在学习如何复现这些文本本身，而非直接学习“在多个候选回答之间，哪个应该被稳定偏好”。这意味着它更擅长教会模型怎样说，却不天然等价于教会模型怎样在多个可行答案里做排序。

拒绝采样微调可以看作这两层之间的一条中间路线。它先让模型对同一提示词生成多个候选，再借助验证器、规则或奖励信号只保留最好的一部分，把筛选结果重新写回监督数据，再继续做 SFT。这样做比纯手工监督更能利用自动评估，但仍然没有显式保留“胜者为何优于败者”的相对排序结构，因此它更像把偏好信号先离散化成高质量目标答案，再交给监督微调吸收。

偏好对齐之所以需要单独成层，关键就在这里。很多真实问题存在一组“都不算错、但质量不同”的候选回答，而非唯一标准答案：有的更完整，有的更安全，有的更符合语气预期，有的虽然事实没错却明显不够有帮助。把这种问题压成单一参考答案做 SFT，模型容易学到某一种写法，却未必真正学到“为什么 A 应优于 B”。批判依据也有同样的局限：模型可以学会输出一段像样的批判文本，但这并不自动保证它在自由生成时，会稳定地把这些批判原则内化为回答排序规则。

因此，今天更准确的技术分层是：SFT 可以完成基础行为对齐，而偏好优化负责处理相对偏好排序。前者让模型学会回答、学会拒答、学会遵守基本格式；后者让模型在多个都看似合理的答案之间，更稳定地偏向人类真正想要的那个。也正因为如此，现代对齐并不必然等于“强化学习”本身：PPO / RLHF 是一条路线，DPO、ORPO 等把偏好直接写进损失的路线则是另一条路线。它们解决的是同一个问题，只是优化手段不同。

这一层之所以重要，还因为大模型的质量并不能被单一指标完整刻画。古德哈特定律（Goodhart's Law）指出：一旦某个指标变成优化目标，它往往就不再是一个好的指标。放到模型对齐里，这意味着如果只盯住某个狭窄基准分数，模型很可能学会迎合该指标，却牺牲真正的可用性、稳健性与安全性。偏好对齐因此更强调相对排序、多维度评审与参考模型约束，而非把“好答案”简化成单一静态分数。

从工程上看，主流路线分为两类：

显式奖励：先训练奖励模型（Reward Model），再用 PPO 等策略优化算法做 RLHF。
直接偏好：不显式训练奖励模型，直接用偏好对优化策略（例如 DPO）。

奖励函数设计的理论位置

奖励函数（Reward Function）是偏好对齐里最容易被低估的一层。它决定策略优化阶段真正追求什么，也决定模型会把哪些行为当成“值得更常生成”的行为。若奖励函数只覆盖格式，模型会优先学格式；若奖励函数只奖励短答案，模型会压缩回答；若奖励模型存在系统性偏差，策略优化会把这种偏差放大。

从理论变量看，奖励函数可以写成 $r(x,y)$：给定提示词 $x$ 和模型回答 $y$，输出一个标量分数、排序信号或结构化反馈。这个信号随后进入优势估计（Advantage Estimation）和策略更新，影响模型提高哪些回答的概率、压低哪些回答的概率。

奖励类型	典型来源	适合任务	主要风险
规则奖励	答案匹配、JSON schema、正则解析、格式约束、长度约束	数学、结构化抽取、格式化输出、闭集问答	规则覆盖不足时，模型会学会利用解析器漏洞或输出模板化答案。
执行奖励	代码单测、SQL 执行、工具调用成功率、沙箱结果	代码、数据库、工具 Agent、可验证工作流	执行成本高，需要隔离、超时控制、重试和安全边界。
奖励模型	人类偏好数据训练出的 pairwise reward model	开放式问答、写作、客服、安全和主观偏好	分布外误判、长度偏置、模板偏置和奖励黑客。
LLM-as-judge	rubric 打分、成对比较、多维自动评审	快速评估开放式质量、人工标注前的数据筛选	judge 的偏差、幻觉和位置偏好会进入训练闭环。
混合奖励	正确性、格式、长度、安全、KL、工具结果的加权组合	真实产品任务，单一指标不足以覆盖全部质量维度	各项尺度不一致时，最大的一项会吞掉其他目标。

奖励函数设计应先明确主目标与护栏目标。主目标直接对应任务成败，例如答案正确、代码测试通过、检索命中或用户偏好胜出；护栏目标限制模型用不健康方式拿分，例如超长输出、重复模板、格式投机、拒答过度或安全越界。两类目标最好分别记录日志，再在训练目标中加权组合。若只保留合成后的单一 reward，训练后很难判断模型到底是在变聪明，还是只是在钻某个奖励项的空子。

奖励函数还必须经过独立验证。训练前应在固定样本集上检查 reward 的均值、方差、零分比例、满分比例、长度相关性，以及人工查看高分坏例和低分好例。对在线 RL 来说，奖励函数本身就是“教师”；教师错得稳定，学生也会稳定地学错。

RL 后训练框架的理论位置

TRL、OpenRLHF、verl、LLaMA-Factory、Axolotl 这类系统属于偏好对齐的实现层。它们本身通常不改变“偏好信号如何定义”的理论问题，主要把 rollout、奖励计算、参考模型约束、策略更新、checkpoint、分布式资源和日志追踪组织成可运行系统。理解这些框架时，应先把它们映射回前面的对齐变量。

框架里的名字	理论含义	在偏好对齐中的作用
actor / policy	当前可训练策略 $\pi_\phi(y\|x)$	根据 prompt 生成候选回答，并在训练中被梯度更新。
rollout	从当前策略采样 $y\sim \pi_\phi(\cdot\|x)$	产生用于打分和更新的模型回答。vLLM、SGLang 等引擎主要服务这一阶段。
reward model / reward function / rubric	奖励函数 $r(x,y)$	把回答质量转成标量、排序或结构化反馈，可来自人类偏好模型、规则、单元测试、rubric 或外部裁判模型。
reference policy	冻结参考策略 $\pi_{\mathrm{ref}}(y\|x)$	提供 KL 锚点，限制当前策略远离 SFT 起点过快，降低奖励黑客和语言退化风险。
critic / value model	价值函数 \(V(x,y_{ 或 baseline	PPO 中用于降低策略梯度方差。GRPO、RLOO 等方法会弱化或移除显式 critic，用组内统计或留一基线替代。
advantage estimator	优势估计 $\hat{A}$	把 reward、baseline、KL 项和组内统计转成“这条回答相对应该被鼓励还是压低”的训练信号。

从这张映射表可以看出，RL 后训练框架关注的是同一个闭环：当前策略生成回答，奖励系统给出反馈，优势估计器把反馈转成更新方向，参考模型约束策略漂移，训练后端负责真正更新参数。PPO、GRPO、RLOO、ReMax、REINFORCE++ 等算法的差异，主要体现在 advantage、baseline、KL 和采样组织方式上。

不同框架的理论重心也不同。TRL 更接近“把 SFT、DPO、GRPO、RewardTrainer 做成一组训练器”；OpenRLHF 更强调多角色在线 RLHF，把 actor、critic、reward、reference 和 rollout 引擎拆成分布式服务；verl 更强调 HybridFlow 风格的统一 worker、资源池和多算法切换；LLaMA-Factory、Axolotl 更像配方层，把 SFT、DPO、PPO、GRPO 等训练路线整理成配置化流程。它们最终都服务同一个目标：让模型在多个可行回答中更稳定地偏向高质量输出。

奖励模型（Reward Model）

奖励模型（Reward Model, RM）把（提示词 $x$，回复 $y$）映射为一个标量分数 $r_\theta(x,y)\in\mathbb{R}$。它的职责核心是充当自动评审器：输入“问题 + 回答”，输出一个可比较的质量信号，用来近似人类对回答质量的偏好判断。

偏好数据

奖励模型的训练数据通常是成对偏好数据，而非单条样本加绝对分数。对同一提示词 $x$，先让模型生成多个候选回答，再由人工标注员或更强的评审模型选择其中更优的一条，形成三元组 $(x,y_w,y_l)$：其中 $y_w$ 是被接受的回答（chosen response），$y_l$ 是被拒绝的回答（rejected response）。

这种二选一偏好标注通常比直接打 1 到 5 分更稳定。原因并不复杂：绝对分数依赖个人尺度，主观漂移大；相对偏好只要求判断 A 和 B 谁更好，一致性通常更高，标注成本也更低。因此，现代偏好对齐流程更常见的监督信号是排序关系，而非绝对评分。

模型形态

奖励模型通常以已经完成 SFT 的语言模型为骨干（Backbone）进行改造，而非从零开始训练：保留主体 Transformer 表示层，移除原先用于生成下一个 token 的语言建模头（LM Head），换成一个输出单一标量的质量头（Reward Head）。这样做的好处是，奖励模型继承了 SFT 模型对指令与回答结构的理解，只需要继续学习“哪种回答更好”这一层偏好判断。

对一对“胜/负”样本 $(x,y_w,y_l)$，常用 Bradley–Terry / Logistic 形式把分数差转为偏好概率：

\[\Pr(y_w \succ y_l\mid x)=\sigma\!\left(r_\theta(x,y_w)-r_\theta(x,y_l)\right)\]

并用对数损失训练：

\[\mathcal{L}_{\mathrm{RM}}(\theta)=-\log \sigma\!\left(r_\theta(x,y_w)-r_\theta(x,y_l)\right)\]

关键点：sigmoid 用在“分数差”上，而非对每个 $r_\theta(x,y)$ 再套一层 sigmoid。分数本身不需要限制在 $[0,1]$；概率来自差值的 logistic 映射。

参数 $\theta$ 表示奖励模型的参数集合（Parameter Set），包含全部权重矩阵与偏置项，并非单一标量。

单调性视角：因为 $\sigma$ 单调递增且 $-\log(\cdot)$ 在 $(0,1)$ 上单调递减，所以 $\mathcal{L}_{\mathrm{RM}}$ 对分数差 $\Delta r=r_\theta(x,y_w)-r_\theta(x,y_l)$ 单调递减。训练会推动 $\Delta r$ 变大，从而把胜者分数推高、败者分数压低。

RLHF

RLHF（Reinforcement Learning from Human Feedback）把整个偏好对齐流程拆成三段：先收集偏好数据，再训练奖励模型，最后用奖励模型为主语言模型提供优化信号。它的核心贡献不在于“使用了强化学习”本身，而在于把原本昂贵、缓慢、难以规模化的人类评审，转化成可以自动计算的奖励分数。

在 RLHF 里，语言生成被改写为一个强化学习问题：token 是动作（Action），策略是语言模型 $\pi_\phi(y|x)$，奖励来自 $r_\theta(x,y)$。早期最经典、也最具代表性的做法，是以 PPO（Proximal Policy Optimization）作为策略更新算法，用奖励模型给出的分数提高高质量回答的生成概率，同时压低低质量回答的概率。常见目标写成：

\[\max_{\phi}\ \mathbb{E}_{y\sim \pi_\phi(\cdot|x)}\big[r_\theta(x,y)\big]-\beta\,D_{\mathrm{KL}}\!\left(\pi_\phi(\cdot|x)\,\|\,\pi_{\mathrm{ref}}(\cdot|x)\right)\]

这里的 $\pi_{\mathrm{ref}}$ 通常并非额外训练出来的一套神秘模型，而就是PPO 开始前那一版 SFT 模型的冻结副本。标准顺序通常是：先从预训练基座得到 SFT 模型，再把这份 SFT checkpoint 复制成两路，一路继续作为可训练策略 $\pi_\phi$，一路冻结为参考模型 $\pi_{\mathrm{ref}}$。因此并不存在“先有参考模型还是先有策略模型”的循环依赖；二者都来自同一个 SFT 起点，只是一个继续更新，一个保持不动。

式子里的 KL 项与 KL 散度（Kullback–Leibler Divergence）是直接对应的关系：这里所谓的“KL 项”，就是目标函数中的 $\beta\,D_{\mathrm{KL}}(\pi_\phi\|\pi_{\mathrm{ref}})$ 这一项，只不过前面再乘了一个权重系数 $\beta$。它的作用核心是作为正则约束，把当前策略锚定在 SFT 参考分布附近，防止模型为了讨好奖励模型而偏离过远，出现奖励黑客（Reward Hacking）、语言退化或能力崩塌。PPO 在这类任务里长期被广泛采用，原因正是它对策略更新幅度加了“护栏”，能在追求更高奖励和保持原有能力之间维持相对稳定的折中。

PPO

PPO（Proximal Policy Optimization）之所以长期是 RLHF 的默认优化器，核心是因为它足够稳。普通策略梯度（Policy Gradient）的问题在于：一旦某次更新把策略推得过远，语言模型就可能突然偏离原有分布，表现为回复风格失真、可读性下降、奖励黑客，甚至整体能力退化。PPO 的核心改进就是限制“这一步最多改多少”，让策略朝高奖励方向移动，但每次只允许小步修正。

它最经典的形式是 clipped objective。若当前策略与旧策略的概率比记为 $\rho_t=\frac{\pi_\phi(a_t|s_t)}{\pi_{\phi_{\mathrm{old}}}(a_t|s_t)}$，对应优势函数（Advantage Function）为 $A_t$，则目标可写成：

\[\mathcal{L}_{\mathrm{PPO}}(\phi)=\mathbb{E}_t\left[\min\left(\rho_t A_t,\ \mathrm{clip}(\rho_t,1-\epsilon,1+\epsilon)A_t\right)\right]\]

这里的 $\epsilon$ 是更新护栏宽度。若某次更新让概率比偏离 1 太远，clip 就会截断继续放大的收益，阻止模型为了追求更高奖励而走得过猛。对 LLM 而言，这个机制尤其重要，因为语言模型的输出分布非常高维，只要少量 token 的条件概率被过度放大，就可能连锁改变整段回答的行为模式。

放到 RLHF 流程里，PPO 的完整闭环通常是：先用当前策略对同一提示词采样若干回答，再用奖励模型评分，并结合参考模型的 KL 惩罚构造最终回报；随后估计优势 $A_t$，再用 clipped objective 更新策略。也正因为这里同时牵涉采样、奖励模型、参考模型、旧策略快照与优势估计，PPO 路线的工程链条明显比 DPO 更长，训练成本和调参复杂度也更高。

工业实践中，奖励往往也并非单一维度。一个典型做法是分别训练“有用性（Helpfulness）”与“安全性（Safety）”奖励模型，再按加权和形成总奖励，例如 $R_{\mathrm{total}}=\alpha R_{\mathrm{helpful}}+\beta R_{\mathrm{safety}}$。这样可以显式控制不同对齐目标之间的权重，而非把所有偏好都压缩进一个不可分解的单一评分器里。

非典型算法形态

到了大模型对齐阶段，很多方法在问题定义上仍然属于强化学习，但在算法形态上已经明显偏离经典强化学习教材中的标准样子。原因并不神秘：LLM 对齐面对的是一种极其特殊的决策问题。若强行套用经典 RL 映射，可以把状态（State）理解为“当前提示词 + 已生成 token 序列”，把动作（Action）理解为“从巨大词表中选择下一个 token”，把奖励（Reward）理解为“整段回答生成完之后得到的评分”，把环境（Environment）理解为模型自身的自回归生成过程。这个映射在概念上成立，但工程代价极高。

困难主要集中在三点。第一，动作空间极大：每一步都要在成千上万个 token 中做选择。第二，奖励高度延迟：很多时候只有整段回答生成完毕后，才能得到一个总体评分，时间信用分配（Temporal Credit Assignment）比经典控制任务更棘手。第三，策略优化链条极重：若完整采用 PPO 式 RLHF，训练时往往要同时维护可训练策略、旧策略快照、参考模型、奖励模型，很多实现里还要有价值网络（Value / Critic），显存、吞吐和稳定性压力都非常大。

因此，大模型对齐逐渐出现了一条清晰演化路径：保留强化学习的问题定义，重写强化学习的求解形态。所谓“保留问题定义”，指的是目标仍然来自评估性反馈（Evaluative Feedback）而非逐步给定的标准答案；模型仍然要学会在多个候选回答之间偏向更优者。所谓“重写求解形态”，指的是从机械照搬经典 Actor-Critic 或全流程在线 RL转向通过数学消元、离线偏好优化、组内相对比较、弱化价值网络等方式，把问题改写成更适合大模型训练的目标。

从这个视角看，DPO 与 GRPO 都核心是对经典算法形态的工程重构。DPO 走得更远：它把“奖励建模 + 策略优化”折叠成一个静态偏好对损失，形式上已经非常接近监督学习或对比学习。GRPO 则保留了“采样 - 评分 - 更新”的策略优化闭环，但用组内相对优势替代显式价值网络，属于一种极简化的策略优化路线。前者更像对 RL 目标的解析化改写，后者更像对 PPO 结构的裁剪与瘦身。

DPO

DPO（Direct Preference Optimization）是这种“非典型 RL 形态”里最典型的一类：它直接用偏好对 $(x,y_w,y_l)$ 优化策略，不显式训练奖励模型，也不需要 PPO rollout。它的出发点很明确：既然手里已经有“哪个回答更好”的偏好数据，那么没有必要再额外训练一个奖励模型，再把奖励模型嵌入完整强化学习闭环；可以直接把偏好关系作用到策略本身。

DPO 仍然保留一个冻结的参考模型 $\pi_{\mathrm{ref}}$ 作为锚点，并同时比较当前可训练模型与参考模型在“被接受回答”和“被拒绝回答”上的相对概率。这里的概率核心是整条回答在 token 级对数概率上的汇总，因此本质上是在比较“当前模型是否比参考模型更偏向好答案、同时更远离差答案”。典型目标写成：

\[\mathcal{L}_{\mathrm{DPO}}(\phi)=-\log \sigma\!\Big(\beta\big[\log\pi_\phi(y_w|x)-\log\pi_\phi(y_l|x)-\log\pi_{\mathrm{ref}}(y_w|x)+\log\pi_{\mathrm{ref}}(y_l|x)\big]\Big)\]

直觉上，DPO 直接增大“胜者相对败者”的对数概率优势（log-odds margin），同时用参考模型作为锚点。它把 RLHF 中“奖励建模 + PPO 优化”的两步折叠成一步有监督式偏好优化，因此工程更轻、训练更稳定，也更容易复用现有 SFT 训练栈。正因为这一点，DPO 已经成为许多中小团队进行偏好对齐时的默认起点。

从经典 RL 的角度看，DPO 最“不像强化学习”的地方在于：它几乎拿掉了在线探索、环境交互和显式优势估计这些传统组件，直接在离线偏好数据上优化策略。这也是为什么它在形式上看起来更像监督学习；但它解决的仍然是评估性反馈下的偏好优化问题，而非普通的标签拟合问题。

DPO 训练并非要把“好样本相对差样本的概率优势”硬拉到某个固定阈值才算结束。它优化的是整个偏好数据集上的相对排序损失，而非某个预设的绝对 margin。对容易区分的样本，胜者优势会很快变大，梯度也随之减弱；对天然模糊、偏好边界不清的样本，这个优势不可能无限扩大。若继续强行训练，模型更可能开始过拟合偏好数据、放大表面写法差异，甚至损害生成分布稳定性。因此，DPO 的停止标准本质上仍然是验证集偏好指标、生成质量与分布稳定性是否已经饱和，而非“margin 必须大于某个固定常数”。

GRPO

GRPO（Group Relative Policy Optimization）比 DPO 更接近经典策略优化，但它同样属于“非典型 RL 形态”：对同一个提示词 $x$ 采样一组候选回复 $\{y_k\}_{k=1}^{K}$，用奖励/偏好信号在组内排序或打分，再把“相对好坏”转成策略梯度更新。它的核心动机是：用组内比较构造优势（Advantage）或基线（Baseline），从而减少对显式价值网络（Critic / Value Function）的依赖。

一种常见的做法是把组内奖励做标准化得到相对优势：

\[A_k=\frac{r_k-\mu_r}{\sigma_r+\epsilon},\quad \mu_r=\frac{1}{K}\sum_{k=1}^{K}r_k,\ \sigma_r^2=\frac{1}{K}\sum_{k=1}^{K}(r_k-\mu_r)^2\]

并用 PPO 风格的 clipped objective 更新策略（仍然可带 KL 正则到参考模型）：

\[\max_{\phi}\ \mathbb{E}\Big[\min\big(\rho_k A_k,\ \mathrm{clip}(\rho_k,1-\epsilon,1+\epsilon)\,A_k\big)\Big]-\beta D_{\mathrm{KL}}\!\left(\pi_\phi\,\|\,\pi_{\mathrm{ref}}\right),\quad \rho_k=\frac{\pi_\phi(y_k|x)}{\pi_{\phi_{\mathrm{old}}}(y_k|x)}\]

真正决定“奖惩”的核心是它在同组候选中的相对位置。若某个回答的组内奖励 $r_k$ 高于这一组的平均水平 $\mu_r$，则 $A_k>0$，训练会提高模型再次生成这类回答的概率；若某个回答低于组内平均水平，则 $A_k<0$，训练会压低模型对这类回答的偏好。换句话说，GRPO 奖励的是“在同一个 prompt 下，比同组其他回答更好的样本”，惩罚的是“在同一个 prompt 下，相对更差的样本”，而非单独给每个回答设一个全局固定门槛。

从优化角度看，这种“压制”核心是让该回答在目标函数里贡献负优势（Negative Advantage）更新。结果上，它等价于让这类回答对应的策略概率逐步下降：模型以后再采样到相似回答时，会更倾向于远离它，而非继续强化它。

因此，GRPO 与经典 PPO 的最大差别，并不在于“还有没有策略梯度”，而在于它把传统 Actor-Critic 结构大幅裁剪了。经典 PPO 往往依赖一个显式价值网络去估计 baseline，以降低方差；GRPO 则直接用同组候选回答之间的相对分数生成基线，把“谁比平均更好、谁比平均更差”写进组内统计量。这使它在大模型场景下明显更省显存，也更容易扩展到规则打分、程序验证和裁判模型评分等复杂奖励来源。

这种机制尤其适合答案质量强依赖上下文、很难用一个全局绝对分数刻画的场景。对某些 prompt，70 分的回答可能已经是组内最优，应当被正向强化；对另一些 prompt，80 分的回答仍可能只是组内倒数，应当被压制。GRPO 的核心就在于：目标模型核心是因为它在同题候选集合里相对更优而受到正向更新。

GRPO 仍然需要某种奖励/偏好信号（显式奖励模型、规则打分、对比标注等）；它改变的是“如何用这些信号构造稳定的更新”，而非免除奖励来源本身。把几条路线放在一起看，会更清楚：RLHF + PPO 强调显式奖励建模与稳定策略更新，DPO 强调跳过奖励模型后的直接偏好优化，GRPO 则强调用组内相对比较构造更稳定的优势信号。它们共享同一个目标，只是在“偏好信号如何表达、如何被模型消化”这件事上采取了不同工程路径。

参数外优化

参数外优化（Parameter-free Optimization）指的是：在不更新模型权重的前提下，通过改写提示词（Prompt）、输出约束、示例组织、工具说明、工作流与评估闭环来提升系统表现。它优化的对象核心是模型与任务之间的接口层。

这条路线之所以重要，是因为很多任务的瓶颈并不在模型“不会”，而在任务描述不够精确、输出约束不够严格、示例覆盖不足，或评估回路设计不清。此时，更合理的第一步往往核心是先做参数外优化：不改模型参数，只改模型使用方式。

自动化 Prompt 优化（APO）

自动化 Prompt 优化（Automatic Prompt Optimization, APO）的核心思想是：把人工反复修改 Prompt 的经验循环，改写成一个自动化搜索与评估过程。它把 Prompt 本身当作待优化对象，不更新模型权重，再用验证集上的错误信号驱动 Prompt 迭代。换句话说，APO 优化的核心是模型与任务之间的接口描述。

这条路线之所以重要，是因为很多任务的误差并不来自“模型完全不会”，而来自任务定义不够精确、输出约束不够严格、规则优先级表达不清，或者 few-shot 示例没有覆盖真正的边界情况。对这些问题，先做 Prompt 优化通常比直接微调更便宜，也更容易定位问题来源。

基本流程

APO 可以概括为一个闭环迭代过程。

从当前 Prompt 出发，在固定验证集上运行模型，得到一轮可量化的表现。
收集错误样本，重点关注 false positive、false negative 以及模型在边界样本上的失误模式。
把这些错误样本与当前 Prompt 一起交给一个更强的语言模型，要求它分析当前 Prompt 的缺陷，例如规则表述含糊、优先级冲突、示例覆盖不足、输出格式不稳定，或对某些语义模式缺乏约束。
基于这些分析生成若干候选 Prompt。候选改动可以包括：重写系统提示、重排规则顺序、增加约束语句、补充反例、加入 few-shot 示例，或强化输出格式说明。
用同一个验证集重新评估这些候选 Prompt，并按预先定义的指标选出当前最优版本。
重复这一过程，直到验证集指标收敛，或进一步修改已经不能带来稳定收益。

这个闭环的本质是“用验证集驱动 Prompt 搜索”。人工调 Prompt 时，工程师通常也是先看错例，再猜原因，再改写提示词，再重新评估；APO 只是把这条经验流程交给模型辅助完成，并把迭代过程系统化。

APO 依赖什么

要让 APO 真正有效，至少要具备三样东西：

高质量验证集：它不一定需要极大规模，但必须足够准确，且覆盖关键边界情况。
清晰的评价指标：分类任务通常可以直接使用 Accuracy、Precision、Recall、F1；抽取、排序、生成任务则需要对应的可重复评价标准。
被优化对象必须足够明确：例如系统提示词、用户提示模板、few-shot 示例集、输出格式约束或工具调用说明。

如果缺少这三者中的任意一个，APO 都很容易退化成“让模型随意重写 Prompt”，最终只是在做风格漂移，而非真正基于验证信号优化任务表现。因此，APO 的核心是“能否把 Prompt 修改纳入可验证的实验闭环”。

验证信号质量

参数外优化对验证信号质量极其敏感。因为它直接把验证集上的错误模式反向写入 Prompt 结构，缺少海量训练样本的噪声平均效应，所以一旦验证集标签本身含糊、冲突或混入大量低置信样本，优化器就很容易朝错误方向改写规则。高质量、边界清晰的验证集通常能显著提升 APO 的稳定性；相反，模糊数据会让优化过程更像是在追逐评测噪声，而非纠正模型真实缺陷。

与微调的区别

维度	微调	APO
优化对象	模型权重	Prompt、示例、输出约束
资源需求	通常需要训练框架、显存和数据管线	通常只需要验证集与可调用的模型
成本	高	低
可解释性	较弱，行为被写入权重	强，Prompt 变更可直接审查
性能上限	更高，可把规则和模式内化进模型	受限于基座模型自身能力
更适合	数据充足、任务长期稳定、性能要求高	快速迭代、规则频繁变化、数据量有限

因此，APO 和微调并更像两层不同成本的优化手段。若模型本身已经具备足够能力，但任务接口还没有调顺，先做 APO 往往收益最高；若 Prompt 已经被压到比较成熟，但模型仍然持续犯系统性错误，才更适合进入微调阶段。

适用边界

APO 最适合规则可文本化、评估指标清晰、且基座模型本身已经具备足够语义理解能力的任务。例如分类、抽取、轻量结构化生成、审核规则执行、问答格式控制和工具调用提示约束，往往都能从 APO 中获益。尤其当任务规则经常变化、人工需要频繁更新 Prompt 时，APO 的价值会非常明显。

它的边界同样清晰。若任务需要模型学习新的领域知识、记住稳定事实、吸收大量风格样本，或长期存在系统性能力缺口，那么单纯修改 Prompt 的收益通常很快见顶。此时，Prompt 优化可以继续作为上层控制手段存在，但性能提升的主战场已经会转移到微调与继续预训练。

多分支 Prompt 优化（AMPO）

AMPO（Automatic Multi-Branched Prompt Optimization）可以看作 APO 的结构化升级版。普通 APO 往往默认“只有一条主 Prompt 流程”，优化方式主要是改写文字、调整规则顺序或补充示例；AMPO 则进一步把 Prompt 看作一种可演化的决策结构。它的目标不仅把单条 Prompt 写得更好，还让 Prompt 从单流程逐步生长为多分支结构，使模型在面对不同输入模式时，能够沿着更合适的子路径完成判断。

这种思路来自一个很强的人类专家直觉：复杂任务往往核心是靠“先识别情形，再走对应流程”。因此，AMPO 的真正创新不仅自动改 Prompt，还把 Prompt 优化从“文案修订”提升成“结构搜索”。在这种框架下，提示词已经不只是几句话，而更像一个树状决策蓝图。

为什么需要多分支

当任务内部同时包含多种错误模式时，单分支 Prompt 很容易不断堆叠例外说明，最后变成冗长、脆弱且难以维护的规则串。AMPO 的判断是：如果不同错误模式对应的是不同处理逻辑，就应允许 Prompt 显式分叉，而非强行把它们揉进同一段线性指令。这样做有三个直接收益。第一，结构更清晰：每个分支各自负责一类模式，规则可解释性更强。第二，复杂场景适应性更好：模型先定位情形，无需在一条过长指令中硬找适用规则，再走对应分支。第三，后续维护更容易：新增模式时可以局部增补或重构特定分支，而不必重写整个 Prompt。

三大模块

AMPO 的核心流程可以分成三个协同模块：模式识别（Pattern Recognition）、分支调整（Branch Adjustment）和分支剪枝（Branch Pruning）。这三个模块合在一起，构成了一个从错误样本出发、逐步生长并控制复杂度的优化回路。

模式识别负责把零散坏例归纳成少数根因模式。它通常核心是采用角色分工：一个分析器（Analyzer）逐个解释失败原因，另一个总结器（Summarizer）把这些解释压缩成更高层的模式，并给模式分配重要性。这样做的关键价值在于：优化目标从“修这几个具体坏例”转成“修这一类错误背后的共同规则缺口”。

分支调整负责决定 Prompt 结构该如何变化。这里最重要的决策核心是“深化已有分支，还是新增分支”。若新模式与某个已有分支高度相关，只需补充约束或细节，那么更合理的做法是深化；若新模式与现有逻辑明显不同，继续堆进原分支只会制造冲突，就应当拓宽，新增一个独立子分支。AMPO 优化的核心是 Prompt 的控制流结构。

分支剪枝负责抑制过拟合。多分支优化的自然风险是：随着迭代次数增加，Prompt 可能长出大量只服务于少数训练样本的局部规则，最终在未知数据上退化。AMPO 因此显式引入两层剪枝：

预剪枝（Pre-pruning）：相当于基于独立验证集的早停机制。若新增分支不再带来稳定收益，就停止继续扩张。
后剪枝（Post-pruning）：要求优化器在输出最终 Prompt 前重新审视各分支，删掉不必要、过于具体或明显带有训练集记忆痕迹的规则。

坏例抽样

AMPO 的一个很有代表性的设计，是每轮只抽取很少量的代表性坏例，例如固定 $K=5$，而非分析大量失败样本。这是一种典型的小样本归纳策略：在模式识别任务里，最前面的少数高信息量样本往往已经足以揭示一类错误的共性，而继续增加样本数量，边际信息收益会快速下降。对具备较强归纳能力的 LLM 来说，少量围绕同一主题的坏例通常已经足够提炼出根本模式。

更重要的是，AMPO 并不要求 $K$ 随总坏例数量成比例扩大。固定的小 $K$ 让每轮优化的成本更可控，也避免分析器被大量重复、低信息量坏例淹没。参数外优化的关键核心是“看足够有代表性的错误”。

是否需要失败输出

AMPO 还提供了一个很重要的方法论提醒：分析错误原因时，并不总是必须把模型当轮生成的失败输出显式提供给分析器。很多时候，输入、当前 Prompt、正确标签以及“这条样本被判错了”这一事实，已经足以让分析器定位规则缺失。因为优化器真正需要回答的问题是“当前指令为什么会把模型引向这类错误”。当失败输出本身噪声较大、措辞随机性较强时，强行把它加入分析，反而可能干扰模式归纳。

换言之，参数外优化的关注重点应当放在规则缺口而非错误表面上。一个高质量分析器更像在做“指令失效诊断”，而非对错误回答做逐字复盘。

优化器与执行器解耦

AMPO 还强化了一个现实而重要的工程模式：用于分析与重写 Prompt 的优化器模型，并不必与实际执行任务的目标模型相同。前者更强调总结、重写和结构设计能力，后者则更关注线上推理成本、延迟、稳定性和部署约束。把“谁负责优化 Prompt”和“谁负责执行 Prompt”解耦，往往能在成本与效果之间得到更好的组合。

实验启示

从论文记录呈现的实验关注点看，AMPO 主要验证了三件事。第一，优化效率：多分支结构在复杂任务上往往能更快探索到高质量 Prompt，而非在单分支上做无穷尽的局部修补。第二，收敛性：随着迭代推进，Prompt 结构会逐步稳定下来，说明这种优化并非纯随机搜索。第三，消融结果：模式识别、分支调整和分支剪枝都并非装饰性组件，拿掉任一模块，性能与稳定性都会受到影响。与普通 APO 相比，AMPO 的价值不仅“Prompt 更长”，还 Prompt 结构更像一个经过错误模式驱动后生长出来的决策树。

因此，参数外优化不应只被理解成“自动改几个词”。从 APO 到 AMPO，它实际上形成了一条清晰的演进路径：先把 Prompt 当作可搜索的文本接口，再把 Prompt 当作可演化的结构接口。前者已经足以覆盖大量规则型任务，后者则更适合复杂、异质、边界模式较多的任务。

分布式训练

分布式训练（Distributed Training）处理的核心问题是：当单张 GPU 已经无法同时满足吞吐量、显存容量、模型规模或上下文长度要求时，训练过程应如何拆分到多张卡乃至多台机器上执行。它覆盖一组并行策略，分别对应不同的设备组织方式。不同策略的差别，主要体现在四个对象如何被分配：数据（data）、模型参数（parameters）、梯度（gradients）和优化器状态（optimizer states）。

工程上最常见的切分方向有两类。第一类是数据并行：每张卡保留完整模型，但处理不同批次数据，再通过通信把梯度同步。第二类是状态分片：参数、梯度或优化器状态本身也被拆到多张卡上，以换取更高的显存上限。前者首先解决训练速度与中等规模显存压力，后者进一步解决“模型单卡放不下”或“长上下文导致激活太重”的问题。

常见策略总览

策略	数据如何分	模型状态如何放置	典型通信	最适合的场景
DDP	每张 GPU 读取不同 mini-batch	每张 GPU 保留完整模型、完整梯度与完整优化器状态	AllReduce 同步梯度	模型单卡放得下，主要目标是提升吞吐与缩短训练时间
DataParallel (DP)	主卡切分 batch 后分发到其他 GPU	前向复制模型，主卡负责聚合输出与梯度	主卡 gather / scatter	原型验证、老代码兼容；现代训练中通常不再是首选
FSDP	每张 GPU 处理不同 mini-batch	参数、梯度、优化器状态按 shard 分布到多卡	AllGather + ReduceScatter	模型或长上下文训练已接近或超过单卡显存上限
DeepSpeed ZeRO	通常也是数据并行	按 Stage 逐步切分优化器状态、梯度与参数	AllGather + ReduceScatter + 参数协调	超大模型、多机多卡、显存非常紧张的训练任务

分布式数据并行（Distributed Data Parallel, DDP）

DDP 是 PyTorch 最标准的多 GPU 训练策略。它的基本机制很直接：每张 GPU 持有一份完整模型副本，各自处理不同数据，各自完成前向与反向传播，然后把梯度做 AllReduce 平均，最后用同一份平均梯度同步更新参数。由于每张卡的参数初值一致、梯度同步后也一致，因此各副本在每一步更新后仍保持相同权重。

若以 4 卡训练为例，每张 GPU 的本地 batch size 为 4，那么单个 step 中实际处理的样本数就是 16。更一般地，全局批大小满足 $B_{\mathrm{global}} = B_{\mathrm{local}} \times N_{\mathrm{gpu}} \times N_{\mathrm{accum}}$。其中 $N_{\mathrm{accum}}$ 是梯度累积（Gradient Accumulation）步数。这个公式决定了训练稳定性、学习率缩放和吞吐估算，是理解 DDP 的第一条工程量纲。

DDP 最适合模型本体仍能放进单卡，但单卡训练已经过慢或单卡 batch 太小的场景。例如一个三亿参数量级的 Encoder，序列长度达到 4096 时，单卡既可能吞吐不足，也可能无法同时容纳更大的 batch。DDP 将这类压力分摊到多卡后，每张卡只需处理自己的本地 batch，整体吞吐通常接近线性增长，同时又保持实现逻辑相对简单。因此，在“模型放得下，但训练想更快、更稳”这一档场景里，DDP 仍然是默认起点。

DataParallel (DP)

DataParallel 是更早一代的单进程多 GPU 封装。它同样试图做数据并行，但实现方式与 DDP 不同：主进程通常位于 GPU 0，负责把一个 batch 切分后分发到其他 GPU，前向结果和反向梯度也要回到主卡聚合。这个结构会带来两个直接后果。第一，GPU 0 的负担显著更重，容易形成瓶颈；第二，单进程多线程模型更容易受到 Python 调度和通信组织方式的影响。

因此，DP 的优势主要只剩“接入非常简单”。一旦进入正式训练，尤其是多卡 batch 较大、模型通信频繁或训练周期较长时，DDP 几乎总是更稳、更快，也更接近现代 PyTorch 的标准实践。工程上可以把 DP 理解为历史过渡方案：适合快速原型与兼容旧代码，不适合作为持续训练体系的默认选择。

完全分片数据并行（Fully Sharded Data Parallel, FSDP）

FSDP 仍然属于数据并行范式，但它把“每卡完整持有模型状态”这件事拆开了。参数、梯度和优化器状态会被分片（shard）到不同 GPU 上；在某一层真正参与计算之前，系统才临时执行 AllGather 把这一层所需参数拼回；反向传播结束后，再通过 ReduceScatter 等通信把梯度重新切回各自分片。其核心收益是显存占用大幅下降，因为大部分时间里，每张卡只保存全模型状态的一部分。

这种收益伴随更复杂的通信与调度开销。FSDP 的目标从来核心是让原本单卡放不下的模型，或原本因为长上下文而极难训练的配置，进入可训练区间。当模型参数规模、激活开销或优化器状态已经逼近单卡上限时，FSDP 往往比单纯增加 DDP 卡数更有效，因为后者只扩展数据吞吐，并不缩小单卡必须持有的模型状态。

DeepSpeed ZeRO

ZeRO（Zero Redundancy Optimizer）是 DeepSpeed 最核心的一组大模型训练技术。它的思想与 FSDP 接近，目标都是减少多卡间重复保存的状态，但切分粒度与工程形态更体系化。常见 Stage 可按三步理解：Stage 1 切分优化器状态，Stage 2 再切分梯度，Stage 3 进一步切分模型参数。随着 Stage 提升，单卡显存压力持续下降，但通信和实现复杂度也会同步上升。

ZeRO 的价值在大模型时代尤为明显，因为优化器状态和梯度本身就可能比参数还占显存。对数十亿参数模型、超长上下文训练或多机多卡集群而言，单纯复制完整状态几乎不可持续，ZeRO 这类分片机制就成为前提能力。DeepSpeed 在此基础上还会继续叠加通信优化、内存卸载（offload）、流水并行等工程能力，因此它通常更适合训练规模继续上升、需要复杂集群优化的团队环境。

与常见框架的关系

分布式训练策略和高层框架并不处在同一抽象层。DDP、FSDP、ZeRO 描述的是“参数与梯度如何跨设备组织”；Accelerate、Lightning、Transformers Trainer、Keras 3、MMEngine 描述的则更多是“如何把训练循环、设备启动、日志、checkpoint 与策略配置组织起来”。前者是并行机制，后者是工程入口。

PyTorch

PyTorch 是这一组策略最常见的底座。DDP 与 FSDP 都属于 PyTorch 原生分布式能力，训练脚本最终仍然依赖其自动求导、张量通信和优化器更新。对需要精细控制训练循环的工程团队而言，直接基于 PyTorch 编写分布式训练脚本，通常拥有最高灵活度。

Accelerate

Accelerate 的定位是多设备执行抽象。它将 DDP、FSDP 与 ZeRO 等策略接入到更统一的设备管理接口中，同时封装设备发现、进程启动、混合精度与梯度同步。其核心价值在于：同一份以 PyTorch 为中心的训练代码，可以较平滑地从单卡扩展到多卡，再扩展到 FSDP 或 DeepSpeed，而不必大规模重写训练循环。

PyTorch Lightning

Lightning 把分布式训练放进更规范的训练引擎里。开发者主要定义模型、优化器和 step 逻辑，Trainer 再根据配置选择 DDP、FSDP、DeepSpeed 等 strategy。它适合希望减少样板代码、统一日志与 checkpoint 管理，同时保留 PyTorch 生态兼容性的团队。其代价是抽象层更高，定制极复杂训练细节时需要理解 Lightning 的生命周期约束。

Transformers Trainer

Transformers 的 Trainer 更偏“模型生态入口”。当任务建立在 Hugging Face 模型、tokenizer 与数据集流水线之上时，Trainer 可以通过 Accelerate 或相关配置接入 DDP、FSDP 与 DeepSpeed。它特别适合标准微调、标准评测与模型复现实验；一旦训练流程开始高度定制，开发者通常会逐步回到原生 PyTorch 或 Accelerate 层。

Keras 3

Keras 3 也提供分布式 API，但其分布式能力更依赖所选后端。若后端是 TensorFlow，实际执行往往落在 TensorFlow 的分布式策略；若后端切到 JAX 或 PyTorch，则并行细节又会由各自后端负责。它适合追求统一高层建模接口、同时希望在不同后端间迁移的场景，但在超大模型训练里，社区主流实践仍然更多集中在 PyTorch + FSDP / DeepSpeed 这条路线。

MMEngine / OpenMMLab

MMEngine 更像视觉任务中的训练控制台。它能够把 Runner、Hook、配置系统和分布式启动流程组织起来，使检测、分割、姿态估计等复杂视觉实验更容易批量管理。其分布式能力本质上仍然建立在底层框架之上，通常不会取代 DDP / FSDP 这类并行机制本身，会把它们纳入统一工程范式中。

基座模型选择

在进入具体训练场景之前，通常应先判断任务应该建立在什么类型的基座模型之上。这个选择会直接决定后续数据形态、训练目标、推理链路与上线成本。很多项目的真正分水岭并不在 LoRA、QLoRA、DPO 这些技术细节，而在于一开始是否选对了模型范式：到底应当使用 BERT 一类表示模型（Representation Model），还是使用 Decoder-only 生成模型（Generative Model）。

表示模型适合什么

BERT、RoBERTa、DeBERTa 一类 Encoder-only 模型，最擅长的是把输入压缩成稳定表示，再围绕固定目标做判别。它们特别适合闭集分类（Closed-set Classification）、文本匹配、检索、序列标注、重排序，以及“输入充分、标签空间明确、输出形式固定”的任务。只要目标可以被表述为“给这段输入打一个标签”或“判断这两段文本是否匹配”，表示模型通常都是更高效、更便宜、也更容易评估的选择。

这里需要明确一点：BERT 并非完全没有顺序信息。它同样通过位置编码（Positional Encoding）与自注意力看到序列先后关系，因此能区分“先发生什么、后发生什么”。真正的限制不在“看不到顺序”，而在于它通常把整段输入压缩为一个判别表示，再直接映射到标签空间。对于需要显式执行规则、动态权衡多段证据、并把局部冲突统一到最终结论上的任务，这种一次性判别路径往往不够灵活，也缺乏可解释的中间推理结构。

生成模型适合什么

生成式大语言模型的优势出现在另一类任务中：任务目标本身包含开放式语义判断、复杂规则执行、跨轮次状态整合，或者需要先形成中间结论，再决定最终输出。这类任务往往不仅“看完文本后打标签”，还要求模型先判断哪些证据重要、哪些证据只是过程噪声，再决定最终答案。对这类问题，生成模型更容易通过指令约束、上下文推理和多步语义整合完成任务，因此更适合作为基座。

例如，在对话满意度判定中，若规则是“过程中的波折、局部负面情绪视为过程成本，只要最终方案被接受、问题收尾清晰，就优先按已解决处理”，任务本质上就不再是简单情感分类。模型需要区分中间波折与最终状态，识别“收尾是否清晰”，并对冲突信号做优先级排序。这里最困难的部分核心是执行一条带有结尾优先、过程降权结构的规则。生成模型在这种场景下通常更稳，因为它更容易在长上下文中整合多段证据，并按指令执行“先看结尾，再回看过程”的判断逻辑。

BERT 类模型的边界

只要任务满足以下条件，BERT 类模型通常仍然足够胜任：

输出空间固定且较小，例如满意 / 不满意、风险 / 非风险、升级 / 不升级。
决定标签的证据主要是局部可见、模式稳定的文本特征，而非依赖复杂跨轮推理。
规则可以被充分体现在标注数据里，使模型通过监督学习稳定内化这种判别边界。

典型例子包括情感分类、意图分类、FAQ 匹配、实体识别、工单主题归类，以及大量结构清晰的客服路由任务。

若任务开始依赖以下能力，BERT 类模型的风险就会显著上升：

需要对长对话做结尾优先的全局判断。
需要把中间负面情绪降权，但又不能完全忽略。
需要区分“问题解决了但过程不愉快”与“问题根本没解决”。
需要持续引入新规则，并要求模型在推理时可控地遵循这些规则。

此时，即使通过多段编码、层级聚合、结尾加权或级联分类等工程技巧勉强构造出一个系统，上限通常也受限于任务本身的推理复杂度，而且系统维护成本往往会迅速上升。

选择准则

任务特征	更合适的基座	原因
固定标签分类、匹配、检索、序列标注	BERT 类表示模型	判别目标清晰，推理链短，部署成本低，训练与评估都更直接
需要开放式回答、格式生成、工具调用、复杂指令遵循	生成式模型	输出本身就是生成任务，Encoder-only 模型不适合作为主干
多轮对话总结、结尾优先判断、冲突证据加权、规则动态注入	生成式模型	需要跨轮整合与规则执行，往往不能稳定压缩成一次性判别
局部模式强、业务规则稳定、标注数据充分的分类任务	BERT 类表示模型	表示模型更省资源，延迟更低，也更适合大规模批量预测

因此，基座模型选择的真正问题是“任务本质上是在做判别，还是在做规则驱动的语义决策”。前者优先考虑 BERT 一类表示模型，后者通常应直接进入生成式模型范式。把这一步判断做对，后面的训练场景、微调路径和评估方式才会自然收敛。

训练场景

小数据集微调

小数据集微调（Small-data Fine-tuning）讨论的核心是“可用于更新模型权重的有效监督信号是否足够”。到了 2026 年，这个问题已经出现一个很值得重视的经验转向：在小数据场景里，微调容量并非越大越好。很多情况下，越轻量的适配反而越稳，尤其当数据本身同时带有长尾、噪声、分布偏移和验证波动时更是如此。

核心判断

小数据微调最容易误判的一点，是把“任务复杂”直接等同于“应该开放更多可训练参数”。在大多数小样本任务里，真正需要学习的往往只是沿少数方向对基座模型做任务相关偏移。更大的可训练子空间确实提高了拟合训练集的能力，但也更容易把头部模式、局部模板、错标样本和偶然噪声一起写进参数更新，最终损害泛化。

因此，小样本适配的默认逻辑通常核心是先用更强约束保护基座模型，再按验证集证据逐步放大更新空间。以 LoRA 为例，低 rank 更新 $\Delta W = AB$ 的价值不仅是省显存，更是把参数更新限制在一个低维子空间中，使模型更难直接记忆训练集表面模式。这也是为什么在低资源任务里，参数效率与泛化能力往往核心是同一套约束机制的两个结果。

微调什么地方

小数据集微调不仅要决定“调多大”，还要决定“调哪里”。这个问题通常有两个维度：第一，更新哪些层；第二，更新每层里的哪些矩阵。它们共同决定模型最终学到的是局部表面模式，还是更稳定的高层语义偏移。

从层位分工看，Transformer 各层的注意力并非完全同质的。浅层通常更偏局部句法、词性与相邻词关系，通用性最强，因此往往不应轻易扰动；中层开始形成更复杂的语义组合，处理跨句指代、因果联系和较长范围的信息整合；深层则更接近任务特定的高层语义，情感、意图、分类边界和最终决策信号通常更多集中在这里。对于情感判断、满意度判断、意图识别等高层语义任务，优先从中深层，尤其是后部层开始微调，通常更符合信号分布。

从矩阵类型看，小数据行为调整任务通常应先从注意力侧开始，而非默认同时打开 FFN。Q 决定“向哪里发起关注”，V 决定“实际取出什么信息”，因此它们往往最直接影响模型如何组织证据与整合线索；K 和 O 也会影响结果，但通常并非最低成本起点。若任务主要是在已有知识之上重排注意力优先级、加强长程依赖或改变决策依据，先调 Q、V 往往最稳。只有当验证集持续显示模型确实缺少领域知识写入或表示重编码能力时，再逐步把 FFN、K 或 O 纳入更新范围更合适。

主要风险来源

小数据场景的核心矛盾是有效监督信号稀疏，模型容量却仍然巨大。如果数据高度重复、标签边界模糊、头部模式占据绝大多数样本，或者训练集与真实线上分布存在偏移，那么模型面对的就是“少量规律 + 大量重复与噪声”。这时，训练往往下降得过快、记忆得过深。

其中最容易被低估的是长尾问题。头部样本会主导梯度方向，新增容量也最容易先被头部模式吸收；结果是总体指标继续上涨，尾部类别、边界样本和罕见情形却未必同步改善，甚至可能恶化。平均 Accuracy 往往会掩盖这种退化，因此小数据微调若不单独观察尾部表现，很容易把“更会处理常见样本”误判成“整体更强”。

实践中，以下信号通常说明当前瓶颈不在容量不足，而在数据质量、长尾覆盖、验证设计或规则表达：

训练损失快速下降而验证集停滞。这通常说明模型正在高效记忆训练集，却没有学到可迁移的判别规律，额外容量只会让这种记忆更彻底。
总体指标改善但尾部类别恶化。这说明新增容量主要被头部模式吸收，模型对高频样本更熟练，却以牺牲罕见场景为代价换取平均分提升。
不同随机种子之间波动很大。这意味着当前结果对初始化、数据划分或训练噪声过于敏感，说明监督信号本身不稳定。这里的不稳定，通常就来自数据分布不均、标签质量不足或验证集设计过小，例如头部样本占绝大多数、尾部样本只出现几次，或同类边界样本在不同标注员之间标准并不一致。继续放大可训练空间通常只会把这种不确定性进一步放大。
新增参数带来的提升只集中在头部模式。这表明模型并没有真正学到更普适的决策边界，只是更深地贴合样本最密集的局部区域。
模型开始出现明显的风格漂移与任务外退化。这往往意味着局部小数据已经开始覆盖预训练先验，模型虽然在当前任务里更贴近训练分布，却损伤了原本更广泛的泛化能力。

2026 年的实践建议

小数据场景下，更稳妥的默认策略是按证据逐步放开可训练空间：

把轻量适配作为默认起点。若使用 LoRA / QLoRA，应优先把它理解为控制更新容量的手段，而不只是省显存工具。
先尝试只调后半层的 Q、V，或更保守地只调最后三分之一层。它的参数量最小，过拟合风险也最低，适合监督极少、验证集波动较大的情况。
若验证集显示模型对长程结构或中层语义组合仍然适配不足，再比较全层 Q、V 的极低 rank 配置。这样做的出发点是：任务信号不一定只存在于最深层，中层也可能承担一部分长程整合与语义组合；给所有层一点点可调空间，有时比只改最后几层更容易保持泛化。
只有当这些方案仍然显示出明确的知识注入或表示重编码瓶颈，再把 K、O 或 FFN 逐步放开。
把验证集当作主导信号，而非训练损失。小数据场景下，训练集拟合速度通常极快，真正有意义的是验证集是否持续改善，以及尾部样本是否同步获益。
把参数选择和数据问题一起看。若长尾、噪声和分布偏移没有处理好，继续增加微调容量往往只会更快过拟合这些问题。

这条顺序的核心是把可训练空间按证据逐步展开，避免在一开始就把过大的自由度交给少量数据，而非追求一次命中最优结构。更成熟的理解方式，是把小数据集微调视为受强约束的增量适配，而非缩小版的大规模微调。

训练嵌入模型

简介

嵌入模型（Embedding Model）并不天然等于“通用语义相似度模型”。它可以围绕特定目标进行训练，使向量空间优先保留某一类任务真正关心的判别信号。例如在情感分类（Sentiment Classification）场景里，模型更关心“正面 / 负面 / 中性”的倾向是否一致，而不一定关心两段文本在主题或措辞上是否高度相似。于是，训练得到的嵌入空间可能会把“物流很快，体验很好”和“包装一般，但整体满意”拉得较近，因为它们在情感方向上同属正向；反过来，即使两条评论都在谈“物流”，只要情感倾向相反，也可能被推向更远位置。

从更抽象的角度看，无论目标是情感、相关性、意图、风险、偏好还是图文匹配，嵌入模型始终都在学习一件事：让与当前任务定义下“相关”的文档特征在向量空间中更接近，让“不相关”或“应被区分”的特征更远离。区别只在于“相关”的定义来自哪里。通用 embedding 把相关性主要定义为语义相似；任务特化 embedding 则把相关性改写为某个业务目标下的等价关系，例如同一标签、同一情感、同一用户意图、同一风险等级，或“查询与正确答案匹配”。

正因为如此，嵌入训练与对比学习（Contrastive Learning）天然契合。只要能够构造正样本对与负样本对，就可以把任务目标转写成“哪些样本应靠近、哪些样本应分开”的几何约束。监督标签、点击行为、人工偏好、检索点击日志、FAQ 配对、复述句、图文配对，最终都可以落回这一范式：通过对比式目标把任务真正关心的结构写进表示空间。这样得到的 embedding 既可以直接用于最近邻检索、聚类和召回，也可以作为下游分类器或 reranker 的输入表示。Sentence-BERT 就是文本领域最常见的一条对比式嵌入技术路线之一，前文已经展开其结构，这里只把它当作训练范式的代表。

这里尤其要强调替代选项（Alternative Option）的重要性。对嵌入训练而言，替代选项本质上就是负样本：模型不只要知道“什么应该靠近什么”，还要知道“它为什么并非另一个看起来也很像的东西”。如果没有负样本，模型最容易学到的是一组宽泛、正确但区分度不足的共有特征；只有把相似但不同的替代选项放进训练过程，表示空间的边界才会真正被压实。

例如，如果想教模型理解“马”这一概念，只告诉它“有嘴巴、有鼻子、四条腿、长尾巴”，这些特征当然不算错，但它们并不能有效区分马和斑马，因为斑马同样满足这些描述。真正有区分度的，反而更可能是“有没有条纹”、更接近哪种奔跑方式、整体体态和纹理模式这类能把两者分开的特征。把“马”和“斑马”作为相互竞争的替代选项放进对比训练后，模型才会被迫降低那些共有特征的权重，转而提升真正决定分类边界的特征权重。这也是为什么高质量负样本往往比继续堆更多正样本更能提升 embedding 的判别力。

训练方式

如果把特定目标的 embedding 训练落到一个可执行流程，通常可以分成六步。

但无论流程写得多完整，训练或微调 embedding 模型的主要难点始终都不在 Trainer 本身，而在数据。可用数据不仅要足够大，质量门槛也很高；正例对通常相对容易收集，例如复述句、点击匹配、NLI 蕴含对、FAQ 问答对，但真正困难的是构造高质量的难负例，因为它们既要足够接近真实混淆项，又不能把本该相关的样本误标为负例。

构造对比样本。最常见的起点是自然语言推断（Natural Language Inference, NLI）类句对数据，因为它天然提供“哪些句子应该更近、哪些句子应该更远”的监督信号。以蕴含（Entailment）关系作为正例、以矛盾（Contradiction）关系作为负例，是非常常见的做法；中立（Neutral）样本则可按任务目标决定是作为弱负例还是直接舍弃。工程实践里，经常直接使用 SNLI、MNLI 或二者合并后的 AllNLI。GLUE（General Language Understanding Evaluation）则更适合作为上层参照系：它汇总了九个语言理解任务，可用于分析模型在句对理解、推断和相似度相关任务上的整体表现，但并非把九个任务原样全部转成对比样本。
定义评估器。训练过程不能只看训练损失，还需要一套稳定的验证指标。最常见的选择是 STS-B（Semantic Textual Similarity Benchmark）：它由人工标注句子对相似度，原始标签通常位于 1 到 5 的区间，适合评估句向量是否学到了连续的语义距离。若需要更全面的外部评估，则可以进一步使用 MTEB（Massive Text Embedding Benchmark）一类综合基准，它覆盖多类嵌入任务与大量数据集，能更系统地检查模型在检索、聚类、分类和语义匹配等场景中的迁移能力。
选择基座模型。特定目标的嵌入训练通常从一个现成的 Encoder-only Transformer 开始，例如 microsoft/mpnet-base、BERT、RoBERTa 或其领域变体。若任务更接近通用句向量，也可以直接从已经具备较强句向量能力的基座继续微调；若任务明显偏领域化，则优先选择语料分布更接近业务场景的编码器。
调用 sentence-transformers 进行训练。它提供了从数据集封装、池化、损失函数到 Trainer 的完整流水线。默认情况下，模型参数并不会被自动冻结，整个编码器都会参与更新；虽然也可以手动冻结底层若干层以节省显存或降低训练不稳定性，但对 embedding 任务而言，表示空间往往需要全层共同调整，因此在资源允许时，全量解冻通常比只训练顶部少数层更容易得到更好的句向量。
设置超参数。最关键的超参数通常是训练轮次（Epochs）、批次大小（Batch Size）和学习率预热（Learning Rate Warmup）。批次大小会直接影响 in-batch negatives 的数量，因此不仅关系到吞吐，也关系到对比学习的难度；训练轮次决定模型能否真正把目标关系写入向量空间；预热则用于降低训练初期的梯度震荡，避免刚开始就把预训练表示空间破坏掉。
选择损失函数。若目标是得到高质量 embedding，一般不建议把 SoftmaxLoss 当作默认选项，因为它更偏向“把当前任务做成分类”，而非直接优化向量空间的几何结构。若手里有连续相似度分数，常用余弦相似度相关目标，例如 CosineSimilarityLoss；若任务是检索、召回或通用句向量训练，MultipleNegativesRankingLoss 往往是默认优先尝试的方案之一，因为它会把同一 batch 中其他样本自然当作负例，直接优化“正确匹配更近、错误匹配更远”的排序关系。不过它并非所有任务上的统一最优解，最终仍取决于数据格式、负样本质量和任务目标。

这六步背后的主线始终一致：先定义“相关”和“不相关”，再把这种关系写进向量空间。任务标签、蕴含关系、点击行为和人工偏好只是构造这种几何关系的不同来源；一旦正负样本定义清楚，训练目标就会自然收敛到对比学习的框架里。

在这条主线里，难负例（Hard Negatives）往往能够显著提升嵌入模型的判别力。随机负例通常太容易，模型很快就能把它们推远；真正能继续塑造决策边界的，往往是那些“表面上很像、但在任务定义下并不相关”的样本。对检索、匹配和语义区分任务而言，负例越接近真实混淆项，模型越容易学到更有区分度的表示。

一个常见的负例收集流程如下：

获取简单负例（Easy Negatives）。最直接的方法是从训练集里随机采样文档或句子，和当前 query/anchor 拼成负样本对。这一步成本最低，适合快速建立基础对比信号，但训练到中后期往往会变得过于容易。
获取半难负例（Semi-hard Negatives）。可以先用一个预训练 embedding 模型遍历训练集，为每个样本召回一批“看起来较相似”的候选，再排除真实正例、重复样本和语义等价样本，把剩余候选作为半难负例。这类负例已经靠近当前表示空间的边界，通常比随机负例更能提升检索质量。
获取难负例（Hard Negatives）。更强的做法是人工构造，或借助数据合成（Data Synthesis）生成高混淆样本。例如为同一个 query 人工编写“主题相关但答案错误”的文档，或利用大模型生成与正例高度相似但标签相反、结论错误、实体错配的文本。这样的负例最有训练价值，但也最容易混入假负例（False Negatives），因此质量控制必须更严格。

难负例并非越难越好。若负例实际上与正例同样合理，或者只是标注遗漏导致的“假负例”，模型就会被迫把本应接近的样本推远，反而损害 embedding 空间的结构。真正有效的 hard negative，是对模型足够难、但在任务定义下又明确应该分开的样本。

特定目标嵌入微调

从头训练嵌入模型（Embedding Model）通常并非多数团队的首选路径。原因并不神秘：它既需要大规模高质量句对或 query-document 数据，也需要持续的负例挖掘、评估基准建设和较长训练周期；若多语言还要兼顾长文本、跨语言检索和任务泛化，成本会进一步抬升。对绝大多数工程团队而言，更高效的做法是从一个已经具备稳定表示空间的基座继续微调（Fine-tuning），把现有 embedding 几何结构朝业务目标方向“推一小步”，而非从零发明一整个向量空间。

这也是为什么 embedding 项目的真正瓶颈往往不在“有没有训练框架”或“能不能跑通微调”，而在于能否拿到足够多、足够干净、又足够贴近业务分布的数据。正例对开发相对直接，难的是负例设计，尤其是高价值 hard negatives：它们决定模型能否学会区分那些最容易混淆、最接近真实线上错误的样本。

Sentence-BERT（SBERT）路线的实用价值就在这里体现得很明显：它并不要求必须从头构建一个新的 embedding 模型，重点是允许直接以现有 SentenceTransformer 模型或预训练编码器为基础继续训练。这样做的收益有两个。第一，预训练阶段已经学到大量通用语言结构，微调只需要重塑与当前任务最相关的距离关系。第二，训练资源会集中花在“任务适配”而非“重新学习基本语言知识”上，因此更适合企业内部检索、垂直领域分类、多语言 RAG 和跨语言匹配这类目标明确的场景。

实际选基座时，不应只看单一榜单名次，而应同时看四个因素：语言覆盖、上下文长度、是否指令化（Instruction-aware）、以及微调成本。榜单可以帮助筛掉明显过时的模型，但真正决定工程效果的，往往是“它是否与你的数据形态和训练预算匹配”。截至 2026 年 3 月，下面几类开源基座尤其值得优先考虑，尤其是在多语言场景中。

基座	多语言能力	核心特点	更适合的微调目标
Qwen3-Embedding-8B / 4B / 0.6B	100+ 语言	当前公开多语言榜单前列的强基座；支持指令感知、最长 32K 上下文、可自定义输出维度	多语言检索、跨语言召回、长文档检索、代码与自然语言混合语料
BGE-M3	100+ 语言	同时支持 dense / sparse / multi-vector；最长 8192 token；对混合检索和 RAG 结构非常友好	多语言 RAG、混合检索、长文档场景、需要兼容 BM25 风格稀疏信号的系统
multilingual-e5-large-instruct	94 语言	指令式 embedding 路线成熟；query 端显式带任务描述；体量相对可控	任务定义清晰的检索、问答召回、跨语言语义匹配
jina-embeddings-v3	多语言；重点调优 30 种语言	8192 token 长上下文；内置任务 LoRA 适配器；支持 Matryoshka 截断维度	一套基座服务多任务、需要分类 / 检索 / text-matching 共用底座的系统

若强调“当前最强的开源多语言底座”，Qwen3-Embedding 系列是首先应试的对象；若强调“检索形态复杂、需要 dense + sparse + rerank 协同”，BGE-M3 的工程灵活性仍然非常突出；若更在意成熟的指令式 query-document 训练范式，multilingual-E5-large-instruct 依然是很稳的起点；若希望在同一基座上兼顾多任务并降低任务切换成本，jina-embeddings-v3 的任务适配设计更有吸引力。

因此，特定目标的嵌入微调并非“随便挑一个 embedding 模型然后继续训”。更合理的顺序是：先根据任务选择合适的基座拓扑，再设计正负样本与评估器，最后用微调把表示空间朝业务目标压缩。对今天的大多数团队来说，真正的竞争力很少来自“从零训练一个全新 embedding 模型”，而更多来自“是否用合适的底座，把微调目标、负例设计和评测体系做对”。

训练基于生成模型的嵌入

适用场景

基于生成模型的嵌入训练适合三类目标。第一类是长上下文检索：候选文档明显超过传统 Encoder embedding 的舒适长度，需要利用 LLM 的长上下文窗口读取更多原文。第二类是指令感知检索：同一段文本在不同任务下应形成不同向量，例如“按法律风险检索”和“按客户情绪检索”关注的语义方向不同。第三类是希望复用已有生成模型生态的私有化系统：团队已经围绕 Qwen、LLaMA、Mistral 或 T5 建好了 tokenizer、权重管理和推理环境，希望在同一主干上扩展 embedding 能力。

这条路线的训练目标依然是 embedding 目标，普通 next-token prediction 只提供语言建模信号，不能直接保证向量空间可检索。模型最终要输出稳定向量，训练过程必须直接优化向量距离、排序关系或检索指标。若只拿一个未经适配的 chat LLM，读取最后一层隐藏状态再做余弦相似度，通常只能得到一个粗糙基线；真正可用的生成式 embedding 需要围绕 pooling、投影、归一化和对比损失进行专门训练。

基座选择

基座选择取决于训练预算与上线约束。若目标是多语言、中文和长文档检索，Qwen 系列或其它已经在目标语言上表现稳健的 Decoder-only 基座通常更合适；若目标是 text-to-text 任务延伸，例如把检索 query 写成明确任务指令，再输出可读答案，T5 / FLAN-T5 一类 Encoder–Decoder 基座也可以作为起点；若系统极度看重吞吐与低成本召回，专门 Encoder embedding 模型仍然应作为强基线，不应因为 LLM 更大就默认替换。

对 Decoder-only 基座，必须先决定读出位置。最常见的是最后一个有效 token、EOS token 或额外添加的汇聚 token。若采用最后 token pooling，训练样本应保证输入末尾存在稳定边界，例如统一追加 EOS 或专门的结束标记；若采用平均池化，则要明确 attention mask 与 padding 处理，并意识到因果注意力下早期 token 没有读取完整后文。很多实践会再加一个投影层 $W_p$，把隐藏状态从模型维度压到更适合检索的维度，例如 768、1024 或 1536，并在输出前做 L2 归一化。

训练流程

一个可执行流程通常分成七步。

定义检索任务。先明确向量要服务的目标：FAQ 召回、RAG 文档召回、跨语言检索、代码搜索、相似案例检索，还是基于业务标签的近邻分类。目标不同，正负样本定义会完全不同。
准备 query-document 或 text-pair 数据。检索型 embedding 最常见的数据形态是 $(q,p^+)$，其中 $q$ 是查询，$p^+$ 是正确文档。若有人工相关性分数或点击日志，也可以构造成 $(q,p,y)$。
构造负样本。先用随机负例建立基础区分，再用 BM25、旧 embedding 模型或线上召回日志挖掘 hard negatives。生成模型 embedding 尤其需要高质量难负例，因为它的语义容量很强，太简单的负例很快失去训练价值。
确定输入模板。query 端和 document 端可以使用不同前缀，例如“Represent this query for retrieval:”与“Represent this document for retrieval:”。指令前缀能让同一基座根据任务目标调整隐藏状态方向，但模板必须固定，否则模型会把格式差异也写进向量空间。
前向提取隐藏状态。每条文本独立输入生成模型，得到最后层隐藏状态 $H$，再通过最后 token pooling、EOS pooling 或训练好的 pooling head 得到 $e(q)$ 与 $e(p)$。
优化对比损失。最常见目标仍是 Multiple Negatives Ranking Loss。对一个 batch 中的 $B$ 组正配对，可写成 $L_i=-\log \frac{\exp(s(q_i,p_i)/\tau)}{\sum_{j=1}^{B}\exp(s(q_i,p_j)/\tau)}$。其中 $s(q_i,p_j)$ 通常是归一化向量内积，$\tau$ 是温度参数。
评估检索指标。训练过程应直接看 Recall@K、MRR、nDCG、Hit Rate 或 MTEB 子任务，不能只看训练损失。Embedding 的最终产品是排序质量，损失下降但召回不升，说明正负样本、模板或 pooling 仍需调整。

训练策略上，通常不必一开始全参数更新。对 7B 以上的 Decoder-only 基座，可以先冻结主干，只训练 pooling/projection head，观察向量是否能形成初步检索结构；随后再用 LoRA / QLoRA 打开中高层注意力与 MLP 投影，让隐藏状态本身朝 embedding 目标移动。若训练数据非常充足、目标域与基座差异很大，再考虑更大范围更新。这样做可以把风险分阶段暴露：先确认读出方式有效，再确认任务监督足够支撑主干变化。

上线形态

上线时，生成式 embedding 模型仍然按双编码器使用：文档侧离线编码并写入向量库，query 侧在线编码，再做 ANN 检索。与普通 Encoder embedding 相比，需要重点控制三个成本：第一，Decoder-only 主干更慢，批处理和 KV cache 对 embedding 前向的收益有限；第二，长文本直接编码会增加显存与延迟，必要时仍要分块或分层聚合；第三，指令模板必须和训练阶段一致，query 端模板和 document 端模板不能在线上随意漂移。

训练基于表示模型的重排

适用场景

基于表示模型的重排训练适合搜索、RAG、FAQ、问答和电商检索中的精排阶段。第一阶段召回器负责覆盖率，把可能相关的候选取出来；表示模型 reranker 负责精度，在几十到几百个候选里判断哪些真正满足 query。它尤其适合“主题相似但答案不同”“关键词相同但实体不同”“文档只回答部分问题”这类 embedding 相似度容易混淆的场景。

这条路线的优势是工程成熟。Encoder-only Cross-Encoder 的输入长度、显存成本和延迟通常比 LLM reranker 更可控；输出是明确的标量分数，容易接入搜索排序、阈值过滤、A/B 测试和离线评测。很多生产系统会先用表示模型 reranker 做默认精排，再把生成式 reranker 放在更小候选集或更复杂 query 上。

基座选择

基座通常选择已经具备强表示能力的 Encoder-only 模型或现成 reranker 底座。英文检索可以从 monoBERT、cross-encoder/ms-marco、MiniLM reranker、DeBERTa 系列开始；中文或多语言 RAG 可优先考虑 BGE Reranker、mDeBERTa、XLM-R 或 ModernBERT 派生模型。基座选择主要看四个约束：目标语言、候选文本长度、线上延迟预算和是否已有领域点击 / 标注数据。

打分头通常很简单。模型读入 $(q,d)$ 后，取 $[\mathrm{CLS}]$ 或池化表示，接一个线性层输出 $s(q,d)$。若训练标签是二元相关性，可把 $\sigma(s(q,d))$ 作为相关概率；若标签是 0 到 3 或 0 到 5 的分级相关性，也可以把它作为回归分数或排序分数。

训练流程

一个典型训练流程可以拆成七步。

固定第一阶段召回器。先确定候选来自 BM25、dense embedding、hybrid retrieval 还是业务规则召回。Reranker 应该学习真实候选分布；只区分随机负例无法充分训练精排能力。
构造 query-document 样本。基础样本形态是 $(q,d,y)$，其中 $y$ 表示相关性标签。标签可以来自人工标注、点击日志、问答对、RAG 引用命中、业务转化或教师模型打分。
挖掘难负例。对每个 query，保留召回器排在前列但实际无关的候选。它们最能训练模型区分“主题相似”和“真正回答”。
设计输入模板。最常见格式是 $[\mathrm{CLS}]\ q\ [\mathrm{SEP}]\ d\ [\mathrm{SEP}]$。若使用多语言或指令式 reranker，也可以加入简短任务说明，但模板应在训练和线上保持一致。
选择损失函数。二元标签可用 $L=-y\log\sigma(s)-(1-y)\log(1-\sigma(s))$；成对排序可用 $L=\max(0,m-s(q,d^+)+s(q,d^-))$；列表排序可用 softmax cross-entropy 或 LambdaRank 类目标。
控制输入长度。Cross-Encoder 的复杂度随拼接长度增长。训练时要明确 query 和 document 的截断策略，优先保留标题、命中片段、邻近上下文和字段结构，避免把答案证据截掉。
按排序指标评估。核心指标是 nDCG@K、MRR@K、Precision@K、Recall after rerank，以及 RAG 最终引用命中率。分类准确率只能作为辅助指标，因为线上目标是排序质量。

训练时最容易低估的是负例质量。随机负例通常太容易，模型很快能区分；真正有价值的是第一阶段召回器会误召回的 hard negatives。一个较小的 Cross-Encoder 若训练在真实 hard negatives 上，常常比更大但只见过随机负例的 reranker 更可靠。

上线形态

上线时，表示模型 reranker 通常位于召回之后、生成之前。流程是：召回器取 top-k 候选；reranker 分别计算 $s(q,d_i)$；系统按分数排序，截取 top-n 进入回答生成、摘要、推荐或展示层。为了控制延迟，top-k 通常不能无限增大；常见做法是先用便宜召回覆盖，再用表示模型 reranker 精排，最后只在少量高价值请求上追加生成式 reranker 或 LLM 验证。

这条路线的工程边界也很清楚：它无法像 embedding 一样提前为全部文档建一个可复用向量索引，因为 query 和 document 必须一起编码；但它也不需要像 LLM reranker 那样执行复杂生成接口。对大多数检索系统而言，基于表示模型的重排仍然是“效果、成本、稳定性”三者最均衡的精排基线。

训练基于生成模型的重排

适用场景

生成式重排训练适合 RAG、搜索和问答系统中的精排阶段。第一阶段召回已经把候选压到较小规模，例如 top 50 或 top 100；第二阶段需要判断“这段文档是否真正回答当前 query”。这类判断经常涉及否定、限定条件、实体错配、时间错配、表述改写和多段证据整合，单独的向量相似度容易把主题相似但答案错误的文档排到前面。

生成式 reranker 的优势来自联合编码。输入是完整的 $(q,d)$ 对，模型在同一次注意力计算中读取 query 与候选文档，因此可以比较“查询要求什么”和“文档实际提供什么”。它不需要为文档提前生成可复用向量，代价是每个候选都要单独前向，适合候选规模已经被召回器压缩后的阶段。

基座选择

基座通常优先选择指令跟随能力强、长上下文能力足够、目标语言表现稳定的生成模型。中文或多语言 RAG 可从 Qwen、LLaMA 派生多语言模型、Mistral 派生模型或已有 reranker 基座开始；若需要更低成本，也可以先使用较小的 0.5B、1.5B、3B 级模型做 reranker，再把大模型作为教师生成训练标签。若候选文档很长，基座上下文窗口要覆盖 query、文档和判断模板，否则模型会在截断后学习错误的相关性。

打分形式通常有两种。第一种是显式标量头：读取最后位置隐藏状态 $h_{\mathrm{end}}$，训练一个线性打分头 $s=w^\top h_{\mathrm{end}}+b$。第二种是 yes/no token 打分：让模型在最后一步预测“yes”或“no”，用 $z_{\mathrm{yes}}-z_{\mathrm{no}}$ 或 $P(\mathrm{yes}\mid q,d)$ 作为相关性分数。前者更像传统 Cross-Encoder reranker，后者更贴近生成模型原生接口，容易和 prompt 语义结合。

训练流程

一个典型训练流程可以拆成八步。

确定召回来源。先固定第一阶段召回器，例如 BM25、dense embedding、hybrid retrieval 或 GraphRAG。Reranker 的训练数据应来自真实召回分布，否则训练出的模型会擅长区分随机负例，却无法处理线上最常见的混淆候选。
构造 query-document 标签。最基础标签是二元相关性 $y\in\{0,1\}$；更细的训练可以使用 0 到 3 或 0 到 5 的 graded relevance，表示完全无关、主题相关但未回答、部分回答、完全回答等层级。
挖掘难负例。对每个 query，保留召回器排在前列但人工判为无关或弱相关的候选。它们通常和 query 共享关键词或主题，是训练 reranker 的核心样本。
设计判断模板。模板应稳定包含 query、document、判断标准和输出形式。例如要求模型只判断“文档是否足以回答 query”，避免把“主题相似”误当作“答案相关”。
选择打分目标。若采用标量头，可使用二分类交叉熵 $L=-y\log\sigma(s)-(1-y)\log(1-\sigma(s))$；若采用 yes/no token，可直接对 yes/no 标签词做交叉熵。
加入排序目标。对同一个 query 下的正例 $d^+$ 和负例 $d^-$，可以增加 pairwise margin loss： $L=\max(0,m-s(q,d^+)+s(q,d^-))$。它直接要求正确文档分数高于混淆文档。
用 LoRA / QLoRA 微调。多数情况下先冻结基座，只训练 LoRA 和打分头就足够。LoRA 可挂在注意力投影和 MLP 投影上，因为 reranking 同时需要证据对齐、条件判断和语义重编码。
按排序指标评估。核心指标应是 nDCG@K、MRR@K、Recall after rerank、Precision@K，以及 RAG 最终回答的引用命中率。Yes/no 准确率只能作为辅助指标，线上目标是排序质量。

实际训练中，数据组织比模型规模更重要。一个 3B reranker 若拥有高质量 hard negatives，往往可以超过缺少真实混淆样本的更大模型。尤其在 RAG 场景里，负例应覆盖“同主题不同答案”“实体名称相似但对象不同”“时间版本错误”“只回答部分问题”“包含答案但证据不足”这几类常见错误。这样训练出的 reranker 才会真正改变候选顺序，降低“语义相似但答案错误”的候选排名。

上线形态

上线时，生成式 reranker 通常放在召回之后、生成之前。流程是：先由召回器取 top-k 候选；再把每个 $(q,d_i)$ 输入 reranker 得到 $s_i$；随后按 $s_i$ 排序，选择 top-n 进入最终 RAG prompt。为了控制成本，候选数量通常不能太大；若 top-k 很高，可以先用轻量 Cross-Encoder 或规则过滤到更小集合，再调用生成式 reranker 做最后精排。

这条链路的关键指标是端到端收益：reranker 自身 nDCG 提升必须转化为最终回答准确率、引用正确率和用户满意度提升。若 reranker 把答案片段排高，却导致上下文过长、生成模型忽略证据或成本不可接受，系统仍需重新调候选数量、截断策略和证据融合方式。

基于少量数据的嵌入微调

在标注数据非常有限的场景里，增强型 SBERT（Augmented SBERT）提供了一条经典而务实的路径：用少量高质量标注，扩展出一套足够大的嵌入训练集。它利用的是双编码器（Bi-Encoder）与交叉编码器（Cross-Encoder）的互补性：双编码器推理快、适合检索，但通常需要较多训练数据；交叉编码器推理慢，却能在句对打分上提供更高精度。因此，可以先让交叉编码器学会目标任务，再利用它为大量未标注句对生成伪标签，最后反过来训练一个可高效部署的 SBERT。

这个方法的关键不在于引入全新的模型结构，而在于重新组织数据生产流程。少量人工标注但可靠的数据，构成黄金数据集（Gold Dataset）；由交叉编码器离线打标生成的大规模伪标签数据，构成白银数据集（Silver Dataset）。黄金数据集负责提供可信监督，白银数据集负责放大覆盖面。两者组合后，就能把“标注稀缺”的问题转化成“高精度慢模型辅助生成训练信号”的问题。

因此，增强型 SBERT 本质上是一种低数据场景下的数据增强（Data Augmentation）与知识蒸馏（Knowledge Distillation）策略：先用少量黄金数据把交叉编码器调准，再让交叉编码器把自己的句对判断能力迁移给双编码器。最终得到的核心是一个依然可以做大规模向量检索、但在目标任务上明显更强的嵌入模型。

核心流程

增强型 SBERT 的整体流程可以概括为四步。

先用少量黄金数据集微调交叉编码器。这里的黄金数据通常规模不大，但标签质量高，足以让交叉编码器学会“在当前任务里什么样的句对应该更相似，什么样的句对应该更远”。
再生成一批新的候选句子对。这一步既可以来自额外的未标注语料，也可以从现有语料中重新组合样本，目的是构造一个远大于黄金数据集的候选池。
然后让已经微调好的交叉编码器为这些候选句子对打分，生成白银数据集。这里的标签核心是高精度模型给出的伪标签，因此质量通常高于简单启发式规则，却又远比全人工标注便宜。
最后用“黄金数据集 + 白银数据集”一起训练双编码器。这样训练出来的 SBERT 保留了双编码器可预编码、可缓存、可做向量检索的速度优势，同时通过白银数据学到了更多与目标任务一致的距离关系。

白银数据集如何构造

白银数据集的质量，决定了增强型 SBERT 能否真正成立。若手里本来就有大量未标注句对或 query-document 数据，最直接的做法就是把它们交给交叉编码器离线标注，再转成伪标签训练集。这是最标准也最稳定的路径，因为候选样本来自真实语料分布，白银数据更接近真实任务。

如果没有现成的大规模未标注句对，也可以从现有黄金数据出发构造更多候选样本。例如把不同句子的前半部分与后半部分重新组合，或把不同 query 与 candidate 文档重新配对，生成新的候选对。但纯随机组合通常会制造过多明显不相似的负例，导致数据分布过于偏斜，模型学到的主要是“轻松区分非常不像的样本”，而非处理真正困难的边界。

因此，更有效的做法通常是先用一个预训练 embedding 模型做粗检索：为每个句子或 query 召回若干看起来较相似的候选，再把这些候选送给交叉编码器做精标。这样生成的白银数据会包含更多“高混淆但仍可判别”的样本，训练价值明显高于随机拼接。换句话说，预训练 embedding 在这里负责提高候选样本质量，不负责给出最终标签；真正的伪标签仍然由交叉编码器给出。

为什么适合少量数据微调

增强型 SBERT 的价值，在低资源场景下尤其明显。少量黄金数据本身往往不足以直接把 SBERT 微调到理想状态，因为双编码器更依赖足够多的成对训练信号去塑造向量空间；但这同一小批黄金数据，往往已经足够把交叉编码器调成一个“能较准打分”的教师模型。之后，只要有额外候选样本，教师模型就能持续扩充白银数据集，从而把训练信号放大很多倍。

这也是它与普通监督微调的根本差别：普通微调直接把少量标注样本喂给双编码器；增强型 SBERT 则多加了一层“教师打标”环节，用交叉编码器把少量高质量监督扩展成大量可用监督。因此，它特别适合文本匹配、语义检索、问答匹配、句子对排序等 pairwise sentence scoring 任务。

边界与适用条件

增强型 SBERT 并非“数据越少越万能”。它仍然要求黄金数据足够准确，否则交叉编码器会先学歪，再把错误批量复制到白银数据里。它也要求候选样本池与真实任务分布足够接近，否则伪标签再多，也只是把错误分布放大。更关键的是，白银数据集并不能替代最终评估：真正决定模型是否可用的，仍应是人工标注的黄金验证集与测试集。

因此，这条路线最适合的场景核心是“有少量高质量标注、但不足以直接训练出强双编码器”。在这种情况下，增强型 SBERT 提供了一条非常自然的过渡路径：先用高精度慢模型吸收黄金数据，再把这种判断能力蒸馏成一个推理高效的嵌入模型。

无监督嵌入模型训练

过渡背景

增强型 SBERT 已经把监督数据需求压得很低，但它仍然依赖少量黄金数据去微调交叉编码器。再往前推进一步，现实里还存在更苛刻的场景：没有人工标注句对，甚至没有可靠的点击日志、排序日志或问答配对数据。此时，嵌入模型训练只能转向无监督学习（Unsupervised Learning）或更准确地说，自监督学习（Self-supervision）：训练信号不再来自显式标签，而来自原始语料自身的结构、扰动视图（Augmented Views）或重建目标。

因此，无监督嵌入模型训练处理的是“零标注”条件下的表示学习问题。它核心是把监督信号改写为模型可以从原始文本中自动构造出的约束：哪些表示应该在扰动前后保持一致，哪些句子应被视为同一语义对象的不同视图，哪些带噪输入必须恢复到原始句子。这类方法尤其适合冷启动和领域适配，因为垂直领域最容易获得的往往核心是大量原始文本。

主流路线

无监督嵌入训练的核心目标仍然是学习一个有判别力的句向量空间，只是实现方式不同。当前常见路线可以概括为四类。

方法	全称	核心原理	特点
SimCSE	Simple Contrastive Learning of Sentence Embeddings	把同一句子在不同 dropout 下得到的表示视为正例，用 batch 内其他句子作负例做对比学习	结构极简，是无监督句嵌入的经典标杆路线
CT	Contrastive Tension	通过对比张力机制重新调整预训练表示，使语义相近样本更聚合、无关样本更分离	强调对预训练表示的语义重调
TSDAE	Transformer-based Sequential Denoising Auto-Encoder	先破坏原句，再要求模型从带噪输入重建原句，逼迫编码器学习句级语义压缩	在无监督训练和领域适配中都非常强，是这一节的重点
GPL	Generative Pseudo-Labeling	从无标签语料出发自动生成 query 与伪标签，再训练 dense retriever	更接近弱监督，但非常适合无人工标注的检索场景

这些方法的共同点是：都在尝试从原始文本中自动制造训练信号；差别在于信号是来自对比、重建，还是生成式伪标签。无监督训练真正的难点依然是数据，只不过难点从“标注是否充足”转移成“自监督信号是否有效”。如果正样本过于容易、负样本过于随机，模型学到的往往只是表面相似性；若扰动方式破坏了核心语义，模型又会被迫学习错误的不变性。

TSDAE

TSDAE（Transformer-based Sequential Denoising Auto-Encoder）是无监督句嵌入中非常重要的一条路线，尤其适合领域适配（Domain Adaptation）。它的核心思想可以概括为“破坏 - 重建”：先对原始句子加噪，例如随机删除部分词、打乱局部结构或施加其他轻度破坏；再让模型从这个带噪版本重建原始句子。模型若想完成这项任务，就不能只记住局部 token，而必须把句子的整体语义压缩到编码表示中。

TSDAE 与掩码语言建模（Masked Language Modeling, MLM）的差别也很关键。MLM 主要学习“根据上下文补出被遮住的词”，重点仍然是词级预测；TSDAE 学习的是“从受损输入恢复整个句子”，目标天然更偏句级语义表示。因此，TSDAE 训练出来的编码器更容易直接拿来生成句嵌入，而不必再从词级预测目标里间接提炼句向量。

这条路线在垂直领域里尤其有效。原因是领域适配最常见的现实条件正是：有大量目标域原始文本，但缺乏成对标注数据。TSDAE 可以先在这些无标签文本上训练一个更贴近目标领域分布的编码器，把通用嵌入空间向领域语义挪动；随后若再获得少量黄金数据，就可以继续用常规 SBERT 或增强型 SBERT 做最后一步任务对齐。

领域适配闭环

从工程角度看，最有价值的是把“监督训练”“少样本微调”“无监督训练”看成一条连续路线，而非彼此割裂。标注充足时，直接做监督训练；标注很少时，用增强型 SBERT 放大黄金数据；标注几乎为零但有大量原始语料时，先做 TSDAE 或类似无监督适配，再在后续叠加少量监督微调。这样就形成了一个完整闭环：覆盖有监督、低监督到零监督三种数据条件。

因此，无监督嵌入训练并不天然优于监督微调。它的价值在于为 embedding 模型打地基，并在领域迁移时先把表示空间校正到目标语料分布附近。若后续能够获得少量高质量黄金数据，再叠加监督微调，通常会比单独依赖无监督训练更稳，也更接近真实业务目标。

表示模型继续预训练

表示模型继续预训练（Continued Pretraining）处理的是这样一种典型情况：基座表示模型已经在通用开放语料上完成预训练，例如互联网文本、维基百科、新闻语料或大规模网页数据，因此具备稳定的通用语言能力；但它并不天然掌握特定领域知识，例如医学术语、金融表述、法律条文、企业内部缩写和业务语境。此时，问题往往不在于模型“不会语言”，而在于模型虽然懂通用语言，却还不够懂目标领域。

这正是继续预训练的切入点。传统 BERT 路线通常只有两阶段：先在通用语料上做预训练，再直接在下游分类或序列标注任务上微调。继续预训练在两者之间插入了一个新的中间层，形成通用预训练 → 领域继续预训练 → 下游任务微调的三阶段流程。它的目标核心是先用目标领域的无标注文本，重新校正编码器的词汇分布、上下文统计与语义偏好，让表示空间先贴近领域，再去做具体任务。

为什么需要继续预训练

通用预训练模型对“movie”“doctor”“interest”“appeal”这类词的理解，默认来自开放语料中的统计分布；一旦进入垂直场景，这些词的含义和搭配方式可能会明显变化。医学文本中的 drug、lesion、metastasis，金融文本中的 guidance、yield、hedging，法律文本中的 plaintiff、statute、liability，都承载着更窄、更稳定、更专业的语境。如果直接拿通用模型去做下游微调，模型往往会在专业术语、长尾表达和领域共现关系上吃亏。

继续预训练的价值就在于：它允许模型先用领域无标注数据补上这层知识，再进入任务微调阶段。因此它本质上是一种领域自适应预训练（Domain-Adaptive Pretraining, DAPT）策略。医疗领域的 BioBERT、金融领域的 FinBERT、法律领域的 LawBERT，本质上都属于这一路线的不同落地版本。

核心训练任务

对 BERT 一类 Encoder-only 表示模型而言，继续预训练最经典的目标仍然是掩码语言建模（Masked Language Modeling, MLM）。它可以理解成一种受控的“完形填空”：随机选择输入序列中约 15% 的 token 作为预测目标，其中 80% 替换成 [MASK]，10% 替换成随机 token，剩余 10% 保持不变，但仍要求模型预测原始 token。这样做的目的，是迫使模型根据双向上下文恢复被遮蔽的信息，从而继续学习领域语料中的词汇、搭配和上下文统计。

在继续预训练场景中，MLM 的关键价值不在于“学会猜词”本身，而在于让词向量与上下文表示持续向领域分布靠拢。通用 BERT 看到 What a horrible [MASK]! 时，可能只学到通用情绪词与常见名词；若继续在影评语料上做 MLM，它会更容易把 horror、ending、premise、performance 这类领域表达织进表示空间。医学、金融、法律乃至企业内部文档都是同样的道理。

训练流程

如果把表示模型继续预训练落到一个可执行的理论流程，通常可以分成六步。

确定基础模型。起点通常是一个已经完成通用预训练的表示模型，例如 BERT、RoBERTa、DeBERTa 或其领域相近变体。这里直接继承已有语言能力，无需从头训练模型。
收集目标领域的无标注语料。继续预训练最重要的资源核心是高质量领域文本。它既可以来自公开领域语料，例如 PubMed 医学文献、金融新闻、法律判例，也可以来自企业内部数据，例如业务文档、客服对话、知识库与工单记录。
完成分词与语料预处理。继续预训练阶段通常不再保留下游标签，只保留原始文本并转换成模型输入序列。此时最重要的是保证文本清洗、截断策略、特殊符号处理与分词器保持一致，因为模型更新的是对领域文本分布的内部表示，而非标签映射。
选择掩码策略。最基础的是词元掩码（Token Masking），即对子词粒度随机掩码；若希望模型更充分学习完整术语和专业表达，也可以使用整词掩码（Whole Word Masking, WWM），让一个完整单词的所有子词同时被遮蔽。整词掩码通常训练更难、收敛更慢，但在领域术语密集的场景下更有价值。
执行继续预训练。用领域无标注语料继续运行 MLM 目标，让模型参数在不丢失通用语言能力的前提下，逐步适配目标领域。这个阶段更新的核心是整个编码器本身，因此它更像“重塑表示空间”，而非“学习某个具体任务标签”。
切换到下游微调。等继续预训练完成后，再把更新后的表示模型接到具体任务上，例如文本分类、语义搜索、命名实体识别（Named Entity Recognition, NER）或关系抽取。此时，下游微调面对的已经核心是一个更懂目标领域语境的表示模型。

企业级场景

继续预训练在企业内部尤其有价值。很多企业缺的是可公开复用的标注数据，文本本身并不稀缺。客服对话、知识库、工单、合同、操作手册、会议纪要、内部 wiki，这些数据天然带有组织级语境和术语。如果直接把通用模型拿去做企业任务微调，模型经常会在缩写、术语和内部表述上显得迟钝；但若先用这些无标注内部数据继续预训练，再做客服主题分类、语义搜索或实体识别，下游效果通常会明显更稳。

因此，继续预训练最适合的核心是“目标领域有大量原始文本，但通用模型对其语境仍然陌生”的场景。它本身核心是一个连接通用语言能力与领域任务能力的中间适配层。

分类目标表示模型微调

除了直接训练 embedding 模型，另一条非常常见的路线是围绕分类目标（Classification Objective）微调表示模型（Representation Model）。这类方法的基本结构是：以预训练编码器作为基座，在顶层接一个专用分类头（Classification Head），然后用分类损失共同优化表示与决策边界。它适用于情感分类、主题分类、风险识别、意图分类等闭集标签任务，目标核心是让表示尽可能服务于当前分类边界。

在这种设定下，基座模型参数既可以冻结（Freeze），也可以与分类头一起更新。冻结时，训练只发生在分类头，优点是显存占用小、训练稳定、对小数据集更保守；缺点是表示空间几乎不变，模型只能在既有语义表征上学习一个浅层决策边界。若不冻结，则分类头与基座参数会在训练中协同进化：分类头不断把梯度传回编码器，编码器又持续调整自己的表示方式去配合分类目标，最终得到更贴近任务边界的内部表征。这通常能带来更高上限，但也更依赖数据质量、学习率设置和正则化控制。

从经验上看，把基座模型全部冻结后，分类微调效果通常会明显受限，尤其当任务分布与预训练语料存在偏移时更是如此。资源受限时，部分解冻（Partial Unfreezing）是一种常见折中：只更新分类头往往太弱，而全量解冻又可能超出显存或训练预算。在某些具体实验里，只解冻少数几个 Transformer 模块就已经能得到足够好的结果。对文本分类而言，更常见、更合理的做法通常是优先解冻靠后的高层模块，因为后层表示更接近任务语义与决策边界；前层更偏向词法与局部句法特征，保留冻结状态往往问题不大。若任务与预训练域差异很大，或输入风格明显特殊，再考虑进一步向下解冻更多层。部分解冻的关键不在于固定解冻“哪 N 层”，而在于把有限资源优先用在最可能影响任务边界的高层表示上。

训练流程

以烂番茄影评数据集（Rotten Tomatoes Movie Review Dataset）的情感分类为例，分类目标表示模型微调通常可以拆成六步。

选择任务与数据集。烂番茄影评数据集是二分类情感任务：输入是一段影评文本，输出是正面或负面标签。它非常适合说明“表示模型 + 分类头”这一路线，因为情感边界往往依赖整体语义与局部措辞共同决定。
加载数据并完成划分。最基本的划分是训练集（Training Set）与测试集（Test Set）；若训练流程中还需要调超参数或做早停，则还应额外保留验证集（Validation Set）。这里的重点核心是保证测试集不参与模型选择，从而让最终分类指标具有解释价值。
加载基座模型与分词器（Tokenizer）。基座通常选择预训练 Transformer 编码器，例如 BERT、RoBERTa、DeBERTa 或更轻量的蒸馏版本；分词器负责把原始文本转成 token 序列、attention mask 以及模型可接收的输入张量。模型与 tokenizer 必须配套，因为词表、特殊 token 和预训练时的文本规范共同决定了输入表示。
进行分词与样本编码。文本在进入模型前需要完成截断（Truncation）、编码与必要的长度控制。这个阶段的目标核心是把“原始语言序列”转换成“可被编码器稳定处理的张量化输入”。序列最大长度、是否保留句首句尾、以及是否对长文本做裁剪策略，都会直接影响分类效果。
构建专用数据整理器（Data Collator）。它负责把长度不一的样本动态组织成批次（Batch），例如按当前 batch 的最长序列做填充（Padding），并同步构建 attention mask，保证同一批次内张量形状一致。更进一步，数据整理器也可以承载轻量数据增强策略，例如随机裁剪、句段保留或噪声注入；但它的最基本职责仍然是稳定、高效地完成批次构造，而非单纯“把数据拼起来”。
定义评估指标函数。分类目标的训练不仅需要损失函数，还需要一组与业务目标对齐的评估指标。最基本的是 Accuracy；若类别不平衡或更关心误报 / 漏报，则通常还要同时看 Precision、Recall 与 F1。对情感分类这类任务，宏平均 F1（Macro-F1）往往比单独 Accuracy 更能反映模型是否真正学到了稳定的标签边界。

这种训练路线与前文 embedding 微调的根本区别在于优化目标。embedding 微调强调“让相关样本在向量空间中更近，让无关样本更远”；分类目标微调强调“让表示空间直接服务于当前标签决策”。前者更适合检索、聚类、匹配与召回，后者更适合闭集判别任务。实际工程中，两条路线并不冲突：很多系统会先训练或微调一个较强的 embedding / encoder 基座，再在其上叠加分类头完成特定标签任务。

少量样本分类目标微调

少量样本分类目标微调（Few-shot Classification Fine-tuning）处理的是另一类很常见的现实约束：标签体系已经明确，但每个类别只有极少数标注样本，往往只有 8、16、32 或几十个例子。这类场景下，直接按常规监督流程全量微调一个分类模型，很容易过拟合到表面措辞或偶然噪声；真正有效的方法通常核心是换用对低样本更友好的训练机制。

少样本分类本质上仍然属于监督学习，只是把“每类有大量标注样本”的常规设定，收缩成“每类只有极少量高质量样本”的稀缺设定。它特别适合标注成本高、样本获取慢、但标签体系明确的任务，例如小众领域文本分类、垂直领域情感分析、专业工单归类或内部知识标签识别。少样本方法的核心，核心是尽可能榨出每一条标注样本中的监督信号。

SetFit

SetFit（Sentence Transformer Fine-tuning）是少样本文本分类里最实用的一条路线之一。它基于 sentence-transformers 生态构建，但并不直接把少量样本喂给一个普通分类器，通常会先把这些样本改写成大量句子对训练信号，再用两阶段流程完成分类。它的核心价值在于：仅靠极少量标注样本，就能让嵌入模型学到任务相关的类别结构，随后再用一个很轻量的分类头完成判别。

SetFit 的完整流程可以概括为三步：

采样训练数据。先基于少量原始标注样本构造句子对：同一类别下任意两个文本组成正例，不同类别下的文本组成负例。这样一来，即使每类只有 2 到 8 条样本，也能通过类内 / 类间组合迅速扩展出大量训练对。少样本的关键不再只是“原始样本有多少”，而变成“能否从这些样本中构造出足够有判别力的相似 / 不相似关系”。
微调嵌入模型。利用这些正负句子对，对预训练的 Sentence Transformer 做对比学习微调。正例要求模型把同类文本的句向量拉近，负例要求模型把异类文本推远。这个阶段优化的是表示模型本身，也就是 SetFit 的 body。
训练分类器。等嵌入模型被调到更适配当前任务后，再用这些高质量句向量作为特征，训练一个轻量分类头（head），例如逻辑回归、线性分类器或其他简单监督分类器。最终推理时，文本先被编码成嵌入，再由分类头输出类别概率。

这套设计的本质是两阶段训练：第一阶段先让嵌入空间学会“同类靠近、异类远离”；第二阶段再在这个已经整理过的表示空间里学习分类边界。相比直接对大模型做全参数分类微调，这种路线对小样本更稳定，也更节省资源。

SetFit 的优势主要体现在四个方面。第一，少样本效率高：每类只需极少数标注样本，就可能逼近常规大数据分类微调的效果。第二，无需提示词：它不像提示式 few-shot 方法那样依赖 prompt 或 verbalizer 设计。第三，训练成本低：大部分计算都集中在句向量微调和轻量分类头训练上。第四，数据利用率高：通过句子对采样，有限标注被最大化放大。

以烂番茄影评（Rotten Tomatoes）这类二分类情感任务为例，SetFit 的典型做法是先按类别均衡抽取极少量样本，例如每类 16 条；之后通过正负配对把几十条原始样本扩展成上千个训练对，再完成对比学习与分类头训练。这个例子最能说明 SetFit 的关键巧思：真正被放大的核心是文本之间的监督关系。

SetFit 也有边界。它最适合短文本、句子级、闭集标签明确的分类任务；若类别语义高度重叠、任务严重依赖复杂推理，或标签本身更像开放式生成目标，那么单纯依赖句向量空间分离的办法未必最优。在这些场景里，提示式 few-shot 或更强的生成式模型可能更有优势。

提示式 Few-shot 微调

另一大类主流方案是提示式（Prompt-based）few-shot 微调，其代表方法包括 PET（Pattern-Exploiting Training）和 LM-BFF（Better Few-shot Fine-tuning of Language Models）。它们从直接把分类任务看成“输入文本 → 标签 id”转向把任务改写成 cloze 风格或自然语言提示，让预训练语言模型去预测标签词（label words）或完成模式匹配。PET 的特点是利用 prompt 把少样本监督对齐到语言模型原本更擅长的预训练目标，并进一步用少量标注模型为未标注样本分配软标签；LM-BFF 则把 prompt 搜索、label word 选择和 demonstration 设计系统化，以提高 few-shot 稳定性。

这类方法在标签语义清晰、prompt 设计得当时非常强，但工程代价通常高于 SetFit。它们更依赖 prompt 模板、verbalizer 质量以及不同随机种子的稳定性，迁移到新任务时也往往需要额外搜索和调参。提示式 few-shot 的上限很高，工程摩擦也更大。

参数高效微调

第三类主流路线是参数高效微调（Parameter-Efficient Fine-Tuning, PEFT），例如 LoRA、IA3、Prefix Tuning、Prompt Tuning 等。它们的共同点是：大部分预训练参数保持冻结，只训练一小部分新增参数或适配器参数，从而显著降低显存与存储成本。这类方法更直接解决“模型太大，如何降低微调成本”的问题，因此在大基座模型上尤其有价值。

PEFT 与 SetFit 的关注点并不相同。SetFit 解决的是“样本太少，如何更高效地榨出监督信号”；PEFT 更直接解决“模型太大，如何降低微调成本”。在少样本分类里，二者并不互斥：完全可以把少样本策略与参数高效策略叠加。例如，当基座模型较大、显存非常紧张时，可以优先采用 LoRA / IA3 这类方法；若样本极少且更看重训练稳定性与部署成本，则 SetFit 往往是更直接的起点。

如何选型

如果任务是典型的短文本或句子级闭集分类，且每类只有极少样本，SetFit 往往是首选起点，因为它训练快、对样本效率高、工程上也最直接。若任务标签本身具有很强自然语言语义，且团队愿意投入 prompt 设计与搜索成本，PET / LM-BFF 这类提示式 few-shot 往往有更高上限。若主要矛盾核心是模型太大、显存和部署预算太紧，则应优先考虑 LoRA、IA3 或其他 PEFT 方案。实际系统中，最稳妥的做法通常核心是先判断当前瓶颈究竟是样本、算力，还是 prompt 工程复杂度。

生成模型高效微调

生成模型高效微调（Parameter-Efficient Fine-Tuning for Generative Models）面向的是 Decoder-only 大语言模型（Large Language Model, LLM）的指令对齐与领域适配场景。它处理的核心是如何在显存、训练时间和存储预算都有限的条件下，让基座生成模型学会遵循指令、稳定输出目标格式，并吸收特定领域的表达习惯。对绝大多数 7B、13B 乃至更大规模的开源生成模型而言，基于 QLoRA 的 PEFT 已经成为默认起点。

适用场景

这一路线最适合三类任务。第一类是指令微调（Instruction Tuning），即让基座模型从“擅长续写”转向“稳定遵循用户指令”；第二类是风格或格式约束，例如客服回复风格、结构化 JSON 输出、企业内部答复模板；第三类是轻量领域适配，例如让模型更熟悉某个组织、行业或产品线的术语与常见问答模式。若主要瓶颈是显存不足，QLoRA 往往优于全量微调；若目标是深度改写模型底层知识、继续预训练大规模领域语料，或修改上下文长度、词表与位置编码等底层结构，则继续预训练或全参数微调仍然更合适。

训练流程

从理论上看，基于 QLoRA 的生成模型高效微调通常遵循六步流程。

确定基座模型与任务目标。基座一般选择已经具备稳定因果语言建模能力的生成模型，例如 Llama、Qwen、Mistral 或 TinyLlama 一类架构；任务目标则通常是监督微调（Supervised Fine-Tuning, SFT）意义上的指令跟随，而非从头学习语言能力。
构造高质量指令数据。训练样本通常采用instruction / input / output三段式结构，或更一般的多轮对话消息结构。这里最关键的核心是格式与质量：用户角色、助手角色、轮次边界、结束标记、系统提示词都必须稳定一致。若基座模型已经绑定特定 chat template，就应沿用同一模板组织训练语料；否则模型学到的首先核心是混乱的对话边界。实际工程里，过滤后的 UltraChat 风格指令对话之所以常被拿来做示例，核心原因也正在于此：它提供了相对稳定、结构清晰的监督信号。
以低比特方式加载基座。QLoRA 的“Q”来自量化（Quantization）：基座权重以 4-bit 形式存储，常见配置包括 NF4、双重量化以及 BF16 / FP16 计算精度。这样做的目的核心是把静态权重占用压到足够低，使更大模型能够在有限显存中完成微调。NF4 尤其适合这一场景，因为它针对 Transformer 权重常见的零中心、近似正态分布做了量化设计。
挂接 LoRA 适配器。QLoRA 的训练对象核心是附加在目标投影层上的低秩适配器参数。实践中通常会把 LoRA 挂到注意力层的 $q$ / $k$ / $v$ / $o$ 投影上，必要时再扩展到 MLP 的 up / down / gate 投影。这样得到的是“冻结量化基座 + 可训练低秩分支”的结构：原模型保留通用语言能力，增量参数专门负责吸收任务相关行为。
执行监督微调。训练过程本质上仍然是自回归下一个 token 预测，只是训练语料已经被改写为指令遵循格式。由于显存约束依然存在，单卡 batch size 往往较小，因此通常依靠梯度累积（Gradient Accumulation）来获得更合理的等效批大小；学习率调度常采用 warmup 后接 cosine 衰减；优化器常配合分页优化器以压低峰值显存；最大序列长度则决定模型一次看到多少上下文，也直接决定训练成本。
导出训练产物。训练完成后，最常见的保存形式有两种：一种是只保存 LoRA 适配器，部署时与同一基座模型组合使用，这最适合多任务、可插拔部署；另一种是把适配器权重合并回基座，得到单体模型，便于独立推理与分发。前者更省存储、更灵活，后者更接近传统“一个模型直接上线”的部署习惯。

关键超参数

QLoRA 的表现很大程度上由少数关键超参数决定。它们分别约束适配器容量、优化稳定性、上下文覆盖范围与显存预算。

超参数	控制对象	实践含义
LoRA rank $r$	低秩适配器的容量	$r$ 越大，适配器表达力越强，但显存与训练成本也越高；过小容易欠拟合，过大则削弱 PEFT 的资源优势。
lora_alpha	LoRA 更新量的缩放强度	它决定适配器增量对原模型输出的影响幅度，通常与 $r$ 配合设置；过大容易训练不稳，过小则适配不足。
target_modules	LoRA 挂接位置	只覆盖 $q$ / $v$ 投影时最省资源；同时覆盖注意力与 MLP 投影时，通常有更高上限，但训练更重。
lora_dropout	适配器分支正则化	小数据集或高重复训练语料更容易过拟合，适度 dropout 有助于稳定；数据充足时则通常保持较低取值。
学习率（Learning Rate）	参数更新步长	QLoRA 只训练少量适配器参数，因此学习率通常可以高于全参数微调；但过高仍会导致输出风格漂移、格式崩溃或损失震荡。
批大小与梯度累积	等效 batch 规模	单卡显存通常只允许很小的 per-device batch size，因此需要靠梯度累积换取更稳定的优化轨迹。真正重要的是等效 batch，而非单步看到多少样本。
最大序列长度（Max Sequence Length）	单样本上下文覆盖范围	序列越长，训练成本增长越快；过短又会截断多轮对话、长指令或结构化输出。它是质量与成本之间最直接的杠杆之一。
计算精度与优化器	数值稳定性与显存占用	支持时优先使用 BF16；否则常退回 FP16。分页 AdamW 一类优化器更适合量化微调，因为它们能显著压低优化器状态带来的峰值显存。
学习率调度器（Scheduler）	训练初期稳定性与后期收敛	cosine 衰减配合短 warmup 是常见默认配置：前期避免梯度过猛，后期逐步收敛到更稳的解。

适用边界

QLoRA 的核心优势是把“生成模型微调”从高门槛算力工程，压缩成可在有限资源上反复迭代的日常流程。因此，只要任务主要是指令跟随、格式控制、轻量领域适配或特定风格注入，它通常都应作为第一选择。它的边界同样明确：当任务需要深度改写基座知识、吸收大规模新领域语料、重构模型底层能力或逼近全参数微调的极限上限时，QLoRA 更适合作为基线而非终点。此时更合理的路线通常是继续预训练、Q-DoRA，或直接转向更重的全参数微调。

生成模型拒绝采样微调

生成模型拒绝采样微调处理的是这样一类场景：模型已经具备基本生成能力，甚至已经完成一轮 SFT，但仍希望进一步提高答案正确率、格式稳定性或可验证任务表现；同时，团队又不希望立刻进入完整 RLHF、PPO 或 DPO 训练链路。此时，最自然的做法往往核心是先让模型对同一提示词生成多个候选，再通过外部评分器筛选出最优答案，把它重新写回 SFT 数据，再继续监督训练。

从训练形态上看，它通常遵循五步流程。

确定起点模型。起点通常是 Base Model 经过一轮指令微调后的模型，因为拒绝采样依赖“先能生成基本可读候选”这一前提；若模型连任务格式都不稳定，后续筛选只会浪费大量采样预算。
为每个提示词生成多个候选。生成阶段的目标核心是提供一个足够有区分度的候选池，因此通常会适度提高采样多样性，让模型在同一问题上给出若干不同解法、表述或结构。
使用外部评分器做筛选。评分器可以是规则校验、可执行验证、单元测试、格式解析器、奖励模型、人类打分，或它们的组合。只要能较稳定地区分“明显更好”和“明显更差”，就足以支撑拒绝采样式数据构造。
把通过筛选的样本回写成监督数据。最常见的做法是只保留每个提示词下得分最高或达到阈值的候选，把它们整理成新的 prompt-response 数据集。这样做之后，后续训练仍然是标准 SFT，而非显式偏好优化。
按监督目标继续训练，并周期性重新采样。随着模型能力提升，旧一轮采样得到的高分样本可能不再代表新的最优边界，因此很多实践会多轮迭代：采样、筛选、回写、再训练，再用更新后的模型继续采样。

这条路线的关键超参数主要有五类：每个提示词生成多少候选、采样温度与 top-p 等多样性控制、接受阈值或保留比例、评分器本身的一致性与噪声水平，以及每轮回写数据占原始 SFT 数据的比例。它们共同决定一个核心权衡：候选越多、筛选越严格，样本平均质量可能越高，但成本也越高，且更容易把训练分布压窄；候选太少或筛选过松，则回写数据与原始 SFT 的差异不够明显，改进幅度往往有限。

与 DPO 相比，拒绝采样微调不会直接保留“胜者优于败者”这层相对关系，只把胜者留下来，因此信息利用率更低，但训练链路更简单；与 PPO 相比，它没有显式策略优化与在线回报建模，因此更容易稳定落地。工程上，它特别适合答案是否正确较容易验证的任务，而对开放式偏好、帮助性、安全性与语气细粒度排序，更常需要再叠加 DPO、RLHF 或其他偏好优化方法。

生成模型直接偏好调优

生成模型直接偏好调优（Direct Preference Tuning for Generative Models）处理的是生成模型训练中的下一层目标：模型已经通过监督微调（SFT）学会了基本的指令跟随，但在多个可行回答之间，仍未必稳定偏向人类真正想要的输出。此时，训练重点从“把任务教给模型”转向“把偏好写进模型”。在当前工程实践里，DPO（Direct Preference Optimization）是最典型、也最实用的直接偏好调优方案。

它之所以称为“直接”，就在于它绕开了“先训练奖励模型，再用 PPO 做强化学习”的显式 RLHF 流程，直接用偏好数据本身更新策略。对资源受限、希望复用现有 SFT 训练栈的团队而言，这通常是比传统 RLHF 更轻、更稳的选择。

适用前提

直接偏好调优几乎总是建立在一个已经完成 SFT 的模型之上，而非直接从 Base Model 开始。原因很直接：偏好数据表达的是“在两个都还算合理的回答之间，哪个更好”；如果模型连基本指令都还不会遵循，那么偏好优化得到的首先核心是更混乱的行为。因此，标准路径通常是Base Model → SFT / QLoRA SFT → DPO。若显存非常紧，DPO 阶段也仍然可以继续沿用 LoRA / QLoRA 这一类参数高效微调方案。

训练流程

从工程与理论结合的角度看，生成模型直接偏好调优通常可以拆成六步。

确定起点模型。直接偏好调优的起点通常核心是已经完成指令微调的模型。若前一阶段使用的是 LoRA / QLoRA，则这里有两种常见路径：要么先把 SFT 适配器合并回模型，再继续挂接新的 DPO 适配器；要么保留 SFT 结果作为起始状态，在其之上继续叠加偏好调优适配器。无论采用哪条路径，本质都一样：DPO 学习的是“在 SFT 行为之上继续排序优化”，而非重新学习指令能力。
构造偏好数据集。训练样本的基本形态是三元组：提示词（prompt）、被接受回答（chosen）、被拒绝回答（rejected）。它要求两条回答都与同一个提示词对应，并且都具备一定可读性，否则优化信号会退化成“学会排除明显坏答案”，而非学习细粒度偏好边界。高质量 DPO 数据的关键，不只是 chosen 比 rejected 更好，还在于两者足够接近、足够可混淆，这样模型才会被迫学习真正决定人类偏好的因素，例如信息完整性、语气、格式遵循、安全边界与事实可靠性。
建立参考模型。DPO 不显式训练奖励模型，但仍然需要一个冻结的参考模型（Reference Model）作为锚点。这个参考模型通常就是 SFT 后的模型快照，它定义了“原本模型认为哪些回答更可能”。训练模型的目标核心是相对于参考模型，进一步提高 chosen 的相对优势，并压低 rejected 的相对优势，从而避免模型在优化偏好时过度漂移。
配置可训练参数。若采用 PEFT 路线，训练对象通常仍是 LoRA 适配器，而非全参数更新。此时需要重新决定 DPO 阶段的 LoRA 容量与挂载范围。实践中，一个常见选择是让 DPO LoRA 覆盖注意力投影与 MLP 投影，因为偏好优化往往既涉及回答内容选择，也涉及风格、结构和安全边界的重排。若只覆盖极少数层，偏好容量可能不足；若覆盖过广，则训练成本与过拟合风险都会上升。
执行直接偏好优化。DPO 训练时会同时比较当前模型和参考模型在 chosen / rejected 两条回答上的条件概率。优化目标可以概括为：让当前模型比参考模型更偏向 chosen，同时更远离 rejected。与 PPO 不同，这一过程不需要 rollout、奖励建模或价值函数估计，因此训练流程更接近“带特殊损失函数的 SFT”，也更容易保持数值稳定。
保存与合并训练产物。若使用 LoRA / QLoRA，训练完成后最常见的产物仍然是 DPO 适配器，而非完整模型。部署时可以只加载适配器与基座组合使用；若希望得到单体模型，也可以按顺序把 SFT 适配器与 DPO 适配器依次合并。这个顺序很重要，因为偏好调优是在指令能力之上继续修正输出排序，若跳过 SFT 阶段直接只保留 DPO 适配器，模型通常不会得到预期行为。

重要参数

直接偏好调优的关键超参数主要决定四件事：偏好优化强度、可训练容量、序列覆盖范围，以及在有限显存下能否稳定收敛。

参数	控制对象	实践含义
beta	DPO 偏好强度 / 正则化强度	它决定 chosen 相对 rejected 的概率优势要被放大到什么程度。取值过大，模型容易偏离参考模型过快；取值过小，偏好信号又会过弱。工程上常把它理解为“偏好更新的力度旋钮”。
学习率（Learning Rate）	更新步长	DPO 阶段通常比早期 SFT 更接近“行为微调”而非“能力学习”，因此学习率往往需要更保守。学习率过高时，最先损坏的往往核心是回复风格、格式一致性与安全边界。
批大小与梯度累积	等效 batch 规模	DPO 每个样本都包含 prompt、chosen、rejected 三部分，显存压力通常高于普通单输出 SFT，因此更依赖小 batch 配合梯度累积来换取稳定训练。
max_prompt_length	提示词截断长度	它控制参考上下文保留多少信息。过短会丢失任务条件，过长则显著抬高显存与计算成本。
max_length	整体序列长度上限	它决定 prompt 与回答总共能占多少 token。对多轮对话、长解释和结构化输出任务而言，这个参数直接影响偏好信号能否覆盖完整回答。
warmup_ratio	训练初期学习率预热比例	偏好训练通常数据量小、梯度信号陡峭，预热有助于避免一开始就把模型推离参考分布。
优化器与精度	显存与数值稳定性	若沿用 QLoRA 路线，分页 AdamW、混合精度与梯度检查点通常仍是默认组合，它们解决的是“偏好训练能否在消费级显存下跑稳”的问题，而非损失函数本身的问题。
LoRA 的 $r$、$\alpha$、target_modules、dropout	可训练容量与挂载位置	这些参数控制 DPO 阶段到底允许模型改动多大子空间。偏好差异若主要体现在语气、格式和细粒度行为边界上，低秩适配器通常足够；若 chosen / rejected 差异深度依赖复杂知识、推理链条或长程一致性，则更高秩或更广覆盖范围往往更稳。

推理阶段优化

推理优化（Inference Optimization）目标是在质量约束下同时降低延迟（Latency）、显存（Memory）和成本（Cost）。主线方法包括量化（Quantization）、KV Cache 优化、推测解码（Speculative Decoding）和连续批处理（Continuous Batching）。

量化

量化（Quantization）通过降低数值精度减少带宽与显存占用。常见路径：FP16/BF16 到 INT8/INT4/FP8。大模型推理最常见的是权重量化（Weight-only Quantization），因为它实现简单、收益稳定；进一步的激活量化（Activation Quantization）能带来更大的加速空间，但对硬件与校准（Calibration）更敏感。

常见概念：

PTQ（Post-Training Quantization）：训练后量化，依赖少量校准数据估计尺度（Scale）与零点（Zero-point）。
QAT（Quantization-Aware Training）：训练时模拟量化误差，通常精度更好但成本更高。
按粒度：per-tensor / per-channel / group-wise，粒度越细通常越准但开销更高。

INT8：8-bit 整数量化，精度与兼容性通常最稳，常作为权重量化的保守起点。
INT4：4-bit 整数量化，压缩率更高，但更依赖量化算法、分组方式与校准质量。
FP8：8-bit 浮点格式，动态范围通常优于 INT8，更适合高端硬件上的高吞吐推理与训练。
GGML：最早的本地 CPU/GPU 推理张量库与算子生态，强调轻量、本地部署与量化推理。
GGUF：建立在 GGML 生态上的统一模型文件格式，用于封装权重、词表、量化元数据和模型配置，已成为 llama.cpp 一类本地推理工具的主流分发格式。

KV Cache 缓存

KV 缓存（Key-Value Cache, KV Cache）用于避免重复计算历史 token 的 Key/Value。在解码器（Decoder-only）模型中，生成第 $t$ 个 token 时需要与前 $t-1$ 个位置做注意力；若不缓存，每一步都会重复算一遍历史的 K/V，代价极高。

代价分解常用“预填充（Prefill）+ 解码（Decode）”来理解：Prefill 处理提示词（Prompt）并写入 KV；Decode 每生成一个 token 只需计算新 token 的 Q/K/V，并与缓存做一次注意力。这把每步成本从“重算整段历史”降为“读取缓存并做一次加权求和”。

KV Cache 的主要代价是显存：缓存规模与层数、头数、上下文长度线性增长，因此优化会围绕缓存布局（如 Paged Attention）、压缩（如 KV 量化）与复用策略展开。

粗略的量级估算：若每层缓存张量形状近似为 $K,V\in\mathbb{R}^{L\times n_{\text{kv}}\times d_k}$，则单 batch 的显存规模约为

\[\mathrm{Mem}_{\mathrm{KV}}\approx 2\cdot N_{\text{layers}}\cdot B\cdot L\cdot n_{\text{kv}}\cdot d_k\cdot \text{bytes}\]

其中 $n_{\text{kv}}$ 在 GQA/MQA 中显著小于 Query 头数，因此 GQA/MQA 往往是降低 KV Cache 的一阶有效手段；进一步的手段包括 KV 量化、Paged KV（按块管理与回收）、以及对重复前缀做复用/持久化（Prompt Caching）。

Paged Attention

Paged Attention 是一种面向推理阶段的 KV Cache 分页管理与访问机制。它把逻辑上连续的一段 KV 序列拆成固定大小的块（Blocks / Pages），再用块表把请求看到的连续上下文，映射到物理上未必连续的显存块，从而支持动态分配、回收与复用。

它解决的重点核心是“如何把不断增长的 KV Cache 更高效地组织、分配和访问”。

这种设计的收益主要有三点。第一，减少显存碎片（Fragmentation）：请求长度不断变化时，不再需要为每条序列预留一整段连续大内存。第二，提升动态批处理与并发调度效率：不同请求可以共享统一的块分配与回收机制，更容易在在线服务里做 token 级调度。第三，和前缀复用天然兼容：当某段前缀已经生成过，对应的 KV blocks 可以直接挂到新请求的块表上，而不必搬移整段缓存。

因此，Paged Attention 的本质是KV Cache 的分页管理与访问优化，而非新的注意力数学形式。它不改变注意力结果本身，改变的是推理引擎如何在显存里存放和调度这些历史状态。它通常与连续批处理（Continuous Batching）、Prompt Caching 和块级回收策略一起出现，是高吞吐推理引擎里的基础设施级组件。

为什么连续预留显存会失效

若沿用传统的连续分配思路，系统通常需要为每条请求预留一大段连续显存，用来容纳“未来可能继续增长”的 KV Cache。但生成长度在服务开始时并不可知：有的请求很快结束，有的请求会持续生成很长文本。于是，预留得太保守会频繁扩容甚至失败，预留得太激进又会浪费大量显存。

这会同时带来两类碎片。内部碎片（Internal Fragmentation）来自“已经预留但尚未使用”的那部分连续空间；外部碎片（External Fragmentation）则来自请求不断进入和退出后，显存里出现许多零散空洞。即使总空闲显存仍然足够，也可能因为拿不到一整段足够长的连续区域，而无法容纳新的长请求。Paged Attention 的出发点正是消除这种“连续大块内存”假设。

块表是如何工作的

Paged Attention 借鉴了虚拟内存（Virtual Memory）的分页思想。推理引擎先把可用于 KV Cache 的显存切成大量固定大小的物理块（Physical Blocks），每个块只容纳固定数量 token 的 K/V。对单条序列而言，模型逻辑上仍然看到一段从位置 1 到位置 $t$ 的连续上下文；但在物理层，这些 token 对应的 KV 可能分散存放在许多互不相邻的块里。

块表（Block Table）负责维护这种映射关系：逻辑上的第 $i$ 个块，对应显存中的哪一个物理块。当当前尾块写满后，系统只需从空闲池中再取一个新块，把它挂到块表末尾即可，并不要求新块和前一块在物理地址上相邻。这样一来，序列增长就从“申请更长的一整段连续空间”变成了“追加一个固定大小的新块”。

这种布局把碎片问题压到很小的范围内。内部浪费通常只会出现在最后一个尚未写满的尾块中，而不会沿整条序列累计；外部碎片则因为不再要求大块连续空间而大幅缓解。工程上真正被频繁分配和回收的对象，从“整条请求的整段缓存”转向细粒度、等尺寸的块。

注意力访问路径如何改变

在 Paged Attention 中，注意力访问路径（Access Path）指的是：当前 query 如何找到并读取历史 token 对应的 Key / Value，再完成注意力计算。它改变的是这条访问路径，而非注意力公式本身。对当前 query 而言，模型仍然需要与全部历史 token 的 Key / Value 交互；不同之处在于，这些历史状态从通过一块连续显存读取转向由 kernel 按块表顺序逐块定位、聚合并完成注意力计算。逻辑上的序列连续性由块表保证，物理上的离散布局由运行时屏蔽。

因此，Paged Attention 的更贴切定义是一种分页式 KV 访问内核。它要求注意力实现能够接受“逻辑连续、物理离散”的缓存布局，并在 kernel 内高效完成地址映射、块级遍历和结果聚合。Paged Attention 核心是需要推理 runtime 与注意力 kernel 协同设计的系统级能力。

前缀共享与写时复制

分页布局还自然支持前缀共享（Prefix Sharing）。当多个请求拥有相同前缀时，它们可以在块表层共同指向同一组前缀块，而不必各自复制一份完整的前缀 KV。这种共享对系统提示词固定、多轮追问、束搜索（Beam Search）或树状探索都很重要，因为这些场景往往存在大段公共前缀。

一旦不同请求在后续 token 上开始分叉，系统再为各自分配新的尾部块即可；已经共享的旧块保持只读并可继续复用。这就是写时复制（Copy-on-Write）的典型思想：真正发生差异时才复制，未分叉前尽量共享。后文的 Prompt Caching 可以看作这种能力在“跨请求、跨时间窗口前缀复用”上的工程化延伸。

Prompt Caching（前缀缓存）

Prompt Caching（前缀缓存）缓存的是“提示词前缀的 KV Cache”，目标是避免在多轮对话或重复前缀场景下反复做 Prefill：当新请求的开头 token 序列与某个已缓存前缀完全一致时，推理引擎可以直接复用这段前缀的 KV blocks，只对新增 token 做增量计算。

它直接优化两个指标：

首 token 延迟（Time To First Token, TTFT）：减少或跳过重复前缀的 Prefill。
成本：若推理服务对缓存命中（Cache Hit）的前缀按更低费率计费，则输入 token 成本显著下降。

Prompt Caching 的工程前提是“字节级一致（Exact Prefix Match）”：通常要求 tokenizer 后的 token 序列完全一致，任何空格/标点/系统提示词差异都会导致 cache miss。因此它更适合“系统提示词固定 + 文档前缀固定 + 多次追问”的产品形态，而非随意变化的自由对话。

这类缓存的生命周期通常更像一种受显存压力驱动的短生命周期缓存。最常见的形态是直接驻留在 GPU 显存里，只要显存充足就保留，一旦新请求挤压缓存池，就按 LRU 等策略优先淘汰不活跃前缀。也有系统会把不活跃的 KV blocks 下沉到 CPU 内存形成分层缓存，以换取更长的可复用时间；但完整 KV Cache 很少作为常规路径直接落盘长期持久化，因为它体积大、回读慢、反序列化开销高，往往不如重新做一次 Prefill 划算。

多租户隔离（Multi-tenancy Isolation）

在共享推理后端中，Prompt Caching 必须严格做多租户隔离（Multi-tenancy Isolation）：缓存命中不能只依赖“前缀文本哈希”，还需要把租户/用户身份与模型版本纳入缓存键（Cache Key），避免跨用户“串台”与侧信道泄露。典型复合键（Composite Key）包括：

租户 ID（Org/User ID）
模型版本（Model/Weights Version）
前缀 token 哈希（Prefix Hash）与长度等元数据

缓存生命周期通常很短：KV Cache 占用显存，后端会用 LRU（Least Recently Used）等策略在压力下淘汰缓存；因此“隔天再聊成本回到原价”是常见现象。若业务需要跨小时/跨天复用长前缀，工程上一般转向两类手段：长效上下文缓存（Context Caching，若服务支持）或 RAG/摘要把长前缀变成可检索的外部状态。

KV Cache 压缩

KV Cache 压缩（KV Cache Compression）讨论的是：在不显著破坏注意力行为的前提下，把每个 token 需要缓存的 Key / Value 表示存得更小。它的直接目标核心是长上下文推理时的显存占用、带宽压力和并发能力。因此，从优化对象看，Latent KV、MLA、KV 量化、TurboQuant 都属于推理阶段优化；只是从实现方式看，它们并不全是推理后处理技巧，有些方法需要在模型架构和训练阶段就内建进去。

Latent KV / MLA

一条路线是潜空间压缩（Latent-space Compression）。它核心是先把每个 token 的 KV 投影到更低维的潜空间（Latent Space），缓存潜变量；当需要参与注意力计算时，再由模型内部结构把潜变量还原成用于打分和聚合的表示。这类方法常被概括为 Latent KV，典型代表就是 MLA（Multi-head Latent Attention）。

这类方法的本质是一种架构级的推理友好设计。它服务的是推理阶段的 KV 成本问题，但并非像 KV 量化那样在现成模型外部直接套一个压缩器；模型通常需要在训练时就学会如何在潜空间里存储和恢复有效的注意力信息。因此，它应被放在推理优化里讨论，但不能误解成“任何现有模型都可无缝加上的后处理插件”。

相对于 GQA/MQA 只是在“头数”上减少缓存，Latent KV / MLA 更进一步，直接压缩每个 token 的 KV 表示维度。收益通常体现为更长上下文、更高并发和更低带宽占用；代价则是算子更复杂、实现更依赖内核与数值稳定性，而且表示压缩本身会改变模型的内部信息流，因此往往需要专门的训练配方与模型容量补偿。

DeepSeek V4 的 CSA 与 HCA

DeepSeek V4 在 KV Cache 压缩上的推进，已经从压缩“每个 token 的 KV 向量有多宽”扩展到进一步压缩“历史序列里需要保留多少条 KV 条目”。这条路线的代表就是混合注意力（Hybrid Attention）中的 CSA（Compressed Sparse Attention）与 HCA（Heavily Compressed Attention）。如果说 MLA 关注的是单条缓存的表示维度，那么 CSA / HCA 关注的就是整段历史在序列轴上的压缩与检索。

设历史序列中已有 $n$ 个 token 的 KV 条目，普通注意力会让当前位置的 Query 直接面对这 $n$ 条历史记录。CSA / HCA 的共同思路是：先把相邻若干条 KV 条目聚合成压缩块，再让 Query 对这些压缩块做注意力。若每 $m$ 个 token 压成一个块，则序列级缓存长度大致从 $n$ 降到 $\frac{n}{m}$；若压缩率更大，长度还会进一步下降。这时压缩块可抽象写成

\[\tilde c_i=\sum_{j=mi}^{m(i+1)-1}\alpha_{ij}c_j,\qquad \sum_j \alpha_{ij}=1,\ \alpha_{ij}\ge 0\]

其中 $c_j$ 表示原始 KV 条目， $\tilde c_i$ 表示第 $i$ 个压缩块，权重 $\alpha_{ij}$ 由模型学习得到。这个式子表达的核心是带位置偏置与内容权重的可学习块聚合：一个压缩块内部，哪些 token 更该代表这一段历史，由模型自己决定。

若按组件拆开看，CSA 基本可以分成三步。第一步是 Token-Level Compressor：把每 $m$ 个 token 压成一个压缩块。第二步是 Lightning Indexer：先用一个更轻的索引器对压缩块打粗分，避免让每个 Query 暴力遍历所有压缩块，再做 top-k 选择。第三步是 Shared KV MQA：被选中的压缩块从分开维护多组 Key / Value转向以共享 KV 的 Multi-Query Attention 方式参与核心注意力。图里的“先压缩、再挑重点、最后精读”正对应这三层结构。

CSA 的关键在于“先压缩，再稀疏检索”。它先把历史 KV 压成较细粒度的压缩块，然后再为当前 Query 构造一个轻量索引器，对这些压缩块打分，只保留最相关的 top-k 块参与核心注意力。若把被选中的块集合记为 $\mathcal{S}_t$，则当前位置 $t$ 的核心注意力可写成

\[o_t=\mathrm{Attn}\bigl(q_t,\{\tilde c_i\}_{i\in \mathcal{S}_t}\bigr),\qquad \mathcal{S}_t=\mathrm{TopK}\bigl(\mathrm{score}(q_t,\tilde c_i),k\bigr)\]

这意味着 CSA 从让 Query 面对全部历史转向先在压缩后的历史摘要中做一次粗检索，再只对最值得关注的若干块做精算。它本质上是一种“压缩后的稀疏注意力”：既利用块压缩降低历史长度，又利用 top-k 选择避免在所有压缩块上做全量注意力。这里的 Lightning Indexer 之所以重要，是因为它把“找哪些块值得看”这件事从昂贵的全量注意力里剥离出来，先用一个更便宜的门禁系统完成粗召回。

HCA 的设计更激进。它同样先做块压缩，但压缩率 $m'$ 更高，而且从对压缩块做 top-k 稀疏选择转向直接在这些高度压缩后的全局摘要上做稠密注意力。若把 HCA 的压缩块记为 $\hat c_i$，则它的核心形式更接近

\[o_t=\mathrm{Attn}\bigl(q_t,\{\hat c_i\}_{i=1}^{n/m'}\bigr),\qquad m' \gg m\]

因此，HCA 牺牲的是块内细节，换来的是一种非常便宜的全局视野：每次注意力看到的是“高度概括过的整段上下文骨架”。它和 CSA 最大的结构差异有两点。第一，HCA 的压缩更重，例如官方配置里常见 $m=4$ 对应 CSA，而 $m'=128$ 对应 HCA。第二，HCA 没有 Lightning Indexer，直接在这些高度压缩后的块上做稠密注意力，不做 top-k 挑块。因此，CSA 更像“压缩后再精确召回”，HCA 更像“极粗粒度的全局扫视”。二者混合使用，形成的就是一条局部更细、全局更粗、但总体成本受控的长上下文建模路径。

从直观上看，可以把它类比成查阅一本极长的技术手册。MLA 做的是“把每一页字缩得更紧一些，但页数不变”；CSA 做的是“先把相邻几页整理成摘要，再从这些摘要里只抽最相关的若干段精读”；HCA 做的是“先把整本书压成更粗的章节提要，再快速通览全部章节提要”。三者都在降成本，但压缩的对象并不相同。

DeepSeek V4 还在 CSA / HCA 外围加入了一组保证可用性的细节。其一，压缩后的 Query 与 KV 条目在进入核心注意力前还会再做一次 RMSNorm，以控制 attention logits 的数值尺度；其二，只对最后一部分维度施加部分旋转位置编码（Partial RoPE），避免压缩后的表示完全丢失相对位置信息；其三，额外保留一条滑动窗口注意力分支，让最近若干 token 仍以未压缩形式参与计算，从而补回块压缩天然会削弱的局部精细依赖。于是整个混合注意力的真实行为核心是远处靠压缩块，近处靠局部窗口；全局靠 HCA，重点靠 CSA。

这张图里“精读 + 略读”这个比喻还有一个很关键但容易被忽略的实现含义：DeepSeek V4 核心是把它们按层交替堆叠（interleaved）。官方给出的 Pro 配置是 61 层，其中前两层先用 HCA，后续层再让 CSA 与 HCA 交替出现。这样做的好处是，让不同层在长程建模里分工，避免每一层同时承担“精细检索”和“全局粗读”两套昂贵职责：有些层负责重点块召回，有些层负责全局背景扫描。

从技术谱系上看，CSA / HCA 也说明 KV Cache 优化已经分成两条正交路线：一条是 MLA 这类表示维压缩，压缩每个 token 自身的 KV 宽度；另一条是 CSA / HCA 这类序列维压缩，压缩需要保留的历史条目数量。前者更像“把每张卡片做薄”，后者更像“把很多卡片归并成索引块”。它们解决的是同一个 KV Cache 瓶颈，但发力点不同。

KV 量化

KV 量化（KV Quantization）指的是：在保留 Key / Value 语义角色不变的前提下，把 KV Cache 从 FP16 / BF16 等较高精度压缩到更低 bit 的数值格式，以减少存储开销与读取带宽。它服务的仍然是原始注意力结构，只是把缓存表示改成更节省显存和带宽的低比特形式。

这条路线保留原始 Key / Value 的语义角色，不依赖潜空间替换，直接压缩缓存张量。这类方法更接近传统意义上的推理后处理：对现有模型更友好，工程接入成本通常低于 Latent KV / MLA，但量化误差是否会放大到注意力分布中，是成败关键。

TurboQuant

TurboQuant 是一种面向 KV Cache 的内积保真量化（Inner-product-preserving Quantization）方法。它属于 KV 量化路线，但优化目标不仅在坐标层面重建原向量，还尽量保住注意力计算真正依赖的内积关系。

这正是它与普通低比特量化的关键区别。对 Key 而言，最重要的核心是尽量保住 $q\cdot k$ 这类内积关系，因为注意力分数本身就是由这些内积驱动的。TurboQuant 优先保护的是注意力几何结构，而不只是原始向量外形。

为什么普通 KV 量化不够

如果只从存储角度看，KV Cache 似乎只是把一串浮点数改成更低 bit 的数字格式；但注意力核心是先计算

\[s_i=\frac{q\cdot k_i}{\sqrt{d_k}},\quad \alpha_i=\mathrm{softmax}(s_i)\]

然后再用 $\alpha_i$ 去聚合对应的 $v_i$。这意味着，Key 上很小的量化误差，一旦改变了 $q\cdot k_i$ 的相对大小，就可能在 softmax 之后被放大成明显不同的注意力分布。因此，普通“逐坐标尽量还原”的量化器未必就能得到好的注意力质量，因为它优化的是向量外形，而注意力真正依赖的是内积排序与相对间隔。

从这个角度看，TurboQuant 更像一种面向在线内积估计的向量量化，而非普通的低比特存储。它特别适合 KV Cache 这类在线场景：缓存必须边生成边写入，解码时又要反复读取并参与 $QK^\top$ 计算，因此量化器不能只在离线重建误差上表现好，还必须在在线注意力分数上尽量稳定。

核心直觉

TurboQuant 的核心直觉可以概括为一句话：先把向量变成更容易量化的形状，再用极低成本修补量化后最关键的内积偏差。如果把原始向量直接送进低比特量化器，少数高能量坐标、异常值和不均匀分布往往会主导误差；而注意力最敏感的是“整体内积关系是否还成立”。因此，TurboQuant 把压缩过程分成主压缩与内积校正两个层次，而非一次简单的数值离散化。

两阶段结构

它的整体结构可以理解为两阶段。第一阶段负责主量化（Main Quantization）：先对向量施加随机旋转（Random Rotation），再执行高质量的低比特量化。第二阶段负责残差校正（Residual Correction）：从追求把每个坐标补得更精确转向针对第一阶段留下的残差，额外附加一个极轻量的编码，用来降低量化后内积估计的系统偏差。这样一来，TurboQuant 的目标就从“压缩向量”推进成了“压缩后仍尽量保住注意力分数”。

若用概念来源去理解，这条路线可以看成“PolarQuant 风格的主量化 + QJL 风格的残差校正”的组合。前者解决“怎么把向量本体存得足够省且失真足够低”，后者解决“怎么让压缩后内积估计不要系统性跑偏”。因此，TurboQuant 看上去像一个量化方法，实际上却比普通低比特缓存更接近一个面向注意力运算的压缩管线。

为什么先做随机旋转

随机旋转的作用是改善向量分布的可量化性，而非“制造随机性”。原始 KV 向量往往各维统计特性差异很大，有的维度能量特别集中，有的维度接近冗余；直接低比特量化时，少数尖峰维度会迫使量化器把刻度对齐到这些极端值，结果是大量普通维度的有效分辨率被浪费掉。随机正交旋转之后，向量能量会更均匀地摊到各个方向上，各维统计特性更接近，量化器就更容易在固定 bit 预算下稳定工作。

更直观地说，随机旋转做的是“先把难量化的尖峰分布打散，再做统一压缩”。这一步并不改变向量之间真正的几何关系，却显著改变了逐坐标量化时面对的数值形态。因此，它服务的核心是后续低比特编码的数值条件。

为什么还需要残差校正

如果只有第一阶段，TurboQuant 仍然只是一个“更会量化向量”的方法，还不能真正保证注意力分数稳定。问题在于：即使主量化已经把总体失真压得很低，内积估计仍可能存在系统偏差，而 softmax 对这种偏差非常敏感。于是第二阶段从继续追求全面重建转向把预算集中用在“修正内积”这件事上。

这种设计背后的判断非常重要：在注意力里，全面重建所有坐标并非最高优先级，优先级更高的是让“谁该被关注、关注强度大概多大”不要被量化误差改写。因此，TurboQuant 的第二阶段看起来只加了很轻的一层编码，却能显著改变注意力保真度，因为它修补的是最承重的误差，而非平均分摊误差。

如何理解它的收益

TurboQuant 的收益并不主要体现在“把某个向量压缩得多漂亮”，而体现在相同显存下能缓存更长上下文，或在相同上下文下支持更高并发。它直接作用于解码阶段最贵的那部分状态，即各层持续增长的 KV Cache。对长上下文推理而言，这通常比单步算子优化更承重，因为一旦缓存存不下，系统就会被迫降低 batch、缩短上下文，或转向更慢的外部交换路径。

但这类收益能否真正转化为吞吐提升，还取决于实现细节。若压缩后每一步都要做很重的解码、解包和额外访存，理论上的存储优势就可能被运行时开销抵消。因此，TurboQuant 不只是一个“理论上更省”的方法，它是否好用还取决于推理引擎是否能把旋转、量化、残差校正与注意力计算做成足够紧的执行路径。

与 Latent KV / MLA 的关系

因此，TurboQuant 与 Latent KV / MLA 的差异非常明确。TurboQuant 是量化压缩，核心是把同一个 KV 向量存得更省，同时尽量保住注意力内积；Latent KV / MLA 是潜空间压缩，核心是先换成更低维的内部表示再缓存。前者更接近推理栈里的压缩器，后者更接近模型架构层面的推理优化设计。它们都属于 KV Cache 压缩，但技术路线和接入条件并不相同。

场景	策略	成本	延迟	风险/约束
连续多轮对话（分钟级）	Prompt Caching	低（命中时前缀“打折”）	低（TTFT 改善明显）	要求前缀严格一致；缓存易被淘汰
跨小时/跨天复用长文档前缀	Context Caching / 预热	中（通常含存储费）	中-低	依赖服务能力；需要明确缓存生命周期与权限
大规模文档问答	RAG（检索增强生成）	低且稳定	稳定	需要索引构建、召回/重排与证据注入治理
长对话状态维护	滚动摘要（Rolling Summary）	低	稳定	摘要漂移与可验证性问题；需结构化约束

Speculative Decoding

推测解码（Speculative Decoding）用一个更小更快的草稿模型（Draft Model）一次提出多个候选 token，再由大模型（Target Model）并行验证并接受其中尽可能长的前缀。若接受率高，就能显著减少大模型需要执行的解码步数；若接受率低，则会退化并产生额外验证开销。实际收益取决于草稿模型速度、分布匹配程度与实现细节。

批处理

批处理（Batching）讨论的是：如何把多个请求或多个 token 步骤拼到同一轮计算里，以提高硬件利用率。它本质上是在吞吐（Throughput）、单请求延迟（Latency）和调度复杂度之间做权衡。推理系统里常见的批处理并不只有一种，固定批处理、动态批处理和连续批处理服务的是不同流量形态。

固定批处理（Static Batching）

固定批处理（Static Batching）是最传统的做法：先攒够固定数量的请求，再统一组成一个 batch 执行。它的优点是实现简单、执行路径稳定、硬件利用方式容易预测，因此很适合离线推理、批量评测、Embedding 批处理或输入长度相近的后台任务。

它的问题同样直接。第一，等待时间明显：如果系统必须凑满 batch 才发车，单请求延迟会被批量收集时间拉长。第二，padding 浪费常常很大：当同一批次中的序列长度差异明显时，短序列必须补到与长序列对齐，等于用无效 token 占用了算力。因此，固定批处理通常更适合“任务离线、流量可控、长度相近”的环境，而不适合作为通用在线 LLM 服务的主调度方式。

动态批处理（Dynamic Batching）

动态批处理（Dynamic Batching）是在固定批处理上的现实改进。系统从死等“凑满固定 batch”转向在一个较短时间窗口内，把相近时间到达的请求尽量拼进同一批次里。这样做的好处是：既能保留一部分并行执行收益，又能避免固定批处理带来的长时间等待。

它适合中等并发的在线推理服务，尤其是在请求长度相对可控、生成长度不算太长的场景里表现不错。但它仍然主要以“请求”为单位成批，而非以“token 步骤”为单位重组，因此当不同请求的生成过程拉得很长、长度分化越来越大时，批次内部的同步等待和 padding 问题依然存在。动态批处理改善了固定批处理的僵硬性，但还没有真正解决 LLM 自回归解码里的异步性问题。

连续批处理（Continuous Batching）

连续批处理（Continuous Batching）面向在线服务：请求不断到达、序列长度各不相同。与“固定 batch + padding”相比，连续批处理按 token 粒度调度，把不同请求的下一步解码拼到同一个批次里，从而提升吞吐并减少 padding 浪费。它从把“一整条请求”视为不可拆分的调度单位转向把系统里所有活跃序列都当作可持续重组的解码状态。

这类方法之所以重要，是因为 LLM 解码阶段天然是异步的：有的请求很快结束，有的请求仍在长输出，有的请求刚刚进入系统。若继续用请求级批处理，GPU 经常会被“最慢那几个序列”拖住；而连续批处理允许系统在每一步把已经完成的序列移出，再把新请求或其他活跃序列的下一步补进来，使 batch 始终维持较高利用率。

为什么静态批处理不够

静态批处理的问题不仅“padding 多一点”这么简单，还它把一整条请求当成不可拆分的运行单元。假设同一批里有四个请求，其中三个很快生成结束，另一个却还要继续生成很长一段文本，那么 GPU 在后续很多步里实际上只能继续为这一个长请求服务，原先空出来的位置却不能被新请求及时填补。这样造成的核心是硬件空转：算力被“批次里最慢的那个请求”绑住了。

因此，连续批处理真正改变的核心是调度颗粒度。传统静态批处理按“请求”调度，连续批处理按“下一 token 的解码步”调度。只要某个请求结束、被取消、或暂时被抢占，调度器就可以立刻把它从运行队列中移出，再用等待队列里的新请求补位。

vLLM 到底在连续什么

在 vLLM 这类系统里，所谓“连续”指的是：调度器会以 decode 迭代为粒度，持续重组当前运行中的请求集合，而非一次性固定一个 batch 直到所有请求全部结束。连续批处理的“连续”，本质上是运行队列和解码步的持续流动。

具体来说，调度器会在几乎每一次 decode 迭代之后重新审视当前运行集合。若当前正在运行的请求集合记为 $\mathcal{R}_t$，每个请求在第 $t$ 轮各生成一个新 token，那么在进入第 $t+1$ 轮之前，系统就会检查：哪些请求已经生成到结束符、达到最大长度或被上层中断；哪些等待中的新请求应被拉入运行队列。于是，运行中的 batch 核心是在 decode 过程中持续流动。

因此，连续批处理本质上更像token 级流水调度，而非传统意义上的“把若干完整请求捆成一批”。高吞吐来自这种持续补位机制：只要有位置空出来，调度器就尝试让新的工作立刻进来，从而保持 GPU 上活跃序列数尽量稳定。

Prefill 与 Decode 如何混排

连续批处理的工程难点在于，新进来的请求并不处在和老请求相同的计算阶段。老请求通常已经进入逐 token 解码（Decode），而新请求刚到达时还需要先完成整段提示词的预填充（Prefill）。这两个阶段的计算特征并不相同：Prefill 更接近长序列的大矩阵计算，往往更偏计算密集；Decode 则更依赖 KV Cache 读取与单步增量计算，往往更偏带宽与调度密集。

高吞吐推理引擎的关键能力之一，就是能把这两类工作纳入同一套调度体系，而非强制等所有 Prefill 做完才统一进入 Decode。于是，新请求在进入系统后会先经历一次 Prefill，把提示词对应的 KV 写入缓存；随后它就能在下一个调度周期加入解码队列，和其他正在生成的请求一起按 token 粒度推进。工程实现上是否在同一次前向里混合执行 Prefill 与 Decode，取决于具体 runtime 的算子与调度设计；但从系统抽象看，它们必须被统一编排，否则连续批处理就无法真正发挥价值。

为什么必须配合分页式 KV 管理

连续批处理之所以直到近年的高吞吐推理引擎才真正成熟，一个核心原因就在 KV Cache 管理。若每条请求都必须占据一整段预留好的连续显存，那么请求不断进出时，显存会迅速碎片化：短请求结束后留下很多小空洞，长请求却可能因为拿不到足够长的一段连续内存而无法被调度进去。此时即使调度逻辑想连续补位，底层显存布局也会把它卡死。

这正是 Paged Attention / Paged KV 发挥作用的地方。通过把 KV Cache 切成固定大小的块，再用块表去描述逻辑上的连续序列，系统就不再要求“每个请求必须拥有一整段连续显存”。于是，块可以被细粒度分配、回收、复用和共享，连续批处理才真正有了工程基础。在现代 LLM 服务栈里，Paged KV 与 Continuous Batching 几乎总是成对出现：前者解决“缓存如何活着”，后者解决“调度如何持续流动”。

它的实现难点也最高。连续批处理要和 KV Cache 管理、Paged Attention、块分配/回收、抢占策略和流式输出协同设计，还必须在吞吐与 P99 延迟之间做持续权衡。因此，它通常核心是高吞吐推理引擎的核心调度机制。

推理框架

推理框架（Inference Serving Stack）把“模型权重 + 推理图 + 调度策略”封装成可部署的服务。选型时优先看三件事：是否支持你的模型与精度（Compatibility）、是否能把 KV Cache 与批处理调度做对（Scheduler + KV Management）、以及在你的硬件上能否稳定达到目标吞吐/延迟（Performance Envelope）。

框架	定位	强项	代价/约束	适用场景
vLLM	生产级高吞吐推理	Paged KV + 连续批处理；并发与吞吐强	部署与调优门槛更高；更依赖 CUDA 与服务化环境	多租户在线服务；RAG/Agent 高并发；企业 API
TensorRT-LLM	NVIDIA 推理加速栈	内核与图级优化；低延迟上限高	构建/调参成本高；硬件绑定强	对延迟敏感的核心服务；固定模型部署
TGI（Text Generation Inference）	通用推理服务	生态成熟；易集成；支持常见部署形态	极致吞吐/显存利用率取决于具体模型与配置	快速上线；标准化 HuggingFace 模型服务
TEI（Text Embeddings Inference）	嵌入 / 重排推理服务	面向 embedding、reranker 与序列分类模型；接口与部署路径贴近 Hugging Face 生态	不负责自回归文本生成；长文本、模型类型和 pooling 方式会影响吞吐与效果	RAG 向量化、批量 embedding、rerank 精排、语义分类服务
SGLang	面向 LLM 应用的推理与编排	更贴近应用侧的执行模型；对复杂推理/工具调用友好	需要接受其编排抽象；生态仍在快速演进	复杂 Agent/RAG pipeline；结构化推理任务
llama.cpp（GGUF）	本地/边缘推理	CPU/小 GPU 友好；量化生态完善；分发简单	吞吐与模型规模受硬件限制；在线并发能力有限	个人/离线实验；边缘设备；小规模服务
Ollama	本地运行与分发工具	安装简单；模型拉取、管理与切换顺手	更偏单机体验而非高并发服务性能	个人原型验证；本地开发；小规模离线使用

Ollama

Ollama 是面向本地开发的模型运行与分发工具，核心目标是降低“把模型跑起来”的工程摩擦。它把模型下载、量化版本管理、本地 API、命令行交互和模型切换封装到统一入口里，让个人开发者或小团队可以快速验证模型行为。

它适合本地实验、离线原型、隐私敏感的小规模应用、插件开发和边缘设备探索。对这类场景，优先级通常是快速拉取模型、在消费级机器上运行、用稳定的本地接口接入脚本和应用；极限吞吐并非首要目标。

Ollama 的边界也很明确。它更偏单机可用性与本地体验；当系统进入多租户、高并发、细粒度监控、多 GPU 调度或复杂服务治理阶段，通常需要更专门的服务端推理栈承接。换句话说，Ollama 很适合作为模型行为验证与本地开发入口，但不应被当成所有生产推理场景的统一答案。

vLLM

vLLM 是面向大模型推理的高吞吐推理引擎（Inference Engine），核心目标是在显存受限的情况下提升并发与吞吐。它的代表性设计是 PagedAttention：把 KV Cache 按固定大小切成块（Blocks），用块表（Block Table）把“逻辑连续的序列”映射到“物理上不必连续的显存块”。

这样做的收益是：按需分配 KV、降低内存碎片（Fragmentation），并支持前缀共享（Prefix Sharing）：当多个请求共享同一段前缀（例如相同系统提示词/相同文档前缀）时，可以复用同一份缓存块，从而节省显存并降低 Prefill 成本。

vLLM 的真正价值并不只在某个单独算子，而在于它把KV Cache 管理、连续批处理、调度和服务接口统一成了面向高并发场景的整体系统。具体到调度层，它做的正是前文展开的那种 token 级连续批处理：每一轮 decode 之后重审运行队列，把已经结束的序列移出，再让等待中的新请求完成 Prefill 并尽快补入后续 decode 周期。对企业级 API、RAG 服务、多轮聊天机器人或多租户平台而言，请求通常不会整齐地同时开始和结束；连续批处理能让系统在 decode 过程中持续吸纳新请求，而非死板地按静态 batch 切分，这正是它在生产环境里更占优势的原因。

它的边界也很清楚。vLLM 本身核心是给工程团队做吞吐、延迟、监控和资源利用率优化的 runtime。于是它更适合有明确服务化目标的团队：需要 API 暴露、监控指标、批处理调优、多 GPU 并行和较强可观测性时，vLLM 往往比本地导向工具更自然；但在单机小显存、低并发、快速原型阶段，它未必是最省力的第一选择。

TensorRT-LLM

TensorRT-LLM 是面向 NVIDIA GPU 的大模型推理加速栈，重点在于高效算子（Kernel）与图级优化（Graph-level Optimization）：通过更强的算子融合、更贴近硬件的精度与布局选择（例如 FP16/BF16/FP8、weight-only quantization），把通用 Transformer 计算编译成更高吞吐、更低延迟的推理执行计划。

它更偏“部署与性能工程”路径：需要围绕目标 GPU、精度与 batch/seq 长度做构建与调优；换来的是更稳定的延迟与更高的吞吐上限。

TGI（Text Generation Inference）

TGI（Text Generation Inference）是面向 HuggingFace 模型生态的通用推理服务：提供标准化的 HTTP/gRPC 接口与常见的批处理/流式输出能力，适合把“能跑的模型”快速变成“可用的服务”。它的价值在于工程整合与稳定性，而非把每个场景都推到极致性能。

TEI（Text Embeddings Inference）

TEI（Text Embeddings Inference）是 TGI 的自然同级组件。TGI 面向文本生成模型，把 prompt 转成流式 token 输出；TEI 面向嵌入、重排和序列分类模型，把文本转成向量、相关性分数或分类分数。它们都服务 Hugging Face 模型生态，但优化对象不同：TGI 的核心负载是自回归解码，TEI 的核心负载是批量编码与打分。

在 RAG 系统里，TEI 通常位于生成模型之前。索引阶段可以用它批量计算文档 embedding，并写入向量库；查询阶段可以用它在线计算 query embedding，或调用 reranker 模型对召回候选做精排。若模型是 BGE、E5、GTE、Jina、Qwen Embedding、BGE Reranker 或其它兼容的 embedding / rerank 模型，TEI 的职责就是把这些模型稳定包装成可服务化的 HTTP/gRPC 接口。

TEI 与 vLLM、TGI 的分工也很清楚。vLLM 和 TGI 更常承载最终回答生成、对话续写和工具调用；TEI 承载检索前后的表示与排序计算。一个常见生产链路是：TEI 负责

embed(query)

和

rerank(query, docs)

，向量库负责 ANN 召回，TGI / vLLM 负责基于证据生成最终回答。这样拆分后，embedding、rerank 和 generation 可以独立扩缩容，也可以分别选择最适合的模型与硬件。

SGLang

SGLang 强调“把推理当作可编排的程序执行”：当应用需要多步生成、结构化输出、工具调用或复杂控制流时，推理框架不仅要快，还要能把控制逻辑表达清楚并与 KV Cache 调度协同。它更像是服务端的“推理 DSL + runtime”。

llama.cpp（GGUF）

llama.cpp 是一套本地/边缘推理 runtime：围绕 GGUF/量化权重与 CPU/GPU 混合执行做了大量工程优化。它在“把模型放到普通机器上跑起来”这一目标上极具性价比，但并不追求云端多租户场景下的极限吞吐。

The post 人工智能知识 - Transformers和大模型 appeared first on 绿色记忆.

人工智能知识 - 主要应用领域

Alex — Wed, 15 Apr 2026 14:55:43 +0000

这一篇从常用算法进入机器学习基础概念、经典机器学习与神经网络，重点讨论“模型如何被构造、训练、评估与正则化”。前一篇给出了数学语言，这一篇开始进入真正的建模问题：数据怎样表示，损失怎样定义，优化怎样推进，不同模型家族各自擅长什么；再往后才会过渡到 Transformer 与大语言模型。

常用算法

基础数据结构和算法

这一节处理的核心问题是：当面对搜索、更新、统计、调度、最短路径、依赖分析或训练流水线等任务时，数据应该怎样组织，操作应该怎样执行，才能既正确又高效。数据结构（Data Structure）决定“数据在内存里如何表示”，算法（Algorithm）决定“在这种表示上如何完成查询、插入、删除、遍历、排序与优化”。很多系统性能问题，本质上来自底层组织方式与操作方式不匹配。

可以把它理解成“仓库布局与搬运规则”的组合：同样一批货物，若排成连续货架、串成链式节点、组织成树状目录，或连接成路网，后续的查找、插入、合并与运输成本会完全不同。现代 AI 工程虽然把注意力集中在模型上，但数据加载器、特征流水线、参数缓存、向量检索、计算图调度、图学习和索引系统，最终都建立在这些基础结构之上。

结构 / 算法	核心能力	典型复杂度	常见场景
数组 / 动态数组	按下标随机访问；顺序扫描效率高	访问 $O(1)$；中间插入/删除 $O(n)$	张量、批数据、embedding、排序、滑动窗口
链表	已知位置后插入/删除代价低	局部插删 $O(1)$；查找 $O(n)$	LRU、任务拼接、频繁重排的序列
栈（Stack）	后进先出（LIFO）	push / pop / top 均为 $O(1)$	递归展开、表达式解析、单调栈
队列（Queue）	先进先出（FIFO）	enqueue / dequeue 均为 $O(1)$	BFS、任务队列、流式缓冲
哈希表（Hash Table）	按键快速索引	平均查找/插入/删除 $O(1)$	字典、词表、缓存、去重
Bloom Filter	近似集合成员查询	插入/查询均为 $O(k)$	缓存预检查、去重预过滤、存储层键存在性判断
树（Tree）	表达层次关系与有序结构	平衡查找常为 $O(\log n)$	索引、优先队列、前缀匹配、规则分裂
图（Graph）	表达任意对象之间的关系	遍历通常为 $O(\|V\|+\|E\|)$	社交网络、知识图谱、路线规划、依赖分析

复杂度表只给出渐近上界，不能直接替代工程判断。真实系统还要同时考虑缓存友好性（Cache Locality）、常数项、并发开销、内存占用和实现复杂度。例如链表在理论上支持常数时间插入，但它对 CPU 缓存并不友好；数组在理论上中间插入较慢，但顺序扫描极快，因此在现代硬件上经常更有优势。

数组与动态数组

数组（Array）处理的核心问题是：当元素类型一致、数量可以按顺序编号时，如何支持最低成本的随机访问与批量扫描。它的关键性质是连续内存（Contiguous Memory）。若每个元素大小为 $s$，首地址为 $\text{base}$，则第 $i$ 个元素地址为

\[\text{addr}(a_i)=\text{base}+i\cdot s\]

这个式子说明数组访问为何是 $O(1)$：位置可以直接计算，不需要沿指针逐步跳转。矩阵、张量、mini-batch、时间序列缓存、本地特征块和 embedding 表中的一行，本质上都依赖这种“地址可算”的结构。

数组的代价也非常明确：若在中间插入或删除元素，后面的元素必须整体搬移，因此复杂度通常是 $O(n)$。这意味着数组适合“读多写少、顺序稳定”的任务，不适合“在任意位置频繁插入”的任务。

动态数组（Dynamic Array）是在数组上的工程扩展：容量不足时申请更大的连续空间，把原有元素整体拷贝过去，再继续追加。一次扩容代价很高，但若容量按倍数增长，则追加操作的均摊（Amortized）复杂度仍可视为 $O(1)$。Python 的 list、C++ 的 vector、Java 的 ArrayList 都遵循这一思想。

直觉上，数组像按编号排好的货架：拿第 137 件货非常快，但若要把一件货塞进中间，后面整排货物都要整体后移。

链表

链表（Linked List）处理的是另一类问题：当序列顺序经常变化时，能否避免数组那样的大规模搬移。链表不要求连续内存，重点是让每个节点（Node）保存数据和指向下一个节点的指针（Pointer）；双向链表（Doubly Linked List）还会额外保存前驱指针。

若已经拿到某个节点的位置，那么在其前后插入或删除节点只需要调整局部指针，代价通常是 $O(1)$。但链表无法像数组那样通过下标直接定位第 $i$ 个元素，查找往往必须从头逐个走过去，因此通常是 $O(n)$。

链表适合做“结构改动频繁、定位方式按已有节点句柄而非下标”的任务。例如 LRU 缓存中，经常需要把刚访问的元素移到头部；若配合哈希表记录节点位置，链表就能高效完成重排。

链表像一串用绳子串起来的标签。改顺序很方便，但想直接摸到第 500 个标签，就只能沿着绳子一个个数过去。

栈（Stack）

栈（Stack）定义的是一种后进先出（Last In First Out, LIFO）的访问约束。它处理的问题是“怎样强制最近进入的状态最先退出”。典型操作包括入栈 push、出栈 pop 与查看栈顶 top，它们都发生在同一端，因此实现代价通常是 $O(1)$。

函数调用栈、递归回溯、表达式求值、括号匹配、深度优先搜索中的显式状态保存，都依赖这种结构。其本质是把“尚未处理完的上下文”按嵌套顺序压起来，等内部任务结束后再按相反顺序恢复。

单调栈（Monotonic Stack）是栈在算法中的重要变体。它通过维护一个单调递增或单调递减的栈，把“下一个更大元素”“柱状图最大矩形”等问题从 $O(n^2)$ 降到 $O(n)$。原因在于每个元素最多入栈和出栈各一次。

队列（Queue）

队列（Queue）定义的是先进先出（First In First Out, FIFO）的访问约束。进入得早的元素先被处理，后来进入的元素排在尾部等待。它适合表达“任务排队、波前扩张、按到达顺序消费”的过程。

广度优先搜索（Breadth-First Search, BFS）之所以使用队列，正是因为 BFS 要按距离层层扩展：先处理距离起点为 1 的节点，再处理距离为 2 的节点。这个“分层推进”机制与 FIFO 完全一致。

循环队列（Circular Queue）通过把底层数组首尾相连，可以避免频繁搬移；双端队列（Deque）则允许两端都做插入和删除，因此能够支持滑动窗口最值、0-1 BFS 等更复杂的算法模式。

哈希表（Hash Table）

哈希表（Hash Table）处理的核心问题是：当数据按“键（Key）”组织，而非按位置组织时，如何快速找到对应的值（Value）。其思想是先通过哈希函数（Hash Function）把键映射成一个整数，再把这个整数映射到桶（Bucket）或槽位（Slot）上。

若哈希函数分布均匀，且装载因子（Load Factor）控制合理，则查找、插入和删除的平均复杂度都可接近 $O(1)$。这正是词表映射、去重、缓存索引、参数名字典和特征 ID 映射大量采用哈希表的原因。

哈希表的难点在冲突（Collision）处理。多个键可能映射到同一位置，常见解决方案包括链地址法（Separate Chaining）和开放定址法（Open Addressing）。因此“哈希表平均 $O(1)$”并不意味着永远常数时间，它依赖于哈希函数质量、负载控制和冲突处理策略。

Bloom Filter（布隆过滤器）

Bloom Filter 本质上属于概率型数据结构（Probabilistic Data Structure），更准确地说，是一种近似集合成员查询结构（Approximate Membership Query, AMQ）。它解决的问题是“用极小内存快速判断某元素是否可能出现过”。因此它通常作为哈希表、数据库索引或缓存系统之前的一层预过滤结构。

Bloom Filter 由一个长度为 $m$ 的比特数组 $B\in\{0,1\}^m$ 和 $k$ 个哈希函数 $h_1,\dots,h_k$ 构成，其中每个哈希函数都把元素 $x$ 映射到区间 $\{0,1,\dots,m-1\}$ 中的一个位置。插入元素 $x$ 时，执行

\[B[h_1(x)]=B[h_2(x)]=\cdots=B[h_k(x)]=1\]

查询元素 $x$ 时，检查 $B[h_1(x)],\dots,B[h_k(x)]$。只要其中至少有一个位置为 0，就可以断定 $x$ 一定不在集合中；若这些位置全部为 1，则只能说明 $x$ 可能在集合中。

这一定义直接带来 Bloom Filter 最重要的判定性质：它允许假阳性（False Positive），但不允许假阴性（False Negative）。原因在于，不同元素可能把同一批 bit 位置反复置为 1，于是一个从未插入过的元素也可能“碰巧”命中全 1；但只要某个位置仍为 0，就说明没有任何已插入元素覆盖过这条哈希路径，因此该元素一定不存在。

设一共插入了 $n$ 个元素，则某个 bit 在所有插入结束后仍为 0 的概率近似为 $\left(1-\frac{1}{m}\right)^{kn}\approx e^{-kn/m}$。于是查询一个未出现元素时， $k$ 个位置恰好都为 1 的假阳性概率近似为

\[p\approx \left(1-e^{-kn/m}\right)^k\]

这里 $m$ 是 bit 数组长度， $n$ 是已插入元素数， $k$ 是哈希函数数目， $p$ 是假阳性概率。这个公式揭示了 Bloom Filter 的基本权衡： $m$ 越大，冲突越少； $n$ 越大，数组越接近被“染满”； $k$ 太小会降低区分能力，太大则会过度占满 bit 位。固定 $m$ 与 $n$ 时，常见的近似最优选择是

\[k\approx \frac{m}{n}\ln 2\]

直觉上，Bloom Filter 像一排共享的指示灯。每来一个元素，就按亮若干盏灯；查询时，只要对应灯中有一盏没亮，就可以确认它从未出现过。若全部亮着，也只能说明“这些灯曾被某些元素点亮过”，却不能保证就是当前这个元素点亮的。

Bloom Filter 最适合用于“先快速排除绝大多数不存在项，再把少量可疑项交给精确结构复核”的场景。例如缓存系统可先判断某个 key 是否可能在缓存中，若 Bloom Filter 直接给出“不在”，就可以避免无意义回源；LSM-Tree 存储系统可用它判断某个键是否可能存在于某个 SSTable；爬虫去重、黑名单预过滤、向量检索候选预筛都大量使用这一思想。

Bloom Filter 的边界也很明确。第一，它不保存原始元素，因此不能枚举集合内容，也不能像哈希表那样返回关联值。第二，标准 Bloom Filter 不支持安全删除，因为把某个 bit 清零可能误伤其他元素留下的痕迹；若确实需要删除，通常要改用计数 Bloom Filter（Counting Bloom Filter）。第三，当假阳性代价非常高、系统需要完全精确的成员判断时，应优先使用哈希表、B 树或其他精确索引结构。

树（Tree）

树（Tree）处理的是“层次结构”和“递归划分”问题。树中的节点之间具有父子关系，除了根节点（Root）外，每个节点都有唯一父节点。它天然适合表达目录层级、决策分裂、区间划分、优先级组织与前缀共享。

树之所以重要，在于它把原本线性的搜索空间组织成递归结构，使很多操作能通过“向左还是向右”“进入哪个子树”逐步缩小问题规模。若每次都能把候选空间缩小到原来的一半，复杂度就会从线性级下降到对数级。

二叉树与遍历

二叉树（Binary Tree）规定每个节点至多有两个孩子。前序遍历（Preorder）、中序遍历（Inorder）、后序遍历（Postorder）和层序遍历（Level-order）分别对应不同的信息读取顺序：前序适合序列化结构，中序适合读取二叉搜索树中的有序键，后序适合先处理子问题再合并，层序适合按深度观察整体形状。

二叉搜索树与平衡树

二叉搜索树（Binary Search Tree, BST）在每个节点上保持“左子树键值更小、右子树键值更大”的顺序约束，因此查找、插入和删除都可以沿着比较路径进行。若树高度为 $h$，这些操作的复杂度一般与 $O(h)$ 成正比。

问题在于普通 BST 在极端情况下会退化成链表，此时 $h=n$。平衡树（Balanced Tree）如 AVL 树、红黑树（Red-Black Tree）通过旋转（Rotation）维护高度受控，使 $h=O(\log n)$，从而把查找、插入和删除稳定在对数复杂度。数据库索引和有序映射容器大量依赖这一思想。

堆与优先队列

堆（Heap）维护的是局部顺序，而非整棵树的全局有序性：在最小堆（Min-Heap）中，每个父节点都不大于子节点，因此根节点始终是全局最小值；最大堆（Max-Heap）则相反。它通常用数组实现，父子下标关系可以直接计算。

堆最适合实现优先队列（Priority Queue）：每次都要快速取出当前最重要、最小或最大的元素时，插入和弹出都只需 $O(\log n)$。Dijkstra、A* 搜索、任务调度、Top-K 维护和流式中位数都大量依赖优先队列。

Trie 与前缀结构

Trie 树（Prefix Tree）把字符串按前缀共享组织起来。若插入单词集合 $\{w_1,\dots,w_m\}$，公共前缀只存一次，因此“是否存在某个前缀”“以某前缀开头的词有多少”都可以沿字符路径直接完成。

Trie 特别适合词典匹配、自动补全、敏感词过滤和子词切分。它牺牲了一部分空间，换来按字符长度而非按词典规模进行搜索的能力。

图（Graph）

图（Graph）处理的是最一般的关系结构。若顶点集合为 $V$，边集合为 $E$，则图可写成 $G=(V,E)$。树本质上是图的一个特殊子类，但图允许环、允许多条连接、允许方向和权重，因此能表达社交关系、知识链接、网页跳转、道路网络、依赖图与神经网络计算图。

图的常见表示方式有邻接矩阵（Adjacency Matrix）和邻接表（Adjacency List）。前者适合稠密图，能 $O(1)$ 判断两点是否相连；后者适合稀疏图，空间复杂度更低，遍历邻居更高效。

BFS 与 DFS

广度优先搜索（BFS）与深度优先搜索（DFS）是图遍历的两种基本组织方式。BFS 使用队列按层推进，适合无权最短路、层次扩展与最少步数问题；DFS 使用递归或显式栈沿一条路径尽量走深，适合回溯、环检测、拓扑排序、强连通分量与树形动态规划。

对邻接表表示的图，两者的时间复杂度通常都是 $O(|V|+|E|)$。区别不在渐近复杂度，而在访问顺序：BFS 保证按距离层层扩展，DFS 更擅长描述“先深入、后回退”的结构性问题。

最短路径

最短路径（Shortest Path）问题处理的是：从起点到终点，总代价最小的路径是什么。若图无权，BFS 就能得到边数最少的路径；若边权非负，常用 Dijkstra 算法。它每次从优先队列中取出当前距离估计最小的顶点，并尝试松弛（Relax）相邻边。

Dijkstra 的核心更新为

\[\mathrm{dist}[v]=\min\big(\mathrm{dist}[v],\mathrm{dist}[u]+w(u,v)\big)\]

其中 $\mathrm{dist}[u]$ 是当前已知的从源点到 $u$ 的最短距离估计， $w(u,v)$ 是边权。这个公式表达的是最短路的本质：若“先到 $u$，再走到 $v$”更便宜，就更新对 $v$ 的距离认知。

拓扑排序

拓扑排序（Topological Sort）处理的是有向无环图（Directed Acyclic Graph, DAG）中的依赖顺序。若边 $u\to v$ 表示“$u$ 必须先于 $v$”，那么拓扑序就是一种满足全部先后约束的线性排列。

课程先修关系、编译依赖、工作流调度、神经网络计算图执行次序，本质上都属于这一问题。拓扑排序的价值不仅“排出一个顺序”，还把依赖图转成一条能够实际执行的流水线。

最小生成树（Minimum Spanning Tree, MST）

最小生成树（Minimum Spanning Tree, MST）处理的是这样的问题：给定一个连通无向带权图 $G=(V,E)$，需要从边集合 $E$ 中选出一部分边，把所有顶点连成一个整体，同时不产生环，并使总权重最小。若把所有生成树的集合记为 $\mathcal{T}(G)$，则标准形式可以写成

\[T^*=\arg\min_{T\in \mathcal{T}(G)}\sum_{e\in T} w(e)\]

其中 $T^*$ 是最优生成树；$w(e)$ 是边 $e$ 的权重；$\sum_{e\in T} w(e)$ 表示树中全部边的总代价。这里的“生成树”有三个同时成立的约束：第一， $T\subseteq E$；第二，图在边集 $T$ 下必须连通；第三， $T$ 不能含环，因此边数必然满足 $|T|=|V|-1$。

这个定义明确了 MST 核心是在所有能够覆盖全部顶点的无环连通方案中做全局最小化。只强调“连通”会多出冗余边，只强调“边权小”又可能导致图不连通；MST 同时满足这两个条件。

直觉上，可以把 MST 理解成“以最低总造价把一组城市接通，但不修多余的回路”。如果形成了环，说明这条网络中至少有一条边是重复支出；如果某些城市没有接入，说明方案根本不可用。MST 就是在“全覆盖”和“最低成本”之间取得最紧的平衡。

MST 成立的核心理论基础是割性质（Cut Property）：把顶点集切成两个不相交部分后，跨越这个切分的最小权边，一定存在于某棵最小生成树中。这个性质的含义是：局部最便宜的“安全边（Safe Edge）”可以被逐步加入，而不会破坏全局最优性。Prim 与 Kruskal 虽然组织方式不同，但本质上都在不断选择这样的安全边。

Prim 算法的思路是“从一个起点向外生长一棵树”。设当前已经纳入树中的顶点集合为 $S$，则 Prim 每一步都在所有满足 $u\in S,\ v\notin S$ 的边中，选择权重最小的一条，把新顶点接入当前树。这个过程像不断把新城市接入已经建好的主干网，因此特别适合用优先队列维护“当前边界上最便宜的边”。若图用邻接表存储并配合二叉堆实现优先队列，时间复杂度通常为 $O(|E|\log |V|)$。

Kruskal 算法的思路是“按全图范围从便宜到昂贵依次选边”。它先对所有边按权重升序排序，然后从小到大扫描：若当前边连接的是两个不同连通块，就把它加入结果；若会在当前结构中形成环，就跳过。为了高效判断“两个端点是否已经连通”，Kruskal 通常配合并查集（Disjoint Set Union, DSU）。排序代价主导总复杂度，因此复杂度通常写成 $O(|E|\log |E|)$，与 $O(|E|\log |V|)$ 在数量级上接近。

两种算法解决的是同一个优化问题，但适合的工程语境不同。Prim 更像“从局部网络不断扩张”，适合稠密图或从某个核心节点逐步向外建设的场景；Kruskal 更像“全局看所有候选边，再逐一合并连通块”，在边集天然可排序、图较稀疏时实现尤其直接。

一个最小例子可以把公式和过程连起来。设四个顶点 $A,B,C,D$，边权为： $w(A,B)=1$， $w(B,C)=2$， $w(A,C)=4$， $w(B,D)=3$， $w(C,D)=5$。Kruskal 会先按边权排序： $(A,B),(B,C),(B,D),(A,C),(C,D)$。前 3 条边分别把 $A$ 与 $B$、 $B$ 与 $C$、 $B$ 与 $D$ 连起来，此时已经得到 $|V|-1=3$ 条边，且图连通无环，于是生成树为

\[T=\{(A,B),(B,C),(B,D)\}\]

其总代价为

\[\sum_{e\in T}w(e)=1+2+3=6\]

若改选边集 $\{(A,B),(A,C),(B,D)\}$，总代价是 $1+4+3=8$；若再加入 $(B,C)$，虽然成本局部看不高，但边数会超过 $|V|-1$ 并形成环，因此不再是树。这个例子把“最低成本”“连通”“无环”三项约束如何同时生效展示得很清楚。

MST 常见于网络布线、电力传输、骨架路网设计、图像分割、聚类和图压缩。层次聚类中的单链接（Single Linkage）就可以通过图的最小生成树来理解：先把点看成顶点，把样本间距离看成边权，再在 MST 上剪断最长的若干条边，就得到若干连通簇。因此，MST 不只是图论题型，也是很多数据分析与机器学习方法的底层结构。

MST 也有明确边界。它只适用于无向、连通、带权图上的“全连通最低总成本”问题；若任务要求的是“从源点到其余点的最短路”，应使用最短路径算法；若图有方向，目标就不再是普通 MST，而会进入最小树形图（Minimum Arborescence）等更复杂的问题。

动态规划（Dynamic Programming, DP）

背景和问题定义

动态规划（Dynamic Programming, DP）处理的是这样一类问题：目标是求一个全局最优值、最优路径，或所有路径的总和，但如果直接把所有可能性全部枚举出来，计算量会迅速爆炸。它常见于序列决策、路径规划、字符串匹配、图搜索，以及隐马尔可夫模型（HMM）、条件随机场（CRF）这类结构化预测模型。

这类问题通常有两个共同特征。第一，重叠子问题（Overlapping Subproblems）：同一个中间子问题会被反复计算。第二，最优子结构（Optimal Substructure）：大问题的最优解可以由小问题的最优解递推得到。例如，在长度为 $T$ 的序列上，若每一步有 $|\mathcal{S}|$ 个可能状态，直接枚举所有状态路径往往需要考虑 $|\mathcal{S}|^T$ 条候选路径；当 $T$ 稍大时，这种暴力方法几乎不可用。

核心思想

动态规划的核心在于：先定义能够代表子问题的状态，再写出状态之间的递推关系，并把已经算过的结果缓存下来复用。因此，它本质上是一种计算组织方式，而非某个固定公式。

一个直观比喻是出差换乘。设想要从起点出发，经过很多站点，最终到达目的地。暴力法会把“到达每一站的所有走法”全部记下来；动态规划不会这样做。它只会为每个中间站保留一份最有价值的摘要，例如“到达这个站的最低成本”或“到达这个站的最大得分”。当继续前往下一站时，系统只需要查这份账本，而不必回头展开所有历史路径。

因此，动态规划通常包含四个步骤：定义状态、定义边界条件、写出转移方程、确定计算顺序。状态定义决定“中间结果要存什么”；边界条件决定“第一步从哪里开始”；转移方程决定“当前结果如何从更小问题得到”；计算顺序则保证所有依赖项在使用前已经计算完毕。

为什么局部次优前缀不会漏掉全局最优

动态规划能够丢弃大量“暂时看起来不够好”的前缀路径，前提是状态（State）已经完整刻画了未来决策所需的全部信息。一旦这个条件成立，到达同一状态的两条前缀路径，未来能够接上的可行后缀集合完全相同，因此只需要保留其中更优的那一条。

设两条前缀路径都到达同一状态 $s$，其当前累计代价分别为 $f_1(s)$ 与 $f_2(s)$，且 $f_1(s)\le f_2(s)$。若从状态 $s$ 出发，后续任意可行决策产生的附加代价记为 $g(s)$，并且这个附加代价只由当前状态决定，而不再依赖此前的完整历史，则有

\[f_1(s)+g(s)\le f_2(s)+g(s)\]

这个不等式表明：在同一状态上，较差的前缀会被较优前缀完全支配（Dominated）。无论后面接哪一段后缀路径，较差前缀都不可能反超。因此 Bellman 最优性原理允许动态规划只保留“到达该状态的最优值”，而不必保留全部历史路径。

所谓“一个当前次优的路径，后来却通向全局最优”，本质上对应另一种情形：这条路径与当前更优路径虽然看起来到达了同一个位置，但它们对未来的可行动作并不相同。此时它们实际上并不属于同一个状态，这种情况说明状态定义缺失了关键信息。

一个典型例子是带资源约束的路径规划。若状态只写成当前位置 $(i,j)$，那么两条到达同一格子的路径会被合并；但若其中一条还保留一次传送机会，另一条已经把传送用掉，则它们未来的决策空间显然不同。正确的状态应扩展为 $(i,j,\mathrm{used})$ 或 $(i,j,\mathrm{fuel})$ 这类更完整的形式。只有在状态把“剩余资源、上一步动作、已使用预算、是否持仓”等会影响未来的因素都编码进去后，动态规划的剪枝才是安全的。

因此，动态规划处理“局部次优可能导向全局最优”的方式，核心是通过正确设计状态，使真正会影响未来的差异体现在不同状态上。同一状态内部只保留最优前缀；不同状态之间分别递推。动态规划的正确性，最终依赖的正是这一点：未来只依赖当前状态，而不依赖通向当前状态的完整历史。

公式和详细解释

若记 $t$ 为阶段或时间步， $s$ 为当前状态，一个非常典型的动态规划写法是：

\[\mathrm{DP}[t,s]=\max_{s'\in \mathrm{Prev}(s)}\left(\mathrm{DP}[t-1,s']+\mathrm{score}(s',s,t)\right)\]

这条式子表达的是：要得到“第 $t$ 步处于状态 $s$ 时的最优值”，无需重新枚举所有完整路径，只需查看所有能够转移到 $s$ 的前驱状态 $s'$，并在它们已有的最优值基础上，加上这一步的局部得分，再从中取最大。

$\mathrm{DP}[t,s]$：第 $t$ 步、状态为 $s$ 的最优子问题值。
$\mathrm{Prev}(s)$：所有可以转移到状态 $s$ 的前驱状态集合。
$\mathrm{score}(s',s,t)$：从 $s'$ 转移到 $s$ 时，在第 $t$ 步新增的局部得分或代价。
$\max$：表示当前任务要找“最好的一条路径”。若任务目标是最小代价，则可改为 $\min$；若任务目标是把所有路径概率加总，则可改为 $\sum$。

边界条件通常写成：

\[\mathrm{DP}[1,s]=\mathrm{init}(s)+\mathrm{local}(s,1)\]

其中 $\mathrm{init}(s)$ 表示序列从状态 $s$ 开始的初始代价或初始分数， $\mathrm{local}(s,1)$ 表示第一步在该状态产生的局部贡献。没有这个起点，后续递推就无从展开。

动态规划真正带来的收益来自复杂度压缩。以一阶序列模型为例，若每一步有 $|\mathcal{S}|$ 个候选状态、总长度为 $T$，暴力枚举往往需要考虑 $|\mathcal{S}|^T$ 条完整路径；而若采用“时间步 + 当前状态”的动态规划状态定义，则通常只需在每个时间步枚举所有前驱状态，计算复杂度可以降为 $O(T|\mathcal{S}|^2)$。这种从指数级到多项式级的下降，正是动态规划在序列模型中不可替代的原因。

若任务不仅要求最优值，还要求恢复最优路径，则通常还会额外保存“当前最优值来自哪个前驱状态”的回溯信息（Backpointer）。这意味着动态规划不仅能回答“最优值是多少”，还能回答“这条最优路径具体怎么走”。

更重要的是，动态规划并不只对应一种运算。对于最优路径问题，递推中的核心运算往往是 $\max$ 或 $\min$；对于总概率、配分函数这类问题，核心运算则是 $\sum$。因此，HMM 的维特比算法、前向算法，以及 CRF 的前向后向算法，虽然目标不同，但都属于动态规划。

前向后向算法

前向后向算法（Forward-Backward Algorithm）是链式结构上的动态规划。前向递推从左到右，缓存“到当前位置和当前状态为止”的累计结果；后向递推从右到左，缓存“从当前位置和当前状态出发到序列结尾”的累计结果。两者合起来，可以高效计算整条序列的总概率、配分函数，以及单个位置或相邻位置的边缘概率。

抽象地看，前向递推可以写成：

\[\mathrm{forward}_t(s)=\operatorname{Agg}_{s'\in \mathrm{Prev}(s)}\ \mathrm{Combine}\left(\mathrm{forward}_{t-1}(s'),\mathrm{local}(s',s,t)\right)\]

后向递推则反向汇总后继状态：

\[\mathrm{backward}_t(s)=\operatorname{Agg}_{s''\in \mathrm{Next}(s)}\ \mathrm{Combine}\left(\mathrm{local}(s,s'',t+1),\mathrm{backward}_{t+1}(s'')\right)\]

这里 $s$ 是当前位置状态， $s'$ 是前一位置的候选状态， $s''$ 是后一位置的候选状态。不同模型的差别主要来自 $\operatorname{Agg}$ 和 $\mathrm{Combine}$ 采用什么运算：概率空间里通常是求和与相乘，log 空间里通常是 $\operatorname{logsumexp}$ 与加法。

在 HMM 中，前向算法累积的是概率质量。若隐藏状态为 $z_t$，观测为 $x_t$，则前向量可写成：

\[\alpha_t(j)=p(x_{1:t},z_t=j)\]

递推使用“对前驱求和 + 概率相乘”：

\[\alpha_t(j)=p(x_t\mid z_t=j)\sum_i \alpha_{t-1}(i)p(z_t=j\mid z_{t-1}=i)\]

HMM 的后向量表示“当前状态已知时，后续观测序列出现的概率”：

\[\beta_t(i)=p(x_{t+1:T}\mid z_t=i)\]

对应递推为：

\[\beta_t(i)=\sum_j p(z_{t+1}=j\mid z_t=i)p(x_{t+1}\mid z_{t+1}=j)\beta_{t+1}(j)\]

前向量和后向量可以在同一位置相乘，再除以整条观测序列概率，从而得到隐藏状态的后验边缘概率：

\[p(z_t=j\mid x_{1:T})=\frac{\alpha_t(j)\beta_t(j)}{p(x_{1:T})}\]

在线性链 CRF 中，输入 $x$ 已经固定，前向算法累积的是所有标签路径的未归一化分数，用来计算配分函数（Partition Function）：

\[Z(x)=\sum_y \exp(\mathrm{score}(x,y))\]

工程实现通常在 log 空间中递推：

\[\alpha_t(j)=\operatorname{logsumexp}_i\left(\alpha_{t-1}(i)+\mathrm{transition}(i,j)+\mathrm{emission}_t(j)\right)\]

后向递推同样在 log 空间中从右向左汇总：

\[\beta_t(i)=\operatorname{logsumexp}_j\left(\mathrm{transition}(i,j)+\mathrm{emission}_{t+1}(j)+\beta_{t+1}(j)\right)\]

CRF 训练需要这些边缘量来计算梯度：真实标签路径提供一组实际计数，模型分布下的所有可能路径提供一组期望计数，二者之差决定参数更新方向。因此，前向后向算法不只是为了算一个归一化常数，也为训练时的期望统计提供高效计算方式。

因此，HMM 和 CRF 的前向后向算法共享同一个动态规划骨架。HMM 是生成模型，前向后向算法围绕观测序列概率和隐藏状态后验展开；CRF 是条件模型，前向后向算法围绕给定输入下的配分函数和标签边缘概率展开。维特比算法也使用同一张链式状态网格，但它把求和或 $\operatorname{logsumexp}$ 换成最大值，用来选择最好的一条路径。

应用实例

在 HMM 中，动态规划最典型地体现在两类问题上。第一类是维特比算法（Viterbi Algorithm）：它要求“给定观测序列后，哪一条隐藏状态路径最可能”，因此递推中的核心运算是 $\max$。第二类是前向算法（Forward Algorithm）：它要求“所有隐藏状态路径合起来，总概率是多少”，因此递推中的核心运算是 $\sum$。两者使用的是同一张状态网格，只是“每一步如何聚合前驱信息”不同。

在 CRF 中，动态规划同样是核心计算工具。训练时，需要对所有可能标签路径做归一化，这对应配分函数（Partition Function）的计算；解码时，需要找得分最高的那条标签路径，这对应最优路径搜索。在线性链 CRF 中，这两件事都可以通过“时间步 + 当前标签”的动态规划状态来高效完成，否则若直接枚举所有标签序列，计算量会随序列长度呈指数增长。

因此，在机器学习语境里，动态规划可以概括为：把原本必须整体枚举的结构化问题，改写成一系列局部状态上的递推计算，并通过缓存中间结果把重复计算消掉。一旦看到“序列路径很多、局部决策可递推、同类子问题会重复出现”这三个信号，通常就应该优先考虑动态规划。

例子 1：编辑距离（Edit Distance）

设字符串 $A=a_1a_2\dots a_m$ 与 $B=b_1b_2\dots b_n$。编辑距离要回答的问题是：至少经过多少次插入、删除、替换，才能把 $A$ 变成 $B$。若直接枚举所有编辑序列，可能性会指数增长；但若定义 $\mathrm{DP}[i,j]$ 表示“把 $A$ 的前 $i$ 个字符变成 $B$ 的前 $j$ 个字符所需的最小编辑次数”，问题就能递推解决。

\[\mathrm{DP}[i,j]=\min\begin{cases}\mathrm{DP}[i-1,j]+1\\ \mathrm{DP}[i,j-1]+1\\ \mathrm{DP}[i-1,j-1]+\mathbf{1}(a_i\ne b_j)\end{cases}\]

这里三项分别对应：删除 $a_i$、插入 $b_j$、或把 $a_i$ 替换成 $b_j$（若本来相同，则替换代价为 0）。边界条件是 $\mathrm{DP}[0,j]=j$、$\mathrm{DP}[i,0]=i$，因为空串变成长度为 $j$ 的串需要做 $j$ 次插入，反之需要做 $i$ 次删除。这个例子非常典型地体现了动态规划：状态是前缀长度，转移是三种编辑操作，目标是求最小总代价。

例子 2：网格最短路径（Grid Shortest Path）

设一个 $m\times n$ 网格，每个格子 $(i,j)$ 都有进入代价 $w_{i,j}$，只能向右或向下移动。问题是：从左上角走到右下角的最小总代价是多少。若定义 $\mathrm{DP}[i,j]$ 表示“到达格子 $(i,j)$ 的最小总代价”，则递推很直接：

\[\mathrm{DP}[i,j]=w_{i,j}+\min\big(\mathrm{DP}[i-1,j],\mathrm{DP}[i,j-1]\big)\]

因为到达 $(i,j)$ 只有两种可能：从上方 $(i-1,j)$ 走下来，或从左侧 $(i,j-1)$ 走过来。边界条件是第一行与第一列只能沿单一路径累计。这个例子说明，动态规划并不局限于字符串或序列模型；只要问题具有“局部来源有限、全局目标可递推”的结构，就可以用同样的思路求解。

贪心算法（Greedy Algorithm）

背景和问题定义

贪心算法（Greedy Algorithm）处理的是这样一类问题：希望快速构造一个全局可行解，并且每一步都只做当前看来最优的局部选择，而不回头修改已经作出的决定。它广泛出现在排序、调度、压缩、近似优化，以及许多机器学习训练与推断流程中。

核心思想

贪心的核心假设是：当前最好的局部选择，能够导向全局最优，或至少导向足够好的近似解。它像走山路时每一步都先选眼前最高、最稳的落脚点，而非先把整座山的所有路径都完全规划出来。贪心的优势是快、简单、容易实现；风险是局部最优未必等于全局最优。

公式和详细解释

若记第 $t$ 步可选动作集合为 $\mathcal{A}_t$，一个抽象的贪心选择可写为：

\[a_t^*=\arg\max_{a\in\mathcal{A}_t}\ \mathrm{score}(a\mid \text{current state})\]

这里 $\mathrm{score}(a\mid \text{current state})$ 是当前状态下动作 $a$ 的局部收益；$\arg\max$ 表示从所有可选动作里挑出得分最高的那个。贪心算法关心的是“眼下哪一步最好”，而非“未来所有步骤联合起来后哪条完整路径最好”。

因此，贪心方法是否正确，取决于问题本身是否满足贪心选择性质（Greedy-choice Property）。如果这个性质成立，局部最优就能拼成全局最优；如果不成立，贪心通常只能作为启发式方法或近似算法。

应用实例

决策树训练就是一个典型例子。每个节点都不会提前规划整棵树的全局最优结构，只在当前节点上选择信息增益、基尼下降或误差下降最大的切分。这个过程本质上就是贪心：每一步都先把当前最值得切的地方切开。它训练快、解释性强，但也正因为是局部选择，单棵树通常并非全局最优树结构。

分治算法（Divide and Conquer）

背景和问题定义

分治算法（Divide and Conquer）处理的是“大问题可以被拆成若干个同结构小问题”的场景。它广泛出现在排序、搜索、矩阵运算、索引构建，以及大规模数据处理与并行计算中。

核心思想

分治的思想可以概括为三步：分解（Divide）— 递归求解（Conquer）— 合并（Combine）。它像整理一大堆文档时，先按主题拆成若干小堆，再分别处理，最后再合并成有序结果。与动态规划不同，分治更强调“子问题相互独立”，而非“子问题结果需要反复复用”。

公式和详细解释

分治算法的时间复杂度常写成递推式：

\[T(n)=aT\left(\frac{n}{b}\right)+f(n)\]

这里 $n$ 是问题规模；$a$ 表示被拆成多少个子问题；$n/b$ 是每个子问题的规模；$f(n)$ 是“分解 + 合并”本身的额外代价。这个式子不告诉我们具体怎么做，但它准确描述了分治算法的结构骨架。

例如，归并排序（Merge Sort）把长度为 $n$ 的数组分成两个规模约为 $n/2$ 的子数组，递归排好序后再线性合并，因此它的复杂度递推就是 $T(n)=2T(n/2)+O(n)$。

应用实例

在机器学习工程中，分治思想常见于大规模近邻索引构建。例如构建 kd-tree 时，算法会按某个维度把样本集递归切成两半，再在左右子集上继续构树。这样得到的层次化空间划分，能显著加速后续的近邻搜索。它的本质是通过递归拆分把原本需要全表扫描的搜索过程组织得更高效。

图搜索与最短路径

背景和问题定义

许多软件与机器学习问题都可以抽象成图（Graph）：节点（Node）表示状态、样本、词、网页或知识实体，边（Edge）表示转移、相似性、依赖关系或可达关系。图搜索与最短路径算法要回答的问题是：如何从起点高效找到目标节点，或找到总代价最小的一条路径。

核心思想

图搜索的核心是“沿着边扩展状态空间，但尽量避免无意义的重复探索”。无权图最短路径常用广度优先搜索（BFS），因为它按层扩展，第一次到达目标通常就是步数最少的路径；带非负权图常用 Dijkstra，因为它总是优先扩展当前总代价最小的候选节点。

公式和详细解释

带权最短路径算法里的基本更新步骤通常写成“松弛（Relaxation）”：

\[\mathrm{dist}(v)=\min\big(\mathrm{dist}(v),\ \mathrm{dist}(u)+w(u,v)\big)\]

这里 $\mathrm{dist}(u)$ 是当前已知从起点到节点 $u$ 的最小代价， $w(u,v)$ 是边 $u\rightarrow v$ 的权重， $\mathrm{dist}(u)+w(u,v)$ 则是“先到 $u$ 再走到 $v$”这条新候选路径的总代价。若它比当前记录的 $\mathrm{dist}(v)$ 更小，就更新。

这个式子看起来和动态规划很像，原因是二者都在做“由已知子结果递推新结果”。区别在于：图搜索更强调如何选择下一个要扩展的节点，以及如何在一般图结构中避免重复访问。

应用实例

在语音识别、机器翻译和图搜索推断中，解码过程经常会把候选状态组织成图或格（Lattice）。此时，寻找最优输出序列本质上就是图上的路径搜索问题。很多动态规划解码器也可以从“图上最优路径”的角度理解，因此图搜索是连接通用软件算法与结构化机器学习推断的重要桥梁。

二分查找（Binary Search）

背景和问题定义

二分查找（Binary Search）处理的是“搜索空间有序，或可行性判断具有单调性”的问题。它不仅用于有序数组查找，也广泛用于阈值搜索、参数调优、数值逼近和工程系统中的边界定位。

核心思想

二分查找的核心是：每次利用单调性砍掉一半搜索空间。它像猜数字游戏：如果知道答案一定在某个区间里，而且中点左侧和右侧满足不同性质，那么每问一次都能把候选范围减半。

公式和详细解释

若当前搜索区间为 $[l,r]$，中点通常取：

\[\mathrm{mid}=\left\lfloor\frac{l+r}{2}\right\rfloor\]

接着依据单调判定函数 $\mathrm{check}(\mathrm{mid})$ 缩小区间：

若 $\mathrm{check}(\mathrm{mid})$ 为真，说明答案在左半边或恰好是中点，则令 $r=\mathrm{mid}$。
若为假，说明答案在右半边，则令 $l=\mathrm{mid}+1$。

算法正确性的关键不在于公式本身，而在于维护区间不变式（Invariant）：在每一步更新后，真正的答案仍然留在当前区间中。

应用实例

在机器学习里，二分查找常用于阈值定位。例如，当需要找到“使召回率至少达到某个目标值的最小分类阈值”时，只要阈值越大召回率越低这一单调关系成立，就可以在阈值区间上做二分查找，而不必逐点穷举。类似地，很多数值求根、超参数边界搜索、分位数定位问题也都可写成二分框架。

随机采样（Random Sampling）

背景和问题定义

随机采样（Random Sampling）处理的是这样一类问题：总体太大、精确计算太贵，或者目标本身就是概率性的，因此只能通过抽样近似整体行为。它是统计学习、蒙特卡洛估计、bootstrap、自助重采样、mini-batch 训练和负采样的共同基础。

核心思想

随机采样的核心是：通过足够有代表性的随机子样本估计总体性质，无需每次都看完整总体。它像民意调查：不可能每天逐个询问所有人，但若抽样方式合理，少量样本也能给出相对稳定的总体估计。

公式和详细解释

若目标是估计随机变量 $X$ 下某个函数 $f(X)$ 的期望 $\mathbb{E}[f(X)]$，最常见的蒙特卡洛估计写为：

\[\hat{\mu}=\frac{1}{n}\sum_{i=1}^{n} f(x_i),\qquad x_i\sim p(x)\]

这里 $x_i\sim p(x)$ 表示样本 $x_i$ 是按分布 $p(x)$ 随机抽到的； $n$ 是样本数； $\hat{\mu}$ 是用样本均值近似真实期望的估计量。样本越多，估计通常越稳定，但代价也越高。

这一思想在机器学习里非常普遍：SGD 核心是用 mini-batch 的样本均值近似全数据梯度；negative sampling 核心是随机抽一小部分负样本近似完整目标。

应用实例

bootstrap 是一个很典型的例子。随机森林训练时，会对原始训练集做有放回采样，得到多份不同的 bootstrap 子集，再分别训练多棵树。这里真正起作用的核心是随机采样制造了多个略有差异的数据视角，从而让集成后的模型更稳。

Top-K、选择算法与部分排序

背景和问题定义

Top-K 问题处理的是：在 $n$ 个候选中，只需要找出分数最高的 $k$ 个。完整排序的复杂度通常是 $O(n\log n)$，但 Top-K 并不需要知道所有元素之间的完整顺序，因此可以更便宜。

核心思想

常见做法有三类。第一，维护一个大小为 $k$ 的最小堆，扫描全部元素时，只保留当前前 $k$ 大，复杂度为 $O(n\log k)$。第二，使用 Quickselect 这类选择算法，平均复杂度接近 $O(n)$，先找到第 $k$ 大的阈值，再取出所有超过阈值的元素。第三，使用 partial sort，只把前 $k$ 个候选排好序，适合最终还需要按分数返回候选列表的场景。

应用实例

在生成模型中，Top-K 直接出现在解码阶段。模型先输出词表 logits，再只保留分数最高的 $k$ 个 token，把其余 token 的概率置为 0，随后在这个小集合内归一化采样。若词表大小为 $V$，完整排序整个词表会很浪费；工程实现通常使用专门的 top-k kernel 或部分选择算子。

在检索和推荐中，Top-K 也同样关键。召回层可能从百万级文档中取出几百个候选，粗排再取几十个，精排最终返回少量结果。每一层都在做“保留足够好的候选，同时尽早丢掉明显无关项”的选择算法。

滑动窗口、双指针与单调队列

背景和问题定义

滑动窗口（Sliding Window）处理的是连续区间上的局部统计。给定序列 $x_1,\dots,x_n$，窗口通常写成 $[l,r]$，算法每次移动左端点或右端点，并维护窗口内的计数、和、最大值、最小值或其他摘要。

核心思想

滑动窗口的核心是把“重新计算整个区间”改成“只处理进入窗口和离开窗口的元素”。固定窗口适合长度已知的局部统计；双指针适合窗口长度随约束动态变化的场景；单调队列则适合在窗口移动时同步维护最大值或最小值。

公式和详细解释

固定长度窗口的均值可以写成

\[\bar{x}_{t}=\frac{1}{w}\sum_{i=t-w+1}^{t}x_i\]

这里 $w$ 是窗口长度， $\bar{x}_{t}$ 是时刻 $t$ 之前最近 $w$ 个值的平均。若每次都重新求和，代价是 $O(w)$；若维护滚动和，则每步只需减去离开的元素、加上新进入的元素，代价降为 $O(1)$。

应用实例

双指针（Two Pointers）适合窗口长度不固定、但约束具有单调性的场景。例如要找“token 数不超过上限的最长片段”，右指针不断扩张，超限后左指针收缩。长文本切块、按 token budget 裁剪上下文、日志窗口统计，都可以用这种模式。

单调队列（Monotonic Queue）用于在线维护窗口最大值或最小值。队列内部保持单调顺序，新元素进入时把更弱的尾部元素弹出；窗口左端移动时再移除过期元素。每个元素最多进队和出队各一次，因此总复杂度为 $O(n)$。在流式监控中，它可用于快速得到最近一段时间内的最大延迟、最高 GPU 显存占用或最高请求队列长度。

前缀和与差分数组

背景和问题定义

前缀和（Prefix Sum）把一段序列的累积量预先存起来，使任意区间求和可以常数时间完成。差分数组（Difference Array）则从另一个方向解决大量区间更新问题。

核心思想

前缀和把区间查询改写成两个累积值相减，差分数组则把区间更新改写成两个边界点的修改。二者互为镜像：前缀和适合“多次查询”，差分适合“多次批量更新后统一恢复”。

公式和详细解释

\[S_i=\sum_{j=1}^{i}x_j\]

则区间 $[l,r]$ 的和为

\[\sum_{i=l}^{r}x_i=S_r-S_{l-1}\]

这里 $S_i$ 是前 $i$ 个元素的累计和。构建前缀和需要 $O(n)$，之后每次区间查询只需 $O(1)$。

AI 工程中，前缀和常用于 token 长度累计、batch 分桶边界、文档切块位置、mask 区间统计和 span 覆盖数量计算。例如把若干段文本拼成一个长序列后，可以用前缀长度快速定位“第 $t$ 个 token 属于哪篇文档、哪一段句子”。

差分数组（Difference Array）处理的是大量区间更新。若原数组为 $a$，差分数组可定义为 $d_i=a_i-a_{i-1}$。要把区间 $[l,r]$ 全部加上 $v$，只需执行

\[d_l\leftarrow d_l+v,\qquad d_{r+1}\leftarrow d_{r+1}-v\]

应用实例

最后对差分数组再做一次前缀和，就能恢复全部更新后的值。NER 标注中，如果需要统计每个 token 被多少个候选 span 覆盖，差分数组比逐 token 更新更合适。

字符串匹配与自动机

背景和问题定义

字符串匹配（String Matching）处理的是：如何在长文本 $T$ 中查找模式串 $P$。朴素算法会在每个位置重新尝试匹配，最坏复杂度可达 $O(|T||P|)$。更高效的算法会复用已经匹配过的前缀信息。

核心思想

KMP（Knuth-Morris-Pratt）算法为模式串预先构建失配表。失配表记录“当前匹配失败后，模式串可以安全回退到哪个前缀长度”。因此主串指针不需要回退，整体复杂度为 $O(|T|+|P|)$。它适合单模式串、确定性要求强的文本扫描。

Rabin-Karp 使用滚动哈希（Rolling Hash）。它把每个长度为 $|P|$ 的窗口映射成哈希值，窗口右移时可以快速更新哈希。设窗口哈希为 $H_t$，右移一位后可以在常数时间内移除旧字符并加入新字符。它适合多模式串粗筛，但需要处理哈希碰撞。

公式和详细解释

Aho-Corasick 自动机（Aho-Corasick Automaton, AC Automaton）适合一次匹配大量词典项。它把所有模式串建成 Trie，再为每个节点加入失败指针（Failure Link）。扫描文本时，自动机沿字符转移；若当前路径失败，就沿失败指针跳到最长可复用后缀。构建完成后，可以用接近 $O(|T|+\text{matches})$ 的代价找出所有命中的词典项。

应用实例

在 AI 项目里，AC 自动机常用于敏感词过滤、词典 NER、gazetteer 特征、规则召回和数据清洗。它的优势是稳定、可解释、延迟低；边界是只能匹配显式词典或规则，无法理解上下文语义。

有限状态自动机（Finite State Automaton, FSA）把文本处理写成“状态 + 转移”的形式。确定有限自动机（DFA）在每个状态和输入字符下只有一个下一状态，非确定有限自动机（NFA）允许多个可能路径。正则表达式引擎、词法分析器、tokenizer 的一部分规则，都可以用自动机解释。

有限状态转换器（Finite State Transducer, FST）在状态转移时不仅读取输入，还产生输出。它常用于分词、规范化、语音识别中的发音词典和加权解码图。若边上带权重，就得到加权 FST（Weighted FST, WFST），可以把候选路径搜索转成图上的最短路径或最优路径问题。

相似去重、MinHash、SimHash 与 LSH

背景和问题定义

大规模语料处理中，完全相同的样本容易用哈希表去重；近重复样本更难，因为它们可能只是改了标题、顺序、标点或少量词。相似去重的目标是在不做两两全量比较的条件下，快速找到高度相似的文本或文档。

核心思想

相似去重的核心是把昂贵的两两比较改成紧凑签名比较。MinHash 面向集合相似度，SimHash 面向向量方向相似，LSH 则把“相似样本更容易进同一个桶”做成索引机制。它们共同服务于一个目标：先快速缩小候选，再做更精确的复核。

公式和详细解释

MinHash 用来近似 Jaccard 相似度。设两个集合为 $A$ 和 $B$，Jaccard 相似度定义为

\[J(A,B)=\frac{|A\cap B|}{|A\cup B|}\]

MinHash 的关键性质是：对一个随机排列 $\pi$，两个集合最小哈希值相等的概率等于它们的 Jaccard 相似度：

\[\Pr[\min(\pi(A))=\min(\pi(B))]=J(A,B)\]

这里 $\pi(A)$ 表示把集合 $A$ 中每个元素经过同一个随机排列或哈希映射后的结果。工程上会用多个哈希函数形成签名向量，再比较签名相等比例，从而近似估计文档相似度。预训练语料去重中，通常先把文档切成 n-gram shingles，再用 MinHash 生成紧凑签名。

SimHash 更适合近似余弦相似。它先把每个特征哈希成一个带符号的随机向量，再按特征权重累加，最后取每一维的符号位形成二进制指纹。两个文本越相似，它们的 SimHash 指纹汉明距离通常越小。搜索引擎和网页去重里常用 SimHash 做近重复检测。

局部敏感哈希（Locality-Sensitive Hashing, LSH）是一类把相似对象更可能映射到同一桶的哈希方法。它牺牲精确性，换取候选集合的大幅缩小。MinHash-LSH 常用于 Jaccard 相似，随机投影 LSH 常用于余弦相似。其工程模式通常是：先用 LSH 生成少量候选，再用精确相似度或模型重新打分。

应用实例

这类方法在 AI 数据工程里价值很高。预训练语料若存在大量近重复文本，模型容易过度记忆常见模板；评测集若泄漏到训练集，相似去重可以降低虚高指标风险；RAG 知识库若重复段落太多，检索结果会被冗余内容挤占。

流式近似统计

背景和问题定义

流式近似统计处理的是“数据太大、不能完整保存、还要在线估计”的问题。它通常用固定或近似固定内存维护摘要，适合日志监控、语料统计、在线特征计数和训练数据质量看板。

核心思想

流式近似统计用可合并、可更新的小摘要替代完整数据。它接受有限误差，换取固定内存、在线更新和跨机器聚合能力。Count-Min Sketch 估计频率，HyperLogLog 估计基数，Reservoir Sampling 保留均匀样本，Quantile Sketch 估计分位数。

公式和详细解释

Count-Min Sketch 用一个二维计数表和多组哈希函数估计元素频率。插入元素 $x$ 时，每一行按对应哈希函数定位一个桶并加 1；查询时，取这些桶计数的最小值：

\[\hat c(x)=\min_{j=1}^{d}C_{j,h_j(x)}\]

这里 $C$ 是计数表， $d$ 是哈希函数数量， $h_j(x)$ 是第 $j$ 个哈希函数给出的桶位置。由于碰撞只会把其他元素的计数加进来，估计值通常不会低于真实频率。它适合找高频 token、高频 URL、高频错误码或高频用户行为。

HyperLogLog 用于估计不同元素数量，也就是基数（Cardinality）。它基于一个观察：若哈希结果足够随机，某个哈希值二进制前导零越多，说明看到这么“稀有”模式所需的不同元素数通常越大。HyperLogLog 把元素分到多个寄存器中，记录最大前导零长度，再用调和平均得到基数估计。它常用于估计语料中唯一文档数、唯一用户数、唯一 prompt 模板数。

Reservoir Sampling 用固定大小的水库从未知长度的数据流中抽取均匀样本。第 $i$ 个元素到来时，若水库大小为 $k$，则以概率 $k/i$ 接受它；接受后再随机替换水库中的一个旧元素。这样即使不知道数据流最终长度，每个元素最终被保留的概率仍相同。

应用实例

分位数草图（Quantile Sketch）用于估计 P50、P90、P99 这类分位数。推理服务监控中，平均延迟远远不够，P99 延迟经常决定用户体验。TDigest、KLL Sketch 等结构可以在有限内存下估计分位数，并支持跨机器合并摘要。

向量检索索引：HNSW、IVF、PQ 与 OPQ

背景和问题定义

向量检索处理的是高维空间中的近似最近邻搜索（Approximate Nearest Neighbor Search, ANN）。给定查询向量 $q$ 和向量库 $\{x_i\}_{i=1}^{N}$，目标是找到距离最近或相似度最高的若干向量。暴力搜索需要计算 $N$ 次距离，库很大时成本过高。

核心思想

HNSW（Hierarchical Navigable Small World）把向量组织成多层小世界图。高层图稀疏，用于快速跳到查询附近；底层图更密，用于局部精细搜索。搜索过程从高层入口点开始，贪心地走向更接近查询的邻居，再逐层下降。它的优势是召回率高、延迟低、工程表现稳定，因此被大量向量数据库采用。

IVF（Inverted File Index）先用聚类把向量空间划分成多个粗簇。查询时，先找到离 $q$ 最近的若干簇，只在这些簇内部继续搜索。若簇数为 $C$，每次只探查 $n_{\mathrm{probe}}$ 个簇，就能显著减少候选数量。 $n_{\mathrm{probe}}$ 越大，召回越高，延迟也越高。

公式和详细解释

PQ（Product Quantization）把高维向量拆成多个子空间，并在每个子空间里用码本近似。原始浮点向量可被压缩成若干个短码，从而降低内存和距离计算成本。OPQ（Optimized Product Quantization）会先对向量做旋转变换，使各子空间更适合量化，通常能提升压缩后的检索质量。

应用实例

RAG 系统常采用“ANN 召回 + 精排”的两阶段结构。向量索引用 HNSW、IVF 或 PQ 快速拿到候选文档；随后用 cross-encoder、LLM reranker 或规则特征重新排序。ANN 负责快，精排负责准。若只依赖向量索引的近似距离，长尾问题、同义改写和领域术语容易被误排。

缓存淘汰与分布式路由

背景和问题定义

缓存算法处理的是有限内存如何分配给最有价值的数据。AI 系统里的缓存对象很多：tokenizer 结果、embedding、检索候选、prompt 前缀、模型输出、KV cache、特征向量、远程 API 响应。缓存命中率直接影响延迟和成本。

核心思想

LRU（Least Recently Used）淘汰最近最久未使用的对象。它基于时间局部性：刚访问过的数据短期内更可能再次访问。典型实现是“哈希表 + 双向链表”：哈希表负责 $O(1)$ 定位节点，链表负责 $O(1)$ 移动节点和淘汰尾部。

LFU（Least Frequently Used）淘汰访问频率最低的对象。它适合热点长期稳定的场景，例如常见 embedding、热门知识片段或高频用户特征。TTL Cache 给每个条目设置过期时间，适合外部数据会变化、缓存不能无限持久的场景。实际系统常把 LRU、LFU、TTL 和容量限制组合使用。

公式和详细解释

一致性哈希（Consistent Hashing）用于把 key 分配到多台机器上，并在节点增删时减少迁移量。它把节点和 key 都映射到一个哈希环上，key 归属于顺时针遇到的第一个节点。若增加或删除一个节点，只影响环上相邻区间，而不会打乱全部 key。

应用实例

Rendezvous Hashing 也称最高随机权重哈希（Highest Random Weight Hashing）。对每个 key，计算它与每个节点的哈希得分，选择得分最高的节点。它实现简单，节点变化时迁移也较少，常用于分布式缓存、向量库分片和推理实例路由。

限流、退避与调度

背景和问题定义

限流算法控制请求进入系统的速度，避免后端被瞬时流量打爆。Token Bucket（令牌桶）维护一个以固定速率补充的令牌池；请求到来时必须消耗令牌，令牌不足则等待或拒绝。它允许短时间突发，因为桶里可以预先积累一部分令牌。

核心思想

限流负责控制进入速度，退避负责控制失败后的重试节奏，调度负责决定排队任务的执行顺序。三者共同决定系统在高压下是平稳降级，还是被突发流量、同步重试和长队列拖垮。

公式和详细解释

若令牌补充速率为 $r$，桶容量为 $B$，则任意时间长度 $T$ 内允许通过的请求数最多约为

\[B+rT\]

这里 $B$ 决定突发容量， $r$ 决定长期平均速率。LLM API 网关、推理服务入口、爬虫抓取和异步任务提交都经常使用令牌桶。

Leaky Bucket（漏桶）以固定速率放出请求，更强调平滑输出流量。它像一个固定出水速度的桶：上游请求可以突发进入，但下游看到的是更稳定的处理速率。它适合保护对突发极其敏感的服务。

指数退避（Exponential Backoff）用于失败重试。第 $t$ 次失败后的等待时间可写成

\[\Delta_t=\min(\Delta_{\max},\Delta_0\cdot 2^t)\]

这里 $\Delta_0$ 是初始等待时间， $\Delta_{\max}$ 是最大等待时间。工程上通常再加入随机抖动（Jitter），避免大量客户端在同一时刻重试，形成新的流量尖峰。

应用实例

调度算法决定队列里的任务按什么顺序执行。Round Robin 轮询各队列，适合公平性要求较强的多租户场景；Weighted Fair Queue 给不同队列不同权重，适合区分付费等级、业务优先级或模型类型；Priority Scheduling 优先处理高优先级任务，但需要防止低优先级任务长期饥饿。推理服务中的动态 batching、训练集样本混合、多任务数据采样，本质上都带有调度问题。

Backpressure（反压）是流式系统里的保护机制。当下游处理不过来时，上游必须减速、暂停或丢弃低价值任务。没有反压的系统会把压力堆积成内存膨胀、队列延迟和级联故障。

区间合并、扫描线与并查集

背景和问题定义

区间合并（Interval Merge）处理的是多个区间可能重叠时，如何得到不重叠的合并结果。典型做法是先按左端点排序，再从左到右扫描：若新区间左端点不超过当前合并区间右端点，就扩展右端点；否则开启一个新区间。

核心思想

NER 后处理经常会遇到重叠 span。例如模型同时预测了“纽约”和“纽约大学”，或者规则系统和模型各给出一组实体候选。区间合并、优先级排序和冲突消解决定最终输出哪些实体。若实体有类型、置信度和来源，还需要在区间合并上叠加排序规则。

公式和详细解释

扫描线（Sweep Line）把几何或区间问题转成按事件排序的过程。每个区间 $[l,r]$ 产生两个事件： $l$ 处加入， $r$ 处移除。按坐标扫描时维护当前活跃集合，就能计算最大重叠数、重叠区域、版面块关系或时间段并发量。

并查集（Disjoint Set Union, DSU）维护一组动态连通分量，支持查找代表元 find 和合并 union。路径压缩与按秩合并后，单次操作的均摊复杂度接近常数。其核心用途是把“若干对象因为某些证据应归为一组”的过程高效维护起来。

应用实例

实体链接、聚类后处理、重复样本合并和图连通块分析都常用 DSU。例如多个 mention 通过别名、ID、URL 或 embedding 相似度被判定为同一实体，就可以逐步 union，最后每个连通块对应一个候选实体簇。

压缩、校验与内容寻址

背景和问题定义

压缩算法降低存储和传输成本。RLE（Run-Length Encoding）把连续重复值写成“值 + 次数”，适合长段重复结构；Huffman Coding 根据符号频率分配变长编码，高频符号用短码，低频符号用长码；Arithmetic Coding 把整段消息编码成一个区间中的数，压缩率通常更接近熵极限。

核心思想

通用压缩工具如 gzip、zstd、lz4 背后通常结合字典匹配、熵编码和块压缩策略。AI 数据集、日志、JSONL 语料、特征文件和 checkpoint 传输都依赖压缩。训练吞吐有时会受解压速度限制，因此压缩率和解压速度需要一起权衡。

公式和详细解释

校验算法用于发现传输或存储错误。CRC 更偏向快速检测随机错误，常用于文件块和网络传输；SHA-256 这类密码学哈希更适合内容完整性校验和内容寻址。若文件内容完全相同，其哈希值应相同；内容一变，哈希值就会显著变化。

应用实例

内容寻址（Content Addressing）把对象地址定义为内容哈希，不依赖人为命名路径。数据集版本、模型制品、缓存 key、Docker layer、特征快照都可以用内容哈希管理。这样能避免“文件名相同但内容已变”的隐性错误，也便于去重和复现实验。

解析算法、模板与配置处理

背景和问题定义

AI 工程离不开配置、模板和结构化文本。训练配置可能来自 YAML，推理请求可能包含 JSON，工具调用需要 schema，prompt 可能包含变量插槽和条件片段。解析算法负责把这些文本变成可验证、可执行的数据结构。

核心思想

递归下降解析（Recursive Descent Parsing）把语法规则写成一组互相调用的函数。若语法天然分层，例如表达式、函数调用、列表、对象、字段访问，就可以用递归函数逐层解析。它实现直观，适合小型 DSL、配置表达式和 prompt 模板语言。

公式和详细解释

Pratt Parser 常用于表达式解析，尤其适合处理不同优先级和结合性的运算符。每个 token 定义自己的前缀或中缀解析行为，并配合绑定力（Binding Power）控制解析顺序。表达式越复杂，Pratt Parser 相比手写多层优先级函数越简洁。

应用实例

Schema 校验处理的是“结构正确”与“语义可用”。例如工具调用参数必须包含必填字段、字段类型必须匹配、枚举值必须合法。LLM 工具调用、Agent 配置和训练任务配置都需要严格校验，否则错误会延迟到运行时才暴露。

批处理、分桶与动态 batching

背景和问题定义

变长序列训练和推理中，padding 浪费非常常见。一个 batch 里的样本长度差异越大，模型花在无效填充 token 上的计算越多。

核心思想

Padding-aware batching 进一步把 batch size 从“样本条数”改成“token 数或帧数预算”。例如每个 batch 限制最多 $N$ 个 token，短样本可以放更多条，长样本则放更少条。这样 GPU 看到的计算量更稳定，训练吞吐也更可控。

公式和详细解释

若一个 batch 内最长序列长度为 $L_{\max}$，第 $i$ 条样本真实长度为 $L_i$，则 padding token 数为

\[\sum_i (L_{\max}-L_i)\]

这些 padding token 通常不贡献有效监督，却会占用显存和计算。长度分桶（Bucketing）会把相近长度的样本放到同一批里，降低 $L_{\max}$ 与平均长度之间的差距。NLP、语音、OCR 和视频训练都大量使用这一策略。

应用实例

动态 batching 常用于推理服务。服务端在极短时间窗口内收集多个请求，把它们合并成一个 batch 送入模型。窗口太短，batch 太小，GPU 利用率低；窗口太长，单个请求等待时间增加。高质量推理系统会在吞吐和延迟之间动态折中，并结合优先级队列、超时策略和最大 token 预算控制。

大模型推理中的 continuous batching 进一步允许不同请求在生成过程中动态进入和退出 batch。某个请求生成完毕后，它占用的 slot 可以立刻被新请求接上。相比传统“一批请求全部结束后再处理下一批”，continuous batching 更适合输出长度差异很大的 LLM 服务。

机器学习基础概念

机器学习基础概念（Machine Learning Foundations）回答四类核心问题：数据从哪里来、模型在学什么、模型为什么能泛化、结果该如何评价。把这些问题分开看，会比死记算法名称更有效：学习范式决定监督信号来自哪里，假设空间与归纳偏置决定模型愿意相信什么，数据集工程决定模型实际看到了什么，模型评估决定这些学习结果是否真的能迁移到未见样本。

假设/目标/代价/损失

这四个词描述的是同一条“训练=优化”的概念链，但位于不同层级。把层级理清后，公式与实现会自然对齐：模型 $f_\theta$ 先给出预测，再用损失函数把预测变成数值误差，最后把误差在数据集上汇总成代价函数，并加入正则/约束得到最终的目标函数。

假设函数（Hypothesis Function）

假设函数（Hypothesis Function）也常被直接称为模型（Model）或预测函数（Predictor），记作 $f_\theta$。它回答的问题是：给定输入 $x$，模型输出什么。参数 $\theta$ 决定这条映射的具体形状。

线性回归（Linear Regression）的假设函数是最经典的例子：

\[\hat y=f_\theta(x)=\mathbf{w}^\top x+b,\quad \theta=(\mathbf{w},b)\]

目标函数（Objective Function）

目标函数（Objective Function）记作 $J(\theta)$，是优化器真正要优化的函数。工程上最常见、也最清晰的写法是：目标函数 = 代价函数 + 正则化项（没有正则化时可视为正则项为 0，因此 $J(\theta)=L(\theta)$）。

\[J(\theta)=L(\theta)+\lambda\,\Omega(\theta)\]

在线性回归里，若用 L2 正则（Ridge / Weight Decay），常见目标函数可以写成：

\[J(\theta)=L(\theta)+\lambda\|\mathbf{w}\|_2^2\]

把 $L(\theta)$ 展开后，就是：

\[J(\theta)=\frac{1}{N}\sum_{i=1}^{N}(\mathbf{w}^\top x_i+b-y_i)^2+\lambda\|\mathbf{w}\|_2^2\]

代价/成本函数（Cost Function）

代价函数/成本函数（Cost Function）记作 $L(\theta)$，通常指把样本损失在训练集上做平均或求和后的整体量，也就是经验风险（Empirical Risk）。不少教材会把它直接称为训练损失（training loss），并且在不引起歧义时把它与目标函数混用。

在线性回归里，常用“均方误差的平均”作为代价函数：

\[L(\theta)=\frac{1}{N}\sum_{i=1}^{N}\ell_i(\theta)\]

把 $\ell_i(\theta)$ 取为平方误差后，等价写法是：

\[L(\theta)=\frac{1}{N}\sum_{i=1}^{N}(\mathbf{w}^\top x_i+b-y_i)^2\]

损失函数（Loss Function）

损失函数（Loss Function）记作 $\ell$，通常定义在单个样本上，把“预测与目标的差距”映射为一个标量。它回答的问题是：这一条样本我错了多少。

在线性回归里，最常见的单样本损失是平方误差：

\[\ell_i(\theta)=\ell(\hat y_i,y_i)=(\hat y_i-y_i)^2,\quad \hat y_i=f_\theta(x_i)\]

假设空间、容量与归纳偏置

同一份训练数据，之所以会被不同模型学出完全不同的规律，根源在于每个模型都自带一套“允许学什么、不允许学什么”的结构约束。假设空间（Hypothesis Space）、模型容量（Model Capacity）与归纳偏置（Inductive Bias）共同描述的，就是这套约束。

假设空间

假设空间（Hypothesis Space）是模型可表达函数的集合，常记为 $\mathcal{H}$：

\[\mathcal{H}=\{f_\theta:\theta\in\Theta\}\]

这里 $f_\theta$ 是由参数 $\theta$ 决定的预测函数， $\Theta$ 是参数可取的范围。这个定义的关键不在于“参数有多少”，而在于模型最终允许出现哪些映射形状。例如，一元线性回归的假设空间只包含直线；二次多项式回归的假设空间包含抛物线；深度神经网络的假设空间则更大，能表示复杂得多的非线性函数。

因此，训练核心是在某个特定假设空间里找一个最合适的函数。假设空间太小，真实规律可能根本装不进去；假设空间太大，模型又容易把偶然噪声也解释成模式。

模型容量

模型容量（Model Capacity）描述的是假设空间的表达能力有多强，也就是模型能拟合多复杂规律。容量高，不代表一定更好；它只表示模型“有能力”表示复杂函数。是否真的学得好，还取决于数据量、正则化、优化过程和任务本身。

容量可以从多个角度理解。参数更多通常意味着容量更高，但这并非唯一标准；树的深度、核方法的核函数形式、特征维度、网络层数、隐藏维度、注意力头数，都会改变容量。工程上常用一个朴素判断：如果模型连训练集主要结构都拟合不了，容量偏低；如果训练集几乎完美、验证集却明显变差，容量往往偏高或约束不足。

容量与复杂度控制始终是一组平衡。表格数据上的浅层树模型可能已经足够；图像、语音、自然语言这类高度复杂任务，则通常需要更高容量的模型族。容量本身并非缺点，关键在于它是否与数据规模和任务难度匹配。

欠容量（Undercapacity）

欠容量（Undercapacity）指模型或可训练适配器的表达能力不足，无法为当前任务提供足够大的可行函数空间。它讨论的是模型有没有能力表示这类规律，因此属于成因层概念。

这和欠拟合不同。欠拟合是结果层现象，表示当前训练结果不够好；欠容量只是欠拟合的一种常见原因。一个模型可能因为容量太小而欠拟合，也可能因为学习率不对、训练步数不足、输入被截断、特征表达差而欠拟合。反过来，一个高容量模型如果训练明显不充分，也会暂时呈现欠拟合外观。

工程上判断欠容量，常见信号包括：训练 loss 长期降不下去；训练集指标存在明显硬上限；增大模型尺寸、隐藏维度、树深、LoRA rank 或可训练模块后，训练集和验证集一起改善。若这些现象同时出现，就更像是表达能力本身不够，而非单纯还没训练够。

归纳偏置

归纳偏置（Inductive Bias）是模型在有限样本下从已见数据推广到未见数据时，默认采用的结构性偏好。只靠训练集上有限个点，无法唯一确定整个输入空间上的函数；模型之所以还能做出泛化判断，是因为它隐含地偏好某些解释，而排斥另一些解释。

把学习目标写成经验风险最小化时，这一点会更清楚：

\[\hat f=\arg\min_{f\in\mathcal{H}}\hat R_n(f),\qquad \hat R_n(f)=\frac{1}{n}\sum_{i=1}^{n}\ell(f(x_i),y_i)\]

这里 $\hat R_n(f)$ 是经验风险（Empirical Risk），表示函数 $f$ 在训练集上的平均损失； $\hat f$ 是最终选出的模型。关键约束正是 $f\in\mathcal{H}$：优化核心是在一个被模型结构预先限制过的空间里找解。这个限制本身就是归纳偏置。

归纳偏置的来源很多。线性模型偏好线性关系；KNN（K-Nearest Neighbors）偏好局部相似样本给出相似输出；卷积神经网络（CNN）偏好局部连接与平移等变（Translation Equivariance）；树模型偏好分段常数的轴对齐切分；Transformer 则偏好通过注意力在 token 之间建立可变依赖。正则化、数据增强、参数共享、预训练初始化、优化器的更新轨迹，也都会进一步塑造模型的归纳偏置。

期望风险、经验风险与结构风险

在统计学习（Statistical Learning）里，训练目标可以从三个层次来理解：期望风险（Expected Risk）描述模型在真实数据分布上的平均误差；经验风险（Empirical Risk）描述模型在有限训练集上的平均误差；结构风险（Structural Risk）则在经验风险之外，把模型复杂度一并纳入考虑。三者回答的是同一个问题的不同版本：模型到底应该怎样才算“学得好”。

期望风险

期望风险也常被称为真实风险（True Risk）或总体风险（Population Risk）。若真实数据来自未知分布 $P(X,Y)$，模型为 $f$，单样本损失为 $\ell(f(x),y)$，则期望风险定义为：

\[R(f)=\mathbb{E}_{(x,y)\sim P}\big[\ell(f(x),y)\big]\]

这条式子的含义很直接：把模型放到所有可能出现的真实样本上，计算平均损失。理论上，这才是机器学习真正想最小化的对象，因为泛化能力最终取决于模型在未知数据上的表现，而非只取决于训练集上的表现。

困难在于，真实分布 $P(X,Y)$ 并不可见。训练时手里只有有限样本，而没有“全体可能数据”的上帝视角。因此，期望风险通常不能被直接计算，只能被估计。

经验风险

经验风险是用训练集对期望风险做出的现实近似。设训练集为 $\mathcal{D}=\{(x_i,y_i)\}_{i=1}^{n}$，则经验风险定义为：

\[\hat R_n(f)=\frac{1}{n}\sum_{i=1}^{n}\ell\big(f(x_i),y_i\big)\]

它就是模型在当前这批已观测样本上的平均损失。工程上常见的 training loss，本质上反映的正是经验风险，或它的 mini-batch 近似。经验风险最小化（Empirical Risk Minimization, ERM）的训练逻辑也很朴素：既然期望风险不可直接计算，就先把训练集上的平均损失压低。

ERM 的关键前提是：训练集足够代表真实分布。当样本数量增加且采样足够合理时，经验风险通常会更接近期望风险；但在有限样本条件下，两者并不相等。二者之间的差距，本质上就是泛化误差（Generalization Gap）的来源。若模型只是把训练集中的偶然模式、局部噪声和标注误差也一并记住，那么 $\hat R_n(f)$ 可以很低，而 $R(f)$ 仍然很高，这正是过拟合（Overfitting）的典型形式。

结构风险

结构风险（Structural Risk）是在经验风险之外，再把模型复杂度或假设空间规模纳入考虑的目标。它对应的思想是结构风险最小化（Structural Risk Minimization, SRM）：模型不仅要在训练集上拟合得好，还要避免复杂到足以随意记忆有限样本。

在统计学习理论的严格表述中，SRM 常写成在一族嵌套假设空间之间做选择；在工程实践里，它更常以“经验风险 + 复杂度惩罚”的形式出现，例如：

\[J(f)=\hat R_n(f)+\lambda\,\Omega(f)\]

这里 $\Omega(f)$ 是复杂度项（Complexity Penalty）， $\lambda$ 控制数据拟合与复杂度约束之间的权衡。L2 正则化（L2 Regularization）、L1 正则化（L1 Regularization）、Weight Decay、早停（Early Stopping）以及对模型深度、宽度和树复杂度的限制，都可以看作结构风险最小化思想的具体实现。

因此，结构风险核心是对 ERM 的补充：在有限样本条件下，仅仅把训练误差压到最低，并不能保证模型在真实分布上表现最好。模型必须同时控制复杂度，才能让“训练集上学到的规律”更有机会迁移到未见样本。

为什么它重要

这三者共同构成了机器学习里最基本的张力。期望风险是理论上真正想优化的目标，但它不可直接见；经验风险是训练时可观测、可优化的替代量；结构风险则提醒我们，有限样本下不能把“训练集表现更好”直接等同于“真实世界表现更好”。监督学习不仅是在找一个拟合训练集的函数，更是在有限数据和有限模型约束下，寻找一个最可能泛化的解释。

从这里继续往下，就会自然出现另一个问题：如果高维真实数据本身就带有强结构约束，那么经验风险为何常能在有限样本下逼近期望风险，模型又为何能够泛化到未见样本？流形假设（Manifold Hypothesis）正是对这个问题的一条几何回答：真实数据并不会任意填满整个高维空间，会集中在某个低维、连续、受约束的结构附近。

流形假设

流形假设（Manifold Hypothesis）给出了现代机器学习里一条极其重要的几何直觉：现实世界中有意义的数据，虽然表面上嵌在极高维空间里，但真正有效的变化自由度通常远低于表观维度。也就是说，高维观测往往核心是集中分布在一个低维流形（Low-dimensional Manifold）附近。

图像是最容易理解的例子。一个 $1024\times 1024$ 的 RGB 图像在像素空间中维度极高，但自然图像并不会均匀占据这个巨大空间：物体形状、光照条件、视角变化、相机成像规律与纹理结构都受到强约束。因此，“像真实猫照片”的图像实际上只落在高维像素空间中的极小区域里。文本也类似。一个长度为 $T$ 的 token 序列组合数极其巨大，但真正同时符合语法、语义和任务约束的文本，只占离散组合空间中很小的一部分。模型之所以能够泛化，一个重要原因正是：它并不需要学会覆盖整个高维空间，而只需要学会沿着这些低维结构建模。

什么是流形

流形（Manifold）首先是一个几何对象。它的关键性质核心是局部上看起来像普通的低维欧几里得空间，整体上却可以弯曲、卷曲并嵌入到更高维空间中。更正式地说，若一个集合对其上每一点，都存在一个足够小的邻域，可以用 $\mathbb{R}^d$ 中的局部坐标平滑描述，那么这个集合就可以看作一个 $d$ 维流形。

地球表面是最直观的例子。站在操场或街道上时，局部地面几乎是平的，可以用二维坐标定位；但从整体看，地球表面显然核心是嵌入三维空间中的弯曲曲面。因此，地球表面就是一个嵌在三维空间里的二维流形。对只能沿地面运动的观察者而言，真正相关的核心是地表上那两个局部自由度。

机器学习教材里常见的瑞士卷（Swiss Roll）把这个概念进一步可视化。可以先想象一张二维纸，再把它卷进三维空间。卷起来之后，样本点在外部看来落在三维空间里，但沿着纸面定位某一点时，真正需要的仍然只是二维坐标。外在维度变高了，内在结构却没有变。这正是流形概念在机器学习里最重要的几何直觉：数据的表观维度可以很高，但它的内在维度却可能很低。

这类卷曲结构还带来另一个机器学习里非常关键的后果：嵌入空间中的欧氏距离（Euclidean Distance）与流形上的测地距离（Geodesic Distance）并不一定一致。两点在外部空间里看起来可能很近，因为一条直线可以直接“穿过空气”连接它们；但若真实数据只能沿流形本身变化，那么真正相关的距离应当是沿曲面或曲线走过去的那条路径长度。流形学习（Manifold Learning）之所以强调邻域图、测地近似和局部结构，正是因为外部直线距离经常不能反映数据在内在结构上的真实远近关系。

放到高维数据上，这个判断尤其关键。一张 $1000\times1000$ 的灰度图像在像素空间里有一百万维，但“真实人脸图像”显然不会填满整个一百万维空间。姿态、光照、表情、年龄、拍摄距离等因素彼此耦合，使真实样本只落在高维像素空间中一个极薄、极小、受连续约束的区域附近。文本也是同样的逻辑：虽然 token 组合空间极其巨大，但真正同时满足语法、语义、上下文与任务约束的句子，只会沿着某种低维结构变化，而不会任意填满整个离散组合空间。

因此，在机器学习语境中谈流形，真正想表达的核心是一个更直接的判断：有意义的数据并不会随机散落在高维空间中，会集中在某个低维、连续、受约束的结构附近。后面关于自由度、主成分、隐空间、低维近似以及 LoRA 任务子空间的讨论，都是围绕这个判断展开的不同形式化视角。

自由度

沿着前面“表观维度高、内在结构低”的判断继续往下走，就会自然落到自由度（Degrees of Freedom）这个概念上。表观维度说的是“数据在形式上有多少个坐标轴”；自由度说的是“这些数据实际上有多少种彼此独立的有效变化方式”。二者并不相同。一个对象可以嵌在极高维空间里，但真正能变化的自由度却很少。

例如，一张脸部图片在像素空间里有数百万维，但很多像素并不能独立随意变化：头部转向、光照强弱、表情变化、年龄纹理、拍摄距离这些因素彼此耦合，共同决定了大部分像素的联动变化。因此，“一张脸”看起来是高维数组，真正支配它变化的自由度却远小于像素总数。文本也一样。句子表面上由许多 token 组成，但语法结构、主题、语气、说话者意图与上下文约束，使它不可能在每个位置上完全独立自由地变化。

这也是流形假设真正重要的地方：它核心是在说有效自由度远少于表观维度。一旦把这层理解清楚，后面关于主成分、隐空间、隐主题、低秩近似乃至 LoRA 的很多思想都会变得顺理成章，因为它们都在试图用更少的自由度，去抓住决定数据或参数变化的核心结构。

主成分、隐空间与隐主题

一旦接受了“高维数据实际靠近低维结构”这一点，后面许多术语就会自然连起来。主成分（Principal Components）强调几何视角：在一组高维数据里，哪些方向承载了最主要的变化。隐空间（Latent Space）强调表示视角：把原始高维观测压缩到一个更低维、但仍保留关键信息的内部空间。隐主题（Latent Topics）则更偏语义视角：在文本与文档分解里，低维方向常常可以被解释为若干潜在语义因素，例如“体育”“金融”“法律”这类人类能命名的主题轴。

这三个词并不完全同义，但常常指向同一个底层事实：高维观测可以通过少数主导方向或潜在因子来近似描述。主成分更强调方差最大的坐标轴；隐空间更强调模型内部那间低维“房间”；隐主题则是在某些任务里，对这些低维方向做出的语义解释。它们分别对应几何、表示与语义三种语言，但共享同一条低维结构主线。

PCA 与低维近似

PCA（Principal Component Analysis）是这条思路最经典、也最直接的算法形式。它在无监督条件下寻找方差最大的几个方向，并把数据投影到这些方向张成的低维子空间中。若数据矩阵为 $X$，PCA 本质上是在找一个低维线性子空间，使投影后的重建误差尽量小。在线性代数上，这与奇异值分解（SVD）直接对应：保留最大的前 $r$ 个奇异值及其奇异向量，就得到最佳的 rank-$r$ 近似。

这类思想并不只存在于经典降维里。自动编码器（Autoencoder）通过瓶颈层学习隐空间；潜在语义分析（Latent Semantic Analysis, LSA）和主题模型在文档-词矩阵里抽取潜在主题；词向量、句向量与深度表示模型把高维离散符号压缩到稠密向量空间。它们的目标函数和可解释性不同，但都默认：原始高维观测背后存在一个更低维、更有结构的变化空间。

LoRA 与任务相关子空间

LoRA（Low-Rank Adaptation）通过把参数更新 $\Delta W$ 限制在一个低秩子空间中，实现对大模型的参数高效微调（PEFT）。它的核心做法核心是把更新写成两个低秩矩阵的乘积：

\[\Delta W = BA,\quad B\in\mathbb{R}^{d_{\text{out}}\times r},\ A\in\mathbb{R}^{r\times d_{\text{in}}},\ r\ll \min(d_{\text{in}},d_{\text{out}})\]

LoRA 应放在“低维结构”这条主线上理解，但不能把它与 PCA 直接等同。它的核心是对模型参数更新施加低秩约束。

这个约束的含义是：模型不能在完整高维参数空间中任意改动，而只能在一个 rank-$r$ 的低维更新子空间里移动。从思想上看，它确实与“只保留主导方向”高度相似；若事后对某个全量更新矩阵做 SVD，最佳低秩近似也会只保留最主要的奇异方向。但 LoRA 学到的核心是对当前任务损失下降最有用的低维更新方向。前者是无监督的统计主轴，后者是由反向传播和任务目标共同决定的优化子空间。

因此，把 LoRA 理解为“逼迫模型只在少数主导方向上修改参数”是成立的；但这些方向更准确地说是任务相关的低维适配方向，而非直接等同于原始数据的 PCA 主成分。LoRA 与内在维度（Intrinsic Dimension）讨论天然相连：如果一个下游任务真正需要修改的有效自由度本来就不高，那么让模型只在一个低秩子空间里更新，不仅不会显著损失性能，反而会自动抑制大量无意义的噪声方向。

学习范式

这里先按监督信号来源划分学习范式。监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）、自监督学习（Self-supervised Learning）和强化学习（Reinforcement Learning）回答的是同一个问题：模型训练时的监督信号究竟来自哪里。它们属于同一分类标准，因此可以并列讨论。

监督学习

监督学习（Supervised Learning）使用带标签的数据对 $(x,y)$ 训练模型：输入 $x$ 是特征（Feature），输出 $y$ 是目标或标签（Label）。模型学习的核心是学习一个映射 $f_\theta:x\to y$，使它对新样本也能给出合理预测。

但“学一个映射”还不够，训练时还必须回答另一个更具体的问题：怎样才算模型学得好。监督学习里最常见的回答，是在训练集上逐个比较预测与真实标签的差距，再把这些差距汇总成一个总体目标；这就导向经验风险最小化（Empirical Risk Minimization, ERM）。

经验风险最小化的典型目标写成：

\[\frac{1}{N}\sum_{i=1}^{N}\ell\big(f_\theta(x_i),y_i\big)\]

这里 $N$ 是样本数， $f_\theta(x_i)$ 是模型预测， $y_i$ 是真实标签， $\ell$ 是损失函数（Loss Function）。这条式子的含义是：逐个样本计算“预测错了多少”，再取平均，把平均错误压到尽可能小。

例：垃圾邮件分类里， $x$ 可以是邮件文本特征， $y\in\{0,1\}$ 表示“正常/垃圾”；房价预测里， $x$ 可以是面积、地段、楼龄， $y$ 是价格。前者是分类（Classification），后者是回归（Regression），但“有标签地学映射、再用损失函数衡量误差”这一训练逻辑完全一致。

分类任务

分类任务（Classification）要预测的是离散类别，也就是样本属于哪一类。输出可以是一个类别 id，也可以是一组类别概率。例如二分类里常见输出 $P(y=1|x)$，表示“给定特征 $x$ 时，样本属于正类的概率”。

垃圾邮件识别、肿瘤良恶性判断、情感分析、图像里的猫狗识别都属于分类任务。它更像“做选择题”：模型最终要在有限候选里做判断。训练时常配合交叉熵（Cross-Entropy）这类损失，因为模型不仅要选对类别，还要给正确类别足够高的置信度。

回归任务

回归任务（Regression）要预测的是连续数值，也就是标签核心是在某个数值区间内连续变化。输出通常直接是一个实数，或一个多维连续向量。

房价预测、销量预测、温度预测、广告点击率中的停留时长估计都属于回归任务。它更像“做填空题”：模型不能只说“高”或“低”，而必须给出具体数值。训练时常配合均方误差（MSE）或平均绝对误差（MAE），因为关心的是预测值与真实值到底差了多少。

分类与回归都属于监督学习，因为它们都有标签；真正的区别在于标签空间的形状：分类的标签空间是离散集合，回归的标签空间是连续区间。这个区别会直接决定模型输出层形式、损失函数选择以及评估指标。

弱监督学习

弱监督学习（Weakly Supervised Learning）仍然使用标签信号训练模型，但这些标签并不像标准监督学习那样完整、精确且逐样本对齐。它处理的核心情形是：标签存在，但监督结构不够理想，例如标签只存在于更粗粒度层面、标签本身含噪，或只有部分样本带标签。

从概念上看，弱监督核心是一组监督不完备情形的总称。常见形式包括：标签不完整（incomplete supervision），即只有部分样本带标签；标签不精确（inexact supervision），即标签附着在聚合层级而非实例层级；标签不准确（inaccurate supervision），即标签本身带噪或来自启发式规则、远程监督（Distant Supervision）与弱标注器。它与标准监督学习的边界在于：监督信号依然存在，但标签质量、粒度或覆盖度不足以直接当作“干净答案册”。

多实例学习（Multi-Instance Learning, MIL）

多实例学习（Multi-Instance Learning, MIL）是弱监督学习中的一个经典范式。它的关键设定是：标签附着在一个由多个实例组成的包（bag）上，而非单个实例（instance）。设训练集由若干包 $\{B_1,B_2,\dots,B_n\}$ 构成，其中第 $i$ 个包可写成

\[B_i=\{x_{i1},x_{i2},\dots,x_{im_i}\},\qquad y_i\in\{0,1\}\]

这里 $x_{ij}$ 是包内第 $j$ 个实例， $m_i$ 是该包包含的实例数， $y_i$ 是包级标签。训练时只知道整个包的标签，不知道每个实例自己的标签。

MIL 最经典的标准假设（Standard MI Assumption）是：正包中至少存在一个正实例，负包中所有实例都为负。写成逻辑形式就是：

\[y_i=1 \iff \exists j,\ z_{ij}=1;\qquad y_i=0 \iff \forall j,\ z_{ij}=0\]

其中 $z_{ij}$ 表示实例级未知标签。这个设定特别适合两类问题：第一，真正决定结果的证据只稀疏地存在于少数关键实例中，其余实例更像背景或噪声；第二，获取实例级标签成本高，只能拿到更粗粒度的聚合标签。

因此，MIL 的关键不仅“把很多实例放在一起”，还要学习一条从实例集合到包级判断的聚合规则。早期方法常用最大池化、均值池化或手工设计的聚合函数；深度学习阶段则更常引入可学习聚合，例如注意力式 MIL（Attention-based MIL），用可训练权重自动决定哪些实例对最终包标签贡献更大。这使 MIL 不只具有表达能力，也更容易给出“模型主要关注了哪些实例”的解释线索。

MIL 的适用性可以用一个抽象例子来理解。若一条完整客服对话被视作一个包，其中每轮发言是实例，而整体满意度评分是包级标签，那么模型面对的就是“整体有标签、逐轮无标签”的典型结构。此时，MIL 的任务核心是在只有整体评分的前提下，学习哪些局部发言更可能决定整段会话的最终判断。

无监督学习

无监督学习（Unsupervised Learning）只有输入 $x$，没有人工标签 $y$。它的目标核心是从数据中发现结构（Structure），例如聚类（Clustering）、降维（Dimensionality Reduction）、密度估计（Density Estimation）与异常检测（Anomaly Detection）。

一个直观类比是：监督学习像“拿着答案册做题”，无监督学习像“没有答案册，只能自己把一堆材料按相似性归类”。例如电商用户没有现成“用户类型”标签，但可以根据浏览、购买、停留时间等行为聚成“价格敏感型”“冲动购买型”“高价值复购型”等群体，用于运营分层。

从任务形态上看，无监督学习通常沿三条主线展开。第一条是聚类分析，目标是把样本按几何接近性、密度连通性、层次结构或图上的社区结构自动分组，典型方法包括 K-Means、层次聚类、DBSCAN、HDBSCAN，以及基于图的 Leiden / Louvain；第二条是概率密度估计，目标是刻画数据在哪些区域更常出现，从而支持异常检测、生成建模与风险评分，常见路线包括 GMM、核密度估计、One-Class SVM，以及更现代的自编码器（Autoencoder, AE）、受限玻尔兹曼机（RBM）和对抗式路线；第三条是可视化与降维，目标是在压缩表示的同时尽量保留关键结构，典型方法包括 PCA、t-SNE 与 UMAP。

这三条路线并非彼此割裂的。聚类往往依赖一个合适的低维表示；异常检测常常等价于“找低密度区域”；可视化又经常被用来检查聚类是否真的形成结构、异常样本是否落在边缘地带。因此无监督学习不仅“没有标签时随便看看数据”，还在没有人工答案的条件下，用几何、密度与表示结构去重建数据内部秩序。

自监督学习

自监督学习（Self-supervised Learning）介于监督与无监督之间：原始数据没有人工标签，但任务标签可以由数据本身自动构造出来。核心思想是从数据内部制造预测任务，让模型在完成这些任务的过程中学到可迁移表示（Representation）。

语言模型的下一个 token 预测就是最典型的自监督任务：前文是输入，后一个 token 是由原始文本自动给出的“监督信号”。图像领域里，旋转预测、遮挡恢复、不同增强视角匹配也属于同一路线。

掩码预测

掩码预测（Masked Prediction）把输入中的一部分信息故意遮住，再要求模型恢复。例如 BERT 会把句子中的部分 token 替换成特殊标记 $[MASK]$，模型要根据上下文预测被遮住的词。

类比来看，这像完形填空：你核心是学会根据上下文推断缺失信息。它迫使模型同时利用左侧和右侧上下文，因此特别适合编码器（Encoder）型表示学习。

半监督学习

半监督学习（Semi-supervised Learning）位于监督学习与无监督学习之间：一小部分样本带标签，大量样本没有标签。它关心的核心问题是：如何利用未标注数据提供的结构信息，帮助少量标签发挥更大监督作用。与弱监督相比，半监督更强调“标签覆盖不足”，而不一定意味着标签本身粗糙或带噪。

经典路线包括 Self-Training、Co-Training、半监督 SVM、生成式方法和图半监督学习。Self-Training 会先用当前模型给未标注样本打伪标签，再把高置信样本并回训练集；Co-Training 要求样本存在两个相对独立但互补的视角，让两个模型彼此教对方；半监督 SVM 试图在利用标签的同时，把决策边界推向低密度区域；图半监督学习则利用样本相似图把少量标签沿图结构传播到邻近无标签样本。

主动学习（Active Learning）经常和半监督一起出现，但它的关注点略有不同：主动学习核心是选择最值得标注的样本去获取人工标签。从数据效率角度看，半监督学习在“少标签 + 多无标签”条件下尤其重要，而主动学习解决的是“有限标注预算该花在哪些样本上”。

强化学习

强化学习（Reinforcement Learning, RL）研究的是：智能体（Agent）在环境（Environment）中持续交互，根据奖励（Reward）学习策略（Policy），使长期累计回报（Cumulative Return）尽可能大。它关心的核心是一串连续动作最终能否带来更高的长期收益。

问题设定

强化学习的基本循环可以概括为：在时刻 $t$，智能体观察状态 $s_t$，选择动作 $a_t$，环境转移到新状态 $s_{t+1}$，并返回奖励 $r_{t+1}$。策略记为 $\pi(a\mid s)$，它回答的是“在当前状态下，动作应该怎样选”。

很多任务里，奖励并不会在正确动作发生的那一刻立刻显现。下棋时，一步好棋可能要十几步后才体现价值；推荐系统里，一次推荐是否合理，也要看后续点击、停留和转化。因此强化学习优化的核心是长期回报：

\[J(\pi)=\mathbb{E}_{\pi}\!\left[\sum_{t=0}^{\infty}\gamma^t r_{t+1}\right]\]

这里 $\gamma\in[0,1)$ 是折扣因子（Discount Factor）。$\gamma$ 越接近 1，策略越重视长期收益；越小，策略越偏向短期收益。这个目标函数的含义很直接：在所有可能的策略中，找到那个平均下来总分最高的行为规则。

和监督学习的差异

监督学习通常基于带标签样本 $(x,y)$ 训练静态映射 $x\mapsto y$；强化学习面对的是动态环境中的序贯决策。监督学习收到的是“正确答案应当是什么”的指导性反馈，强化学习收到的是“这一步或这条轨迹好不好”的评估性反馈。前者的误差归因通常较直接，后者则需要把最终回报回溯到一串历史动作，这就是时间信用分配（Temporal Credit Assignment）的难点来源。

因此，强化学习的训练数据也并非静态不变的。当前策略会决定智能体之后访问哪些状态，于是数据分布本身会随着策略更新而改变。这一点使强化学习同时面对建模问题、探索问题和训练稳定性问题。

马尔可夫决策过程（MDP）

强化学习的标准数学框架是马尔可夫决策过程（Markov Decision Process, MDP）。一个 MDP 通常写成五元组 $(\mathcal{S},\mathcal{A},P,R,\gamma)$，其中 $\mathcal{S}$ 是状态空间， $\mathcal{A}$ 是动作空间， $P(s'|s,a)$ 是状态转移概率， $R(s,a)$ 或 $R(s,a,s')$ 是奖励函数， $\gamma$ 是折扣因子。

“马尔可夫”这个词的核心含义是：如果当前状态已经把决策所需的信息概括完整，那么未来只取决于当前状态和当前动作。它并不要求系统真的没有历史，重点是要求当前状态已经足够代表历史中与决策相关的部分。

价值函数与 Bellman 方程

强化学习里最重要的两个量是状态价值函数（State-value Function）和动作价值函数（Action-value Function）：

\[V^\pi(s)=\mathbb{E}_\pi[G_t\mid s_t=s],\qquad Q^\pi(s,a)=\mathbb{E}_\pi[G_t\mid s_t=s,\ a_t=a]\]

$V^\pi(s)$ 描述“在状态 $s$ 下，按策略 $\pi$ 继续行动，长期回报大约是多少”；$Q^\pi(s,a)$ 则更进一步，描述“在状态 $s$ 下先做动作 $a$，再按策略 $\pi$ 继续行动，长期回报大约是多少”。

Bellman 方程（Bellman Equation）把“长期回报”写成“即时奖励 + 下一步价值”的递归形式。对固定策略 $\pi$，状态价值满足：

\[V^\pi(s)=\mathbb{E}_\pi\big[r_{t+1}+\gamma V^\pi(s_{t+1})\mid s_t=s\big]\]

这条式子的直觉非常重要：一个状态值多少钱，不需要把未来整条轨迹一口气全部展开，只要看“这一步先拿到多少，再加上下一状态值多少钱”。这就是动态规划思想在强化学习中的核心落点。

若目标是最优控制，则最优动作价值函数满足 Bellman 最优方程：

\[Q^*(s,a)=\mathbb{E}\big[r_{t+1}+\gamma\max_{a'}Q^*(s_{t+1},a')\mid s_t=s,\ a_t=a\big]\]

它表达的是：当前动作的最优价值，等于这一步的即时奖励，加上下一状态里最佳后续选择的折扣价值。价值型方法、时序差分学习（Temporal-Difference Learning, TD）以及 Q-Learning，都是围绕这个递归结构展开的。

价值方法：Q-Learning 与 DQN

价值型方法（Value-Based Methods）先估计“某个状态或状态-动作对值多少钱”，再根据价值做决策。最经典的做法是 Q-Learning。它不直接记住“这一步该做什么”，通常会维护一个动作价值估计 $Q(s,a)$，让模型逐步学会哪些动作长期更划算。

Q-Learning 的标准更新写成：

\[Q(s,a)\leftarrow Q(s,a)+\alpha\Big(r+\gamma\max_{a'}Q(s',a')-Q(s,a)\Big)\]

这里 $r+\gamma\max_{a'}Q(s',a')$ 是新的目标值（TD target），它把“这一步拿到的即时奖励”和“下一步开始最好还能拿到多少”拼接在一起；括号里的整体差值是 TD 误差（TD error），表示旧估计和新观察之间的偏差。Q-Learning 每见到一次新的转移样本，就用它修正一次账本。

当状态空间很小，例如离散网格迷宫，价值可以直接存成 Q 表；当状态变成图像、传感器序列或高维特征时，就需要用神经网络近似 $Q(s,a)$，这就是 DQN（Deep Q-Network）。它没有改变基本思想，只是把“查表记账”升级成“让网络来估值”。

SARSA（State-Action-Reward-State-Action）则代表另一种重要的 on-policy 时序差分路线。它把 Q-Learning 中的 $\max_{a'}Q(s',a')$ 替换成策略实际下一步会采取的动作 $a'$，因此更新式写成

\[Q(s,a)\leftarrow Q(s,a)+\alpha\Big(r+\gamma Q(s',a')-Q(s,a)\Big)\]

这一区别意味着：Q-Learning 更像“按最优后续动作记账”，SARSA 更像“按当前策略真实会怎么走来记账”。前者更激进，后者更保守；理解这一区别，有助于看清 on-policy 与 off-policy 方法的核心分野。

策略方法：Policy Gradient、Actor-Critic 与 PPO

策略型方法（Policy-Based Methods）直接参数化策略，不先学习价值表 $\pi_\theta(a\mid s)$。给定状态，模型直接输出动作概率分布或连续控制参数，再通过优化把高回报动作的概率提高、低回报动作的概率压低。它尤其适合连续动作空间，因为这类问题往往很难穷举所有动作再逐个估值。

策略梯度（Policy Gradient）的基本形式是：

\[\nabla_\theta J(\theta)=\mathbb{E}\big[\nabla_\theta \log \pi_\theta(a_t\mid s_t)\,G_t\big]\]

它的含义可以概括成一句话：最终效果好的动作，以后更常做；最终效果差的动作，以后更少做。问题在于，直接用 $G_t$ 更新通常方差很大，训练容易抖动。

于是就出现了 Actor-Critic。Actor 负责输出策略，也就是“怎么行动”；Critic 负责评估当前状态或动作值，也就是“这一步大概值多少”。Critic 提供更稳定的基线或优势估计，Actor 再沿着这个更平滑的信号更新策略。这样做的结果是：策略更新方向仍然由回报决定，但梯度噪声显著更可控。

PPO（Proximal Policy Optimization）可以看作一种工程上非常成功的 Actor-Critic 变体。它的核心思想核心是给策略更新加护栏，限制新旧策略之间的偏移幅度，避免一步改得过猛导致训练失稳。因此，PPO 在机器人控制、游戏智能体和大模型对齐里都很常见。

探索与利用

强化学习始终要面对探索与利用（Exploration vs. Exploitation）的权衡。利用意味着优先选择当前已知回报较高的动作；探索意味着尝试那些暂时不确定、但可能更优的动作。只利用，策略可能很快卡在局部最优；只探索，又会浪费大量样本在明显不好的选择上。

这个矛盾在强化学习里是结构性的，因为策略会影响后续看到的数据。常见做法包括 $\epsilon$-greedy、熵正则化（Entropy Regularization）、Boltzmann exploration、上置信界（UCB）等。它们形式不同，但共同目标一致：既让模型敢于试错，又不至于长期停留在无意义的随机行动里。

Model-Based 与 Model-Free

另一条常见划分标准是 model-based 与 model-free。二者的区别不在于是否使用神经网络，而在于是否显式学习或利用环境动力学。

类型	核心思路	优势	代价
Model-Based RL	显式学习或已知状态转移与奖励模型，再据此规划或生成模拟轨迹	样本效率通常更高；能做前瞻规划	环境模型一旦学偏，规划也会被带偏；实现更复杂
Model-Free RL	不显式建模环境，直接从交互样本学习价值函数或策略	实现相对直接；适合复杂高维环境	样本效率通常较低；对真实交互成本更敏感

价值型方法如 Q-Learning、DQN，策略型方法如 REINFORCE、PPO，多数都属于 model-free 路线；若先学习一个世界模型（World Model）或已知环境转移，再基于模型做搜索和规划，则属于 model-based 路线。实际系统也常把两者混合使用。

和大模型对齐的衔接

大模型时代出现的 RLHF、PPO-based alignment、GRPO 等方法，属于强化学习思想在语言模型上的应用层。它们沿用的仍然是策略、奖励、回报、优势函数和策略优化这些通用概念，只是把环境替换成“基于 prompt、回答和偏好反馈构成的交互过程”。因此，理解通用强化学习基础之后，再进入后文的强化学习对齐，会更容易看清哪些是 RL 本体，哪些是大模型场景下的特化设计。

统计学习

统计学习（Statistical Learning）强调从数据由某种概率机制生成这一视角理解机器学习。前面的概率论与统计已经介绍了概率、似然、MLE、MAP、边缘化与随机过程；这里把这些概念收束成机器学习里的几条主线：模型究竟在建模什么分布，隐藏变量怎样进入问题，推断为什么会变难，以及“相关”与“因果”为什么并非同一件事。

从分布到学习问题

从统计学习视角看，很多模型的区别首先不在神经网络层数或树的深度，而在于它们选择建模哪一种概率对象。判别式模型（Discriminative Model）直接学习 $p(y\mid x)$ 或决策边界，关心“给定输入后标签怎么判”；生成式模型（Generative Model）则更关心 $p(x,y)$、$p(x\mid y)$ 或带隐藏变量的联合分布，关心“数据是如何被生成出来的”。

这种划分并不同于“一个更先进、一个更落后”。判别式方法通常更直接服务于分类或回归目标；生成式方法则更容易表达不确定性、缺失变量和隐含结构。朴素贝叶斯、高斯混合模型（GMM）、隐马尔可夫模型（HMM）偏生成式；逻辑回归、支持向量机（SVM）、条件随机场（CRF）偏判别式。HMM 与 CRF 的细节放在后面的经典机器学习部分展开，这里只强调它们在统计建模立场上的差异。

概率图模型

概率图模型（Probabilistic Graphical Model, PGM）用图结构表达随机变量之间的条件独立关系，并把高维联合分布拆成较小的局部因子。它的核心价值核心是把哪些变量直接相互作用、哪些依赖可以被切断写成显式结构，从而让建模、推断和解释都更清晰。

对象	关注点	典型形式	备注
贝叶斯网络（Bayesian Network）	有向依赖与条件独立	有向无环图（DAG）	适合表达“父节点影响子节点”的生成结构
因子图（Factor Graph）	联合分布如何分解为若干局部因子	变量节点 + 因子节点二部图	更强调分解结构，常作为统一表达方式
HMM / CRF	序列中的局部依赖	链式图结构	HMM 偏生成式，CRF 偏判别式

贝叶斯网络适合表达“一个变量如何通过若干中间变量影响另一个变量”的有向依赖；因子图则更偏向把复杂联合分布拆成局部势函数（Factor）相乘的形式。若问题具有明显序列结构，HMM 和 CRF 就是最典型的链式概率图模型实例。它们之所以重要，不仅因为历史地位高，还因为许多现代模型虽然实现方式更复杂，仍然在利用“局部分解 + 全局归一化/推断”这条思想主线。

潜变量、EM 与变分推断

统计学习里很多问题之所以变难，核心是因为模型里存在隐藏变量（Latent Variable）$z$。一旦联合分布写成 $p(x,z)$，训练或预测往往都要面对边缘化：

\[p(x)=\sum_z p(x,z)\quad \text{或} \quad p(x)=\int p(x,z)\,dz\]

当这个求和或积分无法直接算清时，推断（Inference）就成为核心问题。EM（Expectation-Maximization）适合一类带潜变量的参数估计问题：E 步先根据当前参数估计隐藏变量的后验分布或其期望统计量，M 步再在这些期望量上更新参数。GMM 的训练、HMM 的 Baum-Welch 算法，都是这一路线的经典例子。

若后验分布本身也难以精确求解，就需要近似推断。变分推断（Variational Inference, VI）的思路是：选一个可计算的近似分布来避免直接计算真实后验 $p(z\mid x)$ $q(z)$ 去逼近它。于是问题从“直接求后验”转化为“在一个可处理的分布族里找最接近后验的那个近似”。这一思路后来也自然延伸到了现代深度生成模型，例如变分自编码器（VAE）的训练就建立在变分推断框架之上。

因果图与 do-calculus

统计相关性回答的是“变量经常一起变化吗”，因果推断（Causal Inference）回答的则是“如果我主动干预一个变量，另一个变量会怎样变”。这两类问题在形式上很接近，但含义完全不同。观察性条件概率 $p(y\mid x)$ 只说明在看到 $x$ 时， $y$ 通常是什么样；干预分布 $p(y\mid \mathrm{do}(x))$ 讨论的是把 $x$ 强行设定为某个值后， $y$ 会怎样变化。

因果图（Causal Graph）通常也写成有向无环图，但它表达的已经从统计依赖扩展到因果生成结构。混杂因素（Confounder）、中介变量（Mediator）和碰撞点（Collider）之所以重要，正是因为它们决定了哪些相关性可以被解释为因果效应，哪些只是共同原因或选择偏差造成的表象相关。do-calculus 则是一套把干预分布改写成可识别表达式的规则系统，用来判断在给定图结构下，目标因果效应是否能够从可观测分布中恢复出来。

在这份速查里，因果推断只保留这一层定位：它是统计学习向更强解释目标的延伸。普通监督学习通常停在“预测得准”，统计学习进一步讨论“不确定性和隐藏结构怎么处理”，而因果学习则继续追问“如果系统被主动改变，结果会不会跟着改变”。三者核心是建模目标逐步增强的不同层级。

表示学习与适配策略

与“学习范式”不同，下面这些概念从按监督信号来源分类转向分别回答另外几个问题：表示该怎样学、计算该怎样近似、已有知识该怎样迁移、在极少样本下又该怎样适配。因此它们更适合看成与学习范式并列的训练目标或训练策略。

表示学习（Representation Learning）

表示学习（Representation Learning）讨论的是：如何把原始输入自动变换成更有用的特征表示，使后续任务更容易处理。它关心的不只是“最后预测对不对”，还关心模型内部是否学到了稳定、可迁移、对任务有判别力的中间表示。

传统特征工程（Feature Engineering）与表示学习处理的是同一个核心问题：如何把原始输入变成更适合下游任务的表示。但二者的方法论不同。特征工程主要依赖人工设计表示，例如词频、n-gram、统计量、规则特征与人工交叉特征；表示学习则强调由模型通过优化过程自动学出表示，例如 PCA、自编码器、词向量、上下文化表示以及深度网络中的隐藏状态。因此，传统手工特征本身通常不直接归入表示学习；只有当表示是通过训练自动获得时，它才更准确地属于表示学习范畴。

从 one-hot、BoW、词嵌入，到 BERT 的上下文化表示、Sentence-BERT 的句向量，主线始终一致：把原始符号或原始观测映射到更适合计算的表示空间。监督学习、自监督学习、对比学习都可以被用来学习表示；区别只在于监督信号来自哪里、训练目标如何设计。

对比学习

对比学习（Contrastive Learning）通过“拉近正样本、推远负样本”学习表示。这里的关键核心是样本之间的相对关系：哪些应该相似，哪些必须区分。因此它特别适合表示学习、检索、多模态对齐和度量学习（Metric Learning）。

它的真正价值不只在于“学会匹配”，更在于学会区分性特征（Discriminative Features）。如果训练信号只告诉模型“这两个文本有关”，模型很容易停留在泛泛的共性描述上；而当训练持续提供“相似对”和“不相似对”，模型就被迫回答更尖锐的问题：究竟是什么让这两个文本属于同一语义区域，又是什么让它们必须分开。对比学习因此天然擅长抑制“表面上正确但没有区分度”的表示，转而强化真正决定语义边界的特征。

例如在商品评论表示学习里，句子“物流很快，包装也完整”和“物流很快，但东西是坏的”都包含“物流很快”这类高频表述。若模型只抓住表面词汇重叠，就可能把二者编码得非常接近；但在对比学习里，前者可能与“发货速度快、体验不错”构成正样本，后者则会与“收到商品后无法使用”“质量有问题”这类负面评价更接近。模型因此会逐步学会：真正决定语义边界的，核心是“包装完整”“东西是坏的”这类改变整体语义走向的区分性片段。

从几何角度看，对比学习学到的是一个更有结构的向量空间。语义接近的文本会在局部形成簇（Cluster），语义无关或语义相反的文本则被推向更远位置。情感分析、语义检索、重复问句检测、意图聚类之所以能直接建立在 embedding 之上，本质上就是因为模型已经把“哪些内容应当靠近、哪些内容应当远离”编码进了空间结构，而不只是输出一个任务特定的分类分数。

在 NLP 中，这条路线并非突然出现的。Word2Vec 已经体现了早期的对比式思想：真实共现词是正样本，随机采样词是负样本，模型通过区分“真实上下文”和“噪声配对”学习词向量。后来的句向量和文档向量模型，则把这种思想从词级扩展到句子级和文档级：正样本可以是复述句、问答配对、查询与相关文档，负样本则是不相关句子或困难反例（Hard Negatives）。

一个常见形式是 InfoNCE 损失：

\[-\log \frac{\exp(\mathrm{sim}(z_i,z_i^+)/\tau)}{\sum_{j}\exp(\mathrm{sim}(z_i,z_j)/\tau)}\]

其中 $z_i$ 是当前样本表示， $z_i^+$ 是与它匹配的正样本表示， $\mathrm{sim}(\cdot,\cdot)$ 是相似度函数（常用余弦相似度）， $\tau$ 是温度参数（Temperature），控制分布尖锐程度。这个目标的含义是：在一堆候选中，让正确配对拿到最高分，同时把不相关样本推远。

对比学习在句向量任务中的意义尤其大。交叉编码器（Cross-Encoder）把两个句子拼接后联合编码，能够做非常细的交互判断，但它直接输出的是“这一对句子有多像”，而非可复用的独立句向量；一旦候选集合很大，计算量会迅速爆炸。双编码器（Bi-Encoder）路线则把两个文本分别编码成独立向量，再用余弦相似度或点积比较。SBERT 正是这一路线的经典代表：它通过孪生网络（Siamese Network）与对比式微调，把原本不适合作为通用句向量的 BERT 表示空间，改造成适合检索、聚类与语义匹配的 embedding 空间。

工程上，负样本既可以来自同一 batch 中的其他样本（In-batch Negatives），也可以来自专门构造的困难负样本（Hard Negatives）。所谓困难负样本，指的核心是在表面上很像、但语义上不应被判为同一项的样本。例如检索里，与查询主题相近但并不真正回答问题的文档；句向量训练里，措辞高度相似却语义立场不同的句子；推荐里，风格相近但用户最终没有点击或转化的候选。它们之所以“困难”，正是因为模型若只依赖浅层词汇重叠、模板结构或主题相近性，很容易把这类负样本误判成正样本。

困难负样本的价值在于：它迫使模型放弃过于粗糙的匹配捷径，转而学习更细粒度的区分信号。随机负样本通常太容易分开，训练后期提供的梯度会迅速变弱；而困难负样本更接近真实决策边界，能持续推动表示空间学习“看起来相似但本质不同”的区别。不过它也有代价：若负样本挖掘质量不高，容易把本来就相关的样本错当成负例，形成假负样本（False Negatives），反而会伤害表示质量。因此，现代检索和 embedding 训练里，Hard Negatives 往往与 in-batch negatives、教师模型挖掘（teacher mining）或 reranker 筛选结合使用，而非完全依赖人工拍脑袋构造。

CLIP、Sentence-BERT、现代检索 embedding、推荐召回模型，乃至许多 query-document dual encoder，本质上都在利用这种“正样本拉近、负样本推远”的训练逻辑。区别主要不在原理，而在样本如何构造、负样本如何选择，以及表示对象是词、句子、文档还是跨模态对。

负采样

负采样（Negative Sampling）是与对比学习和词向量训练密切相关的一类近似策略。它的核心动机是：当候选空间极大时，没有必要每次都与所有候选比较；只保留 1 个正样本和少量负样本，就能得到足够强的判别信号。它把原本代价高昂的“大规模归一化选择问题”，近似成若干个“真配对还是噪声配对”的二分类判断。

在 Word2Vec 的 Skip-gram 中，若直接对全词表做 softmax，分母需要对 $|{\cal V}|$ 个词求和，计算代价很高。负采样则对每个正样本对 $(w,c)$ 只保留少量噪声词 $w_i$，并最大化：

\[\log\sigma(v_w^\top v_c)+\sum_{i=1}^{k}\log\sigma(-v_w^\top v_{w_i})\]

这里 $\sigma$ 是 sigmoid 函数，第一项鼓励真实配对的内积更大，第二项鼓励噪声配对的内积更小。这样一来，计算量就从与词表大小同阶，降到与 $1+k$ 个样本同阶。负样本也不一定完全随机：Word2Vec 常按词频的 $0.75$ 次方采样；现代对比学习则常用 in-batch negatives 或 hard negative mining。推荐系统召回、知识图谱嵌入、句向量训练等任务里，这种思想到今天仍然非常常见。

迁移学习

迁移学习（Transfer Learning）讨论的是：先在数据更丰富、任务更通用的源任务上学到参数或表示，再把这些知识迁移到目标任务。它核心是一种跨任务复用知识的训练策略。现代大模型先预训练、再微调，本质上就是迁移学习。

BERT 就是这一思路的典型例子。它通常先在大规模通用文本上做语言建模预训练，例如维基百科（Wikipedia）这类覆盖面很广的语料；模型先学到词法、句法、语义关系以及上下文表示能力。随后再把这一预训练模型迁移到具体任务上，例如情感分类、自然语言推断（NLI）、命名实体识别（NER）或文本匹配，只需接上任务头并用该任务的数据继续微调，就能把通用语言知识转化为面向目标任务的能力。

它与对比学习不在同一层面。对比学习回答的是“预训练阶段该用什么目标来学表示”；迁移学习回答的是“学到的表示如何迁到新任务”。两者经常配合出现：例如先在海量无标签图像上用对比学习预训练视觉编码器，再把该编码器迁移到医学影像分类、工业缺陷检测或小样本识别任务上。

少样本学习

少样本学习（Few-shot Learning）处理的是“每个任务只有极少标注样本”时如何仍然快速泛化。它通常建立在迁移学习或预训练模型之上：模型先学到一套通用表示，再在很少示例下快速适配新任务。困难不在于单个任务本身，而在于模型必须把以往经验迁移到新任务上。直觉上，它更像“学会如何快速学习”，而非“把一个任务彻底学透”。

零样本（Zero-shot）

零样本（Zero-shot）指模型在目标任务上没有任何专门示例，也能凭借已有知识完成任务。大语言模型通过指令理解实现的很多能力都属于这一类。例：不给任何情感分类样例，只写“判断下面评论是正面还是负面”，模型仍可能完成分类。

单样本（One-shot）

单样本（One-shot）指只给 1 个示例。这个示例的价值核心是告诉模型“输出格式、任务边界和你想要的判别标准”。例如先给一条“商品评论 → 正面”的例子，再让模型判断下一条评论。

K 样本（K-shot）

K 样本（K-shot）指给每类或每任务提供 $K$ 个示例。随着 $K$ 增大，模型更容易对任务意图和判别标准形成稳定估计。工程上，prompt 中的 few-shot 示例本质上就是在上下文窗口里做一种“临时任务适配”。

元学习（Meta-learning / MAML）

元学习（Meta-learning）研究“让模型更快适应新任务”。MAML（Model-Agnostic Meta-Learning）的核心是学一个好的初始化参数 $\theta$，使模型只需少量梯度更新就能适配新任务。

MAML 的外层目标可概括为：

\[\min_\theta \sum_{\mathcal{T}} \mathcal{L}_{\mathcal{T}}\big(\theta-\alpha\nabla_\theta \mathcal{L}_{\mathcal{T}}(\theta)\big)\]

其中 $\mathcal{T}$ 表示一个任务， $\alpha$ 是内层更新步长。读法是：先用当前参数在某任务上走一步，再看更新后的参数在该任务上的表现好不好；如果“一步后就变好”，说明初始化是好的。类比来看，MAML 训练的核心是“只要老师讲一遍就能迅速举一反三的学生”。

原型网络（Prototypical Networks）

原型网络（Prototypical Networks）把每个类别表示成嵌入空间中的一个“类中心（Prototype）”。对类别 $k$，其原型定义为该类支持集（Support Set）样本嵌入的平均：

\[c_k=\frac{1}{|S_k|}\sum_{(x_i,y_i)\in S_k,\ y_i=k} f_\theta(x_i)\]

这里 $f_\theta(x_i)$ 是样本的向量表示， $S_k$ 是类别 $k$ 的支持样本集合。分类时，把新样本映射到嵌入空间，看它离哪个原型最近。直觉上，这像“每一类先算一个代表点，新样本按离哪个代表点最近来归类”。在 few-shot 图像分类中，这种方法往往比直接训练复杂分类头更稳。

表示聚合与池化

池化（Pooling）可以先按一句人话来理解：把一组相邻或相关的特征，压缩成更短、更稳定、更容易继续处理的摘要。它核心是对已有特征做聚合（Aggregation）或下采样（Downsampling）。这里的下采样指：沿某些维度减少位置数或采样点数，让表示尺寸变小、分辨率变粗。例如把 $4\times 4$ 的特征图压成 $2\times 2$，或把一长段序列压成更短的摘要向量，都属于下采样。

若把一组输入特征记为 $x_1,\dots,x_k$，则池化可以抽象写成

\[y=\mathrm{Pool}(x_1,\dots,x_k)\]

这里 $\mathrm{Pool}$ 可以是最大值（Max Pooling）、平均值（Average Pooling）、求和（Sum Pooling）或更复杂的加权聚合。它们做的事不同，但主线一致：把“多个位置/多个元素的表示”变成“更少的表示”。

池化之所以重要，是因为很多任务并不需要保留每个细节位置的完整分辨率。图像分类不一定关心边缘恰好落在第 17 个还是第 18 个像素；句子分类也不一定要求记住某个情绪词出现在第 6 个还是第 7 个 token。此时，把局部细节适度压缩，往往能提升稳定性、降低计算量，并让后续层更关注“有没有出现模式”，而非“模式的坐标是否一模一样”。

下采样（Downsampling）

这里单独把下采样拎出来，是因为它比“池化”更宽。池化当然是一类下采样，但下采样并不同于池化。只要一个操作会让表示在某个维度上的位置数减少、采样点变稀或分辨率变粗，它就属于下采样。最大池化、平均池化、步幅卷积（Strided Convolution）、序列 patch 化、音频降采样、时间窗口聚合，本质上都在做这件事。

若一维序列长度从 $T$ 变成 $\lfloor T/s\rfloor$，或二维特征图从 $H\times W$ 变成 $\lfloor H/s\rfloor\times \lfloor W/s\rfloor$，其中 $s>1$ 是下采样倍率，那么模型面对的网格会从密集坐标转向更稀疏、更粗粒度的表示空间。收益通常有三类：计算量下降，后续层感受野相对扩大，以及模型更容易聚焦高层模式而非微小位置抖动。

代价也同样明确。下采样会压缩细节，因此边界、尖峰、高频纹理和短时突发模式都可能被抹平。若信号里存在高频成分，而下采样前又没有足够平滑或低通处理，这些高频成分还会折叠成错误的低频模式，也就是混叠（Aliasing）。因此，下采样从来核心是在分辨率、稳定性、感受野和信息保真度之间做结构性取舍。

最常见的几种池化

最大池化（Max Pooling）保留一组特征里最强的那个响应。若某个窗口里有一个边缘、某个关键词或某个邻居信号特别强，最大池化会把它留下来。它更像在问：这一小块区域里，最显著的模式有没有出现。

平均池化（Average Pooling）对一组特征取平均，更强调整体趋势而非最强局部点。它更像在问：这一块区域总体上激活强不强、语义平均水平如何。

求和池化（Sum Pooling）常见于图网络和集合建模，用于累积总量信息。若节点数量本身有意义，求和会把“有多少邻居/总共多强”也编码进去；平均池化则更强调归一化后的平均强度。

全局池化（Global Pooling）表示已经从看局部窗口扩展到直接把整张特征图、整段序列或整个节点集合压成一个向量。例如全局平均池化（Global Average Pooling, GAP）会把一整个空间维度平均掉，得到“每个通道在全局上的平均响应”。自适应池化（Adaptive Pooling）则把输出尺寸预先固定，例如无论输入特征图多大，最终都压成 $1\times 1$ 或 $7\times 7$。

不同网络里的含义

在卷积神经网络（CNN）里，池化最经典的含义是沿空间维度做局部下采样。例如一张特征图经过 $2\times 2$ 最大池化后，宽高会缩小，局部最强响应被保留下来。它的直接收益有三点：减小特征图尺寸、扩大后续层的感受野（Receptive Field）、并降低模型对小幅平移和局部扰动的敏感度。

在时序模型和文本模型里，池化更常表示沿时间或序列长度维度做聚合。例如把所有 token 表示做平均池化，得到整句向量；把一段音频帧表示做最大池化，得到“这一整段里最强的模式”。这里池化的重点从二维空间下采样转向把变长序列压成固定长度表示，方便做分类、检索或相似度计算。

在图神经网络（GNN）里，池化有两层常见含义。第一层是邻域聚合（Neighborhood Aggregation）：一个节点把邻居表示做均值、求和或最大值，再更新自己；这可以理解为“节点级局部池化”。第二层是图级读出（Graph-level Readout）：把整张图的节点表示再做一次全局聚合，得到整个图的表示，用于图分类、图回归等任务。

在 Transformer 里，池化通常不再以“池化层”这一模块形式高频出现，但概念仍然存在。句子分类常取 $[\mathrm{CLS}]$ 位置表示，或对所有 token 做平均池化；Embedding 模型也常对最后一层隐藏状态做 mean pooling / max pooling 得到句向量。进一步看，注意力（Attention）本身也可以理解成一种带内容依赖的加权聚合：区别只在于普通池化的规则通常固定，而注意力的权重是由输入动态决定的。

池化到底保留了什么、丢掉了什么

池化保留的是摘要信息，丢掉的是更精细的位置细节。最大池化更偏向“是否出现过显著模式”，平均池化更偏向“整体平均状态如何”，求和池化则更偏向“总量有多大”。因此，池化总带有一种 trade-off：表示更紧凑、更稳、更省算力，但精确定位能力会下降。

因此，不同任务会选择不同聚合方式。图像分类往往欢迎一定程度的位置不敏感，因此池化很自然；语义检索希望一整句压成一个句向量，因此句级池化很常见；但像语义分割、目标检测、序列标注这类任务，输出本身依赖逐位置判断，就不能过早把位置信息池掉，否则细粒度边界会被抹平。

泛化、过拟合与偏差—方差

机器学习更关心模型离开训练集之后能否维持稳定表现。泛化（Generalization）、过拟合（Overfitting）、欠拟合（Underfitting）与偏差—方差权衡（Bias–Variance Tradeoff）描述的，就是这件事。

泛化

泛化（Generalization）指模型在未见样本上的表现。若训练数据与未来输入都来自同一数据分布 $P(X,Y)$，则模型的总体风险可写成：

\[R(f)=\mathbb{E}_{(x,y)\sim P}\big[\ell(f(x),y)\big]\]

这里 $R(f)$ 是真实风险（Population Risk），表示模型 $f$ 在整个真实分布上的平均损失； $\ell(f(x),y)$ 是单样本损失；期望 $\mathbb{E}$ 表示对所有可能样本做平均。训练时真正能看到的只有有限样本，因此优化的通常是经验风险 $\hat R_n(f)$，而非这个理想化的总体风险。

训练误差与测试误差之间的差距，常称为泛化间隙（Generalization Gap）。间隙小说明模型在未见数据上比较稳定；间隙大则说明模型过度依赖训练样本中的偶然细节。

内插与外推

内插（Interpolation）与外推（Extrapolation）描述的是：模型面对未见样本时，究竟是在已观测范围之内补全规律，还是在已观测范围之外延伸规律。二者都属于预测，但难度和风险完全不同。

以一维回归为例，若训练样本的输入主要落在区间 $[a,b]$ 内，那么对 $x\in[a,b]$ 附近新样本做预测，更接近内插；对明显落在这个范围之外的 $x$ 做预测，则更接近外推。内插依赖的是“训练数据已经覆盖了这片区域”；外推依赖的是“模型学到的规律在未见区域仍然继续成立”。后者显然要求更强。

在机器学习里，大多数标准泛化讨论其实都更接近内插。只要训练集与测试集近似满足独立同分布（IID）假设，测试样本通常仍然落在训练分布支持集（Support）附近，模型主要是在已知数据流形附近做平滑补全。因此，现代高容量模型即使参数极多，只要训练分布覆盖充分，仍然能在测试集上表现得相当稳定。

外推对应的则是更困难的分布外泛化（Out-of-Distribution Generalization, OOD Generalization）。此时，测试输入已经从训练分布中的轻微变化扩展到进入了训练时很少见、甚至从未见过的区域。自动驾驶模型若只在晴天高速公路上训练，却要在暴雪、泥地和夜间乡道上决策；医学模型若主要见过成人数据，却被要求用于儿童病例；金融模型若只在平稳市场阶段训练，却要应对极端波动期，这些都属于外推问题。

外推之所以困难，根源在于经验风险最小化并不自动保证“规律可被安全延伸到训练分布之外”。模型完全可能在训练分布内部拟合得很好，却在一旦离开这片区域后迅速失效。因此，外推能力往往比普通测试集精度更能检验模型究竟学到了稳定结构，还是只学会了训练分布内部的高质量插值。

大语言模型里有一种非常典型的外推形式：长度外推（Length Extrapolation）。若模型训练时主要见到 $4\mathrm{K}$ 或 $8\mathrm{K}$ 上下文，却在推理时被要求处理 $128\mathrm{K}$ 甚至更长序列，那么它面对的就已经从“在熟悉长度范围内继续理解”扩展到在训练长度之外延伸位置建模规律。RoPE 缩放、NTK-aware 调整、YaRN 等方法，本质上都是在尽量让模型把短上下文中学到的位置规律外推到更长序列上。

因此，可以把两者压缩成一句话：内插更像在已知区域里补全空白，外推更像拿着已总结出的规律去穿越未知边界。前者是标准机器学习评测里的常态，后者则更接近真实系统进入新环境时会遭遇的硬问题。

过拟合

过拟合（Overfitting）指模型在训练集上持续吸收局部细节、噪声与偶然模式，但这些信息不能稳定迁移到未见样本上。它的典型外观是：训练集表现继续改善，而验证集或测试集表现停止改善、开始恶化，二者之间的泛化间隙（Generalization Gap）不断扩大。

过拟合描述的是一种训练现象，本身并不自动等于“模型已经不可用”。更准确的分析方式，是区分模型到底过拟合了什么。分类任务里最常见的两类退化并不完全相同：一类是决策边界本身开始贴合训练集偶然性；另一类是分类边界大体没变，但模型对既有判断越来越极端，概率校准逐步恶化。

两种常见退化

类型	退化对象	训练期常见信号	主要后果
决策边界过拟合	模型学到只在训练集上成立的判别规则	训练 F1 / Accuracy 持续上升，验证 F1 / Accuracy 停滞或下降；训练 loss 很低而验证指标回落	真正损害分类泛化，换一批数据就更容易判错
置信度过拟合	模型对已有判断越来越极端，logit 持续膨胀	验证 F1 基本稳定，但验证 loss、Brier Score、ECE 等校准指标恶化；预测概率更频繁地逼近 0 或 1	硬分类结果可能不变，但概率值本身变得不可信

前一类退化直接伤害模型的判别泛化，后一类退化主要伤害概率校准（Calibration）。因此，若系统只需要固定阈值之后的硬标签，置信度过拟合通常是次一级问题；若系统依赖概率值本身做风险分层、阈值调度、排序融合或人工兜底，置信度过拟合就会立刻变成工程问题。

训练期间的识别信号

识别过拟合时，不能只盯着单一 loss，而要同时观察训练集指标、验证集指标、概率分布形状与误差结构。最典型的信号包括：

训练 loss 持续下降，但验证 loss 在某个阶段后停止下降，随后回升。
训练 Accuracy / F1 继续提高，而验证 Accuracy / F1 停滞甚至下滑。这通常提示决策边界开始贴近训练集特有模式。
验证 F1 基本稳定，但验证 loss 明显变差。这类“指标稳、loss 崩”的组合，更接近置信度过拟合而非判别边界崩坏。
logit 绝对值持续增大，softmax 或 sigmoid 输出更集中到接近 0 和 1 的两端，说明模型在继续放大自信度。
训练后期错误样本逐渐集中在少量硬样本，而 easy case 的置信度仍在继续极化，说明模型已经从学新的判别规律转向在强化已有判断的幅度。
不同随机种子、不同验证切分下的波动变大，说明模型开始依赖训练样本中的偶然结构。

常见诱因

过拟合并不只由“参数太多”导致。更常见的诱因包括：样本量不足、类别长尾、标签噪声、训练集与线上分布不一致、数据泄露、训练时间过长、正则化过弱、batch 过小导致梯度噪声放大，以及高重复语料让模型过度记忆头部模式。对深度模型而言，容量大只是风险放大器，真正决定是否过拟合的，通常是模型自由度与有效监督信号之间是否失衡。

欠拟合

欠拟合（Underfitting）指模型连训练数据中的主要结构都没有学出来，表现为训练集和验证集都做不好。它对应的是高偏差（High Bias）状态：模型的平均预测长期偏离真实目标，也就是模型拟合能力不够，或训练过程根本还没有进入足够低误差的区域。

与过拟合相比，欠拟合的特征通常核心是两边都差，而且差得很一致。训练集上的 loss 仍然偏高，训练 Accuracy / F1 也上不去，说明模型尚未把任务主结构写进参数中。

这里还要把现象与成因拆开：欠拟合强调“结果还不行”，欠容量强调“表达上限可能不够高”。若换更大模型、增加可训练参数或放宽结构限制后，训练集与验证集同步改善，说明此前更接近欠容量；若只是把训练跑满、把学习率调顺、把输入截断问题修掉后性能就明显提升，则原先更接近训练不足或优化不足。

训练期间的识别信号

训练 loss 和验证 loss 都较高，而且两者相差不大。
训练 Accuracy / F1 与验证 Accuracy / F1 同时偏低，没有形成明显的泛化间隙。
训练到后期时，两条曲线仍然一起缓慢下降，说明模型可能还没收敛；若提前停止训练，问题更接近“没训练够”。
即使继续训练较长时间，训练指标仍然明显低于任务应有上限，说明容量、特征或优化配置本身不足。
错误不仅集中在边界样本或少数难例，还连大量 easy case 都无法稳定学会。

常见诱因

欠拟合常见于模型容量过小、特征表达弱、模型结构与任务不匹配、正则化过强、学习率设置不当、训练轮数不够、输入信息被过度截断，或任务本身需要非线性组合而模型只允许非常受限的线性表达。工程上，欠拟合也经常伪装成“模型很稳但一直不强”：曲线不震荡、训练不发散，却始终到不了可接受的性能区间。

与过拟合的区分

一个实用判断准则是先看训练集是否已经被充分学会。若训练集指标本身就很差，优先考虑欠拟合；若训练集指标很好而验证集开始回落，优先考虑过拟合；若验证集分类指标基本不动，但验证 loss 与校准指标变差，则更接近置信度过拟合。把这三种状态区分清楚，后续的调参与正则化方向才不会混淆。

坍缩（Collapse）

坍缩（Collapse）描述的是训练过程中的一种退化解（Degenerate Solution）：模型表面上仍在输出结果，但内部表示、预测分布或优化轨迹已经失去有效多样性，学习过程塌到某种简单、无用或几乎无信息的模式上。它和过拟合不同。过拟合仍然在“认真地区分训练样本”，只是把训练集细节学得过头；坍缩则意味着模型逐渐失去区分能力，或者训练目标退化为某种几乎不再提供有效学习信号的状态。

类型	典型表现	例子
Mode Collapse	不管输入如何变化，输出都向少数模式收缩，预测类别或生成模式高度单一	分类器几乎把所有样本都判成“满意”；GAN 只会生成少数几种图像
Representation Collapse	编码器输出趋于相同或近似相同的向量，样本间表示几何结构被压扁	所有 hidden state / embedding 都高度相似，下游分类器只能依赖噪声做区分
Objective / Loss Collapse	训练目标迅速退化到近乎恒定的无信息状态，loss 长时间停在极低、极高或近乎不变的单一水平，梯度也可能同步衰减	自监督目标被模型用常数解“钻空子”；梯度消失后 loss 几乎不再变化；某些错误实现让目标函数被提前满足

其中前两类最常见也最容易直观理解。Mode Collapse 强调输出空间的多样性消失；Representation Collapse 强调内部表示空间的多样性消失。第三类常被笼统地称作 loss collapse，但更准确的理解是“优化目标退化”或“训练目标坍缩”：loss 本身只是一个观测信号，真正的问题在于模型已经进入某种几乎不再产生有效学习内容的状态。

判断坍缩时，关键核心是看输出分布、表示分布与样本间差异是否还存在。若某个 epoch 中同时出现极低 loss 样本和极高 loss 样本，说明模型仍在把 easy case 与 hard case 区分开，训练信号仍有明显异质性；这更像正常训练中的难度分层，而非已经坍缩。真正的坍缩通常会伴随更一致的退化迹象，例如预测类别快速单一化、embedding 方差急剧缩小、梯度长期接近 0，或者 loss 在大多数样本上收缩到近乎同一个无信息水平。

坍缩在不同任务中的诱因并不相同。对比学习（Contrastive Learning）里若缺少 stop-gradient、predictor、负样本或方差保持机制，表示空间很容易整体塌平；生成模型里，判别器与生成器失衡会诱发 mode collapse；分类任务里，极端类别不平衡、错误的损失实现、过强正则化或训练数据本身标签塌缩，都可能把模型推向低信息输出。工程上监控坍缩，通常需要同时看 loss、预测类别分布、embedding 方差、梯度范数与验证集指标，而不能只盯着单一数值曲线。

偏差与方差

偏差（Bias）与方差（Variance）是分析泛化误差来源的经典视角。对平方损失（Squared Loss），常见分解写成：

\[\mathbb{E}\big[(Y-\hat f(X))^2\big]=\mathrm{Bias}^2+\mathrm{Variance}+\sigma^2\]

左边的 $\mathbb{E}[(Y-\hat f(X))^2]$ 是模型的平均平方误差； $\mathrm{Bias}^2$ 表示模型平均预测与真实函数之间的系统性偏离； $\mathrm{Variance}$ 表示模型对训练样本波动的敏感度； $\sigma^2$ 是数据本身不可约的噪声（Irreducible Noise），即使模型和训练过程都完美，也无法完全消除。

更直白地说，偏差看的是“模型平均预测离真实值有多远”，代表模型的拟合能力；方差看的是“换一份训练集后模型预测会抖动多大”，代表模型的稳定性。偏差高通常对应欠拟合，因为模型学不到足够有效的数据规律；方差高通常对应过拟合，因为模型过度依赖某一份训练集的细节，离开训练集后泛化能力变差。

工程上，降低偏差常靠更强模型、更好特征和更充分训练；降低方差常靠更多数据、正则化、数据增强、早停（Early Stopping）和集成学习（Ensemble Learning）。很多建模决策，本质上都是在“预测还不够准”和“预测太不稳定”之间做权衡。下表用几类典型树模型把这种权衡具体化。

模型	偏差与方差的典型状态	为什么会这样
决策树	高偏差 + 高方差风险并存	没有集成机制时，树过浅会欠拟合、偏差高；树过深又会对训练集细节极敏感、方差高，因此属于“双风险”模型
随机森林	低偏差 + 低方差	单棵深树先把偏差压低，再通过 Bagging 平均掉树与树之间的高方差
GBDT / XGBoost	低偏差 + 低方差	串行累加很多棵浅树持续降低偏差，而单棵浅树本身方差较低，再配合学习率、正则化与早停控制整体方差

因此，偏差与方差核心是在解释不同模型为什么会“学不动”或“学过头”。看树模型尤其直观：单树的问题是两头都可能出错；随机森林主要靠并行平均压方差；Boosting 家族主要靠串行纠错压偏差，再用浅树和正则化把方差稳住。

经验风险最小化与正则化

大部分监督学习训练都可以概括成同一条主线：先定义单样本损失，再在训练集上取平均形成经验风险，最后通过优化算法把它压低。正则化（Regularization）是在这条主线之上加入额外约束，用来控制复杂度并改善泛化。

经验风险最小化

经验风险最小化（Empirical Risk Minimization, ERM）是统计学习的基本训练原则。设训练集为 $\mathcal{D}=\{(x_i,y_i)\}_{i=1}^{n}$，则经验风险定义为：

\[\hat R_n(f)=\frac{1}{n}\sum_{i=1}^{n}\ell(f(x_i),y_i)\]

这里 $n$ 是样本数， $f(x_i)$ 是模型对第 $i$ 个样本的预测， $y_i$ 是真实标签， $\ell$ 是损失函数。经验风险最小化就是在假设空间 $\mathcal{H}$ 中寻找让这条平均损失最小的函数：

\[\hat f_{\mathrm{ERM}}=\arg\min_{f\in\mathcal{H}}\hat R_n(f)\]

这条原则覆盖范围极广。线性回归最小化的是平方误差经验风险，逻辑回归和多分类神经网络最小化的是交叉熵经验风险，序列标注模型最小化的是序列级条件对数似然。算法形式不同，骨架是一致的。

正则化

正则化（Regularization）是在经验风险之外，再加入一个偏好“更简单、更平滑、更稳定”解的约束项。常见写法是：

\[\hat f=\arg\min_{f\in\mathcal{H}}\hat R_n(f)+\lambda\,\Omega(f)\]

这里 $\Omega(f)$ 是正则项（Regularizer），刻画模型复杂度； $\lambda$ 是正则化强度，决定“拟合训练集”和“控制复杂度”之间的权衡。 $\lambda$ 越大，模型越保守；越小，模型越自由。

L2 正则（L2 Regularization）偏好较小权重，常写成 $\Omega(f)=\|\mathbf{w}\|_2^2$；L1 正则（L1 Regularization）偏好稀疏解，常写成 $\Omega(f)=\|\mathbf{w}\|_1$。更广义地看，早停、Dropout、数据增强、权重共享、标签平滑、参数冻结、低秩适配，都是在不同层面对模型自由度施加约束，因此都可以看作正则化思想的工程实现。

IID 与分布偏移

机器学习中的很多训练与评估结论，都建立在一个默认前提上：训练样本与未来样本来自同一统计机制。这个前提通常写成 IID（Independent and Identically Distributed，独立同分布）假设。只要这个前提破坏，训练集表现与线上表现之间就可能出现明显断裂。

IID 假设

设样本对 $(x_i,y_i)$ 来自某个联合分布 $P(X,Y)$，IID 假设写成：

\[(x_1,y_1),\dots,(x_n,y_n)\overset{\mathrm{iid}}{\sim}P(X,Y)\]

这里“独立（Independent）”表示一个样本是否出现，不影响另一个样本的生成；“同分布（Identically Distributed）”表示所有样本都来自同一个联合分布 $P(X,Y)$。这个假设让训练集平均损失能够作为总体风险的近似，也让交叉验证、置信区间和很多泛化理论成立。

IID 是理想化近似，而非自然界的铁律。时间序列、推荐系统、金融交易、医疗数据、A/B 实验日志、用户行为数据，常常都存在相关性、群组效应、时间漂移或采样偏差，因此不能机械套用 IID 设定。

分布偏移

当训练分布与测试分布不一致时，就发生了分布偏移（Distribution Shift）：

\[P_{\mathrm{train}}(X,Y)\neq P_{\mathrm{test}}(X,Y)\]

分布偏移有几种常见形式。协变量偏移（Covariate Shift）指 $P(X)$ 变化，而 $P(Y|X)$ 基本稳定；例如线上用户年龄结构变了，但“给定用户画像时是否点击”的规律没明显变。标签偏移（Label Shift）指 $P(Y)$ 变化，例如欺诈率在促销期突然上升。概念漂移（Concept Drift / Concept Shift）指 $P(Y|X)$ 本身发生变化，例如垃圾邮件发送策略升级后，原来有效的文本模式不再可靠。

因此，训练集、验证集与测试集的切分不能只追求随机均匀，还必须尽量模拟未来部署环境。若线上是时间推进场景，测试集就应按时间后移；若线上按用户或设备泛化，切分就应按实体隔离；若业务分布持续漂移，还需要做持续监控、重训和再校准。分布偏移核心是机器学习系统走向生产后的主要失效来源之一。

OOD

OOD 是 Out-of-Distribution 的缩写，意为分布外（Out-of-Distribution）。它强调的是：当前输入已经落到训练分布覆盖较弱、甚至根本没有覆盖的区域。与一般意义上的“有点噪声”不同，OOD 更像是模型被带到了一个不熟悉的世界里。

例如，一个文本分类模型训练时主要见到的是规范书面语，部署后却大量遇到拼写错误、口语、英文混杂、模板化投诉和新产品名称；一个视觉模型训练时主要见到晴天白昼图像，线上却开始接收夜间、雨雪和红外图像。这类输入即使形式上仍然属于同一任务，也可能已经超出训练分布支持范围。OOD 检测与分布外泛化因此成为真实系统里的关键问题：模型不只要尽量判对，还要在“不熟悉”时知道自己不熟悉。

数据漂移

数据漂移（Data Drift）强调的是线上数据分布会随着时间持续变化。它和 OOD 高度相关，但语境更偏工程系统：核心是整体数据来源、用户群体、业务流程或采集方式正在逐步改变。

若输入分布 $P(X)$ 发生变化，常称为数据漂移或协变量漂移；若标签分布 $P(Y)$ 变化，常表现为类别比例变化；若 $P(Y|X)$ 也改变，则更接近概念漂移。现实系统里，这些变化往往同时发生。例如促销活动带来全新的用户结构，新功能改变用户行为路径，标注口径调整导致同类样本的标签规则也跟着变化。数据漂移的工程含义很直接：离线验证通过，并不意味着模型可以长期稳定在线上工作，监控、告警、回灌和重训机制必须跟上。

鲁棒性

鲁棒性（Robustness）指模型在噪声、扰动、输入变形和分布变化下，性能是否仍能维持稳定。它关心的不只是“在标准测试集上最高能到多少分”，更关心输入一旦变脏、变偏、变怪，模型会不会立刻失效。

鲁棒性与 OOD、数据漂移并非同一概念，但三者紧密相关。OOD 和数据漂移描述的是输入环境发生了什么变化；鲁棒性描述的是模型面对这些变化时的承受能力。一个鲁棒性差的模型，可能在干净样本上分数很高，却会被轻微拼写错误、格式扰动、图像模糊、特征缺失或采样偏移迅速击穿。真实生产系统里，鲁棒性通常比单次 benchmark 分数更接近“模型能否长期可用”这个问题。

数据集工程

数据集工程（Dataset Engineering）决定了模型看到什么、以什么尺度看到、又会被哪些偏差误导。很多所谓“模型问题”，根源其实是数据问题：标签噪声、分布漂移、类别极不均衡或特征泄漏，都会直接扭曲训练结果。

黄金/白银数据集

数据集工程里常见一个实用分层：黄金数据集（Gold Dataset）与白银数据集（Silver Dataset）。黄金数据集通常指由高质量人工标注、规则严格审核或专家确认得到的小而精数据，标签噪声低，适合做最终评测、关键验证集或高价值监督信号；白银数据集则通常来自启发式规则、弱监督（Weak Supervision）、模型打标、日志回收或大规模自动清洗，规模更大、成本更低，但噪声也更高。实际工程中，常见策略核心是用白银数据集提供覆盖面和规模，用黄金数据集提供校准、纠偏与最终可信评估。

数据划分

数据划分的目标，是把学参数、做模型选择、汇报最终结果这三件事严格隔离开。若同一批数据既用来训练参数，又用来调超参数，最后还拿来汇报效果，评估结果通常会乐观得不真实，因为模型已经间接“看过”了答案。

从统计学习角度看，这三类数据分别承担三种不同职责：训练集负责让模型学习参数；验证集负责帮助人或训练流程做工程决策；测试集负责模拟真正的未知数据，给出最后一次、尽量无偏的泛化评估。三者分工清楚，模型评估才有可信度。

训练集

训练集（Training Set）用于更新模型参数。监督学习中，训练集包含输入 $x$ 与标签 $y$；模型在这批样本上计算损失（Loss）、反向传播梯度（Gradient）并更新参数，因此训练集直接决定“模型学到了什么”。它回答的问题是：在已观测样本上，模型有没有学会输入与输出之间的对应关系。

训练集通常应占数据的大头，因为参数学习需要足够多的样本来稳定估计模式。实践中常见比例是 70% 到 80%，但这并非固定规则：若数据总量非常大，训练集比例可以更高；若数据本来就少，则往往需要把更多精力放在交叉验证（Cross Validation）而非死守固定比例。

训练集上的误差通常是三者里最低的，这并不说明模型已经具有泛化能力。一个模型完全可能在训练集上表现极好，却只是记住了样本中的噪声与偶然性。训练集成绩更多反映“拟合能力”，而非“真实上线表现”。

验证集

验证集（Validation Set）用于模型选择（Model Selection）和超参数调优（Hyperparameter Tuning）。它不直接参与参数更新，但会影响训练流程中的关键决策，例如学习率（Learning Rate）、正则化强度、模型深度、树的数量、batch size、阈值选择，以及是否执行 Early Stopping。

验证集回答的问题是：在若干候选配置里，哪一个更可能在新数据上表现最好。因此，验证集像训练过程中的“模拟考试”：它并非最终成绩单，但会决定你在训练期间如何改模型、如何调参数、何时停止训练。

验证集通常占总数据的 10% 到 15% 左右。若数据量很小，单独留出一份验证集的代价会较高，此时更常见的做法是使用 $K$ 折交叉验证，让每个样本轮流充当验证数据，以减少一次随机划分带来的偶然性。交叉验证的细节放在后面的“模型评估”部分展开。

测试集

测试集（Test Set）用于最终评估模型的泛化能力（Generalization）。它应尽量只在方案冻结之后使用：模型结构、超参数、训练策略、阈值和后处理规则都不再修改时，才在测试集上做一次最终评估。它回答的问题是：如果把模型部署到真实世界，它在新样本上的表现大致会怎样。

测试集通常占总数据的 10% 到 15%。它的重要性不在于比例有多大，而在于它必须保持“未参与决策”。如果开发过程中反复查看测试集结果，并据此继续改模型，那么测试集就已经被污染，不再是独立评测，而变成了另一个隐性的验证集。

因此，测试集更像真正的“高考卷”或“盲测集”：它的价值在于最后一次、尽量无偏的评估，而非参与训练流程本身。

如何划分数据集

最常见的简单划分是训练集 / 验证集 / 测试集 = 70% / 15% / 15%，或 80% / 10% / 10%。这种划分适合样本量较大、类别分布较稳定的任务，因为单次随机切分已经足以给出相对稳定的训练与评估结果。

当数据量较小、类别极不平衡、或者不同子群体差异明显时，划分策略就必须更谨慎。分类任务常采用分层抽样（Stratified Split），确保训练、验证、测试三部分的类别比例大致一致；时间序列任务则必须按时间顺序切分，避免未来信息泄漏到过去；用户级、设备级、病人级任务常需要按实体分组切分，防止同一实体的样本同时出现在训练集和测试集中，造成过于乐观的结果。

因此，“如何划分”本身就是建模的一部分。划分方式若与真实部署场景不一致，即使指标很好，也可能只是评估设定过于宽松，而非真正泛化能力强。

分层抽样的执行方法

分层抽样（Stratified Sampling）先按关键属性把样本划成若干层（Strata），再在每一层内部独立抽取训练、验证和测试样本。分类任务最常见的分层变量是标签 $y$；多语言、多地区、多设备或多业务线任务中，也可以使用“标签 + 语言”“标签 + 来源”“标签 + 用户类型”等组合变量。它的目标是让每个子集都保留总体中的重要比例结构，避免少数类或小子群只落在某一个集合里。

执行流程通常分四步。第一，确定分层变量，优先选择会显著影响模型表现和评估可信度的字段，例如类别标签、语言、场景来源或风险等级。第二，统计每一层的样本数，检查是否存在样本极少的层；若某一层只有一两个样本，强行切成三份会制造空层，需要合并相近层、降低切分粒度，或改用交叉验证。第三，在每一层内部按同样比例随机切分，例如 80% / 10% / 10%，再把各层的切分结果合并成最终训练集、验证集和测试集。第四，切分后重新检查各集合中的标签比例、关键子群比例和样本数量，确认没有出现明显偏移。

分层抽样的核心约束可以写成：

\[\frac{n_{k,\mathrm{train}}}{n_{\mathrm{train}}}\approx\frac{n_{k,\mathrm{valid}}}{n_{\mathrm{valid}}}\approx\frac{n_{k,\mathrm{test}}}{n_{\mathrm{test}}}\approx\frac{n_k}{n}\]

其中 $k$ 表示第 $k$ 个层， $n_k$ 是总体中该层样本数， $n_{k,\mathrm{train}}$、 $n_{k,\mathrm{valid}}$、 $n_{k,\mathrm{test}}$ 分别是训练、验证、测试集合中该层的样本数。这个式子表达的是比例近似一致，而非每一层都必须精确相等；当样本数较小时，整数取整会带来轻微偏差。

分层变量不宜无限叠加。若同时按标签、语言、来源、时间段和用户类型分层，组合层数会迅速膨胀，许多层只剩极少样本，最终切分反而不稳定。工程上通常先保证最重要的维度，例如分类标签；若业务强依赖语言或来源，再加入第二个维度。时间序列、用户级泛化和病人级泛化任务还要优先满足时间后移或实体隔离，分层抽样只能在这些约束内部执行，不能为了比例好看而让同一用户或未来样本泄漏到训练集。

子采样（Subsampling）

子采样（Subsampling）是在可用数据中选取一部分样本参与训练或实验。它不等同于数据划分：数据划分负责隔离训练、验证和测试职责，子采样负责控制训练阶段实际看到的数据规模、类别比例或样本难度。大规模训练中，子采样常用于快速建立基线、降低单轮实验成本、压低冗余样本影响，以及处理多数类过大的类别不平衡问题。

训练从子采样中获益的前提，是被删除的样本对有效监督信号贡献较低。若训练集里存在大量重复文本、近重复日志、模板化样本或极易分类的多数类样本，模型反复看这些样本只会增加计算成本，并可能强化头部模式。适度子采样可以让每个 epoch 更短，让实验迭代更快，也能提高少数类、困难样本或高质量样本在梯度更新中的相对权重。

常见做法包括三类。第一类是均匀子采样，从大训练集中随机抽取固定比例，适合快速 sanity check 和建立 baseline。第二类是分层子采样，在每个类别、语言或来源内部按比例抽样，既缩小规模，又尽量保留关键分布结构。第三类是目标导向子采样，例如下采样多数类、保留 hard examples、提高高质量标注样本比例，或在推荐和语言模型中只抽取一部分负样本。第三类收益更高，但也更容易引入人为偏差。

子采样应优先作用在训练集上，验证集和测试集通常不应为了训练效率而随意缩小或重配比例。验证集可以在早期实验中使用一个小型 dev subset 做快速反馈，但最终模型选择仍应回到完整验证集；测试集更应保持稳定，避免把采样策略本身变成评估结果的一部分。若子采样改变了训练分布，例如下采样多数类或上调困难样本比例，训练时还需要记录采样规则，并在必要时用类别权重、阈值校准或真实分布验证来修正部署阶段的概率偏差。

数据泄露

数据泄露（Data Leakage）指测试集或验证集中的信息以直接或间接方式进入训练过程，从而导致模型评估结果虚高。它的危险不在于“代码报错”，而在于模型会表现得看似极好，却无法在真实新数据上复现。

最常见的数据泄露有几类。第一类是先对全量数据做预处理，再切分数据，例如先用全量数据计算标准化均值和方差，再划分训练 / 测试集；这样测试集的信息已经进入了训练流程。第二类是用测试集反复调参，例如每改一次模型就看一次测试集成绩，直到测试集最好看为止。第三类是特征中混入未来或标签信息，例如用预测时不可能知道的字段做输入，或把目标变量的某种变形偷偷带进特征。

避免数据泄露的原则只有一句：任何依赖数据分布统计量、特征构造规则、模型选择决策或阈值选择的步骤，都只能在训练集内部完成，再把同样的变换应用到验证集和测试集。标准化、特征选择、缺失值填补、目标编码（Target Encoding）、降维（PCA）和重采样（Resampling）都要遵守这一原则。

因此，数据集划分不仅“把数据分三份”这么简单，还整个实验设计（Experimental Design）的一部分。只有训练集、验证集、测试集的职责边界清晰，交叉验证使用得当，且数据泄露被严格控制，模型指标才具有解释价值和可复现实验意义。

归一化与标准化

归一化（Normalization）与标准化（Standardization）都在解决“不同特征量纲和尺度差异过大”问题，但含义不同。最常见的最小-最大归一化把数据映射到固定区间：

\[x'=\frac{x-x_{\min}}{x_{\max}-x_{\min}}\]

它把特征压到 $[0,1]$，适合像像素值、比例值这类天然有上下界的量。标准化则是减去均值、再除以标准差：

\[z=\frac{x-\mu}{\sigma}\]

标准化后的特征均值为 0、标准差为 1，更适合线性模型、距离模型和很多神经网络优化过程。类比来看，归一化像“把不同长度的尺子都缩到同一长度区间”；标准化像“先平移到共同中心，再按波动尺度统一单位”。

特征工程

特征工程（Feature Engineering）是把原始数据加工成更利于模型学习的表示。它核心是在把领域知识编码进输入空间。例：时间戳可以拆成小时、星期、是否节假日；用户行为日志可以构造近 7 天点击次数、转化率、时间衰减统计；文本可以做 TF-IDF、n-gram 或实体抽取。

类比来看，特征工程像做菜前的备料：同样的原料，如果已经切片、去骨、配好比例，后续烹饪会顺畅得多。经典机器学习对特征工程高度依赖；深度学习则把一部分特征学习自动化了，但在表格数据、推荐、广告和风控里，特征工程仍然决定上限。

类别不平衡处理

类别不平衡（Class Imbalance）指某些类别样本远多于另一些类别。欺诈检测、故障检测、医学筛查里最典型：正类往往极少。如果不处理，模型可能通过“永远预测多数类”获得看似不错的 Accuracy，却在关键少数类上彻底失效。

常见处理方法包括：重采样（过采样少数类、欠采样多数类）、类别加权（Class Weighting）、阈值调整（Threshold Tuning）和使用更合适的指标（如 Precision、Recall、PR-AUC）。例如在信用卡欺诈场景中，正类只占 0.1%，此时“全判正常”会有 99.9% Accuracy，但业务价值几乎为 0。

超参数

超参数（Hyperparameters）是训练开始前由人或外部搜索过程设定的配置变量。它们与模型参数（Parameters）不同：模型参数如线性回归的权重、神经网络的矩阵和偏置，是通过训练数据学出来的；超参数则决定模型该以什么结构、什么训练节奏、什么正则化强度去学习。学习率、batch size、树深、dropout、LoRA rank 都属于超参数，而非训练过程中直接被梯度更新出来的参数。

什么是超参数

从作用层面看，超参数大致分成三类。第一类决定模型结构，例如树的最大深度、神经网络层数、隐藏维度、注意力头数；第二类决定优化过程，例如学习率、batch size、训练轮数、warmup 步数；第三类决定复杂度控制，例如正则化强度、dropout、weight decay、早停耐心值。它们共同定义了“模型允许学成什么样、以及训练过程会沿哪条轨迹逼近这个结果”。

因此，超参数优化核心是在搜索哪一套训练配置更可能在验证集上泛化得最好。超参数搜索天然依赖验证集，而不能依赖测试集。

通用超参数

有些超参数跨很多模型家族都反复出现，它们更像训练流程级控制杆，而非某个算法私有旋钮。最常见的一组可概括如下：

超参数	主要控制什么	常见影响
学习率（Learning Rate）	每步更新幅度	过大易震荡或发散，过小则收敛过慢或停在高误差区
batch size	每次梯度估计使用多少样本	影响吞吐、显存占用、梯度噪声和有效学习率范围
训练轮数 / 训练步数（Epochs / Steps）	训练总时长	过少易欠拟合，过多则更易过拟合
正则化强度（Regularization Strength）	复杂度惩罚有多强	过强会欠拟合，过弱则更易记忆训练集细节
weight decay	参数收缩强度	常用于控制神经网络权重规模与泛化
dropout	随机屏蔽单元的比例	抑制共适应，但过强会削弱表示能力
学习率调度（Scheduler）	训练过程中学习率如何变化	直接影响早期稳定性与后期收敛质量
warmup	前期学习率爬升过程	对 Transformer 和大 batch 训练尤为重要
早停耐心值（Early Stopping Patience）	验证集多久不提升才停止	影响训练预算与过拟合控制

模型特定超参数

另一类超参数只在特定模型家族里出现。它们往往直接对应某个算法的结构假设，因此不能简单迁移到别的模型上。

模型家族	典型超参数	控制什么
KNN	$k$、距离度量	邻域大小与“相似”的定义
SVM	$C$、kernel、$\gamma$	间隔惩罚与核函数形状
决策树 / 随机森林	max depth、min samples leaf、树数	树的复杂度与集成规模
Boosting / XGBoost / LightGBM	learning rate、树数、max depth、采样比例	弱学习器叠加节奏与复杂度
CNN	卷积核大小、通道数、stride、pooling 配置	局部感受野与空间降采样方式
RNN / LSTM	隐藏维度、层数、截断长度	时序记忆容量与反向传播范围
Transformer	层数、隐藏维度、头数、最大上下文长度	表示容量、并行结构与长程建模能力
PEFT / LoRA	rank、alpha、target modules、adapter dropout	低秩适配容量与写入位置

因此，“超参数”不能被理解成一张固定清单。不同模型真正敏感的旋钮并不相同。对树模型，max depth 和叶节点约束常是核心；对 Transformer，学习率、warmup、weight decay、batch 与上下文长度往往更关键；对 LoRA，rank 与挂载模块会直接决定可写入容量。

超参数搜索

超参数搜索（Hyperparameter Search）指用验证集表现，在若干候选配置中选择更优组合。它本质上是在搜索哪套训练配方更值得被固定下来。搜索空间越大，找到更优组合的机会通常越高，但实验成本、验证集过拟合风险和复现难度也会同步上升。

贪婪串行登山

贪婪串行登山（Greedy Sequential Hill Climbing）是一种非常实用的超参数搜索策略。它的核心规则是：每次只调整一个超参数，在当前其余超参数固定不变的条件下，选择验证集上更优的方向走一步；确定后先固定该值，再去调下一个超参数。在离散候选集上，它可以看作一种坐标式局部搜索。

例如先固定 dropout 和 batch size，只比较若干学习率；一旦找到当前最优学习率，就暂时锁定它，再去比较 dropout；然后再固定前两者去比较 batch size。这样做的优点是实验次数通常近似线性增长，适合“训练一次代价不低、超参数数量又不算很多”的场景。

棘轮式锁定

贪婪串行登山常伴随一种棘轮式锁定（Ratchet-style Fixing）：某一轮一旦选定一个更优取值，就先不回头重开这个维度。这样做能显著缩小后续搜索空间，但代价也很明确：较早做出的局部最优决策，会限制后面组合空间的探索。

它最容易出问题的地方，是参数交互（Hyperparameter Interaction）。若两个超参数彼此强相关，例如学习率和 batch size、学习率和 warmup、LoRA rank 和 target modules，那么“在当前默认值下看起来更优”的选择，未必能和后续维度组成真正最优的整体组合。棘轮式锁定会把这类交互提前屏蔽掉。

优点与局限

维度	说明
优点	简单、可解释、实验次数少，适合作为快速锁定大方向的工程基线
局限 1	容易停在局部最优，因为它不会接受“短期下降、长期更优”的探索路径
局限 2	默认把超参数近似看成可分离维度，但现实中经常存在强交互
局限 3	若反复依赖同一验证集做很多轮决策，更容易把验证集偶然性误判成真实提升

与其他搜索策略对比

策略	实验成本	能否捕捉参数交互	典型特点
贪婪串行登山	较低	较弱	工程上快速、便宜、可解释，但更局部
网格搜索（Grid Search）	高，常随维度指数增长	强	穷举规则清楚，但高维时代很快失去性价比
随机搜索（Random Search）	可控	中等	在高维空间常比网格搜索更高效，是强基线
贝叶斯优化（Bayesian Optimization）	中等到较高	较强	利用历史试验结果自适应建议下一个点，适合昂贵实验

因此，何时使用哪种策略，取决于训练代价与搜索空间形状。若一次训练就要数十分钟甚至数小时，且可调超参数并不多，贪婪串行登山往往已经足够作为第一轮工程方案；若参数交互明显、预算允许，随机搜索或贝叶斯优化通常更稳。无论使用哪一种方法，最关键的前提都不变：搜索必须由验证集驱动，而测试集必须保持未参与决策。

模型评估

模型评估（Model Evaluation）回答的核心是“模型在新数据上是否可靠，以及错误代价如何”。不同任务对应的指标重点不同：分类关心类别区分，回归关心数值偏差，排序关心相对顺序。

交叉验证

交叉验证（Cross Validation）在数据较少时特别重要。最常见的 $K$ 折交叉验证把数据分成 $K$ 份：每次用其中 1 份做验证、其余 $K-1$ 份训练，循环 $K$ 次，最后对 $K$ 个验证结果取平均。

它的作用像“轮流把不同一份数据拿出来当模拟考试卷”，从而降低一次随机划分带来的偶然性。对小数据集而言，单次划分可能刚好“运气好或坏”；交叉验证则给出更稳定的泛化估计。

校准

校准（Calibration）讨论的是：模型给出的概率值，是否真的能当概率解释。分类模型不只输出“判成哪一类”，还常输出一个置信分数，例如 $0.9$。若一个模型在所有“预测概率约为 0.9”的样本子集上，最终真的有约 90% 预测正确，那么它就是校准良好的；若它经常把只有 60% 把握的样本说成 90%，就属于过度自信（Overconfident）。

二分类中，若模型输出正类概率 $\hat p(x)\in[0,1]$，理想校准条件可写成：

\[P(Y=1\mid \hat p(X)=p)=p\]

这里左边表示：在所有预测概率等于 $p$ 的样本中，真实为正类的条件概率；右边的 $p$ 是模型自己报出的概率。两者相等时，概率输出就与真实频率一致。多分类场景下，常把模型最大类别概率当作置信度，并检验“报 80% 置信度的样本，是否真的大约 80% 正确”。

校准与准确率并非同一件事。一个模型可以分类很准，但概率不可靠；也可以概率尺度较准，但分类边界并不最优。前者常见于深层神经网络：argmax 分类结果不错，但 softmax 概率偏尖，置信度系统性偏高。涉及风险控制、医学筛查、自动驾驶、检索重排、多阶段决策时，概率是否可信往往和“分对多少”同样重要，因为阈值决策、人工复核和代价加权都依赖这个概率尺度。

校准的可视化工具通常是可靠性图（Reliability Diagram）。做法是把预测置信度分成若干区间，例如 $[0.0,0.1),[0.1,0.2),\dots$，然后对每个区间分别计算平均置信度与真实准确率。若图上的点接近对角线 $y=x$，说明校准较好；若点普遍落在对角线下方，说明模型报得比实际更自信；若点在对角线上方，则说明模型偏保守。

常用数值指标是期望校准误差（Expected Calibration Error, ECE）：

\[\mathrm{ECE}=\sum_{m=1}^{M}\frac{|B_m|}{n}\,\big|\mathrm{acc}(B_m)-\mathrm{conf}(B_m)\big|\]

这里 $M$ 是置信度分箱数， $B_m$ 是第 $m$ 个置信度区间中的样本集合， $|B_m|$ 是该区间样本数， $n$ 是总样本数， $\mathrm{acc}(B_m)$ 是该区间的实际准确率， $\mathrm{conf}(B_m)$ 是该区间的平均预测置信度。ECE 的含义很直接：把每个置信区间里“说得多准”和“实际多准”的差值取绝对值，再按样本占比加权平均。ECE 越小，表示整体校准越好。

另一类常见指标是 Brier Score。对二分类，它定义为：

\[\mathrm{Brier}=\frac{1}{n}\sum_{i=1}^{n}(\hat p_i-y_i)^2\]

这里 $\hat p_i$ 是第 $i$ 个样本的预测正类概率， $y_i\in\{0,1\}$ 是真实标签。它既惩罚分类错误，也惩罚概率刻度不准，因此兼顾区分能力与概率质量。与单纯 Accuracy 不同，Brier Score 会区分“错得有多离谱”：把一个负样本报成 $0.51$ 和报成 $0.99$，代价并不相同。

工程上最常见的后处理方法是温度缩放（Temperature Scaling）。设原始 logits 为 $z_i$，则缩放后的 softmax 概率写成：

\[p_i=\frac{\exp(z_i/T)}{\sum_j \exp(z_j/T)}\]

这里 $T>0$ 是温度参数。 $T>1$ 会把分布拉平，降低过度自信； $T<1$ 会把分布压尖，提高置信度。温度参数通常在验证集上通过最小化负对数似然（Negative Log-Likelihood, NLL）来拟合，然后固定用于测试或部署阶段。它不会改变类别排序，因此常能在几乎不影响 Accuracy 的前提下改善概率校准。

分类指标

混淆矩阵（Confusion Matrix）

分类指标通常从混淆矩阵（Confusion Matrix）出发。设正类预测结果统计为真阳性 $TP$、假阳性 $FP$、真阴性 $TN$、假阴性 $FN$。不同指标本质上是在回答不同问题：是看“总共判对多少”，还是看“判成正类时有多准”，还是看“真实正类抓到了多少”。

Accuracy

准确率（Accuracy）定义为

\[\mathrm{Accuracy}=\frac{TP+TN}{TP+TN+FP+FN}\]

它衡量“总体上判对了多少比例”，适合类别相对平衡、不同错误代价接近的场景。但在类别极不平衡时会误导：例如癌症筛查里，99% 都是阴性时，模型全判阴性也可能有 99% Accuracy，却毫无检测价值。

Precision

精确率（Precision）定义为

\[\mathrm{Precision}=\frac{TP}{TP+FP}\]

它回答的是：“所有被模型判成正类的样本里，有多少真的为正。”当误报成本很高时，Precision 特别重要。例：垃圾邮件过滤里，如果把正常邮件误判成垃圾邮件代价很高，就要关心 Precision。

Recall

召回率（Recall）定义为

\[\mathrm{Recall}=\frac{TP}{TP+FN}\]

它回答的是：“所有真实正类里，有多少被模型找出来了。”当漏报成本很高时，Recall 更关键。例：医学筛查里漏掉患者可能比多做一次复检更危险，因此 Recall 往往比 Precision 更重要。

F1 Score

F1 值（F1 Score）是 Precision 与 Recall 的调和平均：

\[F_1=\frac{2\cdot \mathrm{Precision}\cdot \mathrm{Recall}}{\mathrm{Precision}+\mathrm{Recall}}\]

之所以用调和平均而非普通平均，是因为它会惩罚“一高一低”的不平衡情况。若一个模型 Precision 极高但 Recall 很低，它并不能拿到高 F1。F1 适合正负样本不平衡、且希望兼顾漏报与误报的场景。

AUC-ROC

AUC-ROC 衡量模型在不同分类阈值下区分正负样本的整体能力。ROC 曲线横轴是假阳性率（False Positive Rate），纵轴是真阳性率（True Positive Rate）。AUC 是曲线下面积，范围在 $[0,1]$；越接近 1，说明模型越能把正样本排在负样本前面。

它不依赖某一个固定阈值，因此适合比较“排序能力”。但在极端不平衡数据上，PR 曲线（Precision-Recall Curve）常更敏感，因为 ROC 容易被大量真阴性“冲淡”。

回归指标

回归指标（Regression Metrics）衡量预测值与真实值之间的数值偏差。它们关注的核心是“偏差有多大、对大误差是否敏感、模型解释了多少波动”。以房价预测为例，预测 300 万和真实 320 万之间的差距，就是典型回归误差。

MAE

平均绝对误差（Mean Absolute Error, MAE）定义为

\[\mathrm{MAE}=\frac{1}{N}\sum_{i=1}^{N}|\hat y_i-y_i|\]

它直接度量“平均差了多少个原始单位”，解释最直观。若房价单位是万元，MAE=12 就表示平均误差约 12 万元。由于使用绝对值，MAE 对离群点没有 MSE 那么敏感。

MSE

均方误差（Mean Squared Error, MSE）定义为

\[\mathrm{MSE}=\frac{1}{N}\sum_{i=1}^{N}(\hat y_i-y_i)^2\]

平方会放大大误差，因此 MSE 对离群点更敏感。它常用于你希望“大错要被重罚”的场景。高斯噪声假设下，最小化 MSE 还对应最大似然估计，因此它不仅是工程指标，也是概率建模结果。

RMSE

均方根误差（Root Mean Squared Error, RMSE）是

\[\mathrm{RMSE}=\sqrt{\mathrm{MSE}}\]

它保留了 MSE 对大误差更敏感的性质，同时把单位拉回原始量纲，因此更易解释。若房价 RMSE 为 20 万元，可以直接理解为“典型误差量级约 20 万元”。

R²

\[R^2\]（决定系数，Coefficient of Determination）回答的是：相比于最朴素的瞎猜基线，你的回归模型到底把预测提升了多少。要理解它，只需要在脑子里放两条线：一条是“什么都不知道时只能猜平均值”的水平线，另一条是模型给出的预测曲线。

先看最朴素的基线。假设你要预测一批房子的价格，但你手里没有面积、地段、楼龄这些特征，别人却逼着你给出预测。此时最不容易挨打的办法，核心是对所有房子都猜样本平均价 $\bar y$。在散点图上，这对应一条横向的水平线。

真实房价 $y_i$ 会散落在这条平均线的上下。每个点到平均线的垂直距离 $y_i-\bar y$，就是“瞎蒙平均值”时犯下的误差。把这些误差平方后全部加起来，就得到

\[\sum_i(y_i-\bar y)^2\]

这就是公式里的分母。它衡量的核心是这批数据本身原来就有多分散、多混乱。也可以把它理解为目标变量的总波动、总混沌程度，或者说“在完全不用特征时，世界原本有多少东西解释不了”。

现在再看你的模型。你训练出一个回归模型，它根据输入特征给出预测 $\hat y_i$。在图上，预测结果从那条死板的水平线转向一条试图穿过散点云中心的预测曲线。模型当然不可能完美，所以每个真实值 $y_i$ 与预测值 $\hat y_i$ 之间仍会有垂直误差，这个误差就是残差（Residual）。

把这些模型仍然没解释掉的误差平方后加起来，就得到

\[\sum_i(\hat y_i-y_i)^2\]

这就是公式里的分子，也叫残差平方和（Residual Sum of Squares, RSS）。它代表模型已经尽力之后，世界上依然残存的混沌。分子越小，说明模型越贴近真实数据；分子越大，说明模型虽然复杂，但其实没把问题解释清楚。

于是

\[R^2=1-\frac{\sum_i(\hat y_i-y_i)^2}{\sum_i(y_i-\bar y)^2}\]

这条式子就可以直接读成一句大白话：先看模型还剩下多少解释不了的波动，再除以最开始总共有多少波动，得到“模型搞不定的比例”；最后用 1 减掉它，剩下的就是模型成功解释掉的波动比例。

因此，若 $R^2=0.8$，意思核心是目标变量原本有 100 份波动，模型大约解释掉了其中 80 份，只剩 20 份还没解释；若 $R^2=0$，说明你的模型折腾半天，效果和“永远预测平均值”完全一样；若 $R^2<0$，则表示模型比这个最朴素基线还差，常见原因是模型设错了、特征没信息，或实现上有 bug。

从老板视角看， $R^2$ 的灵魂拷问其实只有一句：相比直接拿平均值糊弄事，你这个复杂回归模型到底多解释了多少真实波动。因此， $R^2$ 特别适合回答“模型有没有真正利用特征学到东西”，但它不能替代 MAE、RMSE——因为 $R^2$ 讲的是解释比例，而非误差到底有多少个原始单位。

优化算法

优化算法（Optimization Algorithms）解决的问题非常朴素：模型参数该往哪个方向改，才能让损失函数持续下降。只要训练目标能写成“最小化某个损失函数”，背后就需要一套更新参数的规则。线性回归、逻辑回归、神经网络、大语言模型训练，本质上都绕不开这个问题。

这里要先分清两件事。优化（Optimization）关心的是“训练损失能不能降下来”；泛化（Generalization）关心的是“模型在新样本上好不好”。一个优化器可能把训练集拟合得很好，但泛化依然一般；反过来，一个优化器如果连训练损失都压不下去，模型通常也谈不上有效。因此优化算法决定的是你如何走向一个解，而非直接保证这个解一定最好。

梯度下降

梯度下降（Gradient Descent）是最核心的一阶优化思想。设损失函数为 $L(\theta)$，参数为 $\theta$，则梯度 $\nabla_\theta L(\theta)$ 给出“损失上升最快的方向”。既然梯度指向上坡，那么要让损失下降，就应沿着它的反方向更新参数：

\[\theta_{t+1}=\theta_t-\eta\,\nabla_\theta L(\theta_t)\]

这里 $\theta_t$ 是第 $t$ 步的参数， $\eta$ 是学习率（Learning Rate），决定每一步走多大； $\nabla_\theta L(\theta_t)$ 是当前位置的斜率信息。学习率太大，容易一步跨过谷底甚至震荡发散；学习率太小，又会下降得极慢。它像蒙着雾下山：梯度告诉你脚下哪边更陡，学习率决定你每次迈多大步。

为什么很多模型不直接“解公式”，而要反复迭代？因为在深度学习里，参数维度极高，损失面又往往非凸（Non-convex），通常没有漂亮的闭式解（Closed-form Solution）。这时最现实的办法核心是利用局部斜率，一步一步把损失往下压。

当总损失是逐样本损失的平均时，梯度下降还可以写得更具体：

\[L(\theta)=\frac{1}{N}\sum_{i=1}^{N}\ell(\theta;x_i)\] \[\nabla_\theta L(\theta)=\frac{1}{N}\sum_{i=1}^{N}\nabla_\theta \ell(\theta;x_i)\]

这也回答了“为什么可以批量喂输入”：梯度对求和是线性的，整体梯度等于逐样本梯度的平均，所以可以并行算每个样本的梯度，再求平均后统一更新参数。

满足这种“逐样本求和/求平均”结构的损失函数其实非常多。典型例子包括：线性回归里的均方误差（MSE）、平均绝对误差（MAE），二分类里的 logistic loss / binary cross-entropy，多分类里的交叉熵（Cross-Entropy），语言模型训练里的负对数似然（Negative Log-Likelihood, NLL）。它们都可以写成“每个样本先各自算一份损失，再在整个数据集上取平均”的形式，因此天然适合 mini-batch 训练。

但并非所有目标都能严格写成这种完全独立的逐样本平均。若损失显式依赖样本之间的相对关系，情况就会复杂一些。例如排序学习里的 pairwise/listwise loss、度量学习中的 triplet loss，以及对比学习里的 InfoNCE，都会让一个样本的损失依赖同一个 batch 中的其他样本。此时虽然仍然可以按 batch 计算梯度，但它已经并非“每个样本各算各的、最后简单平均”那么干净的分解了。

工程上还常见另一种情况：目标函数可以写成“逐样本平均损失 + 正则项（Regularization）”。例如

\[L(\theta)=\frac{1}{N}\sum_{i=1}^{N}\ell(\theta;x_i)+\lambda\Omega(\theta)\]

其中 $\Omega(\theta)$ 可以是 $\|\theta\|_2^2$ 这类参数惩罚项。前半部分仍然按样本分解，后半部分则是直接作用于参数本身，而不对应某一个单独样本。很多现代训练目标，本质上都是这两部分的组合。

几个常用训练量需要先分清：

批大小（Batch Size）：一次更新使用多少个样本。
步（Step / Iteration）：一次参数更新。
轮（Epoch）：完整遍历一次训练集。

若训练集大小为 $N$，batch size 为 $B$，则每个 epoch 的步数约为 $\lceil N/B\rceil$。工程里经常会说“训练了多少 step”，因为真正发生参数变化的是 step，而非 epoch 这个更粗的计数单位。

批量梯度下降（BGD）

批量梯度下降（Batch Gradient Descent, BGD）每次都用整个训练集来计算一次精确梯度，再更新参数。这里的 batch 指的核心是“整批训练数据”。它的优点是方向最稳定、梯度方差最小；缺点是每一步都很贵，数据一大就几乎不可用。它更适合小数据集、凸优化问题，或教材里说明“梯度下降原理”时使用。

随机梯度下降（SGD）

随机梯度下降（Stochastic Gradient Descent, SGD）每次只用一个样本的梯度做更新。它的方向噪声很大，看起来像“跌跌撞撞地下山”，但每一步极便宜、更新极频繁，因此在数据流式到来或样本极多时很有价值。

优点：更新快、内存开销小、天然适合在线学习（Online Learning）与流式数据（Streaming Data）。
优点：梯度噪声有时反而会带来好处，更容易离开鞍点（Saddle Point）和较差的局部极小。
缺点：轨迹抖动大，若学习率控制不好，训练容易不稳定。

它像店长根据每一位新顾客的反馈立刻调价：反应很快，但也容易被个别顾客带偏。

适用场景：当你需要用最新样本尽快产生参数更新时，SGD（batch size=1）是最直接的选择，典型包括：

在线学习（Online Learning）/流式数据（Streaming Data）：样本持续到来，要求增量更新，而非离线反复扫全量数据。
分布漂移（Distribution Shift）与非平稳（Non-stationary）环境：用户偏好、市场、策略对抗等持续变化，需要快速跟踪新分布。
低延迟更新需求：例如广告/推荐/风控的在线校准，需要“见到一条新反馈就更新一点”。
资源受限或样本极大：内存无法容纳大 batch 或无法频繁计算全量梯度时，用单样本更新换取更低的每步计算与存储成本。

在现代深度学习里，若使用 GPU/TPU 训练，大多数时候会用小批量梯度下降来兼顾吞吐与稳定性；纯 SGD 更常出现在在线/增量训练与部分强化学习（Reinforcement Learning, RL）设置中。

小批量梯度下降（Mini-batch SGD）

小批量梯度下降（Mini-batch SGD）是在 BGD 与 SGD 之间折中：每次用一个 batch 的平均梯度更新。它既能利用 GPU 的并行算力，又保留一定梯度噪声，因此现代深度学习几乎都在这个范式下训练。

batch 太小，梯度估计噪声会很大；batch 太大，虽然每步更稳定，但显存压力更高、更新频率更低，有时还会让优化和泛化都变钝。因此 batch size 核心是吞吐、稳定性、显存和泛化之间的折中。

动量法（Momentum）

单纯的梯度下降在“峡谷形”损失面里很容易左右来回震荡：沿陡峭方向上下摆动，沿真正有用的谷底方向前进却很慢。动量法（Momentum）的直觉是：不要只看当前这一脚的斜率，而要把过去几步的方向累积成一种“惯性”。

\[v_{t+1}=\beta v_t+(1-\beta)g_t,\quad \theta_{t+1}=\theta_t-\eta v_{t+1}\]

其中 $g_t$ 是当前梯度， $v_t$ 是累计出来的速度， $\beta\in[0,1)$ 控制“记住过去多少信息”。 $\beta$ 越大，方向越平滑、惯性越强；越小，则越接近普通梯度下降。类比来看，它像推一个有重量的小球下山：不会因为脚下的微小凸凹就频繁改道，而会沿长期更一致的下降方向滚动。

AdaGrad / RMSProp

AdaGrad 与 RMSProp 属于自适应学习率（Adaptive Learning Rate）方法。它们的核心思想是：不同参数的梯度尺度不同，不应该所有维度都用同一个固定步长。历史上梯度很大的维度，后续步子要缩小；梯度稀疏或很小的维度，则可以走得更积极。

AdaGrad 累积历史平方梯度：

\[s_{t+1}=s_t+g_t\odot g_t,\quad \theta_{t+1}=\theta_t-\eta\,\frac{g_t}{\sqrt{s_{t+1}}+\epsilon}\]

其中 $g_t\odot g_t$ 表示逐元素平方， $\epsilon$ 是数值稳定项。这样一来，历史上梯度一直很大的维度会被自动缩小学习率。AdaGrad 在稀疏特征（Sparse Features）任务里很有效，例如早期的文本与推荐场景；但它的问题是 $s_t$ 只增不减，训练到后期学习率可能衰减得过头，参数几乎不再动。

RMSProp 用指数滑动平均替代“无限累积”，缓解这个问题：

\[s_{t+1}=\rho s_t+(1-\rho)(g_t\odot g_t),\quad \theta_{t+1}=\theta_t-\eta\,\frac{g_t}{\sqrt{s_{t+1}}+\epsilon}\]

这样历史信息会逐步“遗忘”，使学习率缩放更关注近期梯度尺度。可以把 AdaGrad 理解成“终身记账”，而 RMSProp 更像“滚动记账”。

Adam

Adam（Adaptive Moment Estimation）把动量法（Momentum）的一阶矩估计与 RMSProp 的二阶矩估计结合起来，因此它同时解决优化中的两个核心痛点：方向感（往哪走）与节奏感（每步走多大）。直觉上，可以把它理解为“带惯性的方向盘 + 自动变速箱”：方向由平均梯度决定，步长由梯度的尺度自动缩放。

一阶矩：方向感（Momentum）

\[m_{t+1}=\beta_1 m_t+(1-\beta_1)g_t\]

索引约定：第 $t$ 次更新先在 $\theta_t$ 处计算 $g_t$，再把它并入动量得到 $m_{t+1}$；下标 $t+1$ 表示“更新后状态”，并非未来信息。
$m_{t+1}$：并入 $g_t$ 后的一阶矩（动量）估计。
右边第一项 $\beta_1 m_t$：把历史动量按系数 $\beta_1$ 保留下来，表示“历史方向对新方向的贡献”。
右边第二项 $(1-\beta_1)g_t$：把当前梯度按系数 $1-\beta_1$ 注入动量，表示“当前观测对新方向的贡献”。
$g_t$：第 $t$ 步的梯度，通常由当前 mini-batch 估计得到（$g_t=\nabla_\theta L(\theta_t)$）。
$m_t$：一阶矩估计的滑动平均（动量项），可理解为“平均梯度方向”。
$\beta_1\in[0,1)$：动量衰减系数，越大表示记忆越长、方向越平滑。

两项系数满足 $\beta_1+(1-\beta_1)=1$，因此这是指数滑动平均（Exponential Moving Average, EMA，越近发生的事情，参考价值越大；越久远的事情，参考价值越小）。当 $m_0=0$ 时，可把它展开为：

\[m_{t+1}=(1-\beta_1)\sum_{k=0}^{t}\beta_1^{t-k}g_k\]

上式说明：越久远的梯度 $g_k$ 权重按 $\beta_1^{t-k}$ 指数衰减；经验上可把有效记忆长度理解为 $O\!\left(\frac{1}{1-\beta_1}\right)$。因此 $\beta_1$ 越大，平均窗口越长，方向越平滑但响应越慢；$\beta_1$ 越小，平均窗口越短，方向更敏捷但更易受噪声影响。

二阶矩：节奏感（RMSProp）

RMSProp（Root Mean Square Propagation）用梯度平方的指数滑动平均（Exponential Moving Average, EMA）来估计每个参数维度的“尺度”，再用该尺度对当前梯度做逐元素归一化，从而把更新步伐控制在更稳定的量级。

\[v_{t+1}=\beta_2 v_t+(1-\beta_2)(g_t\odot g_t),\quad \tilde g_t=\frac{g_t}{\sqrt{v_{t+1}}+\epsilon}\]

索引约定：第 $t$ 次更新先在 $\theta_t$ 处计算 $g_t$，再用它更新得到 $v_{t+1}$；用 $v_{t+1}$ 缩放 $g_t$ 表示“用本次更新后的尺度估计做归一化”，不涉及未来信息。
$v_t$：上一轮更新结束后的二阶原点矩估计（EMA 状态，“更新前的尺度缓存”）。
$v_{t+1}$：梯度的二阶原点矩（Second Raw Moment）估计，逐（梯度）维近似 $\mathbb{E}[g^2]$，刻画“历史梯度大小”的典型尺度。
$g_t\odot g_t$：当前梯度的逐元素平方（$\odot$ 为 Hadamard 乘积），只保留幅度信息。
$\sqrt{v_{t+1}}$：均方根（Root Mean Square, RMS）尺度；平方使量纲变为 $g^2$，开方把量纲还原到 $g$，从而可与 $g_t$ 相除。
$\tilde g_t$：按 RMS 尺度归一化后的梯度；分式表示逐元素相除（每个参数维度各自缩放）。
$\beta_2\in[0,1)$：衰减系数，控制尺度估计的记忆长度；越大表示对历史尺度更“长记忆”。
$\epsilon$：数值稳定项，避免分母为 0 或过小。

该缩放把“方向”和“尺度”解耦：方向仍由 $g_t$ 给出；步长由 $\sqrt{v_{t+1}}$ 自适应调节。若某维长期梯度偏大，则 $\sqrt{v_{t+1}}$ 变大、该维更新被压小；若某维长期梯度偏小，则分母较小、该维相对步子更大。

若把 RMSProp 作为独立优化器使用，参数更新可写为 $\theta_{t+1}=\theta_t-\eta\,\tilde g_t$。在 Adam 中，同样的 RMS 缩放作用在一阶矩估计上：用 $\hat m_{t+1}$ 替代 $g_t$ 作为分子，并在下一节通过偏置修正得到 $\hat v_{t+1}$ 作为分母。

偏置修正：冷启动校正（Bias Correction）

因为 $m_0=v_0=0$，训练初期的滑动平均会系统性偏小（“没热起来”）。Adam 用偏置修正把它拉回合理尺度：

\[\hat m_{t+1}=\frac{m_{t+1}}{1-\beta_1^{t+1}},\quad \hat v_{t+1}=\frac{v_{t+1}}{1-\beta_2^{t+1}}\]

$\hat m_{t+1},\hat v_{t+1}$：偏置修正后的估计，用来抵消初始化为 0 导致的早期偏小。
分母 $1-\beta^{t+1}$：校正“冷启动偏小”的缩放因子。由于初始化为 0，指数滑动平均在经历 $t+1$ 次更新时只积累了约 $1-\beta^{t+1}$ 的有效权重，因此会偏小；除以它相当于把估计值按同样比例放大回去。

更严格地说：若假设 $\mathbb{E}[g_t]=\mu$ 近似稳定，则由递推可得 $\mathbb{E}[m_{t+1}]=(1-\beta_1^{t+1})\mu$，因此 $\hat m_{t+1}=\frac{m_{t+1}}{1-\beta_1^{t+1}}$ 是把它改成近似无偏估计。同理可得 $\hat v_{t+1}$ 的修正。

参数更新：方向 ÷ 尺度

\[\theta_{t+1}=\theta_t-\eta\,\frac{\hat m_{t+1}}{\sqrt{\hat v_{t+1}}+\epsilon}\]

$\theta_t$：第 $t$ 步参数（权重向量/张量）。
$\eta$：学习率（全局步长系数）。
$\sqrt{\hat v_{t+1}}$：逐元素开方；整项 $\frac{\hat m_{t+1}}{\sqrt{\hat v_{t+1}}+\epsilon}$ 表示逐元素相除。
$\epsilon$：数值稳定项，避免除以 0 或极小数。

分子给方向，分母给节奏。一个极端例子能看出为什么 Adam 用 $\mathbb{E}[g^2]$ 而非方差：若某维梯度连续很多步都是 $g_t=10$，方差为 0 会导致除法不稳定；但 $\mathbb{E}[g^2]\approx 100$ 给出稳定尺度，最终更新量级约为 $10/\sqrt{100}=1$（再加 $\epsilon$ 保底）。

Adam 往往更易调参、早期收敛更快，因此在 Transformer、扩散模型和很多深度网络里是默认起点。但它并非无条件最好：有些任务上，最终泛化仍可能不如精心调过的 SGD。实践中，配合权重衰减（Weight Decay）时，通常会使用 AdamW，把权重衰减从梯度自适应缩放里解耦出来，效果更稳。

AdamW

AdamW（Adam with Decoupled Weight Decay）把权重衰减（Weight Decay）从 Adam 的自适应梯度缩放里解耦出来。原因是：在 Adam 这类自适应方法里，如果你把 L2 正则化写进损失（等价于把 $\lambda\theta$ 加到梯度里），这个正则项也会被二阶矩 $\hat v_t$ 的缩放影响，从而导致不同参数维度的“衰减强度”不再可控。

正则化本来应该是一个可控的、与梯度尺度无关的收缩力度；解耦后 $\lambda$ 的含义更稳定。

对比两种写法会更清楚：

把 L2 正则化并入目标（常被口语化地称为“weight decay”，但在自适应优化器里并不等价）：先算 $g_t=\nabla_\theta L(\theta_t)+\lambda\theta_t$，再把这个 $g_t$ 送入 Adam 的 $m_t,v_t$ 与自适应步长。
AdamW（解耦权重衰减）：先算纯数据梯度 $g_t=\nabla_\theta L(\theta_t)$ 并完成 Adam 的自适应更新，然后单独对参数做一次权重衰减。

AdamW 的参数更新可写成：

\[\theta_{t+1}=\theta_t-\eta\,\frac{\hat m_{t+1}}{\sqrt{\hat v_{t+1}}+\epsilon}-\eta\,\lambda\,\theta_t\]

前半段 $-\eta\,\frac{\hat m}{\sqrt{\hat v}+\epsilon}$：Adam 的自适应梯度更新（由数据损失驱动）。
后半段 $-\eta\,\lambda\,\theta_t$：解耦的 weight decay（参数按比例收缩），其中 $\lambda$ 是衰减强度。

其中第一项是 Adam 的自适应更新，第二项是独立的权重衰减（等价于每步把权重按比例拉向 0）。这种分离让 $\lambda$ 更像一个真正可解释的“收缩强度”，在 Transformer 等模型上通常更稳定、更好调。工程实现里常见做法是：对 bias 与归一化层参数（如 LayerNorm 的 $\gamma,\beta$）不做 weight decay，以免对尺度/偏置项造成不必要的收缩。

Adadelta、Adamax 与 Nadam

Adadelta、Adamax、Nadam 都可以看作对前述优化器的延伸，而非完全独立的新思想。Adadelta 试图修正 AdaGrad 学习率持续衰减的问题，用滑动窗口近似代替无限累积，并显式比较“更新量尺度”和“梯度尺度”；它在今天不再是默认主线，但在理解自适应学习率演进史时很重要。

Adamax 是 Adam 在 $L_\infty$ 范数下的变体，用无穷范数尺度替代二阶矩尺度；Nadam 则把 Nesterov 动量思想引入 Adam。它们都并非 2026 年主流深度学习训练的默认首选，但属于常见优化器家族成员，因此在工程文档、旧代码或特定框架默认配置里仍会频繁出现。

Muon

Muon 是一种面向神经网络隐藏层（Hidden Layer）权重矩阵（Weight Matrix）的优化器。它与 Adam/AdamW 的根本差异在于：AdamW 会为每个参数维度单独估计更新尺度，并对梯度/更新量做逐元素（Element-wise）归一化；Muon 则把一个二维权重张量视为一个整体，直接利用矩阵结构来塑造更新方向。因此，Muon 更像一种矩阵感知（Matrix-aware）的优化器。

到 2026 年，Muon 已经不仅优化器研究里的边缘尝试，还进入了前沿大模型训练实践。DeepSeek V4 在其公开技术说明中，明确把 Muon Optimizer 列为核心训练升级之一，和混合注意力、mHC 并列。这个信号很重要：它说明在超大规模 Transformer 训练里，优化器设计已经已经从“AdamW 一统天下”扩展到开始针对隐藏层矩阵更新的几何结构做专门优化。

它的核心做法核心是改变“更新张量应该具有什么几何形状”。典型写法可以概括为：先对梯度做动量（Momentum）累积，再把这个矩阵更新做一次正交化（Orthogonalization）后处理，然后才真正更新参数：

\[M_{t+1}=\beta M_t+(1-\beta)G_t\] \[\Delta W_t=\mathrm{Orth}(M_{t+1}),\quad W_{t+1}=W_t-\eta\,\Delta W_t\]

这里 $G_t$ 是当前梯度矩阵， $M_t$ 是动量缓冲， $\mathrm{Orth}(\cdot)$ 表示把更新矩阵变换到更“接近正交（Orthogonal）”的形状。工程实现里，这一步通常用 Newton-Schulz 迭代（Newton-Schulz Iteration）高效近似完成，因此 Muon 常被概括为“对动量更新做正交化”。

为什么 DeepSeek V4 选择 Muon

DeepSeek V4 选择 Muon，核心是因为它同时满足了三条对超大模型训练非常现实的要求。

第一，Muon 与 Transformer / MoE 的参数形态高度匹配。DeepSeek V4 的主干里，大量最承重的可训练参数都来自注意力投影矩阵、MLP 线性层以及 MoE 专家里的大矩阵；而 Muon 正是把二维权重矩阵当作整体对象来优化，而非像 AdamW 那样把每个坐标近似看成相互独立。对这种“模型大头是矩阵，且矩阵内部几何结构很重要”的体系，Muon 天然比纯逐元素缩放更对口。

第二，Muon 在大模型训练中的可扩展性，已经被专门论文论证过。早期 Muon 更像“小模型上效果很好”的优化器；但后续《Muon is Scalable for LLM Training》这篇论文给出了两个把它真正推到大规模训练里的关键条件：加入 weight decay，以及仔细控制每参数更新尺度（per-parameter update scale）。论文的 scaling law 结果进一步表明，在 compute-optimal 训练设定下，Muon 相对 AdamW 可达到大约 2 倍的计算效率。这意味着 Muon 对前沿团队的吸引力，不仅“理论上可能更好”，还同样预算下更可能更快逼近目标性能。

第三，DeepSeek V4 的官方技术报告给出的目标非常直接：他们使用 Muon，是为了获得更快收敛（faster convergence）和更强训练稳定性（greater training stability）。这与 Muon 的优化逻辑是吻合的。Muon 不仅“把梯度缩一缩”，还试图把矩阵更新限制在更有结构的几何方向上，减少那些虽然逐元素看似合理、但从矩阵整体看会破坏谱结构和训练稳定性的更新。DeepSeek V4 的公开算法还进一步加入了 Nesterov 风格的动量组合、Hybrid Newton-Schulz 正交化，以及更新 RMS 重缩放，说明它们采用的核心是一套为大规模训练显式工程化过的版本。

因此，可以把 DeepSeek V4 选择 Muon 的原因压缩成一句话：当模型的主要学习对象本来就是大量巨型矩阵，并且训练预算、收敛速度与稳定性都成为一等约束时，矩阵感知型优化器会比纯逐元素自适应方法更有吸引力。Muon 正好提供了这样一条路线。

优势：对线性层/MLP/注意力里的二维权重矩阵，Muon 往往能给出更结构化的更新方向；在一些大模型训练设定下，它的训练效率与收敛速度优于 AdamW。
边界：Muon 并非全参数通吃的默认方案。它通常只用于隐藏层的二维参数；embedding、bias、归一化参数、输出层等非二维或语义不同的参数，实践中常继续交给 AdamW。
工程特征：它强调更新矩阵的谱结构（Spectral Structure），而非单个坐标的独立缩放；因此超参数分组与参数类型划分比 AdamW 更重要。

可以把 AdamW 与 Muon 的差别记成一句话：AdamW 解决“每个参数该走多大步”，Muon 进一步关心“整个矩阵应该以什么形状移动”。因此 Muon 更像是隐藏层矩阵优化的专用工具，而非对所有参数一视同仁的通用默认项。

学习率调度

学习率（Learning Rate）往往是最敏感的超参数之一。即使优化器相同，只要学习率设错，训练就可能完全失败。学习率调度（Learning Rate Scheduling）/退火（Annealing）的核心思想是：前期用相对大的步长快速下降，后期逐渐减小步长做精细收敛。

常见调度方式包括：

Step decay：按 epoch 或 step 乘以固定因子衰减，简单直接。
Linear decay：线性下降到较小值或 0，常用于大模型训练后段。
Warmup + decay：先小步热身，再进入正常学习率，最后逐步衰减；对 Transformer 和大 batch 训练尤其常见。
余弦退火（Cosine Annealing）：将学习率从较大值逐步衰减到较小值，把优化从“高温探索”过渡到“低温收敛”，在训练后期降低梯度噪声（gradient noise）与过冲（overshoot）风险，使参数能在极小值附近稳定细化。余弦曲线在起点与终点的一阶导数为 0，避免阶梯式衰减的突变，因而衰减更平滑、后期更柔和。

Warmup 为什么有用？因为训练刚开始时，参数还处在一个非常“生”的区域，梯度统计不稳定，若一上来就用很大学习率，模型容易发散。先用较小步长热身几百或几千步，再拉到目标学习率，通常更稳。

余弦退火的典型写法（从 $\eta_{\max}$ 衰减到 $\eta_{\min}$）为：

\[\eta(t)=\eta_{\min}+\frac{1}{2}(\eta_{\max}-\eta_{\min})\left(1+\cos\left(\pi\frac{t}{T}\right)\right)\]

$\eta(t)$：第 $t$ 步使用的学习率。
$\eta_{\max}$ / $\eta_{\min}$：一个退火周期内的最大学习率与最小学习率。
$t$：当前步数（通常从 0 开始计），$T$：该周期的总步数。

这个公式可以直接做两次代入来验证边界：当 $t=0$ 时，$\cos(0)=1$，所以 $\eta(0)=\eta_{\max}$；当 $t=T$ 时，$\cos(\pi)=-1$，所以 $\eta(T)=\eta_{\min}$。中间学习率按半个余弦周期平滑下降。

通过余弦（Cosine）提供了一个非常干净的端点平滑（smooth endpoints）性质：在起点和终点处变化率为 0。对上式求导可得

\[\frac{d\eta}{dt}=-\frac{1}{2}(\eta_{\max}-\eta_{\min})\frac{\pi}{T}\sin\left(\pi\frac{t}{T}\right)\]

因此 $\sin(0)=\sin(\pi)=0$，学习率在周期开始与结束都不会出现突兀的“拐点”。相比之下，step decay 有不连续跳变，linear decay 在末端通常会突然到达下限并停止变化（出现不光滑的折点）。在非凸深度网络里，这种平滑退火往往更稳：前期保持较大步长便于探索，后期自然减小步长便于精细收敛。

工程上常见扩展是余弦重启（Cosine Annealing with Warm Restarts, SGDR）：把训练过程切成多个周期，每个周期把 $t$ 重新从 0 开始计（并可逐周期拉长 $T$）。在标准 SGDR 中，学习率在周期边界是不连续的：它会在一个周期末端衰减到 $\eta_{\min}$，并在下一个周期起点从 $\eta_{\max}$ 重新开始（参数 $\theta$ 不会重置）。

这种“重启”的作用核心是把优化过程从“后期小步精修”短暂切回“较大步长探索”，以应对非凸问题中的平台区（plateau）与次优盆地（suboptimal basin）。学习率拉高会增大每步更新幅度与梯度噪声（gradient noise）的有效影响，帮助轨迹跳出当前区域并探索新的吸引域；而如果当前区域确实是更稳健的平坦极小值（flat minimal），后续退火通常会把参数再次拉回并在附近更精细地收敛。工程上常见做法是把 $\eta_{\max}$ 设在“不会破坏稳定性”的范围内；若重启瞬间仍担心不稳定，也可以在每次重启后加一个很短的 warmup，让学习率在少量步数内从较小值爬升到 $\eta_{\max}$。

没有一种调度策略对所有任务都最好。真正有效的做法是结合损失曲线、梯度稳定性、验证集表现和训练预算一起看：如果前期降不动，往往学习率偏小；如果剧烈震荡甚至发散，往往学习率偏大；如果后期长期卡在平台区，通常需要更细的衰减策略。

集成策略（Ensemble Learning）

集成学习（Ensemble Learning）的核心思想是：让多个模型以某种组织方式共同决定结果，而非把预测完全押在一个模型上。它背后的统计直觉并不神秘：如果多个模型的误差来源不完全相同，那么组合后的总误差通常会更小、更稳、更抗偶然扰动。

从误差分解视角看，集成学习最常见的两条路线分别在处理两种不同问题。Bagging 更擅长压低方差（Variance），适合“单个模型很容易被训练集波动带偏”的情形；Boosting 更擅长逐步降低偏差（Bias），适合“单个弱学习器表达力不够，但可以通过连续修正变强”的情形。树模型恰好非常适合这两条路线：单棵深树高方差，适合拿去做 Bagging；浅层回归树可作为局部纠错器，适合拿去做 Boosting。

维度	Bagging	Boosting	Stacking
核心目标	降低方差，让模型更稳	降低偏差，让模型更准	学习如何组合不同模型，让互补性显式变成一个新模型
训练方式	多个基模型并行独立训练	多个弱学习器串行依次训练	先训练多个基模型，再训练一个元学习器做组合
每轮关注什么	同一个原始任务，但训练数据子集和特征视角不同	前一轮没有拟合好的误差、残差或负梯度	不同基模型的输出在什么条件下更可信
最终聚合	平均或投票	加权累加	由元学习器学习组合规则
典型代表	随机森林	GBDT、XGBoost、LightGBM、CatBoost	多模型堆叠集成
更像什么	多位评委独立打分后求平均	接力纠错，每个人只补前面没做好的部分	多位专家先各自判断，再由总负责人学习何时该信谁

Bagging

Bagging（Bootstrap Aggregating）的核心做法是对训练集进行多次自助采样（bootstrap sampling），即反复执行有放回采样（sampling with replacement）生成多个训练子集，并在这些子集上分别训练基模型，以降低方差（Variance）。由于每个模型见到的数据子集略有差异，学到的决策边界不会完全一致；最后对预测结果做平均或多数投票，可抵消一部分过拟合噪声。

Bagging 的关键不在“模型一定很多”，而在人为制造模型之间的差异性。如果每个基模型看到的训练数据完全相同、特征也完全相同、优化过程也完全相同，那么把它们重复训练很多次并不会带来真正互补的信息。bootstrap 采样、特征子采样、不同随机初始化，本质上都在做同一件事：让多个模型不要犯完全一样的错。

例：如果单棵决策树很容易被训练集中的偶然样本带偏，那么训练 100 棵在不同 bootstrap 样本上的树，再投票，通常会比只用 1 棵树稳定得多。这也是随机森林的核心直觉。

Boosting

Boosting 的思路与 Bagging 相反：它核心是“串行训练一串弱学习器（Weak Learners），让后一个模型专门修正前一个模型没做好的部分”。因此它更像“老师批改作业”：每一轮都盯着上轮最容易出错的题继续强化。

以加法模型视角看，Boosting 逐步构造

\[F_M(x)=\sum_{m=1}^{M}\alpha_m h_m(x)\]

其中 $h_m(x)$ 是第 $m$ 个弱学习器， $\alpha_m$ 是它的权重。公式核心是在表达：最终模型是“很多个简单模型的加权和”，每一轮都往当前模型上加一小块“修正项”。

这类“接力纠错”最直观的理解，是把当前模型与真实目标之间的差距看成下一轮的新任务。回归里，这个差距常直接表现为残差；更一般地，在可微损失下，它表现为损失对当前预测的负梯度。于是每一轮从去重学整个标签转向只学“接下来该往哪里补”。这就是 GBDT 家族能持续逼近目标函数的根本原因。

这里还可以再区分两种常见实现。较早的 Boosting，如 AdaBoost，更强调把之前分错的样本权重调高，让后续弱学习器更多关注难样本；GBDT 这一支则更强调直接拟合当前损失的残差或负梯度。两者都属于“串行纠错”，只是把“错误信息”传给下一轮的方式不同。

Boosting 也解释了为什么这类模型通常使用较浅的小树作为基学习器。因为每一棵树的职责核心是在当前模型基础上补一个局部修正。如果每棵树都长得很深、很强，单轮就可能把训练集吃得过满，后续串行叠加更容易过拟合；若每棵树只做小而稳的修正，再配合学习率与早停，整体通常更可控。

Stacking

Stacking（堆叠集成）不仅平均多个模型输出，还再训练一个元学习器（Meta-Learner）去学习“什么时候该信哪个模型”。例如一个基模型擅长处理稀疏文本特征，另一个擅长处理数值特征，Stacking 可以学会在不同样本上动态加权它们。

它像“专家会诊 + 总负责人”：若文本模型和表格模型各有专长，元模型就负责综合判断谁在当前病例上更可信。

机器学习编程

机器学习编程（Machine Learning Programming）处理的核心问题是：当一个模型被写成代码并真正运行起来时，谁负责组织训练流程，谁负责表达数学操作，谁又负责在具体硬件上把这些操作算快。这三层通常分别对应编程框架（Framework）、算子（Operator）和内核（Kernel）。理解这三个层次，有助于把“模型公式”与“工程实现”连接起来。

它们核心是一条自上而下的执行链。研究者或工程师先在框架里定义模型结构与训练流程；框架再把模型拆成一系列算子，例如矩阵乘法、卷积、归一化、激活、softmax；每个算子最终还需要落到某个硬件相关的内核实现上，才能在 CPU、GPU、TPU 或其他加速器上真正执行。因此，框架决定开发体验，算子决定计算图语义，内核决定实际运行效率。

框架（Framework）

框架（Framework）并非单一层次的概念。在现代机器学习工程里，至少要区分两层：一层是基础框架（Foundational Framework），负责张量（Tensor）、自动求导（Automatic Differentiation）、算子调度与底层执行；另一层是高层框架（High-level Framework），负责把某一类模型、某一类训练范式或某一类工程流程封装成更直接的接口。前者提供“地基”，后者提供“脚手架”和“现成结构”。

因此，PyTorch、TensorFlow、JAX 这类系统更适合放在基础框架层；而 Transformers、DeepSpeed、ModelScope、Lightning 这类工具，则更适合放在高层框架层。它们之间核心是典型的上下层关系：高层框架通常建立在基础框架之上，用更强的任务抽象、更少的模板代码和更完整的工程能力，把常见训练与推理流程直接组织起来。

常见框架简介

从工程使用频率看，开发者最常接触的是一组已经按职责分层的常见框架：高层框架负责组织训练与推理流程，基础框架负责真正执行张量计算，某些系统还进一步偏向执行优化与部署。把这些名字放回分层结构里理解，比孤立记忆框架名称更清楚。

数值、数据与实验底座

在深度学习框架之下，机器学习工程还依赖一层更基础的 Python 数据与实验组件。它们通常不直接定义神经网络，却决定数据是否能被稳定读取、清洗、切分、评估和复现。第 6 篇会从安装、API、目录结构和代码示例角度展开；这里先给出分层位置。

组件	分层位置	主要负责什么	和训练框架的关系
NumPy	数值计算底座	ndarray、shape、stride、dtype、broadcasting、向量化计算	很多张量框架的用户心智来自 NumPy；数据进入 PyTorch/JAX/TensorFlow 前，经常先在 NumPy 里完成整理。
pandas / Polars / PyArrow	表格与列式数据层	CSV/Parquet/Arrow IPC、表格清洗、列式扫描、memory map、大规模离线预处理	训练前的数据清洗与特征整理通常发生在这一层，再转成 Dataset、DataLoader 或 Parquet shard。
Hugging Face Datasets	机器学习数据集抽象	数据集加载、map/filter、cache、streaming、train/validation split	和 Transformers/TRL/PEFT 生态衔接紧，常作为 LLM 微调和评估脚本的数据入口。
tokenizers / tiktoken / SentencePiece	文本输入标准化层	分词、编码、特殊 token、token budget、chat template 前后的长度估算	tokenizer 的输出直接决定模型输入张量、attention mask、labels 和训练成本。
scikit-learn	经典机器学习 API 层	fit/predict/predict_proba、Pipeline、ColumnTransformer、预处理、模型选择与指标	表格 baseline、特征工程和小模型评估常以它为基准，深度学习模型也经常复用其指标和切分工具。
MLflow / W&B / TensorBoard / Langfuse	实验跟踪与可观测性层	指标、参数、artifact、trace、prompt/response 日志、LLM 调用链观测	训练框架产出 loss/metric/checkpoint；观测系统负责长期记录、比较和审计。

高层框架（High-level Framework）

高层框架的核心价值在于，它们在基础框架之上增加更强的任务语义、训练编排、模型生态或分布式能力。很多工程里，开发者日常接触最多的其实是这一层。

高层框架	主要依赖的基础框架	核心定位	替你封装了什么	最适合的场景	与基础框架的关系
Transformers	以 PyTorch 为主，也支持 TensorFlow 与 JAX / Flax	预训练 Transformer 模型与任务头生态	模型定义、权重加载、tokenizer / processor、Trainer、pipeline、任务头	NLP、LLM、多模态模型的微调与推理	通常核心是调用底层框架完成张量计算与反向传播
DeepSpeed	主要建立在 PyTorch 之上	大模型训练与推理优化框架	ZeRO、参数分片、优化器状态管理、分布式训练编排、推理加速	超大模型训练、多卡 / 多机扩展、显存受限训练	本质上是对 PyTorch 训练过程的增强与重写，而非替代 PyTorch
Unsloth	主要建立在 PyTorch 之上，并与 Transformers、PEFT、TRL 等 Hugging Face 生态深度协同	面向 LLM 微调与对齐的性能导向高层框架	快速加载与训练配方、QLoRA / DoRA / RL 配置、量化微调、长上下文训练、导出到 GGUF / Ollama / vLLM / Hugging Face	单卡或少卡进行 LLM 微调、偏好对齐、消费级显卡上的高性价比实验	它在 PyTorch 或 Transformers 之上把“高效微调 + 导出部署”这条链路进一步封装并做性能优化
TRL	PyTorch、Transformers、PEFT、Datasets	Hugging Face 生态里的后训练框架	SFTTrainer、DPOTrainer、GRPOTrainer、RewardTrainer、奖励函数接口、偏好数据处理	中小规模 SFT、DPO、GRPO、奖励模型训练和快速算法验证	属于 Transformers 生态上的训练器层，底层模型、tokenizer、数据集和适配器仍主要来自 Hugging Face 生态
OpenRLHF	PyTorch、Ray、DeepSpeed、vLLM	面向在线 RLHF 的多角色分布式训练框架	actor、critic、reference policy、reward model、vLLM rollout、Ray 调度、DeepSpeed ZeRO 配置	需要大规模在线 rollout、远程 reward 服务、PPO / DPO / GRPO / KTO 等后训练任务	把强化学习后训练拆成多个远程角色，并用 Ray 与 DeepSpeed 组织执行
verl	PyTorch、Ray、FSDP / FSDP2、Megatron-LM、vLLM、SGLang	LLM 强化学习后训练框架	HybridFlow 风格的单控制器编程、Ray 资源池、Actor-Rollout-Ref Worker、RewardManager、PPO / GRPO / RLOO / ReMax / REINFORCE++ 等算法入口	SFT 之后的 RLHF、RLVR、GRPO、PPO、规则奖励或奖励模型驱动的大规模后训练	在基础训练框架和推理引擎之上组织完整 RL 后训练系统，训练计算仍落到 PyTorch / FSDP / Megatron 等后端
ModelScope	主要建立在 PyTorch 之上，也兼容其他学习框架与平台能力	模型社区 + SDK + 训练 / 推理工作流	模型获取、pipeline、训练入口、评测、部署衔接、领域模型集成	中文生态、多模态任务、快速调用开源模型并做微调	更像“模型平台层 + 高层开发框架”，下层训练仍要落到基础框架执行
PyTorch Lightning	PyTorch	训练流程组织框架	Trainer、设备放置、日志、checkpoint、验证循环、分布式训练模板	希望保留 PyTorch 灵活性，同时减少训练样板代码	把 PyTorch 代码组织得更规范，但底层模型与梯度仍然是 PyTorch
Accelerate	PyTorch	分布式训练与多设备执行抽象	多 GPU / 多机启动、混合精度、设备管理、统一训练脚本适配	想在尽量少改代码的前提下把 PyTorch 训练扩展到分布式环境	让同一份 PyTorch 代码更容易跨设备运行，定位是补充分布式启动与设备编排，而非取代 PyTorch 训练代码
Keras 3	可运行在 TensorFlow、JAX、PyTorch 之上，推理还可对接 OpenVINO	高层模型开发接口	Layer / Model 抽象、训练接口、callback、分布式 API、生态组件	需要高层建模接口且希望在多后端之间切换	处于基础框架之上，强调统一建模接口，而非直接取代底层后端
Sentence Transformers	主要建立在 Transformers 与 PyTorch 之上	Embedding 与 reranker 高层框架	文本向量化、相似度训练、检索 / rerank 训练器、评测工具	语义检索、向量召回、文本匹配、reranking	属于面向特定任务族的高层框架，下层依赖 Transformers 与 PyTorch
MMEngine / OpenMMLab	主要建立在 PyTorch 之上	通用训练引擎与视觉算法框架底座	Runner、Hook、Config、数据流、训练 / 验证 / 测试流程组织	检测、分割、姿态估计等视觉任务	用统一工程抽象组织 PyTorch 训练，尤其适合复杂视觉实验体系

这一层最容易让人产生“它自己就能训练模型”的直觉，但从执行链条看，它们大多只是把训练过程组织得更高级。以 Transformers 为例，Trainer 可以发起训练，但底层的张量、梯度、优化器、自动求导与设备执行，通常仍然由 PyTorch 负责；Lightning、Accelerate、DeepSpeed 也是同样的逻辑，只是它们封装的侧重点不同。

后训练框架在分层中的位置

TRL、OpenRLHF、verl、LLaMA-Factory、Axolotl 这类系统适合归入高层框架。它们通常不重新定义张量和自动求导，主要在 PyTorch、Transformers、DeepSpeed、FSDP、Megatron、vLLM、SGLang 之上组织训练任务。对 LLM 后训练而言，这一层封装的对象已经不只是“前向、损失、反向、优化器”，还包括 rollout 生成、奖励计算、reference policy、KL 约束、actor / critic 角色、权重同步、checkpoint 导出和实验追踪。

因此，后训练框架的选型首先取决于系统复杂度。TRL 更偏 trainer 接口，适合快速实验和 Hugging Face 生态内的算法验证；OpenRLHF 更偏 Ray + DeepSpeed + vLLM 的在线 RLHF 编排；verl 更偏统一 worker、资源池和多算法切换；LLaMA-Factory / Axolotl 更偏配置化工作台和批量实验管理。它们处在同一个分层位置，但工程抽象的重心不同。

Unsloth

Unsloth 最适合放在高层框架这一层理解。它基于 PyTorch、Transformers、PEFT、TRL 这一整套既有生态之上，把大语言模型（Large Language Model, LLM）的高频训练流程重新组织成更偏性能导向的开发体验。它解决的核心问题是怎样在尽可能小的显存和尽可能少的工程样板下，把 LLM 微调、对齐、导出与部署这条链路跑通。

从开发者视角看，Unsloth 的典型工作流通常仍然是“加载 Hugging Face 模型 → 挂接 PEFT 适配器 → 用监督微调（SFT）或强化学习（RL）训练 → 导出到下游推理栈”。它的价值在于把这条链上几个最痛的环节一起压平：第一，量化微调（如 LoRA / QLoRA）与长上下文训练更容易直接落地；第二，针对 GRPO 等对齐训练给出更直接的入口；第三，把训练后的模型或适配器导出到 GGUF、Ollama、vLLM、SGLang、Hugging Face 等下游环境的路径做得更短。换言之，Unsloth 核心是把已有生态串得更紧，并对其中最贵的显存、最长的上下文和最复杂的导出环节做专项优化。

它与其他高层框架的边界也需要分清。Transformers 的优势在于模型家族与任务头生态最通用；Accelerate 更像多设备执行抽象；DeepSpeed 更偏分布式训练、参数分片与大规模集群优化；Unsloth 则把重心压在“单机到小规模多卡场景下，如何更快、更省显存地完成 LLM 微调与对齐”。因此，它尤其适合消费级 GPU、本地实验、小团队快速验证、Notebook 驱动的训练流程，以及以 LoRA / QLoRA / RL 为主的大模型增量训练。若任务是超大规模集群预训练或需要复杂的跨机并行策略，DeepSpeed / Megatron 一类系统通常仍然更中心；若任务是通用模型调用与标准微调，Transformers 仍然是最基础的入口。

工程上可以把 Unsloth 看成“面向 LLM 微调的高性能工作台”。它一端连接 Hugging Face 模型与适配器生态，另一端连接本地推理、GGUF、Ollama、vLLM、SGLang 等部署路径，中间则用一套更偏性能调优的训练封装把它们粘起来。对初学者，它降低的是上手门槛：少改几处配置就能跑通量化微调或 RL；对熟悉生态的工程师，它降低的是试验成本：同样的显存预算下，能尝试更长上下文、更复杂的对齐流程，或更快地把训练结果导出到不同推理栈。它的本质依然是高层工程抽象，而非底层深度学习框架的替代品。

比较维度	Transformers	DeepSpeed	Unsloth
核心目标	统一模型与任务接口	放大训练规模与显存效率	压低 LLM 微调 / 对齐门槛并提升单机效率
最擅长的问题	模型加载、任务头、Trainer、pipeline	ZeRO、分布式并行、大模型集群训练	QLoRA、GRPO、长上下文、快速导出部署
典型使用者	几乎所有 NLP / LLM 开发者	大模型平台与多机训练团队	本地实验者、个人开发者、小团队 LLM 微调工程师
与 PyTorch 的关系	调用其张量与训练能力	增强其训练与并行系统	在其之上重组 LLM 微调与导出流程

LLM 工程栈的横向分层

第 6 篇把训练、推理、RAG、Agent 与观测组件拆成了更细的工程章节。放回机器学习编程的总图里，它们大致可以按“训练组织、分布式系统、推理服务、检索应用、编排观测”五条线理解。

层次	代表组件	解决的问题	选型时先看什么
高层训练与微调工作台	PEFT、PaddleNLP、LLaMA-Factory、Axolotl、Unsloth、ModelScope	把模型加载、数据模板、LoRA/QLoRA、SFT/DPO/GRPO、导出部署组织成更少的配置和脚本。	底层生态是 Hugging Face、Paddle 还是 ModelScope；团队偏手写脚本、YAML 工作台还是 WebUI。
分布式训练系统	DeepSpeed、Megatron-LM / Megatron Core、NeMo、ColossalAI、MindSpeed、PyTorch FSDP	处理 ZeRO/FSDP 参数分片、TP/PP 并行、offload、分布式 checkpoint、集群 launcher 和通信优化。	硬件是 NVIDIA GPU 还是 Ascend NPU；训练是微调、继续预训练还是从零预训练；checkpoint 是否要跨并行拓扑迁移。
推理引擎与服务系统	vLLM、SGLang、LMDeploy、TGI、TensorRT-LLM / Triton、llama.cpp、Ollama	把模型权重变成可承载并发请求的服务，管理 KV cache、continuous batching、量化、OpenAI-compatible API 和多 GPU 部署。	目标是高吞吐、低延迟、本地运行、国产模型适配，还是 NVIDIA 深度优化部署。
RAG 与向量检索	Sentence Transformers、Haystack、FAISS、pgvector、Chroma、Qdrant、Milvus、Weaviate、TCVectorDB	把文档分块、embedding、向量索引、BM25/hybrid retrieval、rerank 和生成链路组织起来。	数据规模、过滤/权限复杂度、是否需要托管服务、是否要把 RAG pipeline 做成可测试组件图。
Agent 编排与工具协议	LangChain、LangGraph、LlamaIndex、DSPy、AutoGen、CrewAI、MCP、OpenAI-compatible tool calling	把模型调用、工具调用、状态机、长任务、审批、人机协同和外部系统连接起来。	流程是简单链式调用、可恢复状态图、数据/索引中心，还是多角色协作。
实验管理与可观测性	TensorBoard、MLflow、Weights & Biases、Langfuse	记录训练指标、配置、产物、LLM 调用链、prompt/response、用户反馈和线上回放。	关注训练实验对比、模型注册、LLM trace、生产审计还是团队协作看板。

基础框架（Foundational Framework）

基础框架直接定义张量运算、计算图、自动求导、优化器、算子调度与设备执行能力。它们离硬件更近，也离“神经网络真正怎样被算出来”更近。高层框架能否存在，首先取决于这一层是否提供了足够稳定和强大的底座。

基础框架	核心抽象	主要优势	最适合的场景	典型局限
PyTorch	Tensor、 nn.Module 、autograd、动态图（Dynamic Computation Graph）	灵活、直观、研究生态最强，训练与调试体验优秀	研究、论文复现、大模型训练、需要自定义训练逻辑的任务	如果完全手写训练循环，工程样板代码较多，部署链路常需额外工具配合
TensorFlow	Tensor、Layer / Model、自动求导、图执行与编译	训练与部署体系完整，服务化、端侧与工业链路成熟	企业级生产环境、需要完整训练到部署闭环的场景	研究阶段的编码与调试直观性通常不如 PyTorch
JAX	数组（Array）+ 函数变换 + XLA 编译	编译优化强，函数式表达清晰，适合大规模并行数值计算	需要强编译能力、自定义并行策略、科研数值实验的任务	函数式编程习惯要求更高，工程生态相对更偏高级用户
PaddlePaddle	Tensor、动态图 / 静态图、训练与产业工具链	中文生态与产业落地支持强，训练推理工具链完整	产业应用、教育场景、中文任务与本土化生态	国际社区规模与通用论文实现数量通常少于 PyTorch
MindSpore	Tensor、动态图 / 静态图、图编译、自动并行	与 Ascend NPU、CANN、MindFormers、MindSpeed 等生态协同紧密	昇腾集群、端边云协同、需要国产硬件栈深度适配的训练和推理任务	迁移 PyTorch/Transformers/DeepSpeed 资产时需要评估算子、checkpoint 与训练脚本改造成本
OneFlow	Global Tensor、placement、SBP（Split / Broadcast / Partial）	分布式张量布局表达清晰，适合研究并行计算与训练系统	需要显式描述张量在多设备网格上的切分、复制和归约路径	通用 LLM 微调生态规模通常小于 PyTorch / Hugging Face 主线

如果把机器学习工程比作建楼，那么基础框架提供的是钢筋、水泥、电路和承重结构。高层框架之所以能让开发速度显著提升，正是因为底层这些张量、梯度和算子能力已经由基础框架稳定提供。

执行与部署系统（Execution and Deployment Stack）

除了高层框架和基础框架，还存在一类经常与“框架”混称、但职责不同的系统：执行与部署系统。它们的核心目标核心是让已经定义好的模型在特定硬件上更快、更省、更稳定地运行。

系统	主要定位	最常见作用	典型场景	与前两层的关系
ONNX Runtime	跨框架推理执行系统	加载 ONNX 图，做图优化、算子调度与多后端执行	统一部署、跨框架导出后的推理执行	位于模型定义之后，更接近运行时（Runtime）而非训练框架
TensorRT	NVIDIA GPU 推理优化系统	图优化、层融合、量化与 kernel 自动选择	低延迟在线推理、高吞吐批量服务	通常接收上层框架导出的模型，再做更深的硬件侧优化
TensorRT-LLM	NVIDIA LLM 推理优化系统	为大语言模型构建 engine，优化 attention、KV cache、并行切分和低精度推理	对吞吐、延迟和 GPU 利用率要求极高的生产推理服务	比通用推理框架更靠近硬件和 engine 构建流程，部署成本也更高
vLLM / SGLang / TGI / LMDeploy	LLM 在线推理服务端	OpenAI-compatible API、batching、KV cache、流式输出、多 GPU 服务和生成参数管理	把 LLM 权重交付成 HTTP 服务，承载 chat、RAG、Agent 和 rollout 请求	位于模型权重和业务 API 之间，重点是服务调度与请求生命周期管理
llama.cpp / Ollama	本地与边缘 LLM runtime	GGUF 权重加载、量化推理、本地 API、低运维成本运行	个人开发、离线演示、边缘设备、小模型本地服务	更关注部署便利性和本地运行，和大规模 GPU 服务的目标不同
OpenVINO	Intel 硬件推理栈	模型转换、图优化、Intel CPU / iGPU / VPU 推理	Intel 服务器与边缘设备部署	更接近部署后端，而非通用训练框架
TVM	深度学习编译栈	自动调优、代码生成、异构硬件适配	边缘部署、自定义芯片、性能工程	站在算子和内核之间，为不同硬件生成更优执行实现

因此，讨论“框架”时最好先分清是哪一层：高层框架负责把任务和流程组织起来，基础框架负责把张量与梯度真正算出来，执行与部署系统负责把已经定义好的模型在目标硬件上跑到更优。这三层一旦混在一起，很多看似相近的名词就会失去边界。

算子（Operator）

算子（Operator）是计算图（Computation Graph）的基本运算单元。它定义一个明确的数学变换：输入什么张量（Tensor）、输出什么张量、张量的形状（Shape）和数据类型（Data Type）如何变化，以及反向传播时梯度如何计算。框架层写出的模块、层、网络块，最终都会被拆解成一串更细粒度的算子。

从工程实现上看，算子这一层负责表达“数学语义”。例如一个线性层（Linear Layer）会被拆成 MatMul 与 Bias Add；一个自注意力（Self-Attention）模块会被拆成 Q/K/V 投影、MatMul、Scale、Mask、Softmax、再一次 MatMul、Dropout、LayerNorm 等。高层模块能否被编译优化，本质上取决于这些算子能否被识别、融合与高效执行。

常用算子可以分成四大类：线性代数与张量形状类、神经网络前向计算类、序列与索引操作类、训练与优化类。下面的表格按这一方式展开。

线性代数与张量形状类

算子	核心作用	常见输入 / 输出	典型出现位置	实现与使用要点
MatMul / GEMM	矩阵乘法，完成线性投影与特征混合	二维或更高维张量，输出新的线性组合	全连接层、注意力投影、MLP	最核心的高密度算子之一，常直接决定训练吞吐
Batch MatMul	批量矩阵乘法，多个矩阵对并行相乘	三维及以上张量	多头注意力（Multi-Head Attention）	常与转置、缩放、mask 连用
Add / Bias Add	逐元素加法	两个可广播张量	残差连接、偏置项、特征融合	常被融合到前后算子中减少访存
Sub / Mul / Div	逐元素减法、乘法、除法	逐元素张量运算	归一化、门控、缩放	广播规则必须和张量形状匹配
Scale	用常数或向量对张量缩放	输入张量与标量 / 向量	attention 中的 $1/\sqrt{d_k}$ 缩放	经常被编译器与前后算子融合
Transpose / Permute	重排维度顺序	输入张量到相同元素、不同布局的张量	NCHW / NHWC 转换，多头维度重排	逻辑上不改值，但常改变内存访问模式
Reshape / View	改变张量形状而不改变元素总数	同样的数据，不同 shape	展平、分头、合并头、batch 展开	若内存不连续，可能触发额外复制
Expand / BroadcastTo	按广播规则扩展维度	低维张量扩展为高维张量	偏置广播、mask 扩展	逻辑扩展不一定真实复制数据
Squeeze / Unsqueeze	删除或插入长度为 1 的维度	维度数变化，数据值不变	batch / channel 维调整	常用于接口对齐和算子拼接
Concat / Stack	拼接多个张量	多个同类型张量合并为一个	多特征合并、多分支网络	Concat 沿已有维度拼接，Stack 会新增维度
Split / Chunk	将一个张量拆成多个子张量	一个张量拆成若干块	Q/K/V 切分、多分支路径	与 Concat、Stack 常成对出现
ReduceSum / ReduceMean / ReduceMax	沿某些维度做聚合	高维张量压缩成低维张量	池化、loss 聚合、统计量计算	归约（Reduction）通常对并行实现要求较高
EinSum	用爱因斯坦求和规则表达复合张量运算	多个张量到一个张量	复杂线性代数、注意力原型实现	表达力强，但实际性能往往依赖后端是否能分解优化

神经网络前向计算类

算子	核心作用	常见输入 / 输出	典型出现位置	实现与使用要点
Convolution	局部感受野加权求和	特征图与卷积核，输出新的特征图	CNN、视觉 backbone、语音模型	步幅、填充、分组卷积会显著影响性能与感受野
Depthwise / Group Convolution	按通道组或单通道卷积	特征图到特征图	MobileNet、轻量视觉网络	减少计算量，但对 kernel 实现要求更高
Pooling（Max / Avg）	局部下采样与聚合	特征图压缩为空间更小的特征图	CNN、时序聚合	降低分辨率与计算量，也带来信息损失
Adaptive Pooling	把输入压到固定输出尺寸	任意空间尺寸到固定尺寸	视觉分类头、全局池化	方便不同输入尺寸统一到下游全连接层
ReLU	负值截断为 0 的激活函数	逐元素非线性变换	MLP、CNN、分类头	实现简单，稀疏性强
GELU	平滑激活，保留小负值的连续变化	逐元素非线性变换	Transformer、LLM MLP	现代语言模型最常见的激活之一
SiLU / Swish	输入与 sigmoid 门控的乘积	逐元素非线性变换	高性能视觉与语言模型	平滑、效果稳定，常见于新型 backbone
Sigmoid	把实数映射到 $(0,1)$	逐元素概率化	门控单元、二分类输出、多标签任务	饱和区梯度小，深层网络中通常不作主激活
Tanh	把实数映射到 $(-1,1)$	逐元素非线性变换	早期 RNN、门控结构	零中心，但同样存在饱和问题
Softmax	把一组分数归一化为概率分布	类别分数到概率	多分类头、attention 权重	常与交叉熵和 mask 配合，数值稳定性关键
LayerNorm	对单个样本的最后若干维做归一化	输入张量到同 shape 张量	Transformer、LLM	不依赖 batch 统计量，适合变长序列
BatchNorm	利用 batch 统计量做归一化	输入张量到同 shape 张量	CNN、视觉任务	训练与推理行为不同，小 batch 时效果可能下降
RMSNorm	基于均方根做归一化	输入张量到同 shape 张量	许多现代大语言模型	比 LayerNorm 更简洁，计算更轻
Attention / SDPA	基于相似度对值向量加权聚合	Q、K、V 到上下文表示	Transformer、跨模态模型	高层看是算子族，底层常映射到 FlashAttention 等 kernel
Embedding Lookup	根据离散索引查表取向量	token id 到 embedding 向量	NLP、推荐系统、类别特征	本质是参数矩阵的索引读取，并非普通 MatMul

序列与索引操作类

算子	核心作用	常见输入 / 输出	典型出现位置	实现与使用要点
Gather	按给定索引抽取元素或切片	源张量与索引张量	embedding、beam search、采样	访问模式离散，容易受内存带宽限制
Scatter / ScatterAdd	按索引写回或累加	目标张量、索引、更新值	图神经网络、稀疏更新	并发写冲突和原子操作代价常是性能瓶颈
Index Select	按某一维选取指定位置	张量与一维索引	子序列抽取、类别筛选	语义上比通用 gather 更窄，但常更清晰
Slice / Narrow	截取连续区间	大张量切出子张量	窗口注意力、局部特征抽取	若数据连续，可几乎零开销视图化
Mask Fill / Select	按布尔掩码选择或填充值	张量与 mask	attention mask、padding 屏蔽	对变长序列与非法位置处理非常关键
Where	按条件在两个值之间选择	条件张量与候选张量	条件计算、loss 屏蔽、数值裁剪	本质是逐元素条件分支
Argmax / Argmin	返回最大 / 最小值所在索引	张量到索引	分类预测、贪心解码	输出是位置而非概率，通常不可导
TopK	返回前 $k$ 个值及其索引	张量到值与索引	检索、beam search、采样截断	常与排序、候选筛选结合
Sort / Argsort	排序并返回顺序	张量到排序结果	排序损失、候选重排	复杂度高，尽量只在必要路径中使用
Pad	在边界补零或补指定值	原张量到更大张量	卷积前处理、batch 对齐、序列补齐	padding 策略会影响有效计算比例
Pack / Unpack Sequence	压缩或还原变长序列表示	变长序列与紧凑表示之间转换	RNN、语音与时序模型	用于减少 padding 带来的无效计算
Position Encoding Add	注入位置信息	token 表示与位置编码	Transformer、序列模型	绝对位置、相对位置、RoPE 在实现形式上不同

训练与优化类

算子	核心作用	常见输入 / 输出	典型出现位置	实现与使用要点
Dropout	训练时随机失活部分单元	输入张量到稀疏化后的张量	MLP、attention、分类头	训练和推理行为不同，推理阶段通常关闭
Cross-Entropy Loss	衡量预测分布与真实类别的差距	logits 与标签到标量损失	分类、语言模型、token 分类	实现中常与 log-softmax 融合提高稳定性
NLL Loss	负对数似然损失	对数概率与标签到损失	分类任务、序列建模	通常接在 log-softmax 之后
MSE Loss	均方误差	预测值与目标值到损失	回归、蒸馏、表示对齐	对异常值较敏感
L1 / SmoothL1 Loss	绝对误差或平滑绝对误差	预测值与目标值到损失	目标检测、鲁棒回归	比 MSE 对异常值更稳
KL Divergence	衡量两个分布之间的差异	两个概率分布到标量	知识蒸馏、VAE、分布对齐	输入通常需要是概率或对数概率
Backward / Gradient	沿计算图反向传播梯度	损失到各参数梯度	所有训练流程	框架自动求导的核心能力就体现在这里
Gradient Clip	限制梯度范数或幅值	梯度到裁剪后梯度	RNN、大模型训练	控制梯度爆炸，提升训练稳定性
Optimizer Step（SGD / Adam / AdamW）	根据梯度更新参数	参数、梯度、状态到新参数	每一步训练迭代	常被实现为 fused optimizer kernel 以减少开销
Weight Decay	对参数施加正则化收缩	参数到受约束更新	分类、语言模型、视觉模型	现代实现常与 AdamW 解耦
AllReduce	跨设备聚合梯度或统计量	多卡张量到同步后的张量	数据并行训练	严格说更接近通信算子，但在训练图中极常见
AllGather / ReduceScatter	跨设备收集或切分张量	多设备张量通信	张量并行、序列并行、ZeRO	大模型分布式训练不可缺少

因此，算子层是连接“模型定义”和“底层执行”的语义中枢。看懂模型实际调用了哪些算子，基本就等于看懂了它在做哪些数学步骤，以及这些步骤能否被进一步融合和加速。

内核（Kernel）

内核（Kernel）是算子的底层实现。它规定了某个算子如何映射到具体硬件：线程如何组织、数据如何分块、是否使用共享内存（Shared Memory）、是否调用向量化指令、是否走 Tensor Core、是否把多个小算子融合成一次执行。若说算子定义的是“做什么”，那么内核定义的就是“怎样在这台机器上把它做快”。

从性能工程角度看，内核层回答的是：同一个数学算子，针对不同硬件、数据形状、精度格式和访存模式，哪种实现最优。因此，表面上同样是 MatMul、LayerNorm 或 Attention，不同框架和后端的速度会相差很大。

常见内核或内核族可以按下表理解：

内核 / 内核族	主要服务的算子	典型硬件 / 后端	核心优化手段	最典型的收益	常见场景
cuBLAS GEMM kernel	MatMul、Linear、Batch MatMul	NVIDIA GPU	tile blocking、Tensor Core、流水线、寄存器复用	把矩阵乘法做到接近硬件峰值吞吐	全连接层、attention 投影、MLP
cuDNN Convolution kernel	Convolution、Pooling、部分归一化与激活	NVIDIA GPU	direct convolution、im2col + GEMM、Winograd、FFT 自动选择	按输入形状自动切换最优卷积路径	CNN、视觉 backbone、语音前端
oneDNN / MKL kernel	MatMul、Convolution、Normalization	x86 CPU	SIMD 向量化、cache blocking、线程并行	提升 CPU 推理与训练效率	服务器 CPU 推理、无 GPU 环境
NCCL communication kernel	AllReduce、AllGather、ReduceScatter、Broadcast	NVIDIA 多 GPU	环形通信（Ring）、树形通信（Tree）、链路拓扑优化	降低多卡同步开销	数据并行、张量并行、大模型训练
FlashAttention kernel	Scaled Dot-Product Attention	NVIDIA GPU 及其他支持相应实现的加速器	分块、在线 softmax、kernel fusion、减少 HBM 访存	把 attention 从显存瓶颈拉回到更接近计算瓶颈	Transformer、LLM、长序列建模
Fused LayerNorm / RMSNorm kernel	LayerNorm、RMSNorm、Bias Add、Residual Add	GPU / CPU 后端	多步逐元素运算融合为一次访存	显著降低 memory-bound 算子的开销	Transformer block、LLM 推理
Fused MLP kernel	Bias Add、GELU / SiLU、Dropout、Residual	GPU	把连续逐元素算子合并，减少中间张量写回	减少 kernel launch 次数与显存读写	MLP block、前馈网络
Triton custom kernel	任意自定义算子或 fused operator	GPU	开发者手写 tile、访存布局与并行策略	在通用库缺少最优实现时获得定制性能	大模型训练、研究型性能优化、自定义融合
TensorRT generated kernel	部署图中的卷积、MatMul、激活、归一化、量化路径	NVIDIA GPU	图优化、层融合、低精度选择、kernel autotuning	显著降低推理时延并提升吞吐	在线推理服务、边缘推理
XLA generated kernel	JAX / TensorFlow 图中的可融合算子子图	GPU、TPU 等	图级融合、静态形状分析、编译生成目标代码	让一串算子整体下沉为更大的执行单元	JAX 训练、TPU 训练、编译型执行场景
TVM generated kernel	自定义张量表达式对应的算子	CPU、GPU、边缘加速器	自动调度、自动搜索、代码生成	跨异构硬件获得针对性实现	端侧部署、自定义芯片适配
PagedAttention / KV-cache kernel	增量解码中的 attention 与缓存访问	LLM 推理后端	分页管理 KV cache、优化随机访问和 batch 合并	提升长上下文与多请求并发推理效率	大语言模型在线推理

理解内核时最重要的一点是：一个算子并不对应唯一实现。同样是卷积，可以选 direct convolution、Winograd 或 FFT；同样是 attention，可以选普通分步实现、FlashAttention 或推理场景下的 paged attention。真正的差异往往不在数学定义，而在访存方式、融合策略、并行粒度和硬件利用率上。

因此，内核并非建模阶段最先暴露给用户的对象，却往往决定模型最终的吞吐、时延、显存占用、能耗和成本。模型结构决定“上限在哪里”，内核质量决定“这个上限能兑现多少”。

三者关系

把三者串起来看，一个卷积层或注意力层的执行路径通常是这样的：开发者先在 PyTorch 或 JAX 中写出一个模块；框架把它拆成若干算子，例如 MatMul、Softmax、LayerNorm 或 Convolution；运行时再为每个算子选择对应硬件上的 kernel，例如 cuBLAS 的 GEMM kernel、cuDNN 的 convolution kernel，或 Triton 写成的自定义 fused kernel。整个训练与推理过程由框架负责调度，算子负责表达数学语义，内核负责把语义变成高性能机器代码。

可以用一个具体例子来理解。若在 PyTorch 中定义一个卷积层，那么：

PyTorch 作为框架负责接收模块定义、组织张量、记录梯度关系并调度执行。
卷积（Convolution）作为算子表示“输入特征图与卷积核做局部加权求和”这一数学操作。
底层可能调用 cuDNN 提供的卷积 kernel，在 GPU 上以高度优化的方式完成真正计算。

同样地，在 Transformer 中写一层自注意力时，框架会组织前向与反向图；MatMul、Softmax、Mask、LayerNorm 等作为算子组成计算链；而 FlashAttention、fused LayerNorm、paged attention 这类高性能实现，则属于内核或 kernel-level optimization 的范畴。

因此，这三个层次的关系可以概括为：框架管理整个建模与执行流程，算子定义模型中的数学步骤，内核负责把这些步骤在具体硬件上高效落地。从研究到工程落地的能力鸿沟，往往正体现在能否同时理解这三层。

经典机器学习

选型指南

经典机器学习的模型选择，本质上是在任务形式、数据规模、特征形态、可解释性要求、训练与推断成本之间做匹配。只要先判断“有没有标签”“输出是什么类型”“样本量有多大”“特征是否稀疏或非线性”“是否需要概率或规则解释”，大多数任务都可以迅速缩小到少数几个候选模型。

本章中的模型核心是按建模假设来区分。线性模型假设边界或关系接近线性；树模型更擅长表格数据中的非线性交互；概率模型更强调分布解释；近邻模型依赖局部相似性；聚类与降维模型关注无监督结构；HMM（Hidden Markov Model, HMM）和条件随机场（Conditional Random Field, CRF）则处理序列标签之间存在依赖的结构化预测问题。

下面的表格核心是直接服务于选型。每一行都回答五个问题：什么情况下优先选它、它最依赖什么数据条件、它能解决什么核心诉求、为什么它在该场景里合适、以及什么情况下应当换模型。在大多数工程场景里，先按这些表格缩小范围，再进入具体模型细节，效率最高。

任务类型：分类

模型	优先选择条件	数据与特征前提	最主要价值	不建议优先使用的情况
逻辑回归	需要稳定强基线、需要概率输出、需要解释每个特征如何影响类别	特征可以线性分离到一定程度；高维稀疏特征尤其合适，如 one-hot、词袋、统计特征	训练快、概率自然、权重可解释，适合作为第一版可上线模型	类别边界高度非线性、特征交互复杂且没有显式特征工程时
支持向量机（SVM）	样本中小规模、类别边界较清晰、希望用最大间隔提升泛化稳健性	特征需要做尺度统一；核 SVM 更适合中小规模，不适合超大样本	对边界样本建模强，在线性不可分但结构仍较规整时往往优于纯线性模型	数据量很大、需要快速训练与部署、或者必须输出天然概率时
决策树	需要把模型直接解释成规则路径，或业务天然是“按阈值分流”的形式	表格特征、混合数值与类别特征都可；不强依赖标准化	规则可视化最直接，便于和业务规则、审计规则对齐	追求最稳泛化性能时；单树通常方差高，容易过拟合
随机森林	表格分类需要稳健基线、希望少调参、担心单棵树过拟合	适合中等规模表格数据；对噪声、缺失和特征尺度通常更宽容	比单树稳定，通常先于复杂 boosting 模型给出可靠结果	追求表格任务的极致精度，或需要很小的模型体积时
梯度提升树（GBDT）	表格分类精度优先，特征中存在明显非线性与交互效应	适合结构化特征，不要求线性关系；通常需要一定调参	能逐轮修正前一轮错误，在中等规模表格任务上常是强力基线	需要极快训练、极少调参，或数据已经极大到串行 boosting 成本明显偏高时
XGBoost	工业表格分类、竞赛任务、缺失值与正则化处理都很重要	适合中大规模结构化数据；对特征工程和超参数较敏感，但工程支持成熟	精度高、鲁棒、缺失值处理成熟，是很多表格分类任务的首选之一	极端大规模、极度强调训练速度与内存效率时，LightGBM 往往更优先
LightGBM	大规模表格分类、高维稀疏特征、需要更快训练与更低内存消耗	适合样本量大、特征维度高的结构化任务；对类别特征和稀疏特征较友好	训练快、工程效率高，在工业 CTR、风控、推荐特征场景很常见	数据量较小且噪声较大时；叶子生长策略若不控制，容易过拟合
朴素贝叶斯	需要极快文本分类基线、小样本启动、希望先验证特征是否有判别力	最适合词袋、词频、计数类高维稀疏特征；默认接受条件独立近似	训练和推断都极快，在垃圾邮件、主题粗分类等任务上常有效	强依赖复杂特征相关性、类别边界非线性明显、或需要高精度概率校准时
K 近邻（KNN）	样本规模小、相似样本应有相似标签、希望不做显式训练	距离度量必须有意义；所有特征应标准化，且维度不能过高	局部模式直观，适合做小数据原型验证或相似样本检索式分类	高维稀疏特征、大规模数据、低延迟在线推断场景
线性判别分析（LDA）	有监督分类同时希望压缩特征维度，且类别统计结构较稳定	更适合每类近似高斯、类内协方差可估计的情况；样本数不能太少	把“降维”和“分类判别”结合起来，适合先压缩再分类的流程	类别分布非常复杂、强非高斯、强非线性时

任务类型：回归

模型	优先选择条件	数据与特征前提	最主要价值	不建议优先使用的情况
线性回归	需要连续值预测、希望建立可解释、可审计、可稳定复现的基线	目标与特征大致满足线性关系，或经过变换后接近线性	系数解释直观，便于分析“哪个因素把目标推高或拉低”	目标关系明显呈现复杂分段、交互或强非线性时
Lasso（L1 正则化）	特征很多、怀疑只有少数特征真正有效、希望模型自动做变量筛选	高维特征尤其适合；允许部分权重被压到 0	回归同时完成特征选择，适合构建更稀疏、更简洁的模型	大量强相关特征共同起作用时；它可能只保留其中部分特征
岭回归 / L2 正则化	特征共线性明显、担心普通线性回归权重不稳定	适合多个相关特征共同解释目标，而不希望稀疏淘汰其中一部分	通过收缩权重降低方差，使模型在相关特征场景下更稳定	首要目标是做特征筛选、希望很多系数直接变成 0 时
Elastic Net（L1 + L2 正则化）	既想做特征选择，又不希望在相关特征组上过于不稳定	高维、相关特征并存的回归任务最常见	综合 Lasso 与岭回归的优点，在稀疏性和稳定性之间折中	特征数量不多、模型目标非常简单时；其调参成本高于纯 L1 或 L2
决策树	目标值与输入关系近似分段函数，或业务逻辑天然围绕阈值展开	表格特征、混合类型特征都可；不需要严格线性假设	能学出“满足什么条件时预测值跳到哪个区间”的规则	希望预测曲线平滑、稳定，或希望泛化误差尽可能低时
随机森林	希望回归稳健、抗噪声、少调参，先拿到可靠效果	表格回归场景最常见；对特征尺度和局部异常较稳	综合多个树模型平均结果，通常比单树更不容易过拟合	要求外推能力强，或希望模型极度轻量、延迟极低时
梯度提升树（GBDT）	表格回归精度优先，目标和特征之间存在复杂非线性	适合异构表格特征；对异常值和长尾目标通常也较有韧性	在房价、评分、收益、风险等典型表格回归中常是强基线	算力非常紧、需要极低训练成本时
XGBoost / LightGBM	工业级表格回归、大规模特征、希望兼顾精度与工程效率	适合结构化数据；XGBoost 更稳健成熟，LightGBM 更强调速度与规模	常作为表格回归默认候选，能直接处理大量非线性和特征交互	数据关系本来就简单线性、并且强依赖系数解释时
K 近邻（KNN）	局部相似样本的目标值应当接近，希望用邻域平均直接预测	小数据、低维、有意义的距离度量是前提	局部平滑性强时实现简单有效，适合作为相似样本回归基线	高维、大样本、分布稀疏或在线延迟敏感时

任务类型：聚类

模型	优先选择条件	数据与特征前提	最主要价值	不建议优先使用的情况
K-Means	需要快速把样本分成若干组，并且预期每组都围绕某个均值中心展开	簇大致是球形或凸形；欧氏距离有意义；需要先给定 $K$	速度快、实现简单，适合作为无监督分群第一选择	簇形状复杂、密度差异大、离群点很多或无法预先估计簇数时
层次聚类	不仅想得到分组结果，还想知道各组是如何逐层合并成层级结构的	更适合中小规模数据；需要能接受 $O(N^2)$ 级别距离矩阵成本	能输出树状图，适合做群体结构分析与多粒度解释	数据量很大、只关心最终聚类标签、不关心层级关系时
DBSCAN	希望识别任意形状簇，并把稀疏孤立点单独作为噪声剔除	密度尺度相对统一；距离度量有意义；参数 $\epsilon$ 邻域半径和最小点数可估计	不需要预设簇数，能自然处理非凸簇和离群点	不同区域密度差异很大时；单一密度阈值难兼顾所有簇
HDBSCAN	簇的密度明显不一致，希望保留 DBSCAN 的密度思想但更自适应	数据存在多密度结构；仍需合理距离度量	比 DBSCAN 更能处理“有的簇很密、有的簇较松”的真实数据	只需要一个快速、简单、可复现的基础分群结果时
Leiden	样本更适合先构成相似图，再按图上的社区结构分群；或者本身就是网络数据	已有图结构，或可以稳定构造 kNN / 相似图；更关心连通社区而非欧氏球形簇	能直接在图上优化社区划分，通常比 Louvain 更稳定，且更能避免内部断裂社区	原始特征空间中的欧氏距离本身就足够表达簇结构，且不希望引入构图步骤时
高斯混合模型（GMM）	希望得到软聚类结果，或者认为每个簇更像椭球形概率团块	连续特征较适合；默认每个簇可近似为一个高斯成分	不仅给簇标签，还给每个样本属于各簇的概率	簇形状非常复杂、非高斯、多峰结构难用少量高斯逼近时

任务类型：降维与可视化

模型	优先选择条件	数据与特征前提	最主要价值	不建议优先使用的情况
主成分分析（PCA）	希望做线性降维、压缩冗余特征、去噪或为下游模型降成本	主要结构能由少数线性主方向解释；不依赖标签	保留最大方差方向，是最稳健、最常用的无监督降维起点	真正关心的是类别判别性而非总体方差，或数据结构强非线性时
线性判别分析（LDA）	有标签并希望把不同类别拉开后再做分类或可视化	类别标签可靠；类内散度与类间散度都可稳定估计	直接围绕“可分性”找投影，比 PCA 更贴近分类目标	没有标签、类别边界强非线性、或类别数太少导致可降维空间有限时
t-SNE	想把高维嵌入压到二维或三维，只为看局部邻域是否形成簇	更适合可视化，不适合直接做可逆特征压缩	局部邻域展示能力强，适合分析表征是否把相似样本聚到一起	需要把降维结果直接送入生产模型，或需要保留严格全局距离关系时
UMAP	希望做更快的大规模可视化，兼顾局部结构与部分全局连通性	适合高维嵌入、文本向量、图表示等复杂表征	通常比 t-SNE 更快，也更容易保留大体流形结构	需要线性可解释主方向，或需要结果完全稳定可重复到坐标级别时

任务类型：异常检测

模型	优先选择条件	数据与特征前提	最主要价值	不建议优先使用的情况
孤立森林（Isolation Forest）	通用表格异常检测，希望先得到一个稳健、扩展性好的异常分数	适合中大规模数据；不要求明确概率分布形式	通过随机切分隔离少数样本，通常是异常检测第一基线	异常定义依赖非常精细的局部密度差异时
局部异常因子（LOF）	异常核心是“在本地邻域里显得稀疏”	距离度量必须合理；样本规模不宜过大	能发现那些整体位置不极端、但局部密度明显偏低的点	高维距离失真严重、或需要高吞吐在线检测时
单类支持向量机（One-Class SVM）	只有正常样本，目标是学习正常数据的封闭边界	特征需标准化；更适合中小规模；核方法对边界形状有帮助	适合“正常类定义清楚、异常类没有稳定样本”的场景	数据量很大、特征维度很高、参数难以稳定选择时
高斯混合模型（GMM）	希望把异常定义为低概率区域，并明确得到似然分数	连续数据更合适；分布能用若干高斯混合近似	异常判定有明确概率语义，适合风险评分和阈值分析	数据分布非常复杂、非高斯、或异常并不等价于低密度时

任务类型：序列标注与结构化预测

模型	优先选择条件	数据与特征前提	最主要价值	不建议优先使用的情况
隐马尔可夫模型（HMM）	序列较短、转移规律明显、希望在较小数据和较强先验下完成基础序列建模	状态转移与观测发射假设大致成立；问题适合生成式描述	结构清晰、推断高效，适合作为经典序列建模入门和小规模基线	标签强依赖全局上下文、特征复杂、需要大量判别式特征时
最大熵模型 / MEMM	希望直接建模条件概率，并用丰富离散特征做局部判别	手工特征、局部上下文和当前位置证据较强；可接受局部归一化	训练方便、可解释性较强，是传统 NLP 判别式序列建模的重要过渡路线	标签偏置（Label Bias）明显、需要整条路径全局归一化或强结构一致性时
条件随机场（CRF）	输出是整条标签序列而非单点分类，并且相邻标签的合法性非常关键	一维链式序列最合适；上游特征或表示需要至少能提供较强局部证据	通过整体解码约束标签转移，使最终标签序列更一致、更符合任务结构	长距离语义主要由强表征模型决定、标签约束作用很弱，或任务更适合 span 建模时
结构化感知机	希望直接按任务评价函数更新结构化输出，强调错误驱动的大间隔修正	需要一个可解码的结构空间，例如序列、依存树或其他组合输出	训练目标直接对准“预测结构和真实结构的差异”，实现简洁、更新高效	需要良好概率解释、后验分数或复杂不确定性估计时

任务类型：密度估计与概率建模

模型	优先选择条件	数据与特征前提	最主要价值	不建议优先使用的情况
朴素贝叶斯	希望快速得到后验概率分类器，并接受条件独立近似	高维稀疏离散特征最合适，如文本词频、词出现计数	概率形式直接、估计简单，适合快速建模和在线系统	特征依赖结构复杂、需要精细表达联合分布时
高斯混合模型（GMM）	希望显式建模连续数据分布，或需要软聚类与密度估计统一完成	连续数据、多峰分布、可近似为若干高斯成分	每个样本都能得到各成分责任概率，解释和阈值分析都较自然	分布极端复杂、重尾严重、或高斯成分数难合理确定时
隐马尔可夫模型（HMM）	不仅要建模观测分布，还要建模隐藏状态在时间上的转移机制	观测是序列，且状态依赖主要体现在相邻时刻	把“序列生成机制”和“时序转移规律”统一到一个概率模型里	长程依赖很强、局部马尔可夫假设明显不成立时

若只是要一个工程上可执行的默认起点，可以进一步压缩成如下规则：表格分类与回归优先从随机森林、GBDT、XGBoost、LightGBM 和线性模型里选；文本高维稀疏分类优先看逻辑回归和朴素贝叶斯；无监督分群先看 K-Means，再根据簇形状和噪声情况转向 DBSCAN、HDBSCAN 或 GMM；需要可视化时先区分是要线性压缩还是只要展示结构，再在 PCA、LDA、t-SNE、UMAP 中选择；涉及标签序列依赖时再进入 HMM 与 CRF。

线性模型

线性模型（Linear Models）的核心是先用一个可解释、可优化、常常足够强的基线去刻画输入与输出的关系。很多复杂模型也可以看作“在线性读出层之前先做更强的特征变换”。

线性回归

线性回归（Linear Regression）在回归任务中建模“输入特征的加权求和如何产生连续输出”。它的价值在于：可解释（权重直接对应特征影响）与可优化（凸问题，训练稳定）。

模型与符号

给定训练集 $\{(\mathbf{x}_i,y_i)\}_{i=1}^{N}$，其中 $\mathbf{x}_i\in\mathbb{R}^d$ 是第 $i$ 个样本的特征向量， $y_i\in\mathbb{R}$ 是对应标签。线性回归假设单样本预测为：

\[\hat y_i=\mathbf{w}^\top \mathbf{x}_i+b\]

$\hat y_i$：对 $y_i$ 的预测。
$\mathbf{w}\in\mathbb{R}^d$：权重向量（每个维度对应一个特征）。
$b\in\mathbb{R}$：偏置（Bias），用于整体平移。
$\mathbf{w}^\top \mathbf{x}_i$：内积（Dot Product），表示“按特征加权求和”。

把全部样本写成矩阵形式。令设计矩阵（Design Matrix）$\mathbf{X}\in\mathbb{R}^{N\times d}$ 的第 $i$ 行为 $\mathbf{x}_i^\top$，标签向量 $\mathbf{y}\in\mathbb{R}^{N}$ 的第 $i$ 个分量为 $y_i$，全 1 向量 $\mathbf{1}\in\mathbb{R}^{N}$。则：

\[\hat{\mathbf{y}}=\mathbf{X}\mathbf{w}+b\mathbf{1}\]

直觉类比：它像“按因素打分再加总”。例如房价预测里，面积、地段评分、楼龄都可作为特征；权重正负决定影响方向，绝对值大小决定影响强弱。

目标函数（最小二乘）

最常见的训练目标是最小化均方误差（Mean Squared Error, MSE）的总和（或平均）：

\[\min_{\mathbf{w},b}\ J_{\text{EN}}(\mathbf{w},b)=\frac{1}{N}\|\mathbf{y}-\mathbf{X}\mathbf{w}-b\mathbf{1}\|_2^2+\lambda_1\|\mathbf{w}\|_1+\lambda_2\|\mathbf{w}\|_2^2\]

这个目标可以拆成三部分理解：第一项 $\frac{1}{N}\|\mathbf{y}-\mathbf{X}\mathbf{w}-b\mathbf{1}\|_2^2$ 是数据拟合误差，其中 $\mathbf{y}-\mathbf{X}\mathbf{w}-b\mathbf{1}$ 是所有样本的残差向量；第二项 $\lambda_1\|\mathbf{w}\|_1$ 倾向把一部分权重直接压到 0；第三项 $\lambda_2\|\mathbf{w}\|_2^2$ 倾向把权重整体缩小得更平滑。这里 $N$ 是样本数， $\lambda_1,\lambda_2$ 是正则化强度。若两者都取 0，就退化为普通最小二乘。

$J(\mathbf{w},b)$：目标函数（Objective）。
$\|\cdot\|_2$：二范数（Euclidean Norm），向量的长度。

平方项会对大残差施加更大惩罚，因此训练会优先修正“偏得很离谱”的样本。并且在高斯噪声假设下，最小二乘等价于最大似然估计（Maximum Likelihood Estimation, MLE）导出的解。

解析解（正规方程）

把偏置吸收到特征中更方便：定义增广特征 $\tilde{\mathbf{x}}_i=[\mathbf{x}_i;1]\in\mathbb{R}^{d+1}$，增广参数 $\tilde{\mathbf{w}}=[\mathbf{w};b]\in\mathbb{R}^{d+1}$，增广矩阵 $\tilde{\mathbf{X}}=[\mathbf{X},\mathbf{1}]\in\mathbb{R}^{N\times(d+1)}$。则 $\hat{\mathbf{y}}=\tilde{\mathbf{X}}\tilde{\mathbf{w}}$，目标为 $\min_{\tilde{\mathbf{w}}}\|\mathbf{y}-\tilde{\mathbf{X}}\tilde{\mathbf{w}}\|_2^2$。若 $\tilde{\mathbf{X}}^\top\tilde{\mathbf{X}}$ 可逆，则正规方程（Normal Equation）给出闭式解：

\[\tilde{\mathbf{w}}^*=\left(\tilde{\mathbf{X}}^\top\tilde{\mathbf{X}}\right)^{-1}\tilde{\mathbf{X}}^\top\mathbf{y}\]

这里 $\tilde{\mathbf{w}}^*$ 表示最优增广参数，前 $d$ 维对应原权重 $\mathbf{w}$，最后一维对应偏置 $b$。 $\tilde{\mathbf{X}}^\top\tilde{\mathbf{X}}$ 汇总了特征之间的相关结构， $\tilde{\mathbf{X}}^\top\mathbf{y}$ 汇总了特征与标签之间的相关程度，因此这个闭式解本质上是在“用整体相关关系一次性解出最优线性系数”。

$\tilde{\mathbf{X}}^\top\tilde{\mathbf{X}}\in\mathbb{R}^{(d+1)\times(d+1)}$：Gram 矩阵，度量特征之间的相关性。
$(\cdot)^{-1}$：矩阵逆；不可逆时通常用伪逆（Pseudo-inverse）或加正则化处理。

工程实现中，直接求逆并不推荐；更稳定的做法是解线性方程组或用 QR/SVD 分解。

实例：把公式算一遍

用一维数据拟合 $y\approx wx+b$。给定三点 $(x,y)\in\{(0,1),(1,3),(2,5)\}$。构造增广矩阵与标签：

\[\tilde{\mathbf{X}}=\begin{bmatrix}0 & 1\\ 1 & 1\\ 2 & 1\end{bmatrix},\quad \mathbf{y}=\begin{bmatrix}1\\ 3\\ 5\end{bmatrix}\]

这个增广矩阵的每一行对应一个样本；第一列是原始特征 $x$，第二列固定为 1，用来把偏置 $b$ 并入矩阵乘法。标签向量 $\mathbf{y}$ 则把三个样本的真实输出按顺序堆叠起来。

计算：

\[\tilde{\mathbf{X}}^\top\tilde{\mathbf{X}}=\begin{bmatrix}5 & 3\\ 3 & 3\end{bmatrix},\quad \tilde{\mathbf{X}}^\top\mathbf{y}=\begin{bmatrix}13\\ 9\end{bmatrix}\]

左边的矩阵可以看成所有样本在“特征与偏置”两个方向上的二阶统计量： $5$ 来自 $0^2+1^2+2^2$， $3$ 来自 $0+1+2$，右边向量 $\tilde{\mathbf{X}}^\top\mathbf{y}$ 则分别对应 $\sum_i x_i y_i$ 与 $\sum_i y_i$。这正是正规方程所需要的汇总量。

解线性方程 $\left(\tilde{\mathbf{X}}^\top\tilde{\mathbf{X}}\right)\tilde{\mathbf{w}}=\tilde{\mathbf{X}}^\top\mathbf{y}$，即：

\[\begin{cases}5w+3b=13\\ 3w+3b=9\end{cases}\Rightarrow w=2,\ b=1\]

这组方程的未知量只有两个：斜率 $w$ 和偏置 $b$。解出 $w=2$ 表示特征每增加 1，预测值增加 2；解出 $b=1$ 表示当 $x=0$ 时，模型基线输出为 1。

因此预测为 $\hat y=2x+1$，恰好穿过三点。这个例子展示了：正规方程把“最小化平方误差”的优化问题，转换成一个线性方程组。

适用场景

需要可解释的特征贡献（权重）与可校验的线性关系。
表格数据（Tabular）中，关系接近线性或可通过特征变换/交互项线性化。
作为强基线：先用线性模型定位数据问题、特征质量与噪声水平，再决定是否需要更复杂模型。
高维稀疏特征（如 one-hot、文本 bag-of-words）下，配合正则化可获得稳定解。

当特征很多、共线性（Collinearity）强或数据量相对不足时，普通最小二乘（Ordinary Least Squares, OLS）会出现高方差：训练集拟合很好、验证集误差上升。正则化（Regularization）通过惩罚参数规模，把“拟合训练误差”与“控制模型复杂度”写进同一个目标函数。

Lasso（L1 正则化）

Lasso 把参数惩罚写成一范数（$L_1$ Norm）：

\[\min_{\mathbf{w},b}\ J_{\text{lasso}}(\mathbf{w},b)=\frac{1}{N}\left\|\mathbf{y}-\mathbf{X}\mathbf{w}-b\mathbf{1}\right\|_2^2+\lambda\|\mathbf{w}\|_1\]

这个式子里，前半部分仍然是拟合误差，衡量预测和真实标签之间差多少；后半部分 $\lambda\|\mathbf{w}\|_1$ 是稀疏惩罚，其中 $\|\mathbf{w}\|_1=\sum_j |w_j|$ 会优先把不重要的权重压成 0。于是 Lasso 不仅“把权重变小”，还经常顺带完成特征选择。

$\lambda\ge 0$：正则化强度（Regularization Strength）。越大表示越强的收缩。
$\|\mathbf{w}\|_1=\sum_{j=1}^{d}|w_j|$：一范数，鼓励稀疏（Sparsity）。
通常不惩罚偏置 $b$；否则会把整体均值也一起往 0 拉。
Lasso 由于 $|\cdot|$ 在 0 点不可导，一般没有像岭回归那样简洁的闭式解；常用坐标下降（Coordinate Descent）、近端梯度（Proximal Gradient）或 LARS 等算法求解。

Lasso 的关键作用是让一部分权重被压到精确 0，而非均匀缩小全部权重。它更像给参数设置了一个阈值：弱相关、贡献不足以抵消惩罚的特征，会被直接剔除。因此 Lasso 同时完成复杂度控制与特征选择（Feature Selection）。

几何上，在相同训练误差轮廓线下， $L_1$ 约束对应菱形/正八面体；这些尖角更容易与最优点相交在坐标轴上，因此常出现某些 $w_j=0$ 的解。

适合高维稀疏特征、希望自动筛特征的场景，例如广告、推荐、文本 one-hot 特征。
当特征高度相关时，Lasso 往往只保留其中少数几个，因此解的稳定性通常弱于岭回归。

岭回归 / L2 正则化

岭回归把参数惩罚写成二范数平方（$L_2$ Norm Squared）：

\[\min_{\mathbf{w},b}\ J_{\text{ridge}}(\mathbf{w},b)=\frac{1}{N}\left\|\mathbf{y}-\mathbf{X}\mathbf{w}-b\mathbf{1}\right\|_2^2+\lambda\|\mathbf{w}\|_2^2\]

岭回归的结构与普通线性回归相同，只是在误差项之外额外加入了 $\lambda\|\mathbf{w}\|_2^2$。这里 $\|\mathbf{w}\|_2^2=\sum_j w_j^2$ 会连续惩罚过大的权重，因此它更擅长缓解共线性和过拟合，而非像 Lasso 那样主动做稀疏选择。

$\lambda\ge 0$：正则化强度。越大表示越强的收缩。
$\|\mathbf{w}\|_2^2=\sum_{j=1}^{d}w_j^2$：二范数平方，连续惩罚大权重。
通常不惩罚偏置 $b$；否则会把整体均值也一起往 0 拉。

从梯度角度看，惩罚项 $\lambda\|\mathbf{w}\|_2^2$ 对单个参数 $w_j$ 的梯度贡献是 $2\lambda w_j$。这就是 $L_2$ 正则化在深度学习中被称为权重衰减（Weight Decay）的原因：它持续把权重按比例拉回 0。若取 $\lambda=1$，当 $w_j=10$ 时，梯度为 $20$；优化器会施加强烈收缩，把这个大权重猛拉回去。当 $w_j=0.1$ 时，梯度只有 $0.2$；往 0 拉的力量就很弱。也就是说，参数一旦变大， $L_2$ 惩罚立刻增强；参数已经很小时，它几乎不再干预。

岭回归仍是凸二次问题，并有闭式解（忽略/已中心化处理 $b$ 的情况）：

\[\mathbf{w}^*=\left(\mathbf{X}^\top\mathbf{X}+N\lambda\mathbf{I}\right)^{-1}\mathbf{X}^\top\mathbf{y}\]

与普通最小二乘相比，这里多出来的 $N\lambda\mathbf{I}$ 是沿对角线加入的一项稳定化修正。 $\mathbf{I}$ 是单位矩阵，它不会改变特征之间的相对结构，但会让矩阵更容易求逆，因此在特征高度相关时更稳定。

$\mathbf{I}\in\mathbb{R}^{d\times d}$：单位矩阵（Identity Matrix）。
$\mathbf{X}^\top\mathbf{X}+N\lambda\mathbf{I}$：对角线上加了 $N\lambda$ 的稳定项，缓解共线性导致的病态（Ill-conditioning）。

用一个最小可算的例子说明 $\lambda$ 如何改变解。考虑无偏置的一维回归 $\hat y=wx$，目标为：

\[J(w)=\sum_{i=1}^{N}(y_i-wx_i)^2+\lambda w^2\]

这是单变量岭回归的简化形式。前一项把所有样本的平方误差加总，后一项 $\lambda w^2$ 惩罚过大的斜率。它清楚展示了岭回归的核心：既要求拟合数据，又限制参数不要长得太大。

对 $w$ 求导并令其为 0 得：

\[\frac{\mathrm{d}J}{\mathrm{d}w}=-2\sum_{i=1}^{N}x_i(y_i-wx_i)+2\lambda w=0\Rightarrow w^*=\frac{\sum_{i=1}^{N}x_i y_i}{\sum_{i=1}^{N}x_i^2+\lambda}\]

这个结果说明岭回归解和普通最小二乘解非常接近，只是分母里多了一个 $\lambda$。它会把估计值往 0 方向收缩： $\lambda$ 越大，分母越大，得到的 $w^*$ 就越保守。

可见 $\lambda$ 直接进入分母，把 $w^*$ 持续拉向 0。岭回归不会像 Lasso 那样大量制造精确 0，会把所有权重更平滑地压小，因此更像“把所有旋钮都往小一点拧”，让模型整体更保守、更稳健。

适合特征高度相关、希望保留全部特征但降低方差的场景；常见于经济学、医学和一般表格数据。
当既希望稀疏，又希望在强相关特征间保持稳定时，Elastic Net（$L_1+L_2$）通常比纯 Lasso 更稳。

Elastic Net（L1 + L2 正则化）

Elastic Net 把 $L_1$ 与 $L_2$ 惩罚合并到同一个目标中：

\[\min_{\mathbf{w},b}\ J_{\text{EN}}(\mathbf{w},b)=\frac{1}{N}\|\mathbf{y}-\mathbf{X}\mathbf{w}-b\mathbf{1}\|_2^2+\lambda_1\|\mathbf{w}\|_1+\lambda_2\|\mathbf{w}\|_2^2\]

它同时保留两类效应： $L_1$ 项负责产生稀疏性（Sparsity），把一部分弱特征压到 0； $L_2$ 项负责平滑收缩，在特征高度相关时提高解的稳定性。因此 Elastic Net 通常用于“既希望自动做特征选择，又不希望在强相关特征之间选得过于激进”的场景。

当 $\lambda_2=0$ 时，退化为 Lasso。
当 $\lambda_1=0$ 时，退化为岭回归（Ridge Regression）。
当特征高度相关且维度很高时，Elastic Net 往往比纯 Lasso 更稳，也比纯岭回归更稀疏。

逻辑回归

逻辑回归（Logistic Regression）是二分类的标准基线：它先用线性函数产生打分，再把该打分通过 sigmoid（Logistic Function）映射到 $(0,1)$，从而得到条件概率模型。

模型、概率与 logit

对二分类，令标签随机变量（Random Variable）$Y\in\{0,1\}$，其中 $1$ 表示正类， $0$ 表示负类。给定输入 $\mathbf{x}$ 后，先定义线性打分：

\[z=\mathbf{w}^\top\mathbf{x}+b\]

再定义 sigmoid 函数：

\[\sigma(z)=\frac{1}{1+e^{-z}}\]

于是，在给定输入 $\mathbf{x}$ 的条件下，标签取正类的条件概率写成：

\[p(Y=1\mid \mathbf{x})=\sigma(z)=\sigma(\mathbf{w}^\top\mathbf{x}+b)\]

这里 $\mid$ 表示“在给定……条件下”；左侧 $Y=1$ 表示事件“标签随机变量取值为正类 1”。因此这个式子表示：在输入 $\mathbf{x}$ 已知时，事件 $Y=1$ 发生的概率。

相应地，负类概率为：

\[p(Y=0\mid \mathbf{x})=1-\sigma(z)\]

$\mathbf{x}\in\mathbb{R}^d$：特征向量。
$\mathbf{w}\in\mathbb{R}^d$：权重向量（Weight Vector）。
$b\in\mathbb{R}$：偏置（Bias）。
$z\in\mathbb{R}$：线性打分；它也是 logit（对数几率，log-odds）。
$\sigma(\cdot)$：把任意实数映射到 $(0,1)$ 的非线性函数。

logit 的含义来自恒等式：

\[\log\frac{p(Y=1\mid \mathbf{x})}{1-p(Y=1\mid \mathbf{x})}=z=\mathbf{w}^\top\mathbf{x}+b\]

这里的 $\frac{p(Y=1\mid \mathbf{x})}{1-p(Y=1\mid \mathbf{x})}$ 称为几率（Odds），表示“正类概率与负类概率之比”；再对它取对数，就得到 logit（对数几率，log-odds）：$\log\frac{p}{1-p}$。因此上式说明：逻辑回归把正类概率的对数几率建模为输入特征的线性函数。

换言之，在二分类逻辑回归里， $z=\mathbf{w}^\top\mathbf{x}+b$ 就是线性部分的原始输出值，而这个原始输出值恰好等于 logit。它本身并非概率，可以取任意实数；经过 sigmoid 之后才变成 $(0,1)$ 内的概率。多分类情形中，softmax 之前那一组线性输出通常统称为 logits。

因此 $w_j$ 可以被解释为：特征 $x_j$ 增加一个单位，会把对数几率增加 $w_j$（在其他特征不变时）。这就是逻辑回归的核心可解释性。

训练目标（NLL / Cross-Entropy）

给定训练集 $\{(\mathbf{x}_i,y_i)\}_{i=1}^{N}$，记 $p_i=\sigma(\mathbf{w}^\top\mathbf{x}_i+b)$。逻辑回归通过最大化似然（Likelihood）训练；等价地，它最小化负对数似然（Negative Log-Likelihood, NLL），也即二分类交叉熵（Binary Cross-Entropy）：

\[\min_{\mathbf{w},b}\ L(\mathbf{w},b)=-\sum_{i=1}^{N}\left(y_i\log p_i+(1-y_i)\log(1-p_i)\right)\]

$\log p_i$：当 $y_i=1$ 时，鼓励 $p_i$ 变大。
$\log(1-p_i)$：当 $y_i=0$ 时，鼓励 $p_i$ 变小。

加入 $L_2$ 正则化时，常见形式为 $L(\mathbf{w},b)+\lambda\|\mathbf{w}\|_2^2$（通常不惩罚 $b$）。该目标是凸的，因此不存在“坏局部最优”的训练不稳定问题。

梯度：公式如何驱动参数更新

把样本堆叠成矩阵 $\mathbf{X}$、标签向量 $\mathbf{y}$，预测概率向量 $\mathbf{p}$（第 $i$ 个分量为 $p_i$）。则无正则项时梯度为：

\[\nabla_{\mathbf{w}}L=\mathbf{X}^\top(\mathbf{p}-\mathbf{y}),\quad \frac{\partial L}{\partial b}=\mathbf{1}^\top(\mathbf{p}-\mathbf{y})\]

这两个梯度式子都围绕同一个误差向量 $\mathbf{p}-\mathbf{y}$ 展开：它表示“模型给出的正类概率”和“真实标签”之间的偏差。 $\mathbf{X}^\top(\mathbf{p}-\mathbf{y})$ 表示把这种偏差按特征方向汇总起来，从而告诉每个权重该往哪个方向改； $\mathbf{1}^\top(\mathbf{p}-\mathbf{y})$ 则把所有偏差直接相加，用来更新偏置。

这两个式子揭示了训练机制：如果某个样本真实标签是 1 但模型给出小概率（$p_i-y_i<0$），则梯度会推动 $\mathbf{w}$ 朝着增加该样本 logit 的方向更新；反之亦然。

实例：单样本算概率、算损失、算一次梯度

考虑一维特征 $x=2$，参数 $w=1,b=-1$，则 $z=wx+b=1$，概率：

\[p=\sigma(1)=\frac{1}{1+e^{-1}}\approx 0.731\]

若真实标签 $y=1$，该样本的负对数似然为：

\[\ell=-\log p\approx 0.313\]

该样本对 $w$ 的梯度为（单样本形式）：

\[\frac{\partial \ell}{\partial w}=(p-y)x=(0.731-1)\cdot 2\approx -0.538\]

用学习率 $\eta$ 做一次梯度下降： $w\leftarrow w-\eta\frac{\partial\ell}{\partial w}$。由于梯度为负，更新会把 $w$ 增大，从而增大 $z$、提升 $p$，使模型更倾向把该样本判为正类。

适用场景

二分类且需要概率输出/可校准阈值（例如欺诈检测、流失预测、医学风险评分）。
高维稀疏特征（如 one-hot、文本 bag-of-words），逻辑回归常是强基线。
对可解释性、训练稳定性要求高的工程场景（可用权重做审计/特征诊断）。
当决策边界高度非线性且特征工程不足时，需要树模型或神经网络补上非线性。

支持向量机（SVM）

支持向量机（Support Vector Machine, SVM）是一类以最大间隔分类为核心原则的判别模型。对线性可分的二分类问题，它要寻找一个超平面（Hyperplane），使两类样本被正确分开，同时边界到两侧样本的最小距离尽可能大。这个最小距离对应的缓冲区称为间隔（Margin）。

也正因为优化目标是最大间隔，SVM 核心是要找那条对两类样本都留出最大安全缓冲区的边界。边界离两类样本都越远，模型对噪声、标注扰动与局部数据波动通常越稳。

从数学形式看，SVM 最终会落到二次规划（Quadratic Programming, QP）。所谓二次规划，就是：目标函数是变量的二次函数，约束是线性等式或线性不等式。SVM 的目标是最小化 $\frac{1}{2}\|\mathbf{w}\|_2^2$，约束则是每个样本都必须被放到正确一侧并留出至少 1 的函数间隔，因此它正好属于这一类优化问题。

从结构上看，SVM 把三件事连在一起：

几何：先定义“什么叫分得开”，以及“什么叫分得最稳”。
优化：把“最稳的边界”写成一个可求解的凸二次规划。
对偶：把问题改写成只依赖样本内积的形式，从而自然导出核技巧（Kernel Trick）。

从几何直觉到“最大间隔”

对二分类任务，设标签 $y_i\in\{-1,+1\}$。线性分类器先计算一个打分函数（Score Function）：

\[f(\mathbf{x})=\mathbf{w}^\top\mathbf{x}+b\]

这里最好先把“函数写法”和“几何边界写法”区分清楚。像 $y=x$ 这样的形式，强调的是“给定自变量（Independent Variable） $x$，应变量（Dependent Variable） $y$ 如何变化”；但对分类器来说，更关键的问题是哪些点恰好落在边界上，以及点位于边界哪一侧。因此同一条直线在几何里通常改写成隐式形式（Implicit Form） $x-y=0$。

一旦写成 $x-y=0$，就能直接看成二维超平面方程 $\mathbf{w}^\top\mathbf{x}+b=0$：令 $\mathbf{x}=(x,y)^\top$、$\mathbf{w}=(1,-1)^\top$、$b=0$，便有 $\mathbf{w}^\top\mathbf{x}+b=x-y$。此时直线方向向量（Direction Vector）可以取 $\mathbf{v}=(1,1)^\top$，因为沿这条线移动时 $y$ 与 $x$ 同时增加；而 $\mathbf{w}^\top\mathbf{v}=1\cdot 1+(-1)\cdot 1=0$，说明 $\mathbf{w}$ 与直线切向方向正交，所以它正是这条直线的法向量（Normal Vector）。更一般地，对任意边界 $\mathbf{w}^\top\mathbf{x}+b=0$，系数向量 $\mathbf{w}$ 都垂直于边界，因此天然决定“正侧、负侧”和距离的度量方向。

再用它的符号做判别：

\[\hat y=\mathrm{sign}(f(\mathbf{x}))=\mathrm{sign}(\mathbf{w}^\top\mathbf{x}+b)\]

这里 $\mathbf{w}$ 是超平面的法向量（Normal Vector）。沿 $\mathbf{w}$ 方向移动， $f(\mathbf{x})$ 会增大；沿反方向移动， $f(\mathbf{x})$ 会减小。因此：

$f(\mathbf{x})=0$：点就在分类超平面上。
$f(\mathbf{x})>0$：点落在法向量 $\mathbf{w}$ 指向的那一侧。
$f(\mathbf{x})<0$：点落在另一侧。

超平面把空间分成正半空间（Positive Half-space）与负半空间（Negative Half-space）；分数的正负号直接给出样本位于哪一侧。

令 $\mathcal{H}=\{\mathbf{x}:\mathbf{w}^\top\mathbf{x}+b=0\}$ 表示超平面，令单位法向量（Unit Normal Vector）为 $\mathbf{n}=\mathbf{w}/\|\mathbf{w}\|_2$。对样本 $\mathbf{x}_i$，记 $\mathbf{x}_{\Pi,i}$ 为它在超平面 $\mathcal{H}$ 上的正交投影点（Orthogonal Projection），因此 $\mathbf{w}^\top\mathbf{x}_{\Pi,i}+b=0$，且 $\mathbf{x}_i-\mathbf{x}_{\Pi,i}$ 与 $\mathbf{w}$ 平行。点 $\mathbf{x}_i$ 到超平面的带符号距离（Signed Distance）定义为该位移在单位法向量方向上的投影长度：

\[\mathrm{dist}_{\pm}(\mathbf{x}_i,\mathcal{H})=\mathbf{n}^\top(\mathbf{x}_i-\mathbf{x}_{\Pi,i})=\frac{\mathbf{w}^\top\mathbf{x}_i+b}{\|\mathbf{w}\|_2}\]

分子 $\mathbf{w}^\top\mathbf{x}_i+b$ 衡量点在法向量方向上偏离超平面的代数量；分母 $\|\mathbf{w}\|_2$ 对法向量做归一化，去掉“同一个超平面可写成不同倍数方程”的尺度影响；符号保留样本位于超平面哪一侧的信息。

带符号距离区分了超平面的两侧，但正类样本与负类样本的正确侧相反。将标签 $y_i\in\{-1,+1\}$ 乘入后，得到几何间隔（Geometric Margin）：

\[\gamma_i=\frac{y_i(\mathbf{w}^\top\mathbf{x}_i+b)}{\|\mathbf{w}\|_2}\]

几何间隔是用标签修正后的带符号距离。因此：

$\gamma_i>0$：样本在正确一侧，被正确分类。
$\gamma_i=0$：样本正好压在边界上。
$\gamma_i<0$：样本落到错误一侧，被误分类。

SVM 的目标是让所有训练样本中最小的那个 $\gamma_i$ 尽可能大，即最大化“最坏样本到边界的正确方向距离”：

\[\gamma=\min_i \gamma_i\]

这就是最大间隔（Maximum Margin）的含义：核心是让最危险、最靠近边界的样本也尽量安全。

硬间隔 SVM（Hard-margin SVM）原始问题

先看线性可分（Linearly Separable）的情形。所谓线性可分，就是存在某个 $(\mathbf{w},b)$，使每个样本都在与自己标签一致的一侧。这件事可以统一写成：

\[y_i(\mathbf{w}^\top\mathbf{x}_i+b)>0,\quad \forall i\]

为什么这里是 $>0$？因为它等价于“符号一致”：当 $y_i=+1$ 时，要求 $\mathbf{w}^\top\mathbf{x}_i+b>0$，即正类样本必须落在正半空间；当 $y_i=-1$ 时，要求 $\mathbf{w}^\top\mathbf{x}_i+b<0$，即负类样本必须落在负半空间。若只等于 0，则样本恰好压在分类边界上，不属于严格可分，因为此时它没有任何安全间隔，符号判别也处在临界点。

不过， $y_i(\mathbf{w}^\top\mathbf{x}_i+b)$ 还并非几何距离，因为把 $(\mathbf{w},b)$ 同时乘以任意正常数 $t>0$，超平面 $\mathbf{w}^\top\mathbf{x}+b=0$ 完全不变，但这个量会整体乘上 $t$。因此它只是一个未归一化的间隔量，通常称为函数间隔（Functional Margin）。

为了消掉这个缩放自由度，SVM 采用一个标准定标：强制所有样本的最小函数间隔等于 1，也就是要求

\[y_i(\mathbf{w}^\top\mathbf{x}_i+b)\ge 1,\quad \forall i\]

这条约束把两类样本同时编码进来：当 $y_i=+1$ 时，它变成 $\mathbf{w}^\top\mathbf{x}_i+b\ge 1$；当 $y_i=-1$ 时，它变成 $\mathbf{w}^\top\mathbf{x}_i+b\le -1$。于是分类边界两侧又出现两条平行的“间隔边界”（Margin Boundaries）：

\[\mathbf{w}^\top\mathbf{x}+b=+1,\quad \mathbf{w}^\top\mathbf{x}+b=-1\]

因为平行超平面 $\mathbf{w}^\top\mathbf{x}+b=c_1$ 与 $\mathbf{w}^\top\mathbf{x}+b=c_2$ 之间的距离是 $|c_1-c_2|/\|\mathbf{w}\|_2$，所以这两条间隔边界之间的宽度为

\[\frac{|(+1)-(-1)|}{\|\mathbf{w}\|_2}=\frac{2}{\|\mathbf{w}\|_2}\]

在这个定标下，离分类边界最近的样本几何间隔恰好是

\[\gamma=\min_i \frac{y_i(\mathbf{w}^\top\mathbf{x}_i+b)}{\|\mathbf{w}\|_2}=\frac{1}{\|\mathbf{w}\|_2}\]

因此，最大化几何间隔就等价于最小化 $\|\mathbf{w}\|_2$；为了得到标准的凸二次目标，通常写成：

\[\min_{\mathbf{w},b}\ \frac{1}{2}\|\mathbf{w}\|_2^2\quad \text{s.t.}\quad y_i(\mathbf{w}^\top \mathbf{x}_i+b)\ge 1\]

这就是硬间隔 SVM 的原始问题（Primal Problem）。现在“二次规划”这个术语也具体了：目标函数 $\frac{1}{2}\|\mathbf{w}\|_2^2$ 是关于参数的凸二次函数，而约束 $y_i(\mathbf{w}^\top \mathbf{x}_i+b)\ge 1$ 对 $(\mathbf{w},b)$ 是线性的，所以这是一个凸二次规划，并且可以求到全局最优解。

拉格朗日函数与 KKT：为什么只剩少数“支持向量”

这一段只回答一个问题：训练集中明明有很多样本，为什么最后真正决定分类边界的，往往只有少数几个点。这个结论的严格来源是 KKT 条件，但它的直观含义并不抽象：只有那些真正把最大间隔边界“卡住”的样本，才会在最优解里留下非零权重。

硬间隔 SVM 的原始问题是：

\[\min_{\boldsymbol{w},b}\frac{1}{2}\|\boldsymbol{w}\|_2^2\quad \text{s.t.}\quad y_i(\boldsymbol{w}^\top \boldsymbol{x}_i+b)\ge 1,\ \forall i\]

这里目标函数 $\frac{1}{2}\|\boldsymbol{w}\|_2^2$ 想把边界做得尽量“简单”，也就是让法向量尽量短，从而把间隔做大；而每个训练样本都在提出自己的硬约束：它不仅要被分对，还必须距离边界至少有 1 个单位的函数间隔。把这两股力量写到同一个式子里，就得到拉格朗日函数（Lagrangian）：

\[\mathcal{L}(\boldsymbol{w},b,\boldsymbol{\alpha})=\frac{1}{2}\|\boldsymbol{w}\|_2^2-\sum_{i=1}^{N}\alpha_i\big(y_i(\boldsymbol{w}^\top \boldsymbol{x}_i+b)-1\big),\quad \alpha_i\ge 0\]

其中 $\alpha_i$ 是第 $i$ 个样本对应的拉格朗日乘子（Lagrange Multiplier）。在 SVM 里，可以把它直接理解为“第 $i$ 个样本对当前分类边界施加了多大压力”。压力越大，说明这个样本越在真正影响边界的位置；压力为 0，说明这个样本虽然在训练集里，但最优边界并不需要它来支撑。

这个问题的读法可以想成一个“边界往外推、样本往回顶”的平衡过程：

模型一侧想让 $\|\boldsymbol{w}\|_2$ 尽量小，从而把间隔尽量做大。
约束一侧则由每个样本通过 $\alpha_i$ 施加压力：谁越接近边界、越可能破坏间隔，谁就越值得保留权重。

于是，离边界很远的样本会发生什么，就变得非常直观。若某个样本满足

\[y_i(\boldsymbol{w}^\top\boldsymbol{x}_i+b)>1\]

说明它不仅分对了，而且还有额外安全余量。这个点对“边界能否继续外推”没有形成真正阻碍，因此最优时它对应的 $\alpha_i$ 会被压到 0。相反，若某个样本恰好满足

\[y_i(\boldsymbol{w}^\top\boldsymbol{x}_i+b)=1\]

它就正贴在间隔边界上，是“再往外推一点就会出问题”的临界点。这样的样本才有资格在最优解中保留非零权重。

KKT 条件（Karush–Kuhn–Tucker Conditions）把这个直觉写成严格公式。第一条来自驻点条件（Stationarity）：

\[\nabla_{\boldsymbol{w}}\mathcal{L}=0\Rightarrow \boldsymbol{w}=\sum_{i=1}^{N}\alpha_i y_i \boldsymbol{x}_i\]

这条式子的含义非常重要。它说明最终的法向量 $\boldsymbol{w}$ 核心是由训练样本的加权和决定的。这里：

$\boldsymbol{x}_i$ 是第 $i$ 个训练样本；
$y_i\alpha_i$ 是它的“带符号权重”；
若 $\alpha_i=0$，该样本就完全不会出现在 $\boldsymbol{w}$ 的表达式里。

第二条关键条件是互补松弛（Complementary Slackness）：

\[\alpha_i\big(y_i(\boldsymbol{w}^\top \boldsymbol{x}_i+b)-1\big)=0\]

这条式子可以直接逐项阅读：

$\alpha_i$ 是第 $i$ 个样本对边界施加的压力；
$y_i(\boldsymbol{w}^\top \boldsymbol{x}_i+b)-1$ 是该样本相对于间隔边界的“松弛量”；当它大于 0 时，说明样本在安全区里；当它等于 0 时，说明样本正好贴边。

由于这两个量的乘积必须等于 0，所以只可能出现两种情况：

若 $y_i(\boldsymbol{w}^\top \boldsymbol{x}_i+b)-1>0$，说明该样本有安全余量，那么必须有 $\alpha_i=0$。
若 $\alpha_i>0$，说明该样本仍在对边界施压，那么必须有 $y_i(\boldsymbol{w}^\top \boldsymbol{x}_i+b)=1$。

这就是支持向量（Support Vector）的严格定义来源：在硬间隔 SVM 中，只有恰好贴在间隔边界上的样本，才可能对应非零 $\alpha_i$；这些样本共同决定最终超平面的位置。其余样本虽然被正确分类，但因为离边界还有余量，所以在最优解里不再起作用。

如果继续沿着这个结论往下看，就会发现 SVM 的稀疏性完全核心是 KKT 的直接产物。训练集里可以有大量“安全样本”，但最优边界只需要被少数临界样本支撑起来。名字“支持向量”说的正是这件事：这些点核心是真正在几何上把边界撑住的点。

对偶问题（Dual）：把“求边界”改写成“给样本分权重”

前面已经看到：KKT 让 $\alpha_i$ 变成了“谁在真正顶住边界”的刻度。但如果这里只停在 KKT，还是会留下一个疑问：对偶问题到底是怎么从原始问题里长出来的？关键动作只有一步：先把 $\alpha_i$ 固定住，把拉格朗日函数当成关于 $\mathbf{w},b$ 的函数来最小化；然后再回过头，只对 $\alpha$ 做最大化。

也就是说，原始问题里我们直接求“哪条边界最好”：

\[\min_{\mathbf{w},b}\ \frac{1}{2}\|\mathbf{w}\|_2^2\quad \text{s.t.}\quad y_i(\mathbf{w}^\top\mathbf{x}_i+b)\ge 1\]

而引入拉格朗日乘子之后，可以先看下面这个函数：

\[\mathcal{L}(\mathbf{w},b,\alpha)=\frac{1}{2}\|\mathbf{w}\|_2^2-\sum_{i=1}^{N}\alpha_i\Big(y_i(\mathbf{w}^\top \mathbf{x}_i+b)-1\Big),\quad \alpha_i\ge 0\]

对固定的 $\alpha$，它就是一个关于 $\mathbf{w},b$ 的凸函数。于是我们先做内层最小化：

\[g(\alpha)=\min_{\mathbf{w},b}\ \mathcal{L}(\mathbf{w},b,\alpha)\]

这里的 $g(\alpha)$ 就叫对偶函数（Dual Function）。它表示：假设每个样本的施压强度已经给定，边界那一侧最好的回应会是什么。

这一步的好处是， $\mathbf{w},b$ 可以被显式消掉。对 $\mathbf{w}$ 和 $b$ 求驻点条件，有：

\[\frac{\partial \mathcal{L}}{\partial \mathbf{w}}=0\Rightarrow \mathbf{w}=\sum_{i=1}^{N}\alpha_i y_i\mathbf{x}_i\] \[\frac{\partial \mathcal{L}}{\partial b}=0\Rightarrow \sum_{i=1}^{N}\alpha_i y_i=0\]

这两条式子非常关键：第一条说明法向量 $\mathbf{w}$ 完全由训练样本线性组合出来；第二条说明正负两类样本的“总施压”必须平衡。把它们代回去，原来依赖 $\mathbf{w},b$ 的问题就变成只依赖 $\alpha$ 的问题：

\[\max_{\alpha}\ \sum_{i=1}^{N}\alpha_i-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_j y_i y_j\,\mathbf{x}_i^\top\mathbf{x}_j\] \[\text{s.t.}\quad \alpha_i\ge 0,\quad \sum_{i=1}^{N}\alpha_i y_i=0\]

这就是 SVM 的对偶问题（Dual Problem）。现在可以看出它为什么叫“对偶”：它问题从“$\mathbf{w},b$ 应该是多少”改成“每个样本应该分到多大的权重 $\alpha_i$，才能共同把最优边界顶出来”。

这样改写有两个直接收益。第一，支持向量为什么稀疏会变得一眼可见：若某个样本最终 $\alpha_i^*=0$，它就自动从 $\mathbf{w}=\sum_i \alpha_i y_i\mathbf{x}_i$ 里消失。第二，对偶目标里出现的样本方式只剩内积 $\mathbf{x}_i^\top\mathbf{x}_j$，这正是后面引入核函数（Kernel）的入口。

把最优权重 $\alpha_i^*$ 求出来后，分类器可以直接写成：

\[f(\mathbf{x})=\mathrm{sign}\left(\sum_{i=1}^{N}\alpha_i^* y_i\,\mathbf{x}_i^\top \mathbf{x}+b^*\right)\]

这个式子的含义很具体：新样本 $\mathbf{x}$ 会与训练样本做内积（Inner Product），也就是计算相似度；每个训练样本按自己的类别符号 $y_i$ 和影响系数 $\alpha_i^*$ 投一票；最后把这些票加总，再加上偏置 $b^*$，看结果落在哪一侧。

由于绝大多数样本的 $\alpha_i^*=0$，真正参与这次投票的通常只有支持向量。因此 SVM 的预测阶段常带有一个很强的稀疏性（Sparsity）：并非所有训练样本都在持续发声，真正起作用的只是边界附近那一小部分点。

偏置 $b^*$ 可以用任一支持向量恢复。若 $\mathbf{x}_k$ 是一个支持向量，则它满足 $y_k(\mathbf{w}^{*\top}\mathbf{x}_k+b^*)=1$，因此

\[b^*=y_k-\mathbf{w}^{*\top}\mathbf{x}_k\]

核函数（Kernel）：把“线性边界”搬到更合适的空间

对偶问题真正重要的地方，不仅“把变量从 $\mathbf{w},b$ 换成了 $\alpha_i$”，还它把 SVM 的全部数据依赖压缩成了样本之间的内积（Inner Product）：

\[\mathbf{x}_i^\top\mathbf{x}_j\]

这一步非常关键，因为它说明：SVM 在对偶形式里并不需要直接看到样本坐标本身，它只需要知道样本彼此有多相似。只要这种“相似度”还能写成某个空间里的内积，SVM 的训练与预测公式就都可以照搬。

于是核技巧（Kernel Trick）的引入就变得自然了。设有一个特征映射（Feature Map）$\phi(\mathbf{x})$，它把原始样本送到更高维、甚至无限维的特征空间（Feature Space）。如果我们真的显式去算这个高维向量，代价往往很大；但对偶形式只关心内积，因此只要能直接计算

\[K(\mathbf{x}_i,\mathbf{x}_j)=\phi(\mathbf{x}_i)^\top\phi(\mathbf{x}_j)\]

就等价于“隐式地”在特征空间里做线性 SVM，而不必真的把 $\phi(\mathbf{x})$ 写出来。这个直接在原空间里计算特征空间内积的技巧，就叫核函数（Kernel Function）或核技巧（Kernel Trick）。

这也解释了为什么 kernel 是从 dual 里长出来的，而非额外拼上去的：若你还停留在原始问题里，眼前看到的仍是显式参数 $\mathbf{w}$；而一旦进入对偶形式，表达式里只剩 $\mathbf{x}_i^\top\mathbf{x}_j$，把它替换成别的“合法相似度”就成了最自然的一步。

于是决策函数从

\[f(\mathbf{x})=\mathrm{sign}\left(\sum_{i=1}^{N}\alpha_i^* y_i\,\mathbf{x}_i^\top \mathbf{x}+b^*\right)\]

变成

\[f(\mathbf{x})=\mathrm{sign}\left(\sum_{i=1}^{N}\alpha_i^* y_i\,K(\mathbf{x}_i,\mathbf{x})+b^*\right)\]

要点是：特征空间里仍然是线性超平面；只是映回原空间后，边界看起来变成了弯的。因此 kernel 核心是“先把数据换到更容易线性可分的表示里，再继续做线性 SVM”。

从直觉上看，核函数本质上是在重新定义“两个样本像不像”。线性核（Linear Kernel）比较原始方向是否一致；多项式核（Polynomial Kernel）强调特征之间的组合关系；RBF / Gaussian 核更强调局部邻近性，因此很容易形成局部、弯曲的决策边界。

线性核（Linear Kernel）：$K(\mathbf{x},\mathbf{z})=\mathbf{x}^\top\mathbf{z}$。
多项式核（Polynomial Kernel）：$K(\mathbf{x},\mathbf{z})=(\mathbf{x}^\top\mathbf{z}+c)^d$。
RBF / Gaussian 核：$K(\mathbf{x},\mathbf{z})=\exp(-\gamma\|\mathbf{x}-\mathbf{z}\|_2^2)$。

一个典型例子是“同心圆”二分类：在二维平面里，内圈和外圈无法用一条直线分开；但如果映射到包含半径平方等特征的空间，类别就可能被一个超平面分开。核方法的价值就在这里：原空间里看到的是弯曲边界，特征空间里做的仍然是线性分类。

软间隔 SVM（Soft-margin SVM）：允许少量违约，但要付代价

现实数据通常含噪声、离群点（Outlier）或类别重叠。若仍然要求“所有点都必须在间隔之外”，硬间隔 SVM 很可能根本无解，或者被少数异常点强行拉歪。软间隔 SVM（Soft-margin SVM）因此引入松弛变量（Slack Variable）$\xi_i\ge 0$，允许个别样本违反间隔约束：

\[\min_{\mathbf{w},b,\xi}\ \frac{1}{2}\|\mathbf{w}\|_2^2+C\sum_{i=1}^{N}\xi_i\quad \text{s.t.}\quad y_i(\mathbf{w}^\top \mathbf{x}_i+b)\ge 1-\xi_i,\ \xi_i\ge 0\]

这个式子只表达一件事：边界仍然希望尽量大，但违约要交罚款，罚款强度由 $C$ 决定。对单个样本， $\xi_i$ 的含义可以直接按大小来读：

$\xi_i=0$：样本分类正确，且在间隔边界上或之外。
$0<\xi_i\le 1$：样本仍在正确一侧，但已经挤进了间隔内部。
$\xi_i>1$：样本跨过了分类边界，已经被误分。

$C$ 控制的是“对违约有多敏感”：

$C$ 大：更重视把训练集分对，边界更硬，对噪声也更敏感。
$C$ 小：更重视大间隔和整体稳定性，允许少量训练误差。

软间隔下，支持向量的范围也更宽：不仅贴着间隔边界的点重要，落在间隔内部甚至被误分的点也会直接影响最优解。对应到对偶变量，常见情形是 $0<\alpha_i 的点贴在间隔上，而 \(\alpha_i=C$ 的点往往是间隔内样本或误分类样本。

把松弛变量消去后，软间隔 SVM 还可以写成更常见的合页损失（Hinge Loss）形式：

\[\min_{\mathbf{w},b}\ \frac{1}{2}\|\mathbf{w}\|_2^2+C\sum_{i=1}^{N}\max\big(0,\ 1-y_i(\mathbf{w}^\top \mathbf{x}_i+b)\big)\]

第一项限制模型复杂度，第二项惩罚分类违约。SVM 因此可以被看作“大间隔 + 违约惩罚”的组合，而支持向量则是这两股力量平衡后仍然留在最前线的样本。

树模型与集成方法

这一类方法处理的核心问题是：当输入与输出之间存在明显非线性、阈值效应与高阶特征交互时，线性模型往往表达力不足，但工程上仍然希望模型具备较强可解释性、对表格数据友好、并且训练稳定。树模型通过递归切分（Recursive Partitioning）把输入空间划成若干局部区域；集成方法则进一步通过 Bagging 或 Boosting 提升泛化能力与精度。

模型	模型数量与训练逻辑	集成策略 / 学习机制	单棵树特点	主要在优化什么	过拟合风险	更适合什么场景
决策树	单棵独立模型，直接在原始数据上递归切分，没有集成过程	无；直接学习输入到输出的分段规则	树深完全由数据与约束参数决定；过深会记住噪声，过浅又会表达不足	没有显式“降偏差 / 降方差”分工，偏差和方差都要靠剪枝、树深和叶子约束一起控制	高；单树很容易把训练集中的偶然模式学进去	可解释性要求极高的简单任务、规则基线、集成模型的基学习器
随机森林	多棵树并行独立训练，树与树之间无依赖，可利用多核 CPU 并行	Bagging：bootstrap 采样 + 特征子采样 + 投票 / 平均	单棵树通常故意训练得较深，先把单树偏差压低，再依靠集成抵消高方差	主要降低方差，让整体模型更稳、更抗数据扰动	低；Bagging 和平均机制天然有正则化效果	中小规模表格数据、强 baseline、噪声较大且希望训练稳定的场景
GBDT / XGBoost	多棵树严格串行训练；后一棵树必须等前一棵树完成后，才能开始学习新的修正项	Boosting：拟合残差或负梯度，逐轮加权累加	单棵树通常较浅，只负责局部纠错；单树偏差高，但方差相对更低	主要降低偏差，通过接力纠错不断提升拟合能力	中等；若树数太多、学习率太大或树过深，容易持续把训练集吃满	结构化数据里追求高精度的任务，如风控、推荐、广告、竞赛
LightGBM	仍然属于串行 Boosting，但单棵树训练做了更激进的近似和工程优化	Boosting + 直方图分桶 + leaf-wise 生长 + GOSS / EFB	单棵树依然是浅到中等深度的纠错器，但 leaf-wise 会把最值得细分的局部继续挖深	继续降低偏差，同时极力优化训练速度与内存效率	中等偏高；若 leaf-wise 缺少足够约束，局部树会很快长深	大规模表格数据、高维稀疏特征、需要频繁重训的工业流水线
CatBoost	仍然属于串行 Boosting，但重点放在类别特征处理与训练偏移控制	Boosting + ordered target statistics + ordered boosting + symmetric tree	单棵树结构更规整，对称树推理快；模型内部原生吸收类别特征统计信息	继续降低偏差，同时尽量减少类别编码带来的泄露与偏移	中等；总体可控，但仍需学习率、树数和正则化配合	类别特征很多、希望少做手工编码、快速起一个强模型的表格任务

这张表背后的逻辑可以压缩成一句话：决策树是基础，随机森林主要靠并行平均降低方差，GBDT 家族主要靠串行纠错降低偏差，而 XGBoost、LightGBM、CatBoost 则是在 GBDT 主线上的工业级强化。因此它们虽然都属于“树模型”，训练逻辑、误差控制方式和工程侧优势并不相同。

决策树

决策树（Decision Tree）把预测过程写成一串逐层切分的规则：内部节点负责提问，边负责根据答案分流，叶节点负责输出最终结果。它的优势不在于公式复杂，而在于模型结构与业务规则天然同构：每一条从根到叶的路径，都对应一条可读的判断链。

决策树、分类树、回归树的关系

决策树是总称；分类树（Classification Tree）与回归树（Regression Tree）是它在两类监督学习任务上的具体形式。三者共享同一种树结构，但目标变量、切分准则与叶子输出不同。

概念	预测目标	叶子输出	常用切分准则
决策树（Decision Tree）	树模型的总称	取决于具体任务	取决于具体任务
分类树（Classification Tree）	离散标签（如“流失/不流失”）	类别或类别概率	基尼不纯度（Gini）、熵（Entropy）、信息增益（Information Gain）
回归树（Regression Tree）	连续数值（如“价格”“时长”）	一个数值常数	平方误差（Squared Error）、MSE / SSE 下降

因此不要把“决策树”和“分类树”当成并列概念。更准确的表述是：分类树与回归树都是决策树；前者预测类别，后者预测数值。

结构与统一公式

设某个节点上落入的样本集合为 $S$，大小为 $|S|$。对某个候选切分（Split）$\phi$，例如“第 $j$ 个特征 $x_j\le t$”，样本会被分成左右两个子节点：

\[S_L(\phi)=\{(\mathbf{x}_i,y_i)\in S:\ x_{i,j}\le t\},\quad S_R(\phi)=S\setminus S_L(\phi)\]

其中 $S_L$ 是满足切分条件的样本集合，$S_R$ 是剩余样本集合。树在每个节点都会尝试多个候选切分 $\phi$，并保留收益最大的那个。

为了避免分别记忆分类树与回归树的训练目标，可以先写成统一形式。设 $I(S)$ 表示“节点 $S$ 当前有多乱”或“在该节点上预测误差有多大”，则一次切分的收益可统一写成：

\[\mathrm{Gain}(S,\phi)=I(S)-\frac{|S_L(\phi)|}{|S|}I\!\left(S_L(\phi)\right)-\frac{|S_R(\phi)|}{|S|}I\!\left(S_R(\phi)\right)\]

这条式子的含义非常直接：

$I(S)$：切分前，这个节点有多混乱。
$I(S_L),I(S_R)$：切分后，左右子节点各自还有多混乱。
$\frac{|S_L|}{|S|},\frac{|S_R|}{|S|}$：左右子节点占父节点样本的比例。要乘这个比例，是因为大子节点对总体误差的影响更大，小子节点不能和大子节点拥有同样权重。
$\mathrm{Gain}(S,\phi)$ 越大，说明这次切分越有效。

分类树与回归树的差别，正体现在 $I(S)$ 具体取什么。

决策树：一个整体例子

在贷款审批（Loan Approval）场景中，决策树可以直接写成规则链。根节点先按负债收入比（Debt-to-Income Ratio）切分；若负债收入比过高，再看是否有逾期记录；若负债收入比正常，再看信用评分（Credit Score）与近 6 个月收入稳定性。最终某个叶节点可能对应“直接通过”，另一个叶节点对应“人工复核”，再另一个叶节点对应“拒绝”。这就是决策树最重要的工程价值：它不只是给出一个分数，还给出一条可追溯的判断路径。

分类树：目标、公式与含义

分类树的目标是让每个叶节点里的标签尽量单一。若一个节点里几乎都是同一类样本，这个节点就“纯”；若各类样本混在一起，这个节点就“不纯”。

设类别集合为 $\mathcal{K}$，类别 $k$ 在节点 $S$ 中的占比记为：

\[p_k(S)=\frac{\text{节点 }S\text{ 中标签为 }k\text{ 的样本数}}{|S|}\]

常用的不纯度（Impurity）有两种。

基尼不纯度（Gini Impurity）：

\[G(S)=1-\sum_{k\in\mathcal{K}}p_k(S)^2\]

它可以读成“随机抽两个样本时，标签不一致的倾向有多强”。若节点里全是同一类，则某个 $p_k=1$、其余为 0，此时 $G(S)=0$，说明节点已经纯净；若二分类里两类各占一半，则 $G(S)=1-(0.5^2+0.5^2)=0.5$，说明混杂程度较高。

熵（Entropy）：

\[H(S)=-\sum_{k\in\mathcal{K}}p_k(S)\log p_k(S)\]

熵衡量的是“不确定性”。若节点里全是同一类，则不需要再猜，熵为 0；若各类比例接近，说明不确定性高，熵也更大。

信息增益（Information Gain）就是“切分前的不确定性”减去“切分后的加权不确定性”：

\[\mathrm{IG}(S,\phi)=H(S)-\frac{|S_L(\phi)|}{|S|}H\!\left(S_L(\phi)\right)-\frac{|S_R(\phi)|}{|S|}H\!\left(S_R(\phi)\right)\]

这条公式的每一部分都对应一个明确动作：

第一项 $H(S)$ 是切分前的混乱程度。
后两项是切分后左右子节点各自的混乱程度，并按样本占比加权求和。
两者相减，就是这次切分让节点“变纯”了多少。

有些实现使用基尼下降而非信息增益，本质上是同一件事：选择那个能让子节点更纯、让标签更集中的切分。

分类树：实际例子——用户流失预警

设任务是预测“一个用户未来 30 天是否流失”。标签只有两类：流失 / 未流失，因此这是典型分类树问题。候选特征可以包括：最近 7 天登录次数、最近 30 天是否投诉、是否还有未使用优惠券、最近一次下单距今天数。

假设根节点先尝试切分“最近 7 天登录次数 < 2”。这次切分后，左子节点里的用户大多已经很久不活跃，且流失比例显著升高；右子节点里的用户则活跃度更高、留存率更好。此时无论用基尼还是熵计算，左右节点的加权不纯度都会明显低于父节点，因此这会成为一个高质量切分。

继续往下，左子节点还可以再按“最近 30 天是否投诉”切分：低活跃且有投诉的用户，叶节点里可能出现“82% 最终流失”；低活跃但无投诉的用户，叶节点里可能是“61% 流失”。此时叶子不只给出类别，还可给出经验概率。工程上，这样的输出就能直接用于运营动作：高风险叶子推召回优惠券，中风险叶子推客服回访，低风险叶子不干预。

回归树：目标、公式与含义

回归树处理的是连续数值目标，例如价格、时长、销量、能耗。它不追求“类别更纯”，而追求“同一个叶节点里的数值尽量接近”。

若某个叶节点 $S$ 最终只输出一个常数 $c$，那么在平方误差（Squared Error）下，最优输出核心是均值：

\[c^*(S)=\arg\min_c\sum_{(\mathbf{x}_i,y_i)\in S}(y_i-c)^2=\frac{1}{|S|}\sum_{(\mathbf{x}_i,y_i)\in S}y_i\]

之所以是均值，是因为平方误差会把所有偏差向两边拉平，而均值正是使平方偏差和最小的那个常数。

在这个叶节点上，最小平方误差和（Sum of Squared Errors, SSE）为：

\[\mathrm{SSE}(S)=\sum_{(\mathbf{x}_i,y_i)\in S}\left(y_i-c^*(S)\right)^2\]

它表示节点里所有样本值围绕叶子预测值 $c^*(S)$ 的总波动。SSE 越大，说明这个节点里的样本值越分散，单用一个常数代表它们的效果越差。

因此一次切分的目标是让切分后的总误差尽量小，也可写成误差下降尽量大：

\[\Delta(S,\phi)=\mathrm{SSE}(S)-\mathrm{SSE}\!\left(S_L(\phi)\right)-\mathrm{SSE}\!\left(S_R(\phi)\right)\]

若更喜欢看平均误差，也可以把它写成 MSE（Mean Squared Error）形式：

\[\mathrm{MSE}(S)=\frac{1}{|S|}\mathrm{SSE}(S)\]

等价地，也可以最小化切分后的加权平均误差：\[\frac{|S_L|}{|S|}\mathrm{MSE}(S_L)+\frac{|S_R|}{|S|}\mathrm{MSE}(S_R)\]

两种写法完全等价：SSE 强调总误差，MSE 强调平均误差；本质都是寻找让子节点内部数值更集中的切分。

回归树：实际例子——外卖配送时长预测

设任务是预测一笔订单从接单到送达需要多少分钟。这是连续数值目标，因此属于回归树。候选特征可以包括：配送距离、是否下雨、是否晚高峰、商家出餐速度、骑手当前手中订单数。

根节点可能先按“配送距离是否大于 3 公里”切分。因为近距离订单与远距离订单的时长分布差异很大，这一步通常能显著降低节点内部方差。对远距离子节点，再按“是否下雨”切分；下雨天路况更慢、波动更大。对近距离子节点，则可能按“是否处于午晚高峰”切分。

假设某个叶节点对应“距离 > 3 公里、下雨、晚高峰”这类订单，这个叶节点里的训练样本平均送达时长是 47 分钟，那么该叶子的预测值就是 47。另一个叶节点若对应“距离 < 2 公里、不下雨、非高峰”，其平均时长可能只有 18 分钟。回归树的预测逻辑核心是把不同业务情境分段，再在每段内给出一个局部平均值。

适用场景

需要把模型输出翻译成可审计规则，例如风控、审批、运营分层、客服分流。
数据以表格（Tabular）为主，且存在显著非线性、阈值效应或特征交互。
希望同时处理连续特征与离散特征，并保留较强可解释性。
注意：单棵树方差高、容易过拟合，通常需要限制最大深度、最小叶子样本数或配合集成方法。

随机森林

随机森林（Random Forest）是 Bagging（Bootstrap Aggregating）在树模型上的经典实现：用 bootstrap 采样生成多份训练子集，训练多棵通常偏差较低、但对训练数据扰动高度敏感（高方差）的决策树，再把它们的输出聚合，以显著降低整体方差并提升鲁棒性。

这里的“高方差（High Variance）”指模型的估计方差（Estimator Variance）或预测方差（Prediction Variance）：如果训练集稍有变化，单棵树学到的分裂结构与最终预测就可能明显变化。随机森林利用多棵树的平均/投票，把这种由数据扰动带来的波动相互抵消。

它和单棵树真正差在哪里

随机森林并非“很多棵树简单叠起来”这么粗糙。单棵树的主要问题，是一旦在上层节点做出某个早期切分，后面的整条子树都会被这个局部选择锁定，因此对数据扰动极敏感。随机森林通过 bootstrap 采样与特征子采样，让每棵树在“数据视角”和“可用特征视角”上都略有不同，再把这些不同视角的判断平均起来，从而大幅削弱某一棵树早期错误切分的破坏力。

算法与符号

给定训练集 $D=\{(\mathbf{x}_i,y_i)\}_{i=1}^{N}$。对 $m=1,\dots,M$：

bootstrap 采样：从 $D$ 有放回采样 $N$ 次得到 $D_m$。所谓“有放回（Sampling with Replacement）”，是指每次抽到一个样本后，都先把它放回原数据集，再进行下一次抽样；因此同一个样本可能被重复抽中，而有些样本在这一轮里一次也没有被抽到。
训练一棵树 $T_m$：每个节点分裂时，只在随机选取的 $d'$ 个特征上搜索最优切分（特征子采样，feature subsampling）。

预测时，回归取平均，分类取多数投票：

\[\hat y_{\text{reg}}(\mathbf{x})=\frac{1}{M}\sum_{m=1}^{M}T_m(\mathbf{x}),\quad \hat y_{\text{clf}}(\mathbf{x})=\mathrm{mode}\left(\{T_m(\mathbf{x})\}_{m=1}^{M}\right)\]

这里 $T_m(\mathbf{x})$ 表示第 $m$ 棵树对样本 $\mathbf{x}$ 的预测。回归任务把所有树的输出做平均，以减少波动；分类任务取众数 $\mathrm{mode}(\cdot)$，也就是票数最多的类别。随机森林的稳定性正来自这种“多棵树共同决定”的聚合机制。

$M$：树的数量。
$d'$：每次分裂考虑的特征数（常见经验：分类用 $\sqrt{d}$，回归用 $d/3$）。

为什么有效：方差下降与“去相关”

若单棵树预测的方差为 $\sigma^2$，不同树之间的相关系数近似为 $\rho$（$0\le\rho\le 1$），则平均后的方差近似为：

\[\mathrm{Var}\!\left(\frac{1}{M}\sum_{m=1}^{M}T_m(\mathbf{x})\right)\approx \sigma^2\left(\rho+\frac{1-\rho}{M}\right)\]

这个近似式子把随机森林为什么有效说得很清楚： $\sigma^2$ 是单棵树自身的预测波动， $\rho$ 是树与树之间的相关性， $M$ 是树数。树越多， $\frac{1-\rho}{M}$ 越小；树之间越不相似， $\rho$ 越低，最终平均后的波动就越小。

因此随机森林有两条主线：

增加 $M$ 降低 $(1-\rho)/M$ 项。
通过 bootstrap + 特征子采样降低相关性 $\rho$，让集成真正“互补”。

OOB：不用额外验证集的误差估计

bootstrap 采样会重复抽到某些样本。对固定样本 $i$，一次采样中没被抽到的概率为 $(1-\frac{1}{N})^N\approx e^{-1}\approx 0.368$。因此每棵树大约有 36.8% 的样本是袋外（Out-of-Bag, OOB）样本，可用它们评估该树对未见数据的表现，并对全森林给出近似验证误差。

这里 $(1-\frac{1}{N})$ 表示“一次抽样没抽到某个固定样本”的概率，连续做 $N$ 次后得到 $(1-\frac{1}{N})^N$。当 $N$ 足够大时，它逼近 $e^{-1}$，也就是约 36.8%。这就是为什么随机森林天然拥有一批“没参与这棵树训练”的 OOB 样本。

适用场景

表格数据（Tabular）的强默认基线：非线性、特征交互、缺失值与尺度不一致都较鲁棒。
对超参数不敏感、训练稳定；可用特征重要性（Feature Importance）做解释与特征筛查。
当需要极致精度时，GBDT 家族往往更强；当需要更快推理/更小模型时，线性/浅层模型更合适。

梯度提升树（GBDT）

梯度提升树（Gradient Boosting Decision Tree, GBDT）是一类按序叠加回归树的加法模型（Additive Model）。模型从简单的初始预测 $F_0$ 出发，在每一轮加入一棵新树，用于修正当前模型尚未拟合好的部分，从而逐步降低训练集上的经验风险（Empirical Risk）。

每一轮新增的树都对应一个修正函数（Correction Function）。它不直接重新学习标签 $y$，通常会拟合当前模型输出与目标之间尚未被解释的差异。多轮修正连续叠加后，模型会从粗糙预测逐步逼近目标函数。

一个直观比喻是：GBDT 像一组按顺序接手的阅卷老师。第一位老师先给出一个粗略分数，后面的每一位老师都不重做整张卷子，只专门检查前面模型错得最明显的地方，并在这些地方补上修正意见。树一棵接一棵叠加后，最终预测会越来越接近真实值。

这里每棵小树都核心是一个局部纠错器。它关心的是当前模型还没解释好的误差：哪些样本被高估了，哪些被低估了，以及这些误差集中出现在哪些特征区域。“梯度”对应当前损失下降最快的修正方向，“提升”则表示把这些小修正持续累加成一个更强的整体模型。

目标：最小化经验风险

GBDT 背后的目标非常直接：寻找一个函数 $F$，使训练集上的总损失最小：

\[ \min_F\ \sum_{i=1}^{N}\ell\big(y_i,F(\mathbf{x}_i)\big) \]

这里 $\ell(y,F(\mathbf{x}))$ 是单样本损失函数，平方损失、对数损失等都可以放进来。难点在于：函数 $F$ 核心是一个复杂的预测函数；如果一次性同时优化所有树的结构和叶子输出，组合空间过大，几乎不可直接求解。

因此 GBDT 采用前向分步加法（Forward Stagewise Additive Modeling）：把 $F$ 写成逐步累加的形式，避免一次性求完整函数，只在第 $m$ 轮新增一个修正函数 $f_m$：

\[ F_M(\mathbf{x})=F_0(\mathbf{x})+\nu\sum_{m=1}^{M}f_m(\mathbf{x}) \]

这里 $F_M(\mathbf{x})$ 表示：模型经过总共 $M$ 轮提升后，对输入样本 $\mathbf{x}$ 输出的最终预测值。下标 $M$ 表示“已经累计做了 $M$ 次修正”，并非幂次，也并非某一棵单独的树。GBDT 的最终模型是许多轮小修正叠加后的总结果。

$\mathbf{x}$：一个输入样本的特征向量。
$F_0(\mathbf{x})$：初始模型对样本 $\mathbf{x}$ 的预测，常取常数 $c$ 使 $\sum_i \ell(y_i,c)$ 最小。它可以理解为模型在还没有长出任何树之前给出的第一版粗略判断。
$f_m(\mathbf{x})$：第 $m$ 轮新增的回归树在样本 $\mathbf{x}$ 上给出的修正值，负责弥补当前模型尚未拟合好的部分。
$\sum_{m=1}^{M}f_m(\mathbf{x})$：把前 $M$ 轮所有修正树的输出加起来，得到总修正量。
$\nu\in(0,1]$：学习率（Shrinkage），控制每一步修正只走多大。它的作用核心是缩小步长，使训练更稳定、泛化更好。

这个公式也可以按“底稿 + 反复批改”来理解： $F_0(\mathbf{x})$ 是第一版预测，后面的每个 $f_m(\mathbf{x})$ 都是在已有结果上补一小笔修正，最终的 $F_M(\mathbf{x})$ 就是经历 $M$ 次修正后的版本。

\[ f_m=\arg\min_f\sum_{i=1}^{N}\ell\big(y_i,F_{m-1}(\mathbf{x}_i)+f(\mathbf{x}_i)\big) \]

这条式子表示：在第 $m$ 轮，模型要寻找一个新的修正函数 $f_m$，使它加到旧模型 $F_{m-1}$ 上之后，训练集的总损失尽可能小。这里的 $\arg\min_f$ 可以读作“在所有候选函数 $f$ 里，找出那个能让目标最小的函数”。因此，求出来的核心是当前这一轮最合适的新树。

$F_{m-1}(\mathbf{x}_i)$：前 $m-1$ 轮模型在第 $i$ 个样本上的当前预测值。
$f(\mathbf{x}_i)$：候选新树在第 $i$ 个样本上的修正值。
$F_{m-1}(\mathbf{x}_i)+f(\mathbf{x}_i)$：把新树加进去之后，这个样本的新预测值。
$\ell\big(y_i,F_{m-1}(\mathbf{x}_i)+f(\mathbf{x}_i)\big)$：该样本在新预测下的损失。
$\sum_{i=1}^{N}\ell(\cdot)$：把所有样本的损失加总，得到这一轮希望尽量压低的整体目标。

这一轮之所以写成 $F_{m-1}+f$，而非重新求一个全新的 $F_m$，原因在于 GBDT 采用的是逐步修正策略：旧模型已经学到的部分先保留，新树只负责补上当前还没有拟合好的误差。这样每一轮只解决一个更小的局部问题，计算上更可行，也更符合“不断纠错”的直觉。

第 $m$ 轮只优化新增的修正函数 $f_m$，而把已有模型 $F_{m-1}$ 视为固定量。这样做把原本难以整体求解的函数优化问题，拆成了一系列可逐步求解的局部优化问题。

负梯度的来源

上面的子问题仍然不容易直接做，因为“最佳新树”本身还是一个复杂的函数搜索问题。GBDT 的关键近似是：在当前模型 $F_{m-1}$ 附近，对损失做一阶展开，只看局部下降方向。

对单个样本 $i$，把新增修正记为 $f(\mathbf{x}_i)$，则有：

\[ \ell\big(y_i,F_{m-1}(\mathbf{x}_i)+f(\mathbf{x}_i)\big) \approx \ell\big(y_i,F_{m-1}(\mathbf{x}_i)\big) + \frac{\partial \ell(y_i,F(\mathbf{x}_i))}{\partial F(\mathbf{x}_i)}\Big|_{F=F_{m-1}} f(\mathbf{x}_i) \]

一阶展开表明，新增函数 $f$ 的最优局部方向由损失对模型输出的负梯度决定。因此第 $m$ 轮的伪残差（Pseudo-residual）定义为：

\[ r_i^{(m)}=-\left.\frac{\partial \ell\left(y_i,F(\mathbf{x}_i)\right)}{\partial F(\mathbf{x}_i)}\right|_{F=F_{m-1}} \]

接下来的动作就自然了：用一棵回归树去拟合这些伪残差，而非直接拟合标签 $y_i$ $r_i^{(m)}$。这棵树学到的，就是“当前模型在输入空间不同区域里，应该往哪个方向、修正多大”的分段常数近似。

模型更新写成：

\[ F_m(\mathbf{x})=F_{m-1}(\mathbf{x})+\nu f_m(\mathbf{x}) \]

“梯度提升”这一名称对应的正是上述更新方式：优化对象核心是预测函数本身；每一轮更新都沿着损失在函数空间中的负梯度方向加入一个新的修正函数。

平方损失下的残差形式

若损失取平方损失

\[ \ell(y,F)=\frac{1}{2}(y-F)^2 \]

则对模型输出求导：

\[ \frac{\partial \ell(y,F)}{\partial F}=F-y \]

因此第 $m$ 轮的负梯度为：

\[ r_i^{(m)}=-\left(F_{m-1}(\mathbf{x}_i)-y_i\right)=y_i-F_{m-1}(\mathbf{x}_i) \]

这正是当前预测与真实值之间的残差（Residual）。所以在回归任务里，人们常把 GBDT 说成“不断拟合残差”；这核心是平方损失下负梯度公式的直接结果。

不同损失下学到的是什么

“每轮拟合残差”只在平方损失下最直观。更一般地，GBDT 拟合的是当前损失对模型输出的负梯度，因此不同任务下，每轮新树学到的对象并不完全相同。

任务 / 损失	当前轮拟合的量	含义
平方损失（MSE）	$y-F(x)$	真实值与当前预测的残差
绝对损失（MAE）	$\mathrm{sign}(y-F(x))$	只关心修正方向，不强调误差幅度；对异常值更鲁棒
二分类对数损失（Log Loss）	$y-p(x)$	真实标签与当前预测概率之间的差

因此，GBDT 核心是一套更一般的函数优化框架。平方损失下它表现为残差学习；分类任务下，它表现为不断修正当前概率估计。

树作为局部修正器

因为树天然产生分段常数（Piecewise Constant）的局部修正。若某一轮中，一棵树把样本空间切成若干区域 $R_1,\dots,R_J$，那么它输出的是：

\[ f_m(\mathbf{x})=\sum_{j=1}^{J}\gamma_j\mathbf{1}(\mathbf{x}\in R_j) \]

这意味着：模型核心是在每个局部区域里分别加一个常数修正 $\gamma_j$。这正适合处理表格数据里的阈值效应、非线性和特征交互。

叶子输出的解析解

在平方损失下，若某个叶子覆盖的样本集合为 $S$，并用常数 $\gamma$ 拟合这一叶内的残差 $r_i$，则该叶子的局部目标是：

\[ \min_{\gamma}\sum_{i\in S}(r_i-\gamma)^2 \]

对 $\gamma$ 求导并令其为 0：

\[ \frac{d}{d\gamma}\sum_{i\in S}(r_i-\gamma)^2=-2\sum_{i\in S}(r_i-\gamma)=0 \] \[ \sum_{i\in S}r_i-|S|\gamma=0 \] \[ \gamma^*=\frac{1}{|S|}\sum_{i\in S}r_i \]

因此叶子输出之所以是均值，核心是平方损失下这个局部最小二乘问题的解析解。每一轮加入一棵树，本质上是在每个局部区域里补上一段“平均残差修正”。

训练流程

初始化 $F_0$，通常取使总体损失最小的常数模型。
对第 $m$ 轮，计算所有样本的伪残差 $r_i^{(m)}$。
训练一棵回归树 $f_m$ 去拟合 $(\mathbf{x}_i,r_i^{(m)})$。
把这棵树按学习率 $\nu$ 缩小后加到当前模型上。
重复多轮，直到验证集误差不再下降，或达到预设树数。

GBDT 的本质，是把复杂的函数优化问题拆成许多轮局部修正，并在每一轮用一棵小树逼近当前损失下降最快的方向。

适用场景

结构化表格任务中的强模型：广告、推荐、风控、运营排序、传统特征工程场景。
对特征尺度、非线性、缺失值较鲁棒；能自动学习高阶交互。
注意：对超参数更敏感（树深、学习率、树数、采样比例）；需要用验证集早停（Early Stopping）防止过拟合。

为什么它在表格数据上强、在别的场景不一定强

GBDT 家族在表格数据上长期强势，并非偶然。表格任务里常见的模式，本来就很适合树模型表达：阈值效应、离散规则、局部非线性、特征交互、缺失值路径、不同子群体的分段行为。树的分裂结构天然能把“收入高且近期投诉过的老用户”和“收入低但活跃度高的新用户”这类组合规则直接切出来，而不需要像线性模型那样依赖大量手工交叉特征。

但同样的归纳偏置，在高维稀疏文本、图像、语音这类输入上就未必占优。因为这些任务的有效模式通常核心是分布在海量维度上的连续结构、局部平滑模式或长程依赖。此时树模型虽然能做基线，但往往不如专门面向非结构化数据的线性稀疏模型、卷积网络或 Transformer。

优点与局限

维度	说明
优点	表格数据精度高；对特征缩放不敏感；可处理非线性与高阶交互；通常还能给出特征重要性
局限 1	串行训练，训练速度通常慢于随机森林等并行集成
局限 2	对学习率、树数、树深、采样比例等超参数较敏感，容易出现“稍调不慎就欠拟合或过拟合”
局限 3	在超高维稀疏文本或图像等非结构化输入上，通常并非最自然的主力模型

XGBoost

背景和问题定义

XGBoost（Extreme Gradient Boosting）是在梯度提升树（Gradient Boosting Decision Tree, GBDT）基础上的工程化强化版本。它关注的是：在保持高表达能力的同时，让树的生长过程更稳定、目标函数更明确、复杂度控制更系统。

核心思想

XGBoost 仍然采用加法模型（Additive Model）：当前模型由多棵树的输出求和得到，第 $t$ 轮只学习一棵新树 $f_t$ 作为修正项。它的关键强化点有两条：第一，把新增树的学习写成显式的带正则优化问题；第二，对该目标做二阶近似，同时利用梯度（Gradient）和海森（Hessian）信息计算叶子输出与分裂增益。

算法公式和详细解释

设第 $t$ 轮预测为 $\tilde y_i^{(t)}=\tilde y_i^{(t-1)}+f_t(\boldsymbol{x}_i)$。XGBoost 在第 $t$ 轮优化的目标可写为：

\[\text{Obj}^{(t)}=\sum_{i=1}^{N} \ell(y_i,\tilde y_i^{(t)})+\Omega(f_t)+\text{const}\]

在这个目标里， $\ell(y_i,\tilde y_i^{(t)})$ 衡量第 $i$ 个样本在第 $t$ 轮更新后的预测误差， $\Omega(f_t)$ 惩罚新树本身的复杂度， $\text{const}$ 则表示与当前轮新树无关的常数项。也就是说，XGBoost 每一轮都在平衡“把误差降下去”和“不要把树长得太复杂”。

其中正则项通常取：

\[\Omega(f)=\gamma T+\frac{\lambda}{2}\sum_{j=1}^{T}w_j^2\]

这里 $T$ 是叶子数， $\gamma T$ 惩罚“树长出太多叶子”， $\frac{\lambda}{2}\sum_j w_j^2$ 惩罚“每个叶子的输出值过大”。前者控制结构复杂度，后者控制数值幅度，两者合起来让模型更稳。

对损失在当前预测附近做二阶泰勒展开，定义：

\[g_i=\frac{\partial \ell(y_i,\tilde y_i)}{\partial \tilde y_i}\Big|_{\tilde y_i=\tilde y_i^{(t-1)}},\qquad h_i=\frac{\partial^2 \ell(y_i,\tilde y_i)}{\partial \tilde y_i^2}\Big|_{\tilde y_i=\tilde y_i^{(t-1)}}\]

$g_i$ 是一阶导数，表示“当前这个样本朝哪个方向改，损失下降最快”； $h_i$ 是二阶导数，表示“这个方向有多陡、多稳定”。XGBoost 同时使用这两项信息，所以比只用一阶梯度的做法更精细。

则近似目标为：

\[\tilde{\text{Obj}}^{(t)}\approx \sum_{i=1}^{N} \left(g_i f_t(\boldsymbol{x}_i)+\frac{1}{2}h_i f_t(\boldsymbol{x}_i)^2\right)+\Omega(f_t)\]

这条近似目标里， $f_t(\boldsymbol{x}_i)$ 是新树在样本 $i$ 上给出的修正值。线性项 $g_i f_t(\boldsymbol{x}_i)$ 反映“沿当前方向修正是否有利”，二次项 $\frac{1}{2}h_i f_t(\boldsymbol{x}_i)^2$ 反映“修正过大时会不会带来额外代价”。

若固定树结构，记落在叶子 $j$ 的样本集合为 $I_j$，并定义 $G_j=\sum_{i\in I_j}g_i$、$H_j=\sum_{i\in I_j}h_i$，则该叶子的最优输出为：

\[w_j^*=-\frac{G_j}{H_j+\lambda}\]

这里 $G_j$ 是第 $j$ 个叶子里所有样本一阶梯度的总和， $H_j$ 是二阶梯度总和。分子告诉模型这个叶子整体应该往哪个方向修正，分母则用二阶信息和正则项 $\lambda$ 把修正幅度稳住。

某次分裂把父叶拆成左右两叶后的增益（Gain）为：

\[\text{Gain}=\frac{1}{2}\left(\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{G^2}{H+\lambda}\right)-\gamma\]

这个增益式子比较的是“父叶不分裂”和“分成左右两叶”谁更划算。 $G_L,H_L$ 与 $G_R,H_R$ 分别是左右子叶的梯度统计量， $G,H$ 是父叶统计量；最后减去 $\gamma$，表示每多长一个叶子都要付复杂度代价。

这说明 XGBoost 的分裂同时考虑“收益”和“复杂度惩罚”，并以此控制结构扩张。

相对经典 GBDT 的强化点

XGBoost 的工程优势并不只来自“实现更快”。它把几项在工业界非常关键的能力同时做扎实了：显式复杂度正则化、二阶梯度优化、行采样与列采样、对稀疏特征的处理、缓存友好的分裂搜索，以及成熟的早停和监控接口。因此，它长期被视作结构化数据建模的稳健默认选项。

正则化更明确：通过叶子数惩罚与叶子权重 L2 正则显式控制树复杂度。
分裂选择更精细：同时使用一阶梯度与二阶梯度，不只看“该往哪边改”，还看“这一步有多稳”。
随机化更充分：支持样本子采样 $\text{subsample}$ 和列采样 $\text{colsample\_bytree}$，既降计算量也降过拟合。
工程实现更成熟：对稀疏输入、缓存访问和大规模数据训练都做了专门优化。

训练或推断流程

用当前模型计算每个样本的一阶梯度 $g_i$ 与二阶梯度 $h_i$。
在候选特征与候选阈值上搜索分裂增益最大的切分。
固定树结构后，利用 $w_j^*$ 计算每个叶子的最优输出。
把新树加入现有模型，继续下一轮迭代。
预测时把所有树的输出累加，再映射到分类或回归结果。

训练控制与早停

XGBoost 在工程实践里常配合较大的树数上限和验证集早停一起使用。做法通常核心是给一个偏大的上限，再观察验证集误差或任务指标何时不再提升。这样，树数不再是拍脑袋设定的固定值，而变成由验证集驱动的可学习训练预算。

这对 Boosting 家族尤其重要，因为学习率较小时，往往需要更多轮小步修正；若学习率较大，又更容易在后期进入过拟合区域。早停在这里的作用，是把“拟合能力很强”与“不要无限继续纠错”之间的边界交给验证集来判定。

应用实例

在点击率预估（CTR Prediction）中，用户、广告和上下文之间往往存在复杂交互。XGBoost 可以通过逐轮加树自动学习“什么样的用户在什么时间、看到什么样的广告更容易点击”这类组合规则，因此在工业级表格任务中长期保持强竞争力。

优缺点与适用场景

优点：表格数据表现强，目标函数清晰，正则化明确，工程生态成熟。
局限：超参数较多；树深、学习率、树数、采样比例之间存在明显耦合。
适用场景：风控、广告、推荐、排序与一般结构化表格建模。

LightGBM

背景和问题定义

LightGBM 是面向大规模数据与高维稀疏特征优化的 GBDT 实现。它关注的核心问题是：当样本量和特征维度都很大时，如何降低分裂搜索的时间与内存成本，同时尽量不牺牲精度。

核心思想

LightGBM 的两个关键设计是直方图分桶（Histogram Binning）和叶子优先生长（Leaf-wise Growth）。前者把连续特征离散到有限个桶上，后者每一步都继续分裂当前收益最大的叶子，从而在相同叶子预算下更快降低训练误差。

算法公式和详细解释

在优化目标上，LightGBM 与 GBDT / XGBoost 一致，仍然是逐轮加入树来降低损失。它的区别主要体现在计算方式：若某个连续特征被离散到 $B$ 个桶，则算法只需在桶边界上搜索分裂点，而不必在所有实数取值上逐一枚举。这样，每个节点维护的是桶级梯度统计量，而非逐样本的原始实数值。

叶子优先生长意味着：算法始终选择当前分裂增益最大的叶子继续向下扩展。它通常比按层生长（Level-wise）更激进，因而在同样叶子数限制下更容易得到较低训练误差，但也更容易在局部区域长出很深的树。

速度来自哪些具体机制

LightGBM 的“快”核心是多项近似与工程策略叠加的结果。

直方图分桶：把连续特征先离散到有限个桶，例如默认 255 或 256 个桶。这样找切分点时，复杂度从“遍历大量原始取值”变成“遍历固定桶边界”。
Leaf-wise 生长：每一轮只扩展当前最值得继续分裂的叶子，在相同叶子预算下往往比 level-wise 更快压低误差。
GOSS（Gradient-based One-Side Sampling）：优先保留梯度较大的样本，因为这些样本更能代表当前模型最需要修正的区域；对梯度较小的样本只随机保留一部分，以减少计算量。
EFB（Exclusive Feature Bundling）：把互斥的稀疏特征打包到同一组表示里，降低高维稀疏输入的有效维度。

其中 GOSS 和 EFB 的意义非常工程化。前者服务于“大样本下不必每轮都看全量样本”，后者服务于“高维稀疏特征下不必把所有稀疏列都单独维护”。因此，LightGBM 尤其适合推荐、广告、风控这类既大规模又高度稀疏的表格任务。

LightGBM 也因此更依赖约束配套。leaf-wise 生长虽然更激进，但如果不同时限制

max_depth

、

num_leaves

、

min_data_in_leaf

这类参数，局部树会很快长得过深，训练误差降得很漂亮，验证集却未必跟着受益。

训练或推断流程

将连续特征离散到有限个桶，并统计桶级梯度信息。
在每个节点上基于桶统计量搜索最优切分。
选择全局增益最大的叶子继续分裂。
使用最大深度、最大叶子数、最小叶子样本数等约束抑制过拟合。
预测时沿树路径到达叶子并累加所有树的输出。

应用实例

在大规模推荐粗排任务中，输入特征通常极高维且高度稀疏。LightGBM 能在保留较强拟合能力的同时显著缩短训练时间，因此非常适合需要频繁重训的工业流水线。

优缺点与适用场景

优点：训练快、内存占用低，对大规模稀疏特征友好。
局限：叶子优先策略若约束不足，局部树会过深，过拟合风险更高。
适用场景：超大规模表格数据、稀疏特征建模、追求训练效率的工业场景。

CatBoost

背景和问题定义

CatBoost 是另一条非常重要的 Boosting 工业路线。它关注的核心问题是：当数据里有大量高基数类别特征时，如何在不引入严重数据泄露和预测偏移的前提下，把这些特征真正用好。广告、推荐、电商、用户画像、商品属性等任务里，这个问题尤其关键。

核心思想

CatBoost 的两项代表性设计是有序目标统计（Ordered Target Statistics）与有序提升（Ordered Boosting）。前者处理类别特征，后者处理训练偏移。它们共同服务于同一个目标：不要让模型在训练时偷看到本不该知道的目标信息。

类别特征为什么难

对树模型而言，类别特征的难点不只是“字符串不能直接喂进去”，更在于很多类别列的取值空间极大，例如用户 ID、商品 ID、城市、品牌、广告位、渠道来源。若简单做 one-hot 编码，维度会迅速膨胀；若直接用目标均值编码，又很容易把标签信息泄露进训练过程，导致离线效果虚高、线上泛化变差。

CatBoost 的思路是：用类别对应的目标统计量来表示类别，但计算某个样本的统计量时，只允许使用它之前样本的信息，而不允许看见它自己以及它之后的样本标签。这样得到的类别表示虽然仍然利用了监督信号，却显著降低了数据泄露与目标泄露风险。

有序目标统计与有序提升

设某个类别值为 $c$，其编码值可以理解为“在训练顺序中，当前位置之前出现过的同类样本的目标统计量，再配合一个全局先验做平滑”。这样一来，模型在看到当前样本时，只能利用“过去”信息，不能直接偷看当前标签。

同样的思路也延伸到 Boosting 训练本身。传统目标编码或普通 Boosting 在训练时，常会让同一批样本之间发生微妙的信息穿透，形成预测偏移（Prediction Shift）。CatBoost 通过 ordered boosting 尽量让每一步的残差估计更接近“真正未见样本上的估计误差”，从而让训练分布和推理分布更一致。

对称树

CatBoost 还大量使用对称树（Symmetric Tree，也常称 Oblivious Tree）：同一层的所有节点共享同一个切分规则。这种树结构比一般决策树更受约束，表达上没那么自由，但推理路径规整、计算高效，也更利于工程实现和高吞吐推断。

从工程角度看，CatBoost 的价值就在于把“类别特征处理”从手工特征工程里拿回模型内部。很多场景里，团队从需要先在外部纠结 one-hot、频次编码、目标编码、平滑规则和泄露控制转向可以把类别列直接交给模型，让训练流程自己处理这套问题。

优缺点与适用场景

优点：对类别特征支持最好，默认配置往往更稳，推理效率高。
局限：当类别特征优势不明显时，未必总能胜过 XGBoost 或 LightGBM；训练生态也没有前两者那么普遍。
适用场景：类别特征很多、ID 类特征很多、需要尽量减少手工编码工作的表格任务。

概率模型

这一类方法处理的核心问题是：模型不仅要给出“预测是什么”，还要明确回答“这个结果有多可信、数据是如何生成的、隐藏结构是什么”。因此它们直接建模概率分布（Probability Distribution）、隐变量（Latent Variables）或序列依赖关系，在分类、密度估计、软聚类、序列推断与不确定性表达中具有统一优势。

朴素贝叶斯

背景和问题定义

朴素贝叶斯（Naive Bayes）用于分类问题。给定特征 $\boldsymbol{x}$，它要估计样本属于每个类别 $y$ 的后验概率 $p(y|\boldsymbol{x})$。该方法尤其适合高维稀疏、小样本或需要快速概率基线的任务。

核心思想

朴素贝叶斯的核心假设是：在给定类别 $y$ 的条件下，各个特征条件独立（Conditional Independence）。这个假设通常并不严格成立，但它把高维联合分布的估计问题，转化为多个一维条件分布的估计问题。

算法公式和详细解释

由贝叶斯公式：

\[p(y|\boldsymbol{x})=\frac{p(\boldsymbol{x}|y)p(y)}{p(\boldsymbol{x})}\]

这个贝叶斯公式把后验概率拆成三部分： $p(y|\boldsymbol{x})$ 是看到特征后属于类别 $y$ 的概率； $p(\boldsymbol{x}|y)$ 是该类别生成这组特征的可能性； $p(y)$ 是类别先验； $p(\boldsymbol{x})$ 则是对所有类别做归一化的总证据。

由于 $p(\boldsymbol{x})$ 对所有类别相同，分类时只需比较：

\[p(y|\boldsymbol{x})\propto p(y)\prod_{j=1}^{d}p(x_j|y)\]

这里的 $\propto$ 表示“成正比”。因为对同一个样本来说，分母 $p(\boldsymbol{x})$ 对所有类别都相同，所以比较类别大小时只需看右边：先验 $p(y)$ 乘上每个特征条件概率 $p(x_j|y)$ 的连乘积。

其中 $p(y)$ 是先验概率（Prior）， $p(x_j|y)$ 是条件似然（Likelihood）。根据特征类型不同，可以得到高斯朴素贝叶斯、伯努利朴素贝叶斯、多项式朴素贝叶斯等变体。

训练或推断流程

从训练集统计每个类别的先验概率 $p(y)$。
估计每个类别下各特征的条件分布 $p(x_j|y)$。
推断时计算各类别的对数后验分数 $\log p(y)+\sum_j \log p(x_j|y)$。
选择分数最大的类别作为预测输出。

应用实例

在垃圾邮件检测中，若某些词在垃圾邮件中显著更常见，那么这些词对应的条件概率会被估得更大，从而把包含这些词的邮件判到垃圾类别。

优缺点与适用场景

优点：训练快、推断快、对高维稀疏特征友好。
局限：条件独立假设常被破坏；概率校准有时较弱。
适用场景：文本分类、垃圾邮件过滤、简单可靠的概率基线。

高斯混合模型（GMM）

背景和问题定义

高斯混合模型（Gaussian Mixture Model, GMM）处理的是“数据由多个潜在高斯成分混合生成”的建模问题。与 K-Means 只输出硬划分不同，GMM 希望估计每个样本属于各个簇的概率，并允许不同簇有不同的协方差结构。

核心思想

GMM 引入潜变量 $z$ 表示样本来自哪一个高斯成分。整体分布由多个高斯分布按混合系数加权得到，因此每个样本对各个簇的归属是软的（Soft Assignment），并以概率形式表达。

一个直观比喻是：把数据想成混在一起的几类人群，只能看到每个人的外在特征，却看不到他原本属于哪一类。每一类人群都有自己的“中心位置”和“分散形状”，对应一个高斯成分；整个数据集则像这些人群按不同比例叠在一起形成的总体分布。与 K-Means 把每个样本硬塞进某一个簇不同，GMM 会给出“这个样本更像第 1 类，也有一部分像第 2 类”这样的软归属结果。

因此，混合系数 $\pi_k$ 可以理解为各类人群在总体中的占比，均值 $\boldsymbol{\mu}_k$ 是每类人群的中心，协方差 $\boldsymbol{\Sigma}_k$ 描述该群体沿不同方向的扩散方式，而责任度 $\gamma_{ik}$ 则表示“样本 $i$ 有多大程度属于第 $k$ 类”。这也是 GMM 比 K-Means 更灵活的原因：它允许边界模糊，也允许簇具有不同大小、方向和椭球形状。

算法公式和详细解释

对样本 $\boldsymbol{x}$，GMM 的概率密度写为：

\[p(\boldsymbol{x})=\sum_{k=1}^{K} \pi_k \mathcal{N}(\boldsymbol{x}\mid \boldsymbol{\mu}_k,\boldsymbol{\Sigma}_k)\]

这条式子说明 GMM 的整体密度核心是 $K$ 个高斯成分的加权和。 $\pi_k$ 决定第 $k$ 个成分在总体中的占比， $\mathcal{N}(\boldsymbol{x}\mid \boldsymbol{\mu}_k,\boldsymbol{\Sigma}_k)$ 描述样本 $\boldsymbol{x}$ 在该成分下有多典型。

其中 $\pi_k$ 是混合系数，满足 $\pi_k\ge 0$ 且 $\sum_k \pi_k=1$。给定样本后，其属于第 $k$ 个成分的责任度（Responsibility）为：

\[\gamma_{ik}=p(z_i=k|\boldsymbol{x}_i)=\frac{\pi_k \mathcal{N}(\boldsymbol{x}_i\mid \boldsymbol{\mu}_k,\boldsymbol{\Sigma}_k)}{\sum_{j=1}^{K}\pi_j \mathcal{N}(\boldsymbol{x}_i\mid \boldsymbol{\mu}_j,\boldsymbol{\Sigma}_j)}\]

责任度 $\gamma_{ik}$ 是“样本 $i$ 属于成分 $k$ 的后验概率”。分子表示“成分 $k$ 解释这个样本的能力”，分母则把所有成分对该样本的解释能力加总起来做归一化，因此所有 $\gamma_{ik}$ 加起来等于 1。

GMM 的参数通常通过期望最大化（Expectation-Maximization, EM）求解。E 步计算责任度，M 步更新参数：

\[N_k=\sum_{i=1}^{N}\gamma_{ik},\qquad \pi_k=\frac{N_k}{N}\]

这里 $N_k$ 核心是软计数：每个样本只按自己的责任度贡献一部分。于是混合系数更新为 $\pi_k=\frac{N_k}{N}$，表示第 $k$ 个成分在总体中的相对权重。

\[\boldsymbol{\mu}_k=\frac{1}{N_k}\sum_{i=1}^{N}\gamma_{ik}\boldsymbol{x}_i,\qquad \boldsymbol{\Sigma}_k=\frac{1}{N_k}\sum_{i=1}^{N}\gamma_{ik}(\boldsymbol{x}_i-\boldsymbol{\mu}_k)(\boldsymbol{x}_i-\boldsymbol{\mu}_k)^\top\]

均值更新式说明：每个样本按责任度大小对中心 $\boldsymbol{\mu}_k$ 做加权贡献；协方差更新式则是在该加权中心周围统计离散程度。责任度越大，样本对该成分的中心和形状影响越大。

训练或推断流程

初始化混合系数、均值和协方差。
E 步：计算每个样本对各高斯成分的责任度。
M 步：根据责任度更新参数。
重复 E / M，直到对数似然收敛。

应用实例

在用户分群中，若人群天然分成多个椭球状子群体，那么 GMM 不仅能给出簇划分，还能输出“某个用户属于每个群体的概率”，这比 K-Means 的硬分配更细致。

优缺点与适用场景

优点：软聚类、概率解释清晰、能建模不同协方差形状。
局限：对初始化敏感；高维时协方差估计代价高。
适用场景：软聚类、密度估计、带概率解释的聚类分析。

隐马尔可夫模型（HMM）

背景和问题定义

隐马尔可夫模型（Hidden Markov Model, HMM）用于序列建模，尤其适合处理序列标注（Sequence Labeling）问题。序列标注的任务形式是：给定一个按时间或位置排列的输入序列，为序列中的每个位置分配一个标签。例如，在词性标注中，句子“我爱北京天安门”的每个词或字都需要对应一个词性标签；在语音识别中，一段连续声学信号需要对应到一串离散文字或音素标签。

HMM 是序列模型中的经典早期方法，在语音识别等领域长期具有重要地位。它的优势在于结构清晰、推断高效，能够以较低的计算成本处理序列决策；与此同时，它主要依赖局部状态转移和局部发射关系，所使用的上下文信息相对有限。

HMM 的建模方式是：观测序列 $\boldsymbol{x}_{1:T}$ 可以看到，但生成这些观测的状态序列 $\boldsymbol{z}_{1:T}$ 看不到。这里的隐藏状态通常对应词性、命名实体类别或发音状态等潜在标签。围绕这一模型，核心问题通常包括计算某段观测序列的概率、恢复最可能的隐藏状态路径，以及估计模型参数。

核心思想

HMM 的核心由两条条件独立假设组成。第一，隐藏状态满足一阶马尔可夫性（First-order Markov Property）：当前隐藏状态只依赖前一个隐藏状态，即 $p(z_t\mid z_{1:t-1})=p(z_t\mid z_{t-1})$。第二，观测满足观测条件独立性（Observation Conditional Independence）：当前观测只依赖当前隐藏状态，即 $p(x_t\mid z_{1:T},x_{1:t-1})=p(x_t\mid z_t)$。前者给出状态转移链，后者给出发射概率。

一个直接的比喻是：无法直接看到远方朋友每天所处的天气，但可以持续看到他发布的活动，例如“去游泳”“去逛街”或“在家睡觉”。在这个比喻里，天气是隐藏状态 $z_t$，活动是观测 $x_t$。HMM 的生成逻辑正是先生成隐藏状态序列，再由每个状态发射对应观测。

如果今天是晴天，明天仍然晴天的概率通常较高；如果今天下雨，朋友在家休息的概率通常高于去游泳。这分别对应 HMM 中的状态转移概率 $p(z_t|z_{t-1})$ 和发射概率 $p(x_t|z_t)$。因此，HMM 把序列建模为一个“剧本模拟器”：先按转移规律生成一条看不见的天气轨迹，再按照每一天的天气生成看得见的活动记录。

“发射”本质上是条件概率，而不必理解为真实世界里的物理因果。符号 $p(x_t|z_t)$ 表示：在当前隐藏状态 $z_t$ 已知的条件下，观测 $x_t$ 出现的概率。HMM 选择这个方向，是因为它属于生成式模型（Generative Model）：建模时描述“状态如何产生观测”，推断时再根据已经看到的观测反推最可能的隐藏状态路径。

这会形成一个很重要的方向差异。建模方向是 $z_t\rightarrow x_t$，也就是隐藏状态发射观测；解码方向是根据 $\boldsymbol{x}_{1:T}$ 反推 $\boldsymbol{z}_{1:T}$，也就是寻找最可能解释这串观测的隐藏状态序列。HMM 的训练目标并非一个直接的 $p(z_t|x_t)$ 分类器；它先定义 $p(\boldsymbol{x}_{1:T},\boldsymbol{z}_{1:T})$，再通过贝叶斯推断和动态规划完成反推。

HMM 概念	比喻中的对应物	含义
隐藏状态 $z_t$	每天的天气	真实存在，但观察者不能直接看到。
观测 $x_t$	朋友圈里的活动	可以直接看到，用来反推隐藏状态。
初始分布 $p(z_1)$	第一天各种天气出现的概率	序列从什么状态开始。
转移概率 $p(z_t\|z_{t-1})$	天气从今天到明天的变化规律	例如“晴天后仍是晴天”的概率较高。
发射概率 $p(x_t\|z_t)$	某种天气下出现某种活动的概率	例如下雨时更可能“在家睡觉”。
隐藏状态序列 $\boldsymbol{z}_{1:T}$	整段天气变化轨迹	模型希望恢复的潜在过程。
观测序列 $\boldsymbol{x}_{1:T}$	整段活动记录	模型的输入数据。

这个比喻也解释了 HMM 的优势与局限。它简单、快速、可解释，因为联合概率能够拆成局部转移和局部发射的乘积，并可用动态规划高效推断。但它的条件独立假设也很强：某一天的活动只由当天的天气决定，不直接依赖前后活动。在词性标注等任务中，一个词的标签往往同时受左右上下文影响，这种假设就会限制表达能力。

算法公式和详细解释

HMM 的联合分布写为：

\[p(\boldsymbol{x}_{1:T},\boldsymbol{z}_{1:T})=p(z_1)\prod_{t=2}^{T}p(z_t|z_{t-1})\prod_{t=1}^{T}p(x_t|z_t)\]

这个公式从左到右可以拆成四个层次：

$p(\boldsymbol{x}_{1:T},\boldsymbol{z}_{1:T})$ 是整条观测序列和整条隐藏状态序列的联合概率。这里 $T$ 是序列长度；$t$ 是当前时刻或当前位置；$x_t$ 是第 $t$ 个观测值，例如第 $t$ 个词、一次活动记录或一个传感器读数；$z_t$ 是第 $t$ 个隐藏状态，例如该词的词性标签、当天的真实天气或系统的潜在状态。$\boldsymbol{x}_{1:T}=(x_1,\dots,x_T)$ 表示从第 $1$ 个时刻到第 $T$ 个时刻的全部观测；$\boldsymbol{z}_{1:T}=(z_1,\dots,z_T)$ 表示对应的全部隐藏状态。
$p(z_1)$ 是初始状态概率。它回答“序列刚开始时，隐藏状态落在 $z_1$ 的概率是多少”。在天气例子里，它就是第一天是晴天、雨天或阴天的先验概率；在词性标注里，它就是句子第一个词属于某个词性标签的初始概率。
$\prod_{t=2}^{T}p(z_t|z_{t-1})$ 是状态转移链。乘积符号 $\prod$ 表示把从 $t=2$ 到 $T$ 的所有相邻转移概率连乘起来；$p(z_t|z_{t-1})$ 表示“已知上一时刻状态 $z_{t-1}$ 后，当前时刻转到 $z_t$ 的概率”。这就是 HMM 的一阶马尔可夫假设：当前隐藏状态只直接依赖前一个隐藏状态。
$\prod_{t=1}^{T}p(x_t|z_t)$ 是观测发射链。它把每个时刻“隐藏状态 $z_t$ 生成观测 $x_t$”的概率连乘起来；$p(x_t|z_t)$ 是条件概率，表示在状态 $z_t$ 已经给定时看到观测 $x_t$ 的概率。天气例子里是“雨天时出现室内活动”的概率；词性标注里是“某个词性标签发射出某个词”的概率。这里的“发射”是模型假设中的生成方向，不等同于现实中的强因果断言。

这条联合分布引出 HMM 的三类基本计算问题：

概率评估（Evaluation）：给定观测序列 $\boldsymbol{x}_{1:T}$，计算模型看到这条序列的概率 $p(\boldsymbol{x}_{1:T})$。这回答“这段观测在当前模型下有多合理”。
状态解码（Decoding）：给定观测序列 $\boldsymbol{x}_{1:T}$，恢复最可能的隐藏状态路径 $\boldsymbol{z}_{1:T}$。这回答“最可能的潜在过程是什么”。
参数学习（Learning）：给定训练序列，估计初始分布、转移矩阵和发射分布。若隐藏状态有标注，可以直接计数；若隐藏状态不可见，需要通过期望最大化（Expectation-Maximization, EM）估计。EM 会在“估计隐藏状态的后验分布”和“用这些估计更新参数”之间交替迭代。

这三类问题都会遇到同一个计算瓶颈：推断阶段的观测序列 $\boldsymbol{x}_{1:T}$ 已经固定，系统看到的是某一句话、某段活动记录或某段声学信号，因此不需要枚举所有可能的观测序列。真正会爆炸的是隐藏状态路径 $\boldsymbol{z}_{1:T}$。若每个位置有 $K$ 种隐藏状态，长度为 $T$ 的序列共有 $K^T$ 条候选路径，暴力枚举不可行。

HMM 的局部分解让动态规划可以安全地复用中间结果：到达时刻 $t$ 且当前状态为 $j$ 的所有历史路径，可以被压缩成一个中间量；继续向后计算时，只需考虑上一时刻状态 $i$ 到当前状态 $j$ 的转移。这样，每一步大约有 $K^2$ 个转移组合，整条序列复杂度约为 $O(TK^2)$。

先看概率评估。给定观测序列后，隐藏路径不可见，需要把所有可能隐藏路径的联合概率加起来：

\[p(\boldsymbol{x}_{1:T})=\sum_{\boldsymbol{z}_{1:T}}p(\boldsymbol{x}_{1:T},\boldsymbol{z}_{1:T})\]

这个求和就是对隐藏状态序列做边缘化（Marginalization）：从联合概率 $p(\boldsymbol{x}_{1:T},\boldsymbol{z}_{1:T})$ 中把看不见的 $\boldsymbol{z}_{1:T}$ 消掉，只留下观测序列自身的概率 $p(\boldsymbol{x}_{1:T})$。当这条概率被用于训练数据时，也称为观测序列的边缘似然（Marginal Likelihood）。

前向算法（Forward Algorithm）就是高效计算上式的动态规划方法。它从左到右逐步汇总“走到当前位置和当前状态”的所有路径概率，最后得到整条观测序列的总概率。若记初始分布为 $\pi$，转移矩阵为 $A$，发射分布为 $B$，则前向算法的核心量为：

\[\alpha_t(j)=p(x_{1:t},z_t=j)\]

$\alpha_t(j)$ 的含义是：看到前 $t$ 个观测，同时当前时刻隐藏状态恰好是第 $j$ 个状态的联合概率。更具体地说，它已经把所有“最终走到状态 $j$ 的历史隐藏路径”的概率加总进来了，因此可以把“历史观测信息”和“当前落在哪个状态”压缩成一个可递推的中间量。

初始化为：

\[\alpha_1(j)=\pi_j B_j(x_1)\]

这里 $\pi_j$ 是第一个隐藏状态就是 $j$ 的概率， $B_j(x_1)$ 是状态 $j$ 发射第一个观测 $x_1$ 的概率。之后按如下递推向右推进：

\[\alpha_t(j)=\left[\sum_i \alpha_{t-1}(i)A_{ij}\right]B_j(x_t)\]

递推式可以分成两步看：先对所有上一时刻隐藏状态 $i$ 求和，用 $A_{ij}$ 累积“从 $i$ 转到 $j$ 的可能性”；再乘上 $B_j(x_t)$，表示当前状态 $j$ 发射出观测 $x_t$ 的概率。整条观测序列的概率在最后一步把所有可能的结束状态加起来：

\[p(\boldsymbol{x}_{1:T})=\sum_j \alpha_T(j)\]

概率评估关心“所有路径加起来有多大概率”，状态解码关心“哪一条路径最可能”。维特比算法（Viterbi Algorithm）解决的是 HMM 的状态解码问题：给定观测序列 $\boldsymbol{x}_{1:T}$，找出最可能产生这条观测的隐藏状态路径 $\boldsymbol{z}_{1:T}$。它对应的目标是：

\[\arg\max_{\boldsymbol{z}_{1:T}}p(\boldsymbol{z}_{1:T}\mid \boldsymbol{x}_{1:T})\]

由于观测序列 $\boldsymbol{x}_{1:T}$ 已经固定，上式等价于寻找联合概率 $p(\boldsymbol{x}_{1:T},\boldsymbol{z}_{1:T})$ 最大的隐藏状态路径。和前向算法相比，维特比算法把“对所有路径求和”改成“在所有路径中取最大值”。它的核心量可写成：

\[\delta_t(j)=\max_{z_{1:t-1}}p(x_{1:t},z_{1:t-1},z_t=j)\]

$\delta_t(j)$ 表示：在第 $t$ 步落到隐藏状态 $j$ 的所有路径中，概率最高的那一条路径的概率。它保留的是“到达当前状态 $j$ 的最佳部分路径”，并没有直接丢弃其他当前状态；每个候选状态 $j$ 都会保留自己的最佳部分路径。因此，维特比算法属于全局路径动态规划。逐步贪心只保留一个局部最优状态，容易丢掉后续能形成更高整体概率的路径。

初始化为：

\[\delta_1(j)=\pi_j B_j(x_1)\]

对应递推为：

\[\delta_t(j)=\left[\max_i \delta_{t-1}(i)A_{ij}\right]B_j(x_t)\]

这条式子先枚举所有上一时刻隐藏状态 $i$，计算“到达 $i$ 的最佳路径概率”乘以“从 $i$ 转到 $j$ 的概率”，再从中选出最大的一个，最后乘上当前状态 $j$ 发射观测 $x_t$ 的概率。

为了最后恢复完整路径，算法还会保存 $\psi_t(j)$：

\[\psi_t(j)=\arg\max_i \delta_{t-1}(i)A_{ij}\]

$\psi_t(j)$ 表示“到达当前状态 $j$ 时，概率最高的路径来自哪一个上一时刻隐藏状态”。这个上一时刻隐藏状态也常称为最佳前驱状态（Best Predecessor State），本质上就是回溯指针（Backpointer）。当递推走到最后一个时刻后，先选出终点概率最高的状态，再沿着这些回溯指针从后往前还原整条隐藏状态路径。

训练或推断流程

训练或拟合阶段取决于隐藏状态是否有标注。若训练数据同时给出观测序列和隐藏状态序列，例如词和词性标签都已标好，HMM 参数可以直接用计数估计：初始分布来自每条序列第一个标签的频率，转移矩阵来自相邻标签对的频率，发射分布来自“标签发射观测”的频率。

若训练数据只有观测序列，隐藏状态 $\boldsymbol{z}_{1:T}$ 未知，训练目标就是最大化前面定义的边缘似然。对多条训练序列 $\{\boldsymbol{x}^{(n)}_{1:T_n}\}_{n=1}^{N}$，通常最大化对数边缘似然：

\[\mathcal{L}(\theta)=\sum_{n=1}^{N}\log p_\theta(\boldsymbol{x}^{(n)}_{1:T_n})\]

这里 $\theta$ 表示 HMM 的全部参数，包括初始分布、转移矩阵和发射分布。难点在于：每条观测序列背后可能有大量隐藏路径，模型需要估计“每个状态、每条转移大概被用了多少次”，再用这些估计值更新参数。

Baum-Welch 算法就是 HMM 上的 EM 具体实例。E 步使用前向后向算法（Forward-Backward Algorithm）计算软计数。前向量 $\alpha_t(i)$ 汇总“从开头走到时刻 $t$、并落在状态 $i$”的概率；后向量 $\beta_t(i)$ 汇总“从状态 $i$ 出发，继续生成后续观测”的概率：

\[\beta_t(i)=p(x_{t+1:T}\mid z_t=i)\]

把前向量和后向量相乘并归一化，就能得到第 $t$ 个位置处于状态 $i$ 的后验概率：

\[\gamma_t(i)=p(z_t=i\mid \boldsymbol{x}_{1:T})=\frac{\alpha_t(i)\beta_t(i)}{p(\boldsymbol{x}_{1:T})}\]

类似地，相邻两步发生转移 $i\rightarrow j$ 的后验概率可写成：

\[\xi_t(i,j)=p(z_t=i,z_{t+1}=j\mid \boldsymbol{x}_{1:T})\]

$\gamma_t(i)$ 和 $\xi_t(i,j)$ 就是“软计数”：它们按概率把计数分摊给多个可能状态和转移，而非把某个位置硬分配给唯一状态。M 步再用这些软计数更新初始分布、转移矩阵和发射分布。

先定义状态空间、观测空间、初始分布、转移概率和发射概率的参数形式。
有隐藏状态标注时，用频率计数估计初始分布、转移矩阵和发射分布。
隐藏状态未标注时，用 Baum-Welch 反复执行“前向后向求软计数”和“按软计数更新参数”。
参数确定后，用前向 / 后向算法计算序列概率或边缘状态分布，用维特比算法输出最可能状态路径。

应用实例

在词性标注中，观测是单词序列，隐藏状态是词性标签。HMM 会同时利用“某个词在某种词性下更常见”的发射规律和“词性之间如何转移”的序列规律完成整体解码。

例如，对序列“我 / 爱 / 北京 / 天安门”，模型看到的是词本身，看不到的是背后的标签序列。HMM 会比较多种候选路径，如“代词（Pronoun）→ 动词（Verb）→ 专有名词（Proper Noun）→ 专有名词（Proper Noun）”与其他不合理组合的概率。由于“我”更容易由代词状态发射，“爱”更容易由动词状态发射，而“代词后接动词、动词后接名词性成分”又符合常见转移规律，这条标签路径就会获得更高概率。这个过程可以理解为：模型一边根据词本身猜标签，一边检查整条词性路径是否顺畅。

优缺点与适用场景

优点：序列结构清晰，动态规划推断高效，可解释性强。
局限：一阶马尔可夫假设较强，表达能力有限。
适用场景：基础序列标注、时间状态切换建模、中小规模序列任务。

最大熵模型（MaxEnt）与 MEMM

背景和问题定义

最大熵模型（Maximum Entropy Model, MaxEnt）处理的是：在已知若干特征约束的前提下，如何选择一个既满足这些约束、又不过度引入额外假设的条件概率模型。它在经典 NLP 中极其重要，因为很多任务的关键证据核心是来自大量离散、稀疏、可人工设计的特征，例如当前词、前后词、词形、词性、是否出现在词典中等。

若只看单个位置分类，MaxEnt 的数学形式与多项逻辑回归（Multinomial Logistic Regression）本质一致：它直接建模 $p(y\mid x)$。当它被串到序列建模里时，最典型的扩展是最大熵马尔可夫模型（Maximum Entropy Markov Model, MEMM）：当前位置标签的条件概率不仅依赖输入特征，也依赖前一个标签，因此可用于序列标注。

核心思想

“最大熵”这个名字的含义是：在所有满足已知统计约束的分布中，选择熵（Entropy）最大的那一个，也就是额外承诺最少、最不武断的那一个。放到工程上，它导向的是指数族（Exponential Family）形式的条件模型：把各类特征函数加权求和，再通过归一化得到概率。

因此，MaxEnt 可以理解为特征驱动的判别式概率模型。它直接回答“在这些特征都成立时，这个标签有多大概率”。这使它特别适合传统 NLP 中大量规则化、稀疏化、模板化的人工特征。

算法公式和详细解释

多分类最大熵模型通常写成：

\[p(y\mid x)=\frac{\exp\left(\sum_k \lambda_k f_k(x,y)\right)}{\sum_{y'}\exp\left(\sum_k \lambda_k f_k(x,y')\right)}\]

这里 $f_k(x,y)$ 是第 $k$ 个特征函数，衡量“输入 $x$ 与标签 $y$ 是否满足某种模式”； $\lambda_k$ 是对应权重。分子给出某个候选标签的未归一化分数，分母把所有标签的分数加总后做归一化，因此输出是一个真正的条件概率分布。

若进一步用于序列，第 $t$ 个位置的 MEMM 局部条件分布可写成：

\[p(y_t\mid y_{t-1},x,t)=\frac{\exp\left(\sum_k \lambda_k f_k(y_{t-1},y_t,x,t)\right)}{\sum_{y'}\exp\left(\sum_k \lambda_k f_k(y_{t-1},y',x,t)\right)}\]

这条式子说明：在 MEMM 里，当前位置标签 $y_t$ 的概率是对“给定上一标签和当前输入特征”的局部 softmax。它保留了丰富特征表达能力，但归一化只在当前状态的出边上进行，这正是后文 CRF 要解决的标签偏置（Label Bias）来源。

训练或推断流程

设计特征函数，把当前位置、局部上下文和标签关系编码成离散特征。
通过最大条件对数似然训练权重 $\lambda_k$，通常配合 $L_2$ 正则化。
若是独立分类任务，直接取条件概率最大的标签。
若是 MEMM 这类链式模型，则结合维特比或束搜索在局部概率之上做整条序列解码。

应用实例

在传统命名实体识别中，可以为当前位置构造特征：当前词是否首字母大写、前一个词是否是头衔、后一个词是否是公司后缀、前一个标签是否已经是 $B\text{-}ORG$。MaxEnt 或 MEMM 会把这些证据线性加权，再输出当前位置属于组织名、人名或其他类别的条件概率。

优缺点与适用场景

优点：判别式训练、可直接接入丰富特征、概率输出直观。
局限：若做链式局部归一化，容易出现标签偏置；强依赖特征工程。
适用场景：传统 NLP 局部分类、特征模板丰富的序列标注过渡方案、理解 CRF 之前的判别式建模主线。

条件随机场（CRF）

背景和问题定义

条件随机场（Conditional Random Field, CRF）主要用于结构化预测（Structured Prediction），尤其是序列标注。它处理的问题是：在给定输入序列 $\boldsymbol{x}$ 的条件下，如何联合预测输出标签序列 $\boldsymbol{y}$，并显式建模标签之间的依赖关系。

CRF 可以看作对 HMM 的进一步发展：它把问题从生成式建模（Generative Modeling）转向判别式建模（Discriminative Modeling）。这里的“生成式”指 HMM 这类模型会描述隐藏标签如何转移、每个标签如何发射观测 token，也就是建模 $p(\boldsymbol{x},\boldsymbol{y})$ 或 $p(\boldsymbol{x}\mid\boldsymbol{y})p(\boldsymbol{y})$；“判别式”指 CRF 直接在给定输入 $\boldsymbol{x}$ 的条件下比较不同标签序列 $\boldsymbol{y}$ 的合理性，建模 $p(\boldsymbol{y}\mid\boldsymbol{x})$。

这里的全局特征（Global Feature）指的是：特征不再只服务于单个位置的局部分类，而会参与整条候选标签路径的总分。例如在天气和活动的比喻里，HMM 通常把“某天活动由当天隐藏天气发射出来”作为局部关系；CRF 则可以给“连续三天都出现游泳，因此连续晴天这条天气路径更合理”这样的整段模式加分。这个特征虽然仍可在每个位置上累积计算，但它影响的是整条天气序列的总评分。

更灵活的上下文依赖指的是：CRF 的特征函数可以直接查看给定输入序列 $\boldsymbol{x}$ 的多个位置，而不必被 HMM 的“当前观测只依赖当前隐藏状态”限制住。仍用天气例子，判断第 $t$ 天是否下雨时，模型可以同时利用当天活动、前一天活动、后一天活动、是否连续多天出现同类活动、相邻天气标签是否自然等证据。放到 NLP 里，这对应“当前词、前后词、词形、词典命中、相邻标签组合”等特征共同影响整条标签路径。通过这些设计，CRF 缓解了 HMM 仅依赖局部独立假设所带来的信息不足。在深度学习广泛进入 NLP 之前，CRF 长期是各类标注任务中的核心方法。

核心思想

CRF 的核心是在给定观测序列的条件下，对整条标签序列进行全局评分，而非显式描述数据生成过程。仍以天气和活动的比喻来理解：已知一整周的活动记录后，CRF 会把各种可能的天气序列都拿来比较，判断哪一种与这组活动整体最一致。它建模的是条件分布 $p(\boldsymbol{y}|\boldsymbol{x})$，而非 HMM 那样的联合分布 $p(\boldsymbol{x},\boldsymbol{y})$。

这种“全局把控”体现在两个层面。第一，CRF 的打分对象是完整的标签路径，而非每个位置互相独立的局部决策；第二，打分依据可以是灵活定义的特征函数（Feature Function）。例如，若连续三天都出现“游泳”，对应“连续晴天”的标签组合就应得到更高分；若一周中出现“滑雪”这类活动，与“夏天”一致的天气标签组合就应被显著压低。特征函数可以同时利用当前位置、前后邻域以及相邻标签之间的组合关系。

因此，CRF 可以视为一个面向整条序列的打分系统：输入固定，模型比较不同标签序列的相对合理性，并选择得分最高的一条。它的优势是能够充分利用复杂上下文和标签依赖，在序列标注任务中通常比 HMM 更准确；代价是训练和推断都更重，需要计算整条序列上的归一化与动态规划。

算法公式和详细解释

线性链 CRF 的条件分布通常写为：

\[p(\boldsymbol{y}|\boldsymbol{x})=\frac{1}{Z(\boldsymbol{x})}\exp\left(\sum_{t=1}^{T}\sum_k \lambda_k f_k(y_{t-1},y_t,\boldsymbol{x},t)\right)\]

这个式子最好分三层看。先看最里面的 $\sum_{t=1}^{T}\sum_k \lambda_k f_k(y_{t-1},y_t,\boldsymbol{x},t)$：它表示对整条标签序列逐位置累积特征得分。再看外面的指数 $\exp(\cdot)$：它把“总得分”变成一个始终为正的数，而且总得分越大，这个数就越大。最后再除以 $Z(\boldsymbol{x})$，把这些正数正规化成概率。因此，CRF 的计算顺序可以理解为：先打分，再变成正权重，最后归一化成概率。

为了看清楚 $Z(\boldsymbol{x})$ 在做什么，可以先临时把分子记成一个“未归一化分数”：

\[\tilde{p}(\boldsymbol{y}|\boldsymbol{x})=\exp\left(\sum_{t=1}^{T}\sum_k \lambda_k f_k(y_{t-1},y_t,\boldsymbol{x},t)\right)\]

这里特意加波浪号，是为了强调它还并非概率。原因很简单：把所有可能标签序列的 $\tilde{p}(\boldsymbol{y}|\boldsymbol{x})$ 加起来，结果一般不会恰好等于 1。它只是每条路径的相对权重，表达“这条标签路径有多合理”。

这时配分函数（Partition Function）就出现了：

\[Z(\boldsymbol{x})=\sum_{\boldsymbol{y}} \exp\left(\sum_{t=1}^{T}\sum_k \lambda_k f_k(y_{t-1},y_t,\boldsymbol{x},t)\right)\]

之所以你会觉得它“和上面那个公式一样”，是因为它确实就是把上式分子对所有可能的标签序列整体求和。上面的 $p(\boldsymbol{y}|\boldsymbol{x})$ 针对的是某一条固定标签序列 $\boldsymbol{y}$；而这里的 $Z(\boldsymbol{x})$ 核心是把所有可能路径都算一遍，再全部加起来。所以它核心是“分子在全标签空间上的总和”。

于是条件概率就变成：

\[p(\boldsymbol{y}|\boldsymbol{x})=\frac{\tilde{p}(\boldsymbol{y}|\boldsymbol{x})}{Z(\boldsymbol{x})}\]

现在这个式子就容易理解了：某条路径的概率，等于“这条路径自己的权重”除以“所有路径权重的总和”。这和 softmax 的归一化逻辑完全一致，只不过 softmax 是在有限个类别上归一化，而 CRF 是在所有可能的标签序列上归一化。

配分函数这个名字来自统计物理，但在这里不需要物理背景也能理解：它本质上就是一个归一化常数。没有它，模型只能说“路径 A 比路径 B 更合理”；有了它，模型才能进一步说“路径 A 的概率是多少”。也正因为 $Z(\boldsymbol{x})$ 需要把所有可能标签路径都考虑进去，CRF 训练时才必须借助动态规划，而不能暴力枚举。

$f_k(y_{t-1},y_t,\boldsymbol{x},t)$：第 $k$ 个特征函数，描述当前位置、相邻标签和输入之间的某种局部模式。
$\lambda_k$：该特征的权重；越大表示模型越重视这个模式。
$\boldsymbol{x}$：固定输入序列；在讨论 $Z(\boldsymbol{x})$ 时，它不变。
$\boldsymbol{y}$：某一条候选标签序列；计算 $Z(\boldsymbol{x})$ 时要对所有可能的 $\boldsymbol{y}$ 求和。
$\sum_{t=1}^{T}\sum_k \lambda_k f_k(\cdot)$：整条标签序列的总得分。
$\exp(\cdot)$：把总得分映射成正权重，并放大高分路径与低分路径之间的差异。
$Z(\boldsymbol{x})$：所有候选标签路径未归一化权重的总和，用于把相对权重变成概率。

训练时最大化条件对数似然，解码时用维特比算法寻找最优标签序列。

训练或推断流程

定义特征函数，描述输入与标签、标签与标签之间的关系。
用前向后向算法计算配分函数与梯度。
通过梯度法优化参数 $\lambda_k$。
推断时用维特比算法输出最优标签序列。

应用实例

在命名实体识别（NER）中，局部分类器可能会把某个词单独判成人名，但 CRF 会进一步考虑相邻标签是否合法，从而减少孤立的局部误判。这里“是否合法”指的核心是标签序列是否符合该任务定义下允许出现的邻接模式。例如，在常见的 BIO 标注体系中， $B$ 表示 Begin，即实体开始； $I$ 表示 Inside，即实体内部； $O$ 表示 Outside，即不属于任何实体。也有一些任务使用 BIOES 标注体系，其中 $E$ 表示 End， $S$ 表示 Single。与 BIO 相比，BIOES 会把实体结束位置和单字实体显式标出来，因此边界信息更细。于是，标签 $B\text{-}PER$ 表示一个人名实体的开始， $I\text{-}PER$ 表示该人名实体的内部， $O$ 表示不属于任何实体。于是， $B\text{-}PER\rightarrow I\text{-}PER$ 是常见且合法的相邻转移， $O\rightarrow B\text{-}PER$ 也合法；但 $O\rightarrow I\text{-}PER$ 通常不合法，因为一个实体内部标签不能无缘无故直接开始，前面必须先有对应的开始标签。同样， $B\text{-}LOC\rightarrow I\text{-}PER$ 这类“实体类型突然不一致”的连接也通常应被压低分数。

例如，在句子“张三在北京工作”中，若任务要识别人名（PER）和地点（LOC），一个合理的 BIO 标注序列可能是“张三 / 在 / 北京 / 工作”对应 $B\text{-}PER, O, B\text{-}LOC, O$。这里首先需要区分两件事：某个位置更像哪一种实体类型，以及这些局部判断连起来是否构成一条合理的标签序列。前者主要来自输入本身提供的证据，例如“张三”在词形上很像中文人名，“北京”本身强烈像地点名词，而“在北京工作”这种上下文也会继续加强“北京是地点”的判断。传统 CRF 会把这些信息写成特征函数，例如“当前词是否常见于人名词表”“当前词是否带有地名后缀”“左邻词是否是介词‘在’”“右邻词是否是动作词‘工作’”等；每个特征都会给某个候选标签加分或减分。

CRF 的作用是在这些局部类型证据之上，再做一次全局一致性的联合解码。换言之，实体类型 A 还是 B，并非和 CRF 完全无关；但也并非由 CRF 凭空决定的。更准确地说，实体类型的语义判断主要来自输入特征，CRF 负责把这些局部判断放到整条序列里统一协调。例如，如果“北京”这个位置单看局部证据时，对 LOC 的分数高于 PER，那么 CRF 会倾向保留“地点”这一判断；但它还会进一步检查，当前位置前后的标签连接是否自然。如果某条候选路径把“张三”切成 $B\text{-}PER, O$，或者把“北京”接成 $B\text{-}PER\rightarrow I\text{-}LOC$，即使某个局部位置的分数不低，整条路径仍会因为边界断裂或类型转移不一致而被整体压低。于是 CRF 做的核心是“局部类型打分 + 全局路径约束”的联合决策。

从工程实现上看，这个分工在不同年代的模型里表现形式不同。在传统 CRF 中，“局部类型打分”通常来自人工设计的特征模板，例如当前词、前后词、词性、字形、是否出现在人名词典或地名词典中；CRF 再把这些手工特征组合成整条序列的全局分数。在 BiLSTM-CRF 或 BERT-CRF 这类现代模型中，局部证据从主要依赖手工模板转向先由 BiLSTM 或 BERT 生成上下文化表示（Contextual Representation），再由线性层给出每个位置对各标签的局部分数，最后仍由 CRF 层负责建模标签转移和整条路径解码。也就是说，上游编码器主要回答“这个位置像什么类型”，CRF 层主要回答“这些位置判断拼在一起是否构成一条最合理的标签序列”。

类似的全局打分思想也可以推广到依存句法分析（Dependency Parsing, DEP）这类结构化任务。句子中的每个词都需要找到自己的中心词（head），模型的目标核心是评估整棵依存树是否合理。例如，在“她喜欢自然语言处理”中，“喜欢”通常更可能作为中心谓词，“她”依附到“喜欢”形成主谓关系，“自然语言处理”整体依附到“喜欢”形成宾语关系。若某个局部决策把“她”错误地连到“自然语言处理”，单看两个词的局部相似度未必很低，但放到整棵树的全局结构中就会显得不协调。CRF 的价值正体现在这里：它通过全局归一化和结构约束，偏好整体验证一致的输出结构，而非一组彼此冲突的局部最优决策。

优缺点与适用场景

优点：适合结构化输出，能显式编码标签依赖。
局限：训练与推断成本高于普通独立分类器。
适用场景：序列标注、分词、命名实体识别等条件结构化预测任务。

结构化感知机（Structured Perceptron）

背景和问题定义

结构化感知机（Structured Perceptron）处理的是：输出本身核心是整条序列、整棵树或其他组合结构时，如何直接根据“预测结构与真实结构的差异”更新参数。它可以看作普通感知机从单点分类推广到结构化输出空间后的版本。

它在自然语言处理中长期用于序列标注、分词、依存句法分析等任务，因为这些问题都具有一个共同特征：模型必须在巨大的候选结构空间里找一个最优结构，而非只在几个类别之间做选择。

核心思想

结构化感知机不要求输出概率分布，重点是直接定义一个结构打分函数 $s(x,y)$，然后让真实结构的分数高于错误结构。若当前样本 $x$ 上预测出的结构 $\hat y$ 与真实结构 $y$ 不同，就把参数朝“提高真实结构分数、降低错误结构分数”的方向更新。

这种做法的优点是训练目标与推断目标贴得很近。模型训练时关心的核心是“最终解码出来的结构对不对”。因此它属于典型的错误驱动（Mistake-driven）结构化学习方法。

算法公式和详细解释

若结构打分函数写成线性形式：

\[s(x,y)=\mathbf{w}^\top \Phi(x,y)\]

其中 $\Phi(x,y)$ 是输入与候选结构联合产生的特征向量，预测时做：

\[\hat y=\arg\max_{y'\in\mathcal{Y}(x)} \mathbf{w}^\top \Phi(x,y')\]

若 $\hat y\ne y$，则一次典型更新为：

\[\mathbf{w}\leftarrow \mathbf{w}+\Phi(x,y)-\Phi(x,\hat y)\]

这个更新式非常直白：真实结构出现过但预测结构没有出现的特征，会把参数往正方向推；错误结构特有的特征，则会被压低。随着训练进行，模型会逐渐提高正确结构在解码时被选中的概率，尽管它本身并不显式输出概率。

训练或推断流程

定义联合特征 $\Phi(x,y)$ 与结构解码器。
对每个样本解码出当前最优预测结构 $\hat y$。
若预测错误，则按真实结构与预测结构的特征差做更新。
重复多轮，并常配合参数平均（Averaged Perceptron）提升泛化稳定性。

应用实例

在中文分词里，模型可以把一句话的切分结果看作一个结构。若当前参数把“自然语言处理”切成了错误边界，而真实答案是“自然语言处理”，结构化感知机会直接比较这两个切分结构的特征差，把支持真实切分的特征加权抬高，把支持错误切分的特征压低。

优缺点与适用场景

优点：训练简单、更新高效、目标与最终解码结构高度一致。
局限：缺少概率语义，对噪声和解码误差较敏感，训练稳定性通常不如全概率模型。
适用场景：传统分词、句法分析、序列标注等可解码结构任务，或作为理解结构化大间隔学习的入门方法。

近邻模型

这一类方法处理的核心问题是：在缺少可靠全局函数形式时，是否可以直接依赖“局部相似样本通常有相似输出”这一假设完成预测。近邻模型把相似性度量（Similarity Metric）本身作为建模中心，不急于学习显式参数化函数：先找邻居，再由邻居投票、平均或加权得到结果。

K 近邻（KNN）

背景和问题定义

K 近邻（K-Nearest Neighbors, KNN）用于分类与回归。给定一个待预测样本 $\boldsymbol{x}$，它要根据训练集中与其最相似的样本来决定输出。

核心思想

KNN 的基本假设是局部平滑性（Local Smoothness）：在特征空间中彼此接近的样本，往往具有相近的标签或数值。它不显式学习参数化模型，训练集本身就是局部比较的参照集。

算法公式和详细解释

给定距离函数 $d(\boldsymbol{x},\boldsymbol{x}')$ 与邻居数 $K$，若 $N_K(\boldsymbol{x})$ 表示 $\boldsymbol{x}$ 的 $K$ 个最近邻，则分类时可写为：

\[\hat y=\mathrm{mode}\left(\{y_i:(\boldsymbol{x}_i,y_i)\in N_K(\boldsymbol{x})\}\right)\]

这里 $N_K(\boldsymbol{x})$ 是样本 $\boldsymbol{x}$ 的 $K$ 个最近邻集合，花括号中收集的是这些邻居的标签， $\mathrm{mode}(\cdot)$ 则返回出现次数最多的类别。也就是说，KNN 分类本质上就是“看最近的邻居们大多数是谁”。

回归时常取邻居标签平均：

\[\hat y=\frac{1}{K}\sum_{(\boldsymbol{x}_i,y_i)\in N_K(\boldsymbol{x})}y_i\]

回归版 KNN 只是把“多数投票”换成“数值平均”。 $\frac{1}{K}\sum$ 表示把最近 $K$ 个邻居的输出做均值，因此预测值会受到局部邻域中所有数值样本的共同影响。

若距离使用欧氏距离，则默认所有特征尺度可比，因此标准化（Standardization）通常是必要前处理。

训练或推断流程

训练阶段几乎不做参数学习，只保存全部训练样本。
推断时计算待测样本到训练样本的距离。
选出最近的 $K$ 个样本。
分类取多数投票，回归取平均或距离加权平均。

应用实例

在简单的手写数字识别中，如果一张新图片与训练集中大量“3”的图像都很接近，而与“8”的图像明显更远，那么 KNN 会依据局部邻域投票把它判为 3。

优缺点与适用场景

优点：概念简单、无需复杂训练、局部非线性表达能力强。
局限：推断成本高；对特征尺度和无关特征敏感；维度灾难会削弱距离判别力。
适用场景：中小规模数据、快速基线、基于相似度的简单分类与回归。

聚类

聚类处理的核心问题是：在没有标签的前提下，如何仅根据样本之间的几何关系、密度结构或层次关系，把数据自动分成若干组。这里不存在唯一正确的“簇”定义：K-Means 假设簇围绕中心分布，层次聚类强调多粒度组织结构，DBSCAN / HDBSCAN 则把簇理解为高密度连通区域。因此，聚类算法的选择本质上是在选择“什么样的结构应被视为同一类”。

K-Means

背景和问题定义

K-Means 处理的是无监督聚类问题：给定一组没有标签的样本，希望把它们分成 $K$ 个簇，使同一簇内样本尽量接近，不同簇之间尽量分开。

核心思想

K-Means 用“每个簇由一个中心点代表”的方式近似数据分布。算法不断重复两件事：把样本分配给最近的中心；再用簇内样本均值更新中心。它本质上是在最小化簇内平方误差。

算法公式和详细解释

目标函数为：

\[\min_{\{c_k\},\{z_i\}} \sum_{i=1}^{N} \|\boldsymbol{x}_i-c_{z_i}\|_2^2\]

这个目标里， $c_k$ 是第 $k$ 个簇中心， $z_i$ 表示样本 $i$ 被分到哪个簇， $\|\boldsymbol{x}_i-c_{z_i}\|_2^2$ 是样本到所属簇中心的平方距离。K-Means 想做的，就是让所有样本离各自中心都尽可能近。

其中 $c_k$ 是第 $k$ 个簇中心， $z_i\in\{1,\dots,K\}$ 表示样本 $\boldsymbol{x}_i$ 属于哪个簇。固定簇分配时，最优中心是该簇样本均值：

\[c_k=\frac{1}{|S_k|}\sum_{\boldsymbol{x}_i\in S_k} \boldsymbol{x}_i\]

这里 $S_k$ 是第 $k$ 个簇里所有样本的集合， $|S_k|$ 是该簇样本数。这个更新式说明簇中心就是簇内样本的算术平均，因此 K-Means 的“中心”确实是均值意义上的代表点。

训练或推断流程

初始化 $K$ 个簇中心。
分配步骤：把每个样本分到最近中心。
更新步骤：用各簇样本均值更新中心。
重复迭代直到簇分配稳定或目标下降很小。

应用实例

在用户分群中，若特征是消费频次与客单价，K-Means 往往会自动形成“高频低客单”“低频高客单”“中频中客单”等若干均值中心明确的群体。

优缺点与适用场景

优点：实现简单、可扩展、训练速度快。
局限：需要预先指定 $K$；对初始化与离群点敏感；不适合非凸簇。
适用场景：簇近似球形、需要快速聚类或作为预处理的任务。

层次聚类

背景和问题定义

层次聚类（Hierarchical Clustering）输出的是一个由粗到细的聚类层次结构，因此簇数可以在观察树状图后再决定。它适合需要观察“簇是如何逐步合并或拆分”的任务。

核心思想

凝聚式层次聚类（Agglomerative Clustering）从每个样本单独成簇开始，每一步合并当前最相近的两个簇；分裂式层次聚类则从一个大簇开始不断拆分。实践中更常见的是凝聚式版本。

算法公式和详细解释

关键在于定义簇间距离。常见联接准则（Linkage Criteria）包括：

\[d_{\text{single}}(A,B)=\min_{\boldsymbol{x}\in A,\boldsymbol{y}\in B} d(\boldsymbol{x},\boldsymbol{y})\]

单链距离只看两簇之间最近的那一对点，因此它很容易把“靠得最近的局部桥梁”连起来，适合发现链式结构，但也更容易被噪声点串联。

\[d_{\text{complete}}(A,B)=\max_{\boldsymbol{x}\in A,\boldsymbol{y}\in B} d(\boldsymbol{x},\boldsymbol{y})\]

完全链距离只看两簇之间最远的那一对点，因此它会避免把跨度过大的簇合并到一起，更偏好紧凑、直径较小的簇。

\[d_{\text{average}}(A,B)=\frac{1}{|A||B|}\sum_{\boldsymbol{x}\in A,\boldsymbol{y}\in B} d(\boldsymbol{x},\boldsymbol{y})\]

平均链则对两簇之间所有点对的距离取平均。这里 $|A||B|$ 是点对总数，因此它不仅看最近点或最远点，还综合考虑两簇整体的平均接近程度。

不同联接方式对应不同簇形偏好：单链更容易形成链式簇，完全链更偏向紧凑簇，平均链则居中。

训练或推断流程

初始化每个样本为单独一个簇。
计算簇间距离矩阵。
反复合并距离最近的两个簇，并更新距离矩阵。
得到树状图（Dendrogram）后，在某个高度切开即可获得聚类结果。

应用实例

在文档聚类中，层次聚类不仅能区分“体育”“财经”“科技”等大类，还能进一步展示每一大类内部的细粒度层级关系。

优缺点与适用场景

优点：无需预先指定簇数；可以输出多层次聚类结构。
局限：计算与存储成本较高；早期合并错误通常无法回退。
适用场景：中小规模数据、需要树状关系解释的聚类分析。

DBSCAN

背景和问题定义

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）用于识别任意形状的高密度簇，并显式发现噪声点。它尤其适合处理非球形簇与含离群点数据。

核心思想

DBSCAN 通过局部密度定义簇。若一个点周围半径 $\epsilon$ 内有足够多的邻居，则它是核心点（Core Point）；核心点可以把周围密度可达（Density-Reachable）的样本不断扩展成一个簇。既不够密、又不属于任何核心点邻域的样本被视为噪声。

算法公式和详细解释

记 $N_{\epsilon}(\boldsymbol{x})$ 为点 $\boldsymbol{x}$ 的 $\epsilon$ 邻域。若：

\[|N_{\epsilon}(\boldsymbol{x})|\ge \text{minPts}\]

判断核心点只需看两件事： $N_{\epsilon}(\boldsymbol{x})$ 是点 $\boldsymbol{x}$ 在半径 $\epsilon$ 内的邻域集合， $|N_{\epsilon}(\boldsymbol{x})|$ 是邻域里有多少点。只要这个数量不小于 $\text{minPts}$，就说明该点周围密度足够高，可以作为簇扩张的核心。

则 $\boldsymbol{x}$ 是核心点。若某点落在某个核心点邻域中但自身并非核心点，则为边界点（Border Point）；不属于任何簇的点为噪声（Noise）。

训练或推断流程

遍历未访问样本，计算其 $\epsilon$ 邻域。
若邻居数少于 $\text{minPts}$，则暂记为噪声或边界候选。
若为核心点，则以它为起点递归扩展所有密度可达的点。
重复直到所有样本都被标记。

应用实例

在地理位置聚类中，餐馆、商圈、交通枢纽附近的点位通常形成形状复杂的密集区域。DBSCAN 可以识别这些非凸热点，同时把零散孤立点保留为噪声。

优缺点与适用场景

优点：无需预设簇数；可识别任意形状簇；对离群点鲁棒。
局限：对 $\epsilon$ 和 $\text{minPts}$ 敏感；难以同时适配不同密度簇。
适用场景：空间聚类、热点区域发现、非凸簇与带噪声数据。

HDBSCAN

背景和问题定义

HDBSCAN（Hierarchical DBSCAN）用于缓解 DBSCAN 的单一密度阈值问题。它面对的核心困难是：真实数据中的簇密度常常并不一致，用一组固定的 $\epsilon$ 和 $\text{minPts}$ 很难同时兼顾所有簇。

核心思想

HDBSCAN 会在多个密度尺度上构建层次结构，再从中选出稳定簇（Stable Clusters）作为结果。这让它比 DBSCAN 更适合处理密度差异显著的数据。

算法公式和详细解释

给定参数 $k$，先定义核心距离（Core Distance）为点到其第 $k$ 近邻的距离，再定义互可达距离（Mutual Reachability Distance）：

\[d_{\text{mreach},k}(\boldsymbol{x},\boldsymbol{y})=\max\big(\text{core}_k(\boldsymbol{x}),\text{core}_k(\boldsymbol{y}),d(\boldsymbol{x},\boldsymbol{y})\big)\]

互可达距离把三个量取最大值：点 $\boldsymbol{x}$ 的核心距离、点 $\boldsymbol{y}$ 的核心距离，以及它们之间的原始距离。这样做的效果是：低密度区域的点会被“拉远”，从而更清楚地暴露不同密度簇之间的结构边界。

随后算法在互可达图上构建最小生成树（Minimum Spanning Tree），再转成聚类层次，并依据簇稳定性选择最终输出。

训练或推断流程

计算所有点的核心距离。
基于互可达距离构造图并求最小生成树。
从图中得到随密度变化的层次聚类结构。
在压缩树（Condensed Tree）上选择稳定簇作为结果。

应用实例

在用户行为嵌入空间中，有些兴趣群体很紧密，有些较松散。HDBSCAN 可以同时保留这两类簇，而不需要强行用同一个密度阈值描述它们。

优缺点与适用场景

优点：对多密度簇更稳健，仍保留噪声识别能力。
局限：实现更复杂，计算与内存开销通常高于 DBSCAN。
适用场景：嵌入聚类、用户分群、不同密度簇共存的数据。

基于图的聚类与 Leiden

背景和问题定义

Leiden 适合这样一类聚类问题：样本之间的关系，与其说是“在欧氏空间里围着某个中心聚成一团”，不如说是“先形成一张相似关系图，再在图上出现若干连接更紧密的社区（Community）”。因此，Leiden 的标准语境核心是先得到图 $G=(V,E)$，再把图上的节点划分成若干社区。

这类方法本质上属于基于图的聚类（Graph-based Clustering）或社区发现（Community Detection）。社交网络里的“朋友圈”、引文网络里的“研究主题群”、单细胞分析中的细胞群、句向量或图像嵌入上的 kNN 图分群，都属于这一类任务。与 K-Means 假设“簇围绕均值中心分布”不同，Leiden 假设“簇对应图上内部连边更密、外部连边更稀的社区结构”。

从方法谱系上看，图聚类至少有三条常见路线。第一条是谱聚类（Spectral Clustering），通过图拉普拉斯矩阵的特征向量把节点映射到一个新空间，再做传统聚类；第二条是社区质量优化路线，通过优化 modularity 或 CPM 之类的目标函数直接切分图，Louvain 和 Leiden 就属于这一路线；第三条是图神经网络后的下游分群，即先学图表示，再在表示或近邻图上用 Leiden、K-Means 等算法做分群。Leiden 因此核心是一个更基础的图聚类算法。

核心思想

Leiden 的核心思想可以压缩成一句话：不要直接看点到中心的距离，而要看节点在图中是否形成内部紧密、外部稀疏、并且社区内部真正连通的结构。它通常从一个已有分区出发，不断尝试把节点移动到更合适的社区，使社区质量目标持续上升。

如果只停在这里，Leiden 和 Louvain 看起来会很像。两者确实都属于“局部移动 + 社区聚合”的贪心优化路线，但 Leiden 多做了一步关键的refinement（细化）：它会在局部改进之后进一步检查社区内部是否真的连得足够好，避免出现“从目标函数上看像一个社区，但内部其实由几个弱连接甚至不连通子块拼出来”的结果。这正是 Leiden 相比 Louvain 最重要的改进。

目标函数和详细解释

Leiden 常优化的目标包括 modularity（模块度）和 CPM（Constant Potts Model）。为了把原理讲清楚，先用最常见的 modularity 写法说明。设图的加权邻接矩阵为 $A_{ij}$，节点 $i$ 的度为 $k_i=\sum_j A_{ij}$，图的总边权满足 $2m=\sum_i k_i=\sum_{i,j}A_{ij}$。若 $c_i$ 表示节点 $i$ 所在社区，则模块度可写为：

\[Q=\frac{1}{2m}\sum_{i,j}\left(A_{ij}-\gamma\frac{k_i k_j}{2m}\right)\mathbf{1}[c_i=c_j]\]

这个式子里， $A_{ij}$ 是节点 $i$ 和 $j$ 之间真实存在的边权； $\frac{k_i k_j}{2m}$ 是一个随机零模型（Null Model）下“如果只保留节点度大小，随机连边时它们本应有多大连接强度”； $\mathbf{1}[c_i=c_j]$ 是指示函数，表示只有当两个节点被分进同一社区时，这一对节点才会对目标函数产生贡献； $\gamma$ 是分辨率参数（Resolution Parameter），控制社区切得更粗还是更细。

因此，模块度优化本质上在回答这样一个问题：如果把一组节点放进同一个社区，那么它们之间的真实连接强度，是否显著高于“只是因为这些节点度数大，所以随机也容易连上”的基线。若答案是肯定的，把它们归到同一社区就能提高 $Q$；若答案是否定的，说明这种合并只是表面热闹，并不能带来真正的社区结构收益。

因此，Leiden 适合处理 kNN 图、相似度图和社交图。它衡量的核心是“哪些节点在统计意义上比随机期望更紧密地相互连在一起”。如果社区内部真实连边明显超出基线，目标函数就会上升；反之，跨社区连边过多或社区内部稀薄，目标函数就会下降。

在一些场景里，人们更偏好 CPM，因为 modularity 存在分辨率限制（Resolution Limit）：小社区可能在大图里被吞掉。CPM 的思想是直接给同社区节点对设置固定惩罚阈值，以更直接地控制社区粒度。实践里，Leiden 常允许在 modularity 和 CPM 之间切换，但二者共享同一个高层逻辑：把图划分成若干“内部连接收益高、外部混杂成本低”的社区。

类比理解

可以把 Leiden 想成“给城市划街区”。如果只按地图上的直线距离切分，很可能会把一条大河两岸、一个高架桥两侧、或被工业区隔开的居民区误划到一起，因为它们几何上靠得近。但如果先把城市道路、步行通路、地铁换乘、商业往来都画成图，再看哪些区域内部来往频繁、对外联系相对稀少，划出来的“街区”就更接近真实城市结构。

图聚类处理高维嵌入时也是同样道理。点在原空间中也许并不围绕单一中心分布，但只要它们在近邻图中高度互联，就仍然可能属于同一个社区。Leiden 做的正是这件事：它核心是在问“谁和谁构成了一个内部往来密切、外部联系较弱的关系团块”。

算法流程

先构图。若输入本身就是图，可直接使用；若输入是向量样本，通常先基于欧氏距离、余弦相似度或共享近邻构造 kNN 图，并给边赋相似权重。
初始化分区。最常见的起点是每个节点各自形成一个单独社区。
局部移动（Local Moving）。依次尝试把一个节点移动到邻居社区，只要目标函数 $Q$ 能提升，就接受该移动。
细化（Refinement）。对当前社区内部再做检查和重组，避免把内部连接脆弱、甚至不连通的部分勉强保留在同一社区中。
聚合（Aggregation）。把当前每个社区收缩成一个超节点（Supernode），构成更粗粒度的新图。
重复以上过程，直到目标函数不再显著提升，社区结构稳定为止。

这套流程里最重要的核心是“局部改进之后要进一步验证社区内部是否真的足够连通”。Louvain 的问题恰好出在这一步缺失：它可以得到目标函数不错、但内部连通性并不理想的社区。Leiden 则通过 refinement 把这个结构性缺陷补上。

为什么它通常比 Louvain 更可靠

Louvain 的经典优点是快，但它有一个著名弱点：社区优化过程只关心目标函数是否上升，不额外保证社区内部强连通或良好连通。因此，一个社区可能只是因为若干桥接边被贪心合并到一起，结果内部出现细长链条、弱耦合子块，甚至在某些定义下并不连通。

Leiden 通过 refinement 改变了这一点。它不满足于“这个合并在目标函数上看起来有利”，而要求社区内部结构也达到更合理的连通性。于是，在很多真实图上，Leiden 会比 Louvain 给出更稳定、更细致、也更符合局部结构直觉的划分。因此，在单细胞分析、图嵌入分群和网络社区发现里，Leiden 已经大幅替代 Louvain 成为默认选择。

应用实例

在单细胞 RNA 测序中，常见流程是先把细胞表达矩阵降维到 PCA 或潜在嵌入空间，再构造 kNN 图，最后用 Leiden 分群。这里簇的含义是“在细胞近邻图中形成内部高度互联的一群细胞”。这正符合细胞状态连续变化、局部流形结构明显的特点。

在文本或图像嵌入聚类中，也经常先用编码模型得到向量，再构造近邻图，然后用 Leiden 做社区发现。与直接在嵌入空间上跑 K-Means 相比，这条路线往往更能保留局部语义结构，尤其适合簇形复杂、边界弯曲、局部连通性比全局中心更重要的场景。

优缺点与适用场景

优点：能直接利用图结构；适合非球形、非凸簇；通常比 Louvain 更稳定，社区内部结构也更合理。
局限：结果依赖构图质量；分辨率参数和近邻图参数会显著影响簇粒度；不如 K-Means 那样易于用“均值中心”解释。
适用场景：单细胞分群、社交网络社区发现、图嵌入或句向量的近邻图聚类、推荐或用户画像中的相似图分群。

升维

升维（Feature Expansion / Lifting）处理的问题，与降维正好互补。降维试图把高维表示压缩到更低维空间，以减少冗余、噪声与计算量；升维则试图把原始特征映射到一个更高维的表示空间，使原本难以表达、难以分离或难以拟合的结构，在新空间里变得更容易处理。它的目标核心是通过增加表示自由度，把非线性关系改写为更容易由简单模型处理的形式。

背景和问题定义

许多经典机器学习模型本体是线性的，例如线性回归、逻辑回归、线性支持向量机（Support Vector Machine, SVM）。它们直接在原始输入空间中学习一个线性决策函数或线性预测函数。若数据关系本身高度非线性，那么模型能力可能不足。升维的思路因此是：先把输入映射为一个更高维的新表示，再在新表示上使用线性模型。模型形式仍然简单，但由于工作空间改变了，整体表达能力会显著提升。

更一般地，若原始输入为 $\boldsymbol{x}\in \mathbb{R}^d$，则升维映射可写成：

\[\tilde{\boldsymbol{x}}=\phi(\boldsymbol{x}),\qquad \phi: \mathbb{R}^d\to \mathbb{R}^D,\qquad D>d\]

这里 $\boldsymbol{x}$ 是原始输入； $\tilde{\boldsymbol{x}}$ 是升维后的新特征； $\phi(\boldsymbol{x})$ 是特征映射； $D>d$ 表示新的表示空间维度高于原空间维度。若后续模型写成 $f(\boldsymbol{x})=\boldsymbol{w}^\top \tilde{\boldsymbol{x}}+b$，那么它虽然在新空间中仍然是线性的，但在原始输入 $\boldsymbol{x}$ 上通常已经对应一个非线性函数。

核心思想

升维的直观含义，是把原来“纠缠在一起”的关系展开。例如在二维平面里，某些数据可能无法被一条直线分开；但若把 $(x_1,x_2)$ 映射成 $(x_1,x_2,x_1^2,x_2^2,x_1x_2)$ 这样的更高维特征，原本的弯曲边界就可能对应高维空间中的一个超平面。于是复杂性被转移到了特征映射 $\tilde{\boldsymbol{x}}=\phi(\boldsymbol{x})$ 上。

这也是经典机器学习里一个非常常见的套路：先做特征构造或特征展开，再用结构简单、优化稳定的线性模型。因此，升维常常常以多项式特征、基函数展开、核方法、one-hot 编码、N-gram 稀疏特征、随机特征等形式出现。

公式和详细解释

升维后的线性模型通常写成：

\[f(\boldsymbol{x})=\boldsymbol{w}^\top \tilde{\boldsymbol{x}}+b\]

这里 $\tilde{\boldsymbol{x}}$ 是由原始输入 $\boldsymbol{x}$ 构造出来的高维特征向量； $\boldsymbol{w}\in \mathbb{R}^D$ 是新空间中的参数； $b$ 是偏置。关键点在于：模型在 $\tilde{\boldsymbol{x}}$ 空间里仍然是线性的，但如果 $\phi(\boldsymbol{x})$ 含有平方项、交叉项、基函数或核映射，那么 $f(\boldsymbol{x})$ 相对于原始输入 $\boldsymbol{x}$ 就会表现出非线性。

以二次多项式特征为例，若原始输入为 $\boldsymbol{x}=(x_1,x_2)$，则可构造：

\[\tilde{\boldsymbol{x}}=(x_1,x_2,x_1^2,x_2^2,x_1x_2)\]

此时线性模型

\[f(\boldsymbol{x})=w_1x_1+w_2x_2+w_3x_1^2+w_4x_2^2+w_5x_1x_2+b\]

在参数上仍然是线性的，但在输入上已经能够表达二次曲面或二次决策边界。这正是升维最核心的数学作用：把原空间中的非线性关系，改写成高维空间中的线性关系。

常见升维方式

方式	升维形式	核心作用	典型场景
多项式特征	加入平方项、立方项、交叉项	把低阶线性模型扩展为可拟合非线性关系	线性回归、逻辑回归、线性分类器
基函数展开	高斯基、样条基、傅里叶基等	用一组预定义函数把局部或周期结构显式展开	回归、广义加性模型、核近似
核方法	通过核函数隐式映射到高维甚至无限维空间	在不显式展开特征的情况下提升可分性	SVM、核岭回归、核 PCA
One-hot 编码	把离散类别映射为高维稀疏向量	让类别变量进入线性模型并保持类别独立性	表格特征、推荐、广告、点击率预估
N-gram / 词袋	把文本映射为高维稀疏词项空间	显式展开局部共现与组合模式	传统文本分类、检索、朴素贝叶斯、线性 SVM
随机特征	用随机映射近似某些核空间	在显式高维表示与核方法之间做折中	Random Fourier Features、核近似

其中，核方法是经典机器学习里最有代表性的升维思想。以 SVM 为例，若定义特征映射 $\tilde{\boldsymbol{x}}=\phi(\boldsymbol{x})$，则线性分类器可写成 $f(\boldsymbol{x})=\boldsymbol{w}^\top \tilde{\boldsymbol{x}}+b$。核技巧（Kernel Trick）直接通过核函数计算，避免显式构造 $\tilde{\boldsymbol{x}}$

\[K(\boldsymbol{x},\boldsymbol{x}')=\phi(\boldsymbol{x})^\top \phi(\boldsymbol{x}')\]

计算升维后特征空间中的内积。这样既保留了高维映射的表达力，又避免了显式展开到巨大维度的代价。因此，SVM 是很多人最先感受到“升维威力”的经典模型。

应用实例

在圆形可分但线性不可分的数据中，原始二维平面上一条直线无法把内圈与外圈分开；但若加入半径相关的二次特征，例如 $x_1^2+x_2^2$，则问题可以转写为更高维空间中的线性分离。文本任务里，N-gram 稀疏特征同样是一种典型升维：原始句子是离散序列，经过词袋或 N-gram 展开后，就变成了数万维甚至更高维的稀疏向量，随后再交给逻辑回归、朴素贝叶斯或线性 SVM 处理。

表格任务中的类别变量处理也体现了同样思想。一个城市字段看起来只是一个离散取值，但 one-hot 编码后，它会被展开成一个高维稀疏向量，使模型能够为每个类别学习独立参数。推荐系统、广告点击率预估、工业风控中的大规模离散特征，长期都高度依赖这种升维方式。

为什么经典机器学习更谨慎地升维

经典机器学习也会使用升维，但通常更谨慎。原因在于，维度一旦上去，过拟合风险、存储开销与计算开销都会迅速增加，这就是维度灾难（Curse of Dimensionality）的典型体现。于是经典方法常把“升维”与“控制复杂度”配套使用：一边通过特征展开提升表达能力，一边用正则化（Regularization）、特征选择（Feature Selection）或后续降维来抑制过拟合。

因此，在经典机器学习里，常见工作流核心是两者交替配合：先做有针对性的特征展开，让结构变得更容易表达；再通过正则化、筛选或压缩保留真正有效的部分。升维是在展开表达能力，降维是在压缩冗余信息，它们核心是围绕表示空间做的两种互补控制。

维度灾难

维度灾难（Curse of Dimensionality）指的是：当特征维度不断升高时，许多在低维空间中直观、有效的统计与几何规律会迅速恶化，导致数据需求、计算成本与建模难度同时上升。它核心是一组高维效应的统称，包括样本空间体积指数级膨胀、样本变得极其稀疏、局部邻域难以稳定估计、距离与密度统计的判别力下降，以及模型更容易用复杂边界去记忆训练集。

其中一个最重要的现象确实是：高维里距离往往会变得不再像低维那样有区分力。直观地说，当维度很多时，样本之间的最近距离和最远距离可能越来越接近，导致“谁是真正近邻”这件事变得没那么清晰。依赖距离或局部邻域的方法，例如 KNN、聚类、核密度估计、局部异常检测等，往往会因此退化。因此，高维数据上的距离度量、标准化、特征筛选和嵌入学习会变得格外重要。

但“高维更容易过拟合”并不只因为距离失去意义。更根本的原因是：当维度升高后，表示空间的自由度与可容纳的划分方式急剧增加，而训练样本相对于整个空间显得越来越稀疏。模型于是更容易找到一些只对训练集成立、却不能推广到新样本的偶然边界或偶然相关性。距离退化主要伤害的是邻域、相似度与密度估计；过拟合风险上升则更直接地来自空间稀疏化、参数自由度增加和有效样本覆盖不足。

因此，经典机器学习在做升维时往往必须同步引入约束：一方面用特征展开提升表达能力，另一方面通过正则化（Regularization）、特征选择（Feature Selection）、降维（Dimensionality Reduction）或更强的数据先验，限制模型不要把高维空间当成“背题空间”。维度灾难核心是在提醒：维度每增加一层，模型就需要更多数据、更强归纳偏置和更谨慎的复杂度控制，才能让新增维度真正转化为有效表达能力。

和深度学习中的升维关系

深度学习中的很多操作，本质上也在做升维。Transformer 的前馈网络（Feed-Forward Network, FFN / MLP）常把 $d_{\text{model}}$ 升到更大的 $d_{\text{ff}}$，再降回原维度；这与经典机器学习里“先展开、再用简单变换处理”的思想是一脉相承的。差别在于，经典方法里的升维往往是人工设计或固定形式的，而深度学习中的升维通常是可学习的线性投影与非线性组合。

因此，若从表示学习角度看，升维在机器学习中并不罕见。SVM 的核空间、逻辑回归的多项式特征、文本的 N-gram 稀疏向量、推荐系统的 one-hot 离散展开，以及 Transformer MLP 中的中间维度扩张，本质上都属于同一条主线：把原本难以处理的关系，展开到一个更容易表达与分离的表示空间里。

降维

降维处理的核心问题是：高维数据往往包含冗余、相关性与噪声，既增加计算成本，也削弱可视化与建模稳定性。目标核心是在压缩表示的同时尽量保留有用结构——这个“有用”可以是方差、类别可分性、局部邻域、全局流形，具体取决于所采用的方法。

主成分分析（PCA）

背景和问题定义

主成分分析（Principal Component Analysis, PCA）处理的是线性降维问题：在尽量保留数据主要变化信息的前提下，把高维样本映射到更低维空间。它常用于压缩维度、去相关、可视化与噪声抑制。

核心思想

PCA 用方差（Variance）近似衡量信息量。若数据在某个方向上的投影变化很大，说明该方向承载了更多结构；于是 PCA 选择能最大化投影方差的一组正交方向作为新的表示基底。

算法公式和详细解释

给定中心化后的数据矩阵 $\boldsymbol{X}_c\in\mathbb{R}^{N\times d}$，协方差矩阵为：

\[\boldsymbol{\Sigma}=\frac{1}{N}\boldsymbol{X}_c^\top \boldsymbol{X}_c\]

这里 $\boldsymbol{X}_c$ 是已经减去均值后的数据矩阵， $\boldsymbol{X}_c^\top \boldsymbol{X}_c$ 汇总了各个特征之间如何共同变化；再除以 $N$，就得到平均意义下的协方差矩阵 $\boldsymbol{\Sigma}$。PCA 正是从这个矩阵里找“变化最大的方向”。

第一主成分对应的优化问题为：

\[\max_{\boldsymbol{u}} \quad \boldsymbol{u}^\top \boldsymbol{\Sigma}\boldsymbol{u} \quad \text{s.t.} \quad \|\boldsymbol{u}\|_2=1\]

$\boldsymbol{u}$ 是候选投影方向， $\boldsymbol{u}^\top \boldsymbol{\Sigma}\boldsymbol{u}$ 表示数据投影到该方向后的方差，约束 $\|\boldsymbol{u}\|_2=1$ 则防止通过把向量无限放大来虚增方差。于是这个优化问题真正寻找的是“单位长度下最能保留变化信息的方向”。

其解是协方差矩阵最大特征值对应的特征向量。取前 $k$ 个主成分组成矩阵 $\boldsymbol{U}_k$ 后，样本 $\boldsymbol{x}$ 的低维表示为：

\[\boldsymbol{z}=\boldsymbol{U}_k^\top(\boldsymbol{x}-\boldsymbol{\mu})\]

这里 $\boldsymbol{\mu}$ 是原始数据均值， $\boldsymbol{x}-\boldsymbol{\mu}$ 先把样本中心化， $\boldsymbol{U}_k$ 由前 $k$ 个主成分方向组成，最终 $\boldsymbol{z}$ 就是样本在这组主方向上的低维坐标。

训练或推断流程

对数据做中心化，必要时再做标准化。
计算协方差矩阵或直接对数据矩阵做奇异值分解（SVD）。
取前 $k$ 个主成分方向。
把数据投影到这些方向上得到低维表示。

应用实例

在人脸图像压缩中，大量像素变化往往由少数全局因素驱动。PCA 可以用少量主成分保留大部分有效变化，从而显著降低特征维度。

优缺点与适用场景

优点：线性、稳定、可解释，常用作预处理和可视化。
局限：只能捕捉线性结构；对异常值敏感。
适用场景：线性降维、特征压缩、去相关与噪声过滤。

线性判别分析（LDA）

背景和问题定义

线性判别分析（Linear Discriminant Analysis, LDA）用于监督降维与分类。与 PCA 只看输入分布不同，LDA 利用类别标签寻找一个投影空间，使同类样本尽量聚集、异类样本尽量分开。

核心思想

LDA 同时考虑类内散度（Within-class Scatter）和类间散度（Between-class Scatter）。好的投影方向应当让类间距离大、类内波动小，因此它优化的核心是判别性。

算法公式和详细解释

定义类内散度矩阵：

\[\boldsymbol{S}_W=\sum_{k=1}^{C}\sum_{\boldsymbol{x}_i\in \mathcal{C}_k}(\boldsymbol{x}_i-\boldsymbol{\mu}_k)(\boldsymbol{x}_i-\boldsymbol{\mu}_k)^\top\]

类内散度矩阵 $\boldsymbol{S}_W$ 统计的是“同一类内部有多分散”。 $\mathcal{C}_k$ 是第 $k$ 类的样本集合， $\boldsymbol{\mu}_k$ 是该类均值。若类内样本围绕各自均值分布得很紧， $\boldsymbol{S}_W$ 就会较小。

类间散度矩阵：

\[\boldsymbol{S}_B=\sum_{k=1}^{C}N_k(\boldsymbol{\mu}_k-\boldsymbol{\mu})(\boldsymbol{\mu}_k-\boldsymbol{\mu})^\top\]

类间散度矩阵 $\boldsymbol{S}_B$ 统计的是“各类中心彼此有多分开”。其中 $\boldsymbol{\mu}$ 是全局均值， $N_k$ 是第 $k$ 类样本数，因此样本多的大类会对类间结构贡献更大权重。

LDA 寻找投影向量 $\boldsymbol{w}$ 使 Fisher 判别准则最大：

\[J(\boldsymbol{w})=\frac{\boldsymbol{w}^\top \boldsymbol{S}_B \boldsymbol{w}}{\boldsymbol{w}^\top \boldsymbol{S}_W \boldsymbol{w}}\]

Fisher 准则的分子衡量“投影后类间有多分开”，分母衡量“投影后类内有多混在一起”。因此 $J(\boldsymbol{w})$ 越大，说明方向 $\boldsymbol{w}$ 越有助于把不同类别拉开、同时保持同类紧凑。

该问题可转化为广义特征值问题 $\boldsymbol{S}_B\boldsymbol{w}=\lambda \boldsymbol{S}_W\boldsymbol{w}$。对 $C$ 类问题，最多能得到 $C-1$ 个有效判别方向。

训练或推断流程

根据标签统计每一类的均值与全局均值。
构造类内散度矩阵和类间散度矩阵。
求解广义特征值问题，选择主要判别方向。
将样本投影到低维判别子空间中做分类或可视化。

应用实例

在手写数字分类中，LDA 关注的是“哪些方向最有助于把不同数字分开”，因此在有标签监督时，它往往比只最大化总体方差的 PCA 更适合分类前降维。

优缺点与适用场景

优点：利用标签信息，投影方向更有判别性。
局限：线性假设较强；类内散度矩阵可能奇异。
适用场景：有标签监督的降维、分类前特征压缩、判别性可视化。

t-SNE

背景和问题定义

t-SNE（t-distributed Stochastic Neighbor Embedding）主要用于二维或三维可视化。它主要关注如何在低维图上尽量保留高维空间中的局部邻域关系。

核心思想

t-SNE 把“样本彼此接近”转写为概率相似度：在高维空间中，接近的样本应当有较大概率互为邻居；在低维嵌入中，也希望这种邻近关系继续成立。优化的目标是让两种邻域概率分布尽可能接近。

算法公式和详细解释

在高维空间中，先定义邻域概率 $p_{ij}$；在低维空间中，对嵌入点 $\boldsymbol{y}_i$ 定义：

\[q_{ij}=\frac{(1+\|\boldsymbol{y}_i-\boldsymbol{y}_j\|_2^2)^{-1}}{\sum_{a\ne b}(1+\|\boldsymbol{y}_a-\boldsymbol{y}_b\|_2^2)^{-1}}\]

这里 $\boldsymbol{y}_i$ 和 $\boldsymbol{y}_j$ 是低维嵌入坐标，分子把距离越近的点赋予越大的相似度，分母则把所有点对的相似度加总起来做归一化，因此 $q_{ij}$ 可以被解释成低维空间里的邻域概率。

t-SNE 最小化高维邻域分布与低维邻域分布之间的 KL 散度：

\[\text{KL}(P\|Q)=\sum_{i\ne j} p_{ij} \log \frac{p_{ij}}{q_{ij}}\]

KL 散度衡量的是“低维邻域分布 $Q$ 与高维邻域分布 $P$ 相差多少”。若某对样本在高维里很近，即 $p_{ij}$ 很大，但在低维里被拉得太开， $q_{ij}$ 就会过小，从而产生较大惩罚。

低维中采用重尾 Student-t 分布，主要是为了缓解拥挤问题（Crowding Problem），使远处点更容易被拉开。

训练或推断流程

根据高维距离计算样本间的邻域概率。
随机初始化低维坐标。
计算低维相似度 $q_{ij}$。
通过梯度下降最小化 KL 散度并更新低维坐标。

应用实例

在词向量或图像嵌入可视化中，t-SNE 常把语义相近的样本压到局部团簇中，从而帮助研究者直观看到表示空间里是否出现了合理分群。

优缺点与适用场景

优点：二维可视化效果强，局部邻域保持能力好。
局限：全局距离与簇间相对位置不稳定；对超参数和随机初始化敏感。
适用场景：嵌入可视化、表示质量诊断、探索性数据分析。

UMAP

背景和问题定义

UMAP（Uniform Manifold Approximation and Projection）同样用于低维可视化与非线性降维。它面对的任务与 t-SNE 类似，但更强调在保留局部结构的同时，尽量维持一定的全局几何关系，并提升速度与可扩展性。

核心思想

UMAP 先在高维空间构建一个加权近邻图，把数据视为流形（Manifold）上的离散采样；随后在低维空间中寻找一张新图，使低维图与高维图的模糊连通结构尽量一致。它本质上是在匹配两张图的连通结构，而不只是在匹配两组欧氏距离。

这里的流形可以先从一个标准定义理解：设样本位于高维空间 $\mathbb{R}^D$ 中，若它们实际上集中在某个低维集合 $\mathcal{M}\subseteq\mathbb{R}^D$ 附近，并且对 $\mathcal{M}$ 上任一点，都能在一个足够小的邻域内用 $d$ 维坐标平滑描述，其中 $d\ll D$，那么这个集合就可以看作一个 $d$ 维流形。流形的关键性质核心是它在局部看起来像低维欧氏空间，在全局上则可以嵌入到更高维空间并发生弯曲、卷曲或拉伸。

在数据分析里，这个概念表示：虽然原始特征有很多维，但样本分布在某种低维结构附近，并没有真正填满整个高维空间。例如一组人脸图像在像素空间里维度极高，但由姿态、光照、表情等少数潜在因素变化时，样本往往只覆盖其中一个低维子区域。UMAP 的出发点正是：若数据主要几何结构由这个低维流形决定，那么局部近邻关系比“全局欧氏直线距离”更能反映真实结构。

“离散采样”则表示：真实流形 $\mathcal{M}$ 本身是连续对象，但我们手里只有有限个样本点 $\{x_i\}_{i=1}^N$。UMAP 通过近邻图近似这些点在流形上的局部连通关系，再在低维空间中寻找一组坐标 $\{y_i\}_{i=1}^N$，使这种局部连通关系尽量被保留下来。因此它核心是在有限样本层面恢复流形的邻域结构。

与 t-SNE 相比，UMAP 更强调“样本来自某个低维流形，并且近邻图是在近似这个流形的局部连通结构”；t-SNE 的核心对象则更偏向“高维邻域概率分布与低维邻域概率分布的匹配”。两者都重视局部关系，但 UMAP 的表述更几何化，t-SNE 的表述更概率化。

算法公式和详细解释

若高维图边权为 $p_{ij}$，低维图边权常写为：

\[q_{ij}=\frac{1}{1+a\|\boldsymbol{y}_i-\boldsymbol{y}_j\|_2^{2b}}\]

UMAP 用这个函数把低维距离转换成连通强度。 $a$ 和 $b$ 控制曲线形状：距离很近时 $q_{ij}$ 接近 1，距离变远时迅速衰减到接近 0，因此它可以把“近邻关系”转写成平滑的图边权。

其中 $a,b$ 决定低维距离与连接强度的映射形状。UMAP 的优化目标通常是高维图与低维图之间的交叉熵（Cross-Entropy）：既鼓励高维中相连的点在低维中也靠近，也鼓励高维中不相连的点在低维中适当分开。

训练或推断流程

计算近邻图，并为边赋予模糊连通权重。
初始化低维坐标。
通过随机优化最小化高维图与低维图之间的交叉熵。
得到二维或三维嵌入用于可视化或下游分析。

应用实例

在单细胞测序、文本嵌入或推荐向量分析中，UMAP 常被用来把高维表示映射到二维平面，从而观察群体结构、类别分布与异常点。

优缺点与适用场景

优点：通常比 t-SNE 更快，较好兼顾局部与部分全局结构。
局限：嵌入结果仍依赖超参数与随机种子；二维距离不能机械等同于原空间距离。
适用场景：大规模嵌入可视化、非线性降维、聚类前的低维表示。

异常检测

异常检测处理的核心问题是：正常样本通常大量存在，而异常样本稀少、形态多变、甚至在训练阶段根本拿不到完整标签。模型因此从主要学习“类别之间如何区分”转向学习“什么算正常”以及“偏离正常结构有多严重”。不同方法对“异常”的定义并不相同：有的依赖隔离难易度，有的依赖局部密度，有的学习正常区域边界。

什么叫异常

在业务语境里，“异常”并不同于“数值特别大”或“离均值很远”。更准确地说，异常是相对于当前业务规则、历史模式或同类群体而言，不应当出现、很少出现、或者一旦出现就值得额外关注的样本。因此异常是一个“相对概念”，必须依赖参照系：相对于谁、在哪个时间段、在什么上下文里、以什么代价衡量。

例如，单笔消费 5000 元在全国范围内不一定异常，但若这位用户平时只在本地便利店做几十元交易，而这次交易突然发生在异地、高风险设备、深夜时段，并伴随支付习惯突变，那么它在风控上就可能是异常。类似地，服务器 CPU 使用率 85% 在大促期间可能是正常负载，在凌晨低峰却可能意味着任务堆积；工厂传感器温度轻微升高若同时伴随振动模式变化，也可能预示故障正在形成。

这说明业务上的异常通常至少包含三类含义。第一类是统计稀有：样本落在低概率区域。第二类是行为失配：它与该对象自己的历史模式不一致。第三类是群体失配：它在全局上不一定极端，但相对于同类群体显著不同。异常检测算法的差异，本质上就在于它们分别更擅长刻画哪一种“失配”。

因此，做异常检测时首先要回答的核心是“业务到底把什么视为异常”。若异常意味着“明显稀少且容易与大部队分开”，隔离式方法更合适；若异常意味着“在本地邻域里显得稀疏”，应优先考虑密度比较；若正常样本边界清楚、异常样本类型杂乱，则更适合只学习正常区域。算法核心是在实现业务已经确定的异常标准。

孤立森林（Isolation Forest）

背景和问题定义

孤立森林（Isolation Forest）用于无监督异常检测：在没有可靠异常标签时，仅根据数据分布本身识别“容易被孤立”的异常样本。它尤其适合高维表格数据与大规模检测场景。

核心思想

孤立森林利用一个非常直接的直觉：异常点通常更稀少、更孤立，因此在随机切分下更容易被提早隔离。路径越短，越可能是异常；路径越长，越像处于正常群体内部。若把正常样本理解为“扎堆生活在高密度区域里的大群体”，那么它们往往需要经过很多次随机切割才会被单独分离出来；而那些落在边缘、稀疏区域、或与主体分布明显脱节的样本，只需少量切分就会被单独留在某个叶节点里。

这种思路和距离或密度方法非常不同。K 近邻（K-Nearest Neighbors, KNN）或局部异常因子（Local Outlier Factor, LOF）会显式比较“离别人有多远”或“局部密度有多低”；孤立森林则直接把异常检测改写成一个更具操作性的判据：一个样本在随机树里平均多快会被单独隔开。因此它用“隔离难易度”来近似刻画异常性，不先估计复杂概率分布，也不依赖全局距离结构。

图示解读

图中的示意数据由两个主要正常簇和若干离散分布的异常点构成。背景等高线展示的是孤立森林学到的“异常分数地形”：颜色越深，表示该区域样本平均路径长度越长，更接近模型眼中的正常高密度区域；颜色越浅，表示样本更容易在随机切分中被提早隔离，因此更接近潜在异常区域。

图中圆形点对应被模型判为正常的样本，它们主要聚集在两个深色中心附近；叉号对应被模型判为异常的样本，它们更多分布在边缘、簇间空白带或浅色区域。这种可视化非常适合帮助理解孤立森林的工作方式：它核心是在表达“哪里更容易被随机树迅速切出来”。因此，等高线的深浅更接近一种“隔离难度地图”，而非传统分类器意义上的硬分类边界。

隔离树是什么

隔离树（Isolation Tree, iTree）可以理解成一棵专门为了“把样本逐步切开”而构造的随机二叉树。它与决策树（Decision Tree）在外形上相似，但目标完全不同：决策树是在找最有区分力的切分规则，隔离树则故意随机选择一个特征，再在该特征当前取值范围内随机选择一个切分点，把样本递归分到左右子节点。

设当前节点包含样本集合 $S$，随机选到的特征为第 $j$ 维，其切分阈值为 $\tau$，则一次切分可写成

\[S_{\mathrm{left}}=\{\boldsymbol{x}\in S\mid x_j<\tau\},\qquad S_{\mathrm{right}}=\{\boldsymbol{x}\in S\mid x_j\ge \tau\}\]

递归继续进行，直到某个节点只剩下 1 个样本，或所有样本在当前节点上已经无法再被有效区分。对一个本来就远离主体、所在区域又很稀疏的样本而言，随机切分往往只需要很少几步就能把它单独留在某个叶节点中；而对处在高密度正常群体内部的样本，通常要经过更多次切分才能被单独隔离。隔离树因此把“异常”转写为“被随机切分提早单独分离”的难易度。

算法公式和详细解释

对样本 $\boldsymbol{x}$，记它在一棵隔离树中的路径长度为 $h(\boldsymbol{x})$。在多棵树上取平均路径长度 $\mathbb{E}[h(\boldsymbol{x})]$ 后，异常分数定义为：

\[s(\boldsymbol{x},n)=2^{-\mathbb{E}[h(\boldsymbol{x})]/c(n)}\]

这里 $h(\boldsymbol{x})$ 是样本在一棵树里被隔离所需的路径长度， $\mathbb{E}[h(\boldsymbol{x})]$ 是在整片森林中的平均值， $c(n)$ 是针对样本规模 $n$ 的归一化常数。路径越短，指数里的值越小，异常分数 $s(\boldsymbol{x},n)$ 就越接近 1。

其中 $c(n)$ 是平均路径长度的归一化常数，用来把不同样本规模下的路径长度放到可比较的尺度上。它常写为 $c(n)=2H_{n-1}-2(n-1)/n$，其中 $H_{n-1}$ 是第 $n-1$ 个调和数（Harmonic Number）。若某点明显比普通样本更早被切分隔离，则其平均路径长度更小，异常分数更接近 1。

训练或推断流程

从训练集中随机抽取多个子样本。
为每个子样本构建随机隔离树。
对待测点计算其在所有树中的平均路径长度。
将平均路径长度映射为异常分数。

应用实例

在交易风控中，若某条交易在金额、时间、地点、设备等多个维度上都明显偏离正常模式，它往往能在随机切分下被较早隔离出来，因此会获得更高异常分数。

优缺点与适用场景

优点：无需显式估计密度，也不依赖两两距离矩阵；因此在大规模数据上通常比基于邻域或密度的方法更高效。
优点：对高维表格数据较友好，对随机噪声通常也有较强鲁棒性，因为最终判断来自多棵随机树上的平均隔离行为，而非某一次局部切分。
局限：对特征编码和特征尺度的业务含义仍然敏感；若异常与正常高度混叠、或者异常本身并不更容易被切开，隔离优势会下降。
适用场景：风控、日志异常、设备故障、指标监控等无监督异常检测，尤其适合作为高维表格场景中的强基线。

局部异常因子（LOF）

背景和问题定义

局部异常因子（Local Outlier Factor, LOF）主要解决“全局上不远，但在局部邻域中显著稀疏”的异常检测问题。当数据不同区域密度差异很大时，只看全局距离通常不够稳定。

核心思想

LOF 比较的是“这个点相对于其邻居是否更稀疏”。若一个点周围的局部密度显著低于邻居自己的局部密度，则它更像局部异常。它识别的核心是相对于自己所在局部环境显得不协调的点。因此，当不同区域本来就有不同密度时，LOF 往往比只看全局距离的方法更稳。

图示解读

图中的实心圆点表示样本点，围绕样本点的空心圆圈大小表示该点的 LOF 分数大小。圆圈越小，说明该点的局部密度与其邻居相近，更像正常簇中的内部样本；圆圈越大，说明该点所在位置相对于邻居显得更稀疏，因此更可能是局部异常点。

这张图直观展示了 LOF 的核心判断方式：它先比较“这个点和自己周围那一圈邻居相比，是否显得过于稀疏”。因此，大圆圈对应的未必是全局最远的点，而更可能是那些周围邻居仍然较密、但它自己明显脱离了局部密度水平的点。

若把这张示意图看作两个高密度簇与少量随机噪声点的组合，则邻居数 $k$ 决定了算法观察“局部环境”的尺度。 $k$ 较小时，模型更敏感于非常局部的扰动； $k$ 较大时，密度比较更平滑，但也可能削弱对细粒度异常的敏感性。

算法公式和详细解释

给定邻居数 $k$，设 $N_k(\boldsymbol{p})$ 表示点 $\boldsymbol{p}$ 的 $k$ 个最近邻集合。LOF 的计算可以拆成三层：先算可达距离（Reachability Distance），再算局部可达密度（Local Reachability Density, LRD），最后比较邻居密度与自身密度，得到局部异常因子（Local Outlier Factor, LOF）。

先定义可达距离（Reachability Distance）：

\[\mathrm{rd}_k(\boldsymbol{p},\boldsymbol{o})=\max\big(\text{k-distance}(\boldsymbol{o}),d(\boldsymbol{p},\boldsymbol{o})\big)\]

可达距离会把两个量取最大值：邻居点 $\boldsymbol{o}$ 自己的第 $k$ 邻距离，以及点对之间的真实距离。这样做可以防止极近的点对把局部密度估得过于夸张，使密度估计更稳。

再定义局部可达密度（Local Reachability Density, LRD）：

\[\mathrm{lrd}_k(\boldsymbol{p})=\left(\frac{1}{|N_k(\boldsymbol{p})|}\sum_{\boldsymbol{o}\in N_k(\boldsymbol{p})} \mathrm{rd}_k(\boldsymbol{p},\boldsymbol{o})\right)^{-1}\]

局部可达密度 $\mathrm{lrd}_k(\boldsymbol{p})$ 本质上是“平均可达距离”的倒数：平均距离越小，周围越拥挤，密度越大；平均距离越大，周围越稀疏，密度越小。

最终的 LOF 分数为：

\[\mathrm{LOF}_k(\boldsymbol{p})=\frac{1}{|N_k(\boldsymbol{p})|}\sum_{\boldsymbol{o}\in N_k(\boldsymbol{p})} \frac{\mathrm{lrd}_k(\boldsymbol{o})}{\mathrm{lrd}_k(\boldsymbol{p})}\]

LOF 分数比较的是“邻居的局部密度”和“自己本身的局部密度”。若 $\mathrm{lrd}_k(\boldsymbol{p})$ 明显小于邻居的密度，分数就会大于 1，说明该点相对周围环境显得更孤立。更具体地说，分子是邻居局部密度的平均水平，分母是点 $\boldsymbol{p}$ 自己的局部密度，因此这个比值本质上是在问：你周围的人都很挤，而你自己是否站得太空。

结果通常可以这样解读：

$\mathrm{LOF}_k(\boldsymbol{p})\approx 1$：该点的局部密度与邻居相近，通常属于正常样本。
$\mathrm{LOF}_k(\boldsymbol{p})<1$：该点甚至比邻居更密集，往往处于簇的核心区域。
$\mathrm{LOF}_k(\boldsymbol{p})>1$：该点局部密度低于邻居，越大越像异常点。

因此，LOF 回答的是“这个点在自己的局部邻域里是否显得过于稀疏”，而非“这个点离全局中心远不远”。这也是它能识别局部异常、却对距离度量与邻居数 $k$ 较敏感的根本原因。

训练或推断流程

为每个样本找到 $k$ 个近邻。
计算可达距离与局部可达密度。
比较样本与邻居的局部密度，得到 LOF 分数。
按分数排序或设置阈值输出异常点。

应用实例

在消费行为数据中，某一线城市用户的高消费在全国范围内未必异常，但在“同年龄、同区域、同收入”的邻域里可能明显偏离。LOF 正是通过这种局部密度比较识别这类异常。

优缺点与适用场景

优点：适合不同密度区域共存的数据，能识别“全局上不极端、但局部上明显失配”的异常。
优点：解释性较强，因为 LOF 分数直接来自“邻居密度 / 自身密度”的局部比较，便于回答异常是相对于谁显得异常。
局限：对距离度量、标准化和邻居数 $k$ 很敏感； $k$ 太小会放大噪声，太大又可能抹平真正的局部异常。
局限：大规模近邻搜索成本较高，因此在超大数据上常需要索引加速或近似近邻方法配合。
适用场景：局部离群检测、消费异常、群体内部行为异常、同类用户或设备群体中的行为失配识别。

单类支持向量机（One-Class SVM）

背景和问题定义

单类支持向量机（One-Class Support Vector Machine, One-Class SVM）用于“只有正常样本、缺少可靠异常样本”的异常检测任务。它的目标是学习一个描述正常样本区域的边界。

核心思想

One-Class SVM 通过核映射把样本送到高维特征空间，再寻找一个把大多数正常样本与原点分开的超平面。等价地看，它学习的是一个“包住正常样本”的高维边界，边界外的点更可能是异常。

算法公式和详细解释

一种标准形式为：

\[\min_{\boldsymbol{w},\rho,\boldsymbol{\xi}} \frac{1}{2}\|\boldsymbol{w}\|_2^2+\frac{1}{\nu N}\sum_{i=1}^{N} \xi_i-\rho\]

One-Class SVM 的目标由三部分组成： $\frac{1}{2}\|\boldsymbol{w}\|_2^2$ 控制边界不要太复杂， $\frac{1}{\nu N}\sum_i \xi_i$ 惩罚落在边界外或靠得太近的样本， $-\rho$ 则鼓励把正常区域尽量向外推开。 $\nu$ 越大，对违约样本的容忍度越高。

\[\text{s.t.} \quad \boldsymbol{w}^\top \phi(\boldsymbol{x}_i) \ge \rho-\xi_i,\qquad \xi_i \ge 0\]

这些约束表示：样本映射到特征空间后，其投影值至少要达到阈值 $\rho$；若做不到，就用非负松弛变量 $\xi_i$ 记录违约程度。于是模型允许少量样本越界，但必须为此付出代价。

其中 $\boldsymbol{w}$ 是超平面法向量， $\rho$ 是阈值， $\xi_i$ 是松弛变量， $\nu\in(0,1]$ 控制允许落在边界外的比例与支持向量比例。判别函数为：

\[f(\boldsymbol{x})=\text{sign}\left(\boldsymbol{w}^\top \phi(\boldsymbol{x})-\rho\right)\]

判别函数先计算样本在特征空间里相对边界的位置：若 $\boldsymbol{w}^\top \phi(\boldsymbol{x})-\rho$ 为正，说明样本位于学习到的正常区域一侧；若为负，则更可能落在边界之外，被视为异常。

若使用核函数 $K(\boldsymbol{x},\boldsymbol{x}')$，则该边界可以是非线性的，因此能表达复杂的正常区域。

训练或推断流程

只用正常样本训练模型，选择核函数与超参数 $\nu$。
在特征空间中学习分离超平面。
对新样本计算判别函数值。
若分数低于边界阈值，则判为异常。

应用实例

在设备健康监控中，异常故障类型往往变化很大，难以完整收集，但正常运行数据很多。One-Class SVM 可以只基于正常样本学习边界，一旦新样本落出该区域，就触发异常告警。

优缺点与适用场景

优点：只依赖正常样本；核方法可表达复杂边界。
局限：对特征缩放和核参数敏感；大规模训练较重。
适用场景：设备监控、入侵检测、质量控制等“正常样本丰富、异常样本稀缺”的任务。

神经网络

神经网络简史

神经网络（Neural Network）的基本想法出现得很早：用大量简单计算单元和可调连接权重，去近似复杂的输入输出关系。早期感知机（Perceptron）证明了机器可以从样本中学习线性分类边界，但单层结构无法表达 XOR 这类简单非线性关系，导致连接主义路线一度进入低潮。

多层网络重新获得生命力，关键在于反向传播（Backpropagation）把“怎样训练多层可微模型”变成了可计算的工程流程。1980 年代，David Rumelhart、Geoffrey Hinton 和 Ronald Williams 推广了反向传播在多层网络中的训练方式，使隐藏层权重可以通过链式法则高效更新。这个贡献的重要性在于：隐藏层可以在任务损失的驱动下自动学习中间表示，而不再依赖手工设计的特征变换。

Geoffrey Hinton 在神经网络复兴中尤其关键。他长期推动分布式表示（Distributed Representation）、玻尔兹曼机（Boltzmann Machine）、深度信念网络（Deep Belief Network）和深层网络训练研究；在 2000 年代中期，他和合作者展示了逐层预训练对深层网络训练的帮助，使“深网络可以训练起来”重新成为现实工程路线。到 2012 年，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 的 AlexNet 在 ImageNet 上取得突破性结果，GPU、大规模数据、ReLU、Dropout 和卷积网络一起把深度学习推向主流。

这段历史说明，神经网络的成功依赖一整套条件共同成熟：表达能力、训练算法、数据规模、硬件并行、正则化和软件框架。通用近似定理回答的是“网络有没有能力表示足够复杂的函数”；反向传播、优化器、归一化、残差连接和数据工程回答的是“这种能力能否被稳定训练出来”。

通用近似定理

通用近似定理（Universal Approximation Theorem）是神经网络表达能力的基础结果之一。它讨论的是函数类本身的表达能力；训练过程属于另一个问题。给定一个足够宽、带非线性激活函数的前馈神经网络，它可以在有限闭区间或更一般的紧集（Compact Set）上，把任意连续函数逼近到任意预先指定的精度。

一维情形可以写成下面的形式。设 $f$ 是区间 $[a,b]$ 上的连续函数， $\epsilon>0$ 是允许误差，则存在足够大的隐藏单元数 $m$、权重 $\alpha_i,w_i,b_i$，使得

\[\sup_{x\in[a,b]}\left|f(x)-\sum_{i=1}^{m}\alpha_i\,\sigma(w_i x+b_i)\right|<\epsilon\]

这里 $\sigma$ 是非线性激活函数， $\sigma(w_i x+b_i)$ 是第 $i$ 个隐藏单元输出， $\alpha_i$ 是输出层给这个隐藏单元分配的权重。 $\sup$ 表示看整个区间上最大的绝对误差；因此，这个公式表达的是“在整个区间上都足够接近”，比只在若干采样点上接近更强。

一种常用的构造方式使用 logistic / sigmoid 激活函数：

\[\sigma(z)=\frac{1}{1+\exp(-z)}\]

其中 $z=wx+b$ 是神经元的线性输入， $w$ 控制曲线陡峭度， $b$ 控制曲线在数轴上的左右位置。 $\exp(-z)$ 是指数函数。 $z$ 很小时， $\sigma(z)$ 接近 0； $z$ 很大时， $\sigma(z)$ 接近 1；中间区域是一段平滑过渡。把 $|w|$ 调大后，过渡区会变窄，sigmoid 就越来越像一个可移动的软开关。

这个软开关构造出“局部块”的方式很直接。取两个位置 \(a，并使用同样陡峭度的 sigmoid：

\[g(x)=\sigma(k(x-a))-\sigma(k(x-b))\]

其中 $k$ 控制两个开关的陡峭度， $a$ 是左侧开关位置， $b$ 是右侧开关位置。第一个开关在 $x\approx a$ 附近从 0 变到 1，第二个开关在 $x\approx b$ 附近从 0 变到 1。二者相减后， $x 时两者都接近 0，输出接近 0； \(a 时第一个接近 1、第二个接近 0，输出接近 1； \(x>b$ 时两者都接近 1，输出再次接近 0。于是，两个 sigmoid 神经元就形成了一个局部脉冲块。

脉冲块的宽度由 $b-a$ 决定，位置由 $a,b$ 决定，高度由输出层权重决定。如果给每个小区间放一个这样的块，再让输出层给每个块分配不同高度，就得到一条阶梯函数。连续函数在足够小的区间内变化有限，因此当小区间越来越窄、局部块越来越多时，这条阶梯函数就能把目标曲线压到任意小误差内。这就是“一对神经元形成一个局部块，很多块拼出曲线”的构造性直觉。

这张图对应四个层次。左上角展示两个 sigmoid 开关相减得到局部脉冲块；右上角展示单隐层网络用更多局部块逼近同一条连续目标曲线；左下角用同等预算示意浅层均匀块和多层组合式特征的效率差异；右下角展示块数增加时逼近误差下降。图中的多层曲线只是表达效率的直观示意，不表示某个特定训练过程必然收敛到该曲线。

定理的边界同样重要。第一，它要求目标函数在讨论区域内连续；带跳跃断点的函数不满足经典连续函数版本的结论。第二，它保证“存在”足够好的网络，不保证梯度下降一定能找到这些参数。第三，它不保证所需隐藏单元数很小；单隐层理论上足够，但可能需要非常多神经元。第四，它不直接保证泛化能力；训练集上拟合得好，仍可能在分布外样本上失败。

深层网络的意义主要体现在表达效率和组合结构上。许多真实任务中的目标函数具有层级组合结构：局部边缘组合成纹理，纹理组合成部件，部件组合成物体；词语组合成短语，短语组合成句子语义。深层网络可以让不同层分别学习不同层级的中间表示，用更少参数表达复杂复合函数。单隐层定理说明“浅层网络有足够表达能力”，深度学习实践进一步说明“深度结构往往更高效、更容易匹配数据生成机制”。

因此，通用近似定理给神经网络提供的是表达能力的底层保证：非线性神经元经过加权组合，可以逼近广泛的连续函数。训练算法、优化稳定性、数据规模、正则化、架构归纳偏置和泛化能力，仍然是后续章节必须单独讨论的问题。

前馈神经网络

感知机

感知机（Perceptron）是最早的神经元模型之一，也是现代神经网络最基本的计算原型。无论是 MLP、CNN、RNN，还是 Transformer，本质上都由大量“线性变换 + 非线性变换”的单元堆叠而成；从这个意义上说，理解感知机，就是理解大型模型最小的功能部件。

最原始的感知机先做线性组合，再经过一个阈值函数给出二分类输出：

\[\hat y=\mathrm{sign}(\mathbf{w}^\top \mathbf{x}+b)\]

这里 $\mathbf{x}$ 是输入特征， $\mathbf{w}$ 是权重， $b$ 是偏置。 $\mathbf{w}^\top \mathbf{x}+b$ 的含义是“沿着权重指定的方向对输入做加权打分”，而 $\mathrm{sign}(\cdot)$ 则把连续分数变成离散决策：高于阈值判为正类，低于阈值判为负类。

需要特别区分的是：最早的感知机确实直接做分类，但现代神经网络里的大多数“感知机式单元”并不直接输出最终类别。隐藏层单元更常见的形式是 $h=\phi(\mathbf{w}^\top \mathbf{x}+b)$，它们输出的是中间表示（Intermediate Representation），职责是检测局部模式、重组特征并为后续层提供更有用的表示；只有最后的任务头（Task Head）才把这些中间表示转成分类、回归或生成输出。

这里的中间表示（Intermediate Representation）本质上就是一组可被后续层继续计算的数值特征。它既可以是向量（Vector），也可以是矩阵（Matrix），更一般地说，它通常是张量（Tensor）。向量和矩阵都只是张量的特殊情形：若只看单个样本的 MLP 隐层输出，最常见的是向量 $\boldsymbol{h}\in\mathbb{R}^{d}$；若看 Transformer 对整段序列的隐藏状态，常写成矩阵 $H\in\mathbb{R}^{L\times d}$；若再把 batch 维也带上，则会变成三维张量 $\mathcal{H}\in\mathbb{R}^{B\times L\times d}$。在卷积网络（Convolutional Neural Network, CNN）里，中间表示则常是特征图张量（Feature Map Tensor） $\mathcal{H}\in\mathbb{R}^{C\times H\times W}$，或带 batch 的 $\mathbb{R}^{B\times C\times H\times W}$。

因此，“中间表示”并非某种神秘对象，它就是网络在某一层对输入所形成的内部编码。它把输入重写成更适合下一层处理的坐标系。例如，文本模型中的某一层隐藏状态可能同时编码词义、上下文关系、句法位置和任务相关线索；图像模型中的某一层特征图则可能突出边缘、纹理、局部部件或更高层形状。后续层与任务头读到的，正是这些内部编码。

感知机的重要性不止在于历史地位，更在于今天大型模型中的知识，本质上仍然是通过这类权重结构逐层编码进去的。训练过程并不会把知识像数据库那样逐条写成显式记录，会不断调整参数，使某些输入模式被放大、某些输入模式被抑制。于是，模型在数据中反复见到的统计规律——词与词的共现、图像局部纹理、特征之间的组合关系——都会被压缩进参数矩阵的数值结构中。

更准确地说，大模型中的知识通常核心是以分布式表示（Distributed Representation）的形式分散在大量参数里。单个单元更像一个局部特征探测器（Feature Detector）：它只对某种模式敏感；许多单元级联后，网络才能把低层简单模式组合成高层抽象概念。模型规模越大、层数越深、参数越多，可被编码的模式组合也越丰富，这正是大模型具备强表达能力与“知识容量”的原因之一。

感知机能学会线性可分任务，但无法处理 XOR 这类线性不可分问题，这正是多层网络出现的动机：当一个超平面不够时，就需要通过多层组合把输入空间逐步重写成更容易分开的表示。

多层感知机（MLP）

多层感知机（Multi-Layer Perceptron, MLP）就是最典型的全连接神经网络（Fully Connected Neural Network）。它处理的核心问题是：当输入与输出之间的关系并非一个超平面就能表达时，如何通过多层可学习变换，把原始特征逐步改写成更容易完成任务的表示。它由多层线性变换与逐元素非线性激活交替组成，是最基本也最通用的前馈网络结构。

单层可写成：

\[\mathbf{h}=\phi(W\mathbf{x}+\mathbf{b})\]

多层堆叠后，可写为：

\[\mathbf{h}^{(1)}=\phi(W^{(1)}\mathbf{x}+\mathbf{b}^{(1)}),\quad \mathbf{h}^{(2)}=\phi(W^{(2)}\mathbf{h}^{(1)}+\mathbf{b}^{(2)}),\quad \hat{\mathbf{y}}=W^{(3)}\mathbf{h}^{(2)}+\mathbf{b}^{(3)}\]

这里 $W^{(l)}$ 和 $\mathbf{b}^{(l)}$ 是第 $l$ 层参数， $\mathbf{h}^{(l)}$ 是第 $l$ 层隐藏表示。所谓“逐层重写表示”，就是每一层都在回答一个更具体的问题：哪些原始模式值得保留、哪些组合值得放大、哪些方向更利于后续任务。于是，早期层往往捕捉较局部、较简单的模式，后期层则把这些模式组合成更抽象的语义结构。

MLP 比单层感知机强，关键不在“层数更多”本身，而在于层与层之间插入了非线性激活函数 $\phi$。如果没有非线性，多层线性变换满足

\[W^{(2)}(W^{(1)}\mathbf{x}+\mathbf{b}^{(1)})+\mathbf{b}^{(2)}=\tilde W\mathbf{x}+\tilde{\mathbf{b}}\]

最终仍然等价于一层线性变换，表达能力不会因为堆叠而提升。只有加入非线性后，网络才能把输入空间切分、折叠、拉伸并重新组合，形成复杂的分段线性或平滑非线性决策边界。

从几何角度看，单层模型像“用一个超平面切一次”；而多层 MLP 则是在表示空间中反复做坐标变换和非线性折叠，把原本难分的数据逐步变成线性头也能分开的形状。文中的激活函数对比图展示的正是这个过程：不同激活函数会把同一个三层网络变成完全不同的几何变换器。

在现代大模型中，MLP 的作用远不只是“附属模块”。在 Transformer 里，注意力层负责在 token 之间路由信息，而 MLP / Feed-Forward Network（FFN）则负责在每个位置上做通道维度的非线性特征变换，把路由来的信息重新编码进更强的表示。因此，很多语义模式、组合规则与任务相关知识，最终都会沉淀到这些大规模参数化的 MLP 权重中。

更进一步说，在 Transformer 的常见解释框架里，MLP / FFN 往往被看作事实性知识的重要载体之一。一个常见直觉是把 FFN 看成参数化的“键值存储器（Key-Value Memory）”：第一层线性变换更像在检测当前输入是否匹配某种模式或概念，第二层线性变换则把与该模式相关的语义方向重新写回残差流（Residual Stream）。这里的残差流，可以理解为 Transformer 里那条贯穿各层的主表示通道：每一层注意力与 MLP 的输出，都会通过残差相加的方式写回这条主通道，再交给后续层继续处理。因此，诸如“实体—属性”“术语—定义”“模式—响应”这类较稳定的关联，常常更容易在 MLP 权重里留下痕迹。

但这并不意味着“一个神经元就存一条事实”。更准确的描述是：知识通常以分布式方式存在于许多层、许多通道和许多参数方向里。单个神经元有时会对某种关系或概念特别敏感，因而出现所谓“知识神经元（Knowledge Neurons）”现象；但更稳定的事实表示，通常仍然依赖一组共同激活的单元和跨层传递的表示。可以把两类子层的分工概括为：注意力更擅长“去哪里找、和谁建立联系”，MLP 更擅长“把匹配到的模式变成可供后续层使用的语义内容”。因此，说 MLP 是知识的主要载体之一是合理的；说知识只存在于 MLP、完全不在注意力里，则过于简单。

激活函数

激活函数（Activation Function）的作用是给线性层引入非线性。如果没有激活函数，多层线性层叠起来仍然等价于一层线性变换，深度就失去了意义。

先给出一个实用的选型总表。它不代替后文的机制分析，但可以先回答工程上最常见的问题：某个激活函数通常应该放在输出层、隐藏层，还是特定结构里。

激活函数	输出范围	典型适用场景	主要原因
Sigmoid	$(0,1)$	二分类输出层；LSTM / GRU 门控	天然给出概率或开关强度，但隐藏层易饱和
Tanh	$(-1,1)$	较浅网络；需要零中心有界激活的结构	比 sigmoid 更利于优化，但深层仍会饱和
ReLU	$[0,+\infty)$	深层前馈网络、CNN 的默认隐藏层	不饱和、计算便宜、分段线性、优化稳定
Leaky ReLU	$(-\infty,+\infty)$	担心 Dying ReLU 的深层隐藏层	保留 ReLU 优点，同时避免负半轴完全断梯度
ELU	$(-\alpha,+\infty)$	希望激活更平滑、且均值更接近 0 的隐藏层	负区间平滑并可取负值，但计算开销高于 ReLU
GELU	$(-\infty,+\infty)$	Transformer、BERT 类模型的隐藏层	选择性强且过渡平滑，兼顾表达能力与优化平滑性
Swish / SiLU	$(-\infty,+\infty)$	现代卷积网络；部分大模型隐藏层	软门控、平滑、比硬截断更柔和
Softmax	各分量在 $(0,1)$ 且总和为 1	多分类输出层；语言模型词表分布输出	把 logits 归一化为概率分布，不用于普通隐藏层

Sigmoid

Sigmoid 把实数压到 $(0,1)$：

\[\sigma(x)=\frac{1}{1+e^{-x}}\]

Sigmoid 的优势在于输出天然落在 $(0,1)$，因此非常适合表示概率，尤其常用于二分类输出层或门控结构中。但它在隐藏层里的主要问题是饱和（saturation）：当输入绝对值较大时，函数会迅速贴近 0 或 1，此时导数接近 0，梯度在反向传播时会被不断压缩，深层网络因此容易出现梯度消失（Vanishing Gradient）。从优化角度看，这意味着前面层参数即使有误，也很难收到足够强的更新信号。

此外，sigmoid 的输出始终为正，不以 0 为中心，这会使后续层接收到带偏移的激活分布，通常不利于优化动态的稳定性。因此，sigmoid 今天更多保留在“需要概率解释”的输出层，或在 LSTM / GRU 等门控结构中充当开关函数，而不再是深层前馈隐藏层的默认选择。

Tanh

Tanh 的输出范围是 $(-1,1)$：

\[\tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}\]

Tanh 可以看作“零中心版 sigmoid”：它同样会在大幅度输入时饱和，但输出分布位于 $(-1,1)$ 且以 0 为中心，这通常比 sigmoid 更利于优化，因为后续层接收到的激活不再整体偏向正侧。对于需要表达“正负方向”差异的隐藏表示，tanh 往往也比 sigmoid 更自然。

不过，tanh 并没有解决饱和带来的根本问题：当 $|x|$ 很大时，导数仍接近 0，深层网络中的梯度传播依然会变弱。因此，在较深的前馈网络里，tanh 通常不如 ReLU 家族稳定；它更多出现在较浅网络、早期神经网络设计，或某些希望激活有界且零中心的结构中。

ReLU

ReLU（Rectified Linear Unit）定义为

\[\mathrm{ReLU}(x)=\max(0,x)\]

ReLU 看起来几乎“过于简单”，但它之所以长期有效，关键不在公式花哨，而在于它同时满足了深层优化最需要的几条性质。第一，ReLU 在正半轴不饱和（non-saturating）：当 $x>0$ 时导数恒为 1，梯度穿过这一单元时不会像 sigmoid / tanh 那样被持续压小，因此更有利于深层网络中的梯度传播。第二，ReLU 保留了非线性，但正半轴仍是线性的，这使整个网络变成分段线性（piecewise linear）系统：表达能力足够强，同时局部优化形状又比高度弯曲的饱和函数更“规整”。第三，负半轴直接截断会带来自然的稀疏激活（sparse activation）：并非所有单元都会在每个样本上同时活跃，这通常有助于提升表示分解能力，并降低无效共适应（co-adaptation）。这里的共适应，指多个神经元在训练中形成了过强的相互依赖：某个单元之所以有效，核心是因为它总是和另外几个特定单元“成套工作”。一旦输入分布变化，或其中某些单元没有按训练时那样响应，这种脆弱的协同关系就容易失效，从而削弱泛化能力。

从工程角度看，ReLU 的优势还包括计算代价极低，只需一次比较运算；这在大规模训练中会被成千上万层和数十亿次前向/反向传播放大。更深层的原因是：深度网络真正需要的核心是一个既能打破线性、又不会在大范围内把梯度压扁、还能让优化器容易工作的非线性。ReLU 恰好在这三点之间取得了非常实用的平衡，这就是为什么一个形式上极其朴素的函数，反而成为现代深度学习最成功的默认选择之一。它的代价也很明确：负区间梯度为 0，单元可能长期失活，这就是后面 Leaky ReLU、ELU、GELU 等变体继续改进的出发点。

Leaky ReLU

Leaky ReLU 给负半轴保留一个很小的斜率：

\[\mathrm{LeakyReLU}(x)=\max(\alpha x,x),\quad \alpha\ll 1\]

这样做是为了缓解“死亡 ReLU（Dying ReLU）”问题：若某神经元长期落在负区间，普通 ReLU 的梯度可能一直为 0，而 Leaky ReLU 仍保留一点更新信号。

从机制上看，Leaky ReLU 的核心改动很小，但很有针对性：它保留了 ReLU 在正半轴的不饱和与分段线性优点，同时避免把负半轴完全切断。这样即使某个单元暂时落入负区间，参数仍有机会通过非零梯度被重新拉回活跃状态。因此，Leaky ReLU 可以看作对 ReLU 的保守修正：表达风格几乎不变，但训练风险更低。

ELU

ELU（Exponential Linear Unit）在负半轴使用指数平滑：

\[\mathrm{ELU}(x)=\begin{cases}x,&x>0\\ \alpha(e^x-1),&x\le 0\end{cases}\]

它的目标是兼顾 ReLU 的优化优势和负区间的平滑性，使激活均值更接近 0。

与 Leaky ReLU 相比，ELU 在负半轴从简单直线转向用指数曲线平滑衰减到负饱和值。这带来两个效果：一是避免了 ReLU 在 0 点附近过于生硬的折线结构；二是允许激活出现稳定的负值，从而减轻隐藏表示整体偏正的问题。代价是计算比 ReLU 更重，且负区间在极小值处同样会逐渐饱和，因此它通常被视为“更平滑、更零中心”的 ReLU 变体，而非彻底不同的一类激活。

GELU

GELU（Gaussian Error Linear Unit）可理解为“按输入大小平滑地决定保留多少信号”。它对小正值和小负值做连续、概率化的保留，避免 ReLU 式硬截断，因此在 0 附近更平滑。

这种设计的价值在于：它仍然保留了 ReLU 家族的选择性——并非所有信号都被同等对待——但又避免了硬截断带来的尖锐折点和完全失活区。于是，GELU 往往能在“表达选择性”和“优化平滑性”之间取得更好的折中，这也是它在 Transformer、BERT 及其后续大量变体中被广泛采用的重要原因。

Swish / SiLU

Swish / SiLU 定义为

\[\mathrm{SiLU}(x)=x\,\sigma(x)\]

它是平滑、非单调的激活函数，在某些深层网络里表现优于 ReLU。其结构可以直接读成“输入值 $x$ 乘上一个 sigmoid 门控 $\sigma(x)$”：当 $x$ 很大时， $\sigma(x)\approx 1$，信号几乎原样通过；当 $x$ 很小时， $\sigma(x)\approx 0$，信号被显著压低；在 0 附近则是连续、平滑的软过渡。

这种形式的价值在于：它既不像 ReLU 那样做硬截断，也避免像 sigmoid 那样把输出彻底压进固定区间，让网络学到一种“按输入强度自适应通过多少”的软门控机制。结果是，SiLU / Swish 往往能在保持优化平滑性的同时，保留较强的表达灵活性，因此在一些现代卷积网络与大模型变体中表现良好。它可以看作介于 ReLU 家族与门控激活之间的一种折中设计。

SELU、Softplus 与 Softsign

SELU（Scaled Exponential Linear Unit）是为自归一化网络（Self-Normalizing Neural Network）设计的激活函数。它在 ELU 的基础上再加缩放系数，目标是让层间激活均值和方差自动朝稳定区间收敛。它在特定网络设计里很有理论吸引力，但现代主流 Transformer 和大规模视觉模型并不常把它作为默认激活。

Softplus 定义为 $\mathrm{Softplus}(x)=\log(1+e^x)$，可以看作 ReLU 的平滑版；Softsign 定义为 $\mathrm{Softsign}(x)=\frac{x}{1+|x|}$，则是比 tanh 更缓和的有界非线性。它们在激活函数发展史上很常见，也有特定结构会采用，但在现代大模型与主流深度网络里，工程默认仍更偏向 ReLU 家族、GELU、SiLU 与门控变体。

Softmax

Softmax 把一组实数分数（scores）映射为概率分布（Probability Distribution）。在分类与语言模型里，这组分数通常称为 logit（Logits）：它们是 softmax 之前的未归一化输出。

\[\mathrm{softmax}(z)_i=\frac{e^{z_i}}{\sum_{j=1}^{V} e^{z_j}}\]

logits 的两个关键性质：

logits 不需要是概率，可以是任意实数；softmax 才把它变成 $[0,1]$ 且和为 1 的分布。
softmax 对整体平移不敏感：对任意常数 $c$，有 $\mathrm{softmax}(z)=\mathrm{softmax}(z+c\mathbf{1})$。因此实现里常用 $z\leftarrow z-\max_i z_i$ 做数值稳定（Numerical Stability）。

这说明 softmax 真正关心的是各个 logit 之间的相对差值，而非某个 logit 的绝对数值。若把所有分数同时加 10，模型对“哪一类更占优”的判断不会改变，因为指数项会在分子和分母里同时乘上 $e^{10}$，最终完全约掉。改变 softmax 输出的，是某个类别相对其他类别高了多少，而非整体抬高或压低所有分数。

因此，logit 更适合理解为“未归一化偏好分数（unnormalized preference scores）”，而非“概率雏形”。例如两类 logits 从 $(1,2)$ 变成 $(101,102)$，softmax 输出完全相同；但若从 $(1,2)$ 变成 $(1,5)$，第二类相对第一类的优势被显著拉大，概率才会明显变化。

在语言模型（Language Model）中，给定最后一层隐藏状态 $h\in\mathbb{R}^{d_{\text{model}}}$，线性输出头产生词表大小 $V$ 的 logits： $z=hW_{\text{vocab}}+b$，再经 softmax 得到下一个 token 的分布。若采用权重共享（Weight Tying），则输入嵌入表 $E\in\mathbb{R}^{V\;\times d_{\text{model}}}$ 与输出头满足 $W_{\text{vocab}}=E^\top$，于是可直接写成 $z=hE^\top+b$。

Softmax和分类任务

在多分类任务里，这几个概念实际上是一条连续的计算链：任务头先输出 logits $z\in\mathbb{R}^{C}$，softmax 把它们变成条件概率 $p(y=i|x)$，再取真实类别 $c$ 的负对数概率作为单样本损失，也就是负对数似然（Negative Log-Likelihood, NLL）。

\[p(y=i|x)=\mathrm{softmax}(z)_i=\frac{e^{z_i}}{\sum_{j=1}^{C}e^{z_j}},\qquad \ell_{\mathrm{NLL}}(z,c)=-\log p(y=c|x)\]

把两步合起来，NLL 可以直接写成 logits 的函数：

\[\ell_{\mathrm{NLL}}(z,c)=-\log\frac{e^{z_c}}{\sum_{j=1}^{C}e^{z_j}}=-z_c+\log\sum_{j=1}^{C}e^{z_j}\]

这个式子把训练目标拆成了两部分：第一项 $-z_c$ 要求真实类别的 logit 足够大；第二项 $\log\sum_j e^{z_j}$ 是归一化项（log-sum-exp），它把所有类别的竞争都算进去。因此训练核心是要让它相对其他类别更占优势。

softmax 的平移不变性（Translation Invariance）在这里也能直接看见。对任意常数 $a$，若把所有 logits 同时改为 $z+a\mathbf{1}$，则 softmax 概率不变，NLL 也不变：

\[\mathrm{softmax}(z+a\mathbf{1})_i=\mathrm{softmax}(z)_i,\qquad \ell_{\mathrm{NLL}}(z+a\mathbf{1},c)=\ell_{\mathrm{NLL}}(z,c)\]

因此 logits 的绝对零点没有意义，真正有意义的是类别之间的相对差值。工程实现里常把 $z$ 先整体减去 $\max_i z_i$，再计算 softmax 或 log-sum-exp。这样不会改变概率与损失，但能显著降低指数溢出的风险。

损失函数

术语区分：假设函数（Hypothesis Function）/模型 $f_\theta$ 定义“模型在做什么映射”；样本损失（Loss Function）定义在单样本上；代价函数/成本函数（Cost Function）是把样本损失在全数据集上做平均或求和后的经验风险；目标函数（Objective Function）是优化器真正要优化的函数，最常见写法是 $J(\theta)=L(\theta)+\lambda\Omega(\theta)$。

回归损失

MSE

均方误差（Mean Squared Error, MSE）定义为

\[\ell_{\mathrm{MSE}}(y,\hat y)=(\hat y-y)^2\]

平方的作用是让大误差被放大处罚。若一个样本错 10，另一个样本错 1，那么前者在 MSE 里核心是“重 100 倍”。因此 MSE 很适合你明确希望重罚大错的场景，也对应前面讲过的高斯噪声假设。

MAE

平均绝对误差（Mean Absolute Error, MAE）对应单样本形式

\[\ell_{\mathrm{MAE}}(y,\hat y)=|\hat y-y|\]

它直接度量偏差大小，对离群点更鲁棒，因为不会像平方那样把大误差急剧放大。若做房价预测，数据中存在一批价格远高于主体分布的豪宅样本时，MAE 往往比 MSE 更稳；这里的“主体分布”指的是样本中占大多数的普通住宅价格区间，而豪宅样本相对它明显偏高。这样一来，哪怕豪宅样本数量不多，它们也会在 MSE 下因为误差被平方而获得过大的影响力。

Huber Loss

Huber Loss 结合了 MSE 与 MAE：误差小时像平方误差，误差大时像绝对误差。设阈值 $\delta$，则

\[\ell_\delta(r)=\begin{cases}\frac{1}{2}r^2,&|r|\le \delta\\ \delta(|r|-\frac{1}{2}\delta),&|r|>\delta\end{cases},\quad r=\hat y-y\]

这条式子的直觉是：小误差区间内保持平滑、便于优化；大误差区间内降低对离群点的过度敏感。它像“正常误差严肃处理，极端异常别让它一票否决整个模型”。

分类损失

交叉熵损失（Binary）

二分类交叉熵（Binary Cross-Entropy, BCE）用来训练输出概率 $p\in(0,1)$ 的二分类器。这里 $p$ 通常表示模型预测“正类”的概率， $y\in\{0,1\}$ 是真实标签： $y=1$ 表示正类， $y=0$ 表示负类。

\[\ell_{\mathrm{BCE}}(y,p)=-\Big(y\log p+(1-y)\log(1-p)\Big)\]

左边的 $\ell_{\mathrm{BCE}}(y,p)$ 表示“单个样本在真实标签为 $y$、模型预测正类概率为 $p$ 时的 BCE 损失值”。也就是说，这核心是一个标量惩罚：预测越符合真实标签，它越小；预测越违背真实标签，它越大。

这条公式会根据 $y$ 的取值自动选择应当惩罚哪一项。当 $y=1$ 时，式中的 $(1-y)=0$，因此第二项消失，损失化简为 $-\log p$；当 $y=0$ 时，第一项中的 $y=0$，因此第一项消失，损失化简为 $-\log(1-p)$。于是它惩罚的本质就是：让真实类别对应的概率尽可能高。

数值例子（自然对数）：若 $y=1$ 且 $p=0.9$，则 $\ell\approx 0.105$；若 $p=0.1$，则 $\ell\approx 2.303$。正确但不自信会被罚，错误且自信会被重罚。

交叉熵损失（Categorical）

多分类交叉熵（Categorical Cross-Entropy, CE）与 softmax 通常配套使用。这里 $y_i$ 是真实分布（Ground-Truth Distribution）在第 $i$ 类上的概率质量， $p_i$ 是模型预测分布（Predicted Distribution）在第 $i$ 类上的概率。若类别总数为 $C$，则单样本损失写成：

\[\ell_{\mathrm{CE}}(y,p)=-\sum_{i=1}^{C} y_i\log p_i\]

左边的 $\ell_{\mathrm{CE}}(y,p)$ 表示“当真实标签分布为 $y$、模型预测分布为 $p$ 时，这个样本对应的交叉熵损失值”。其本质是：用真实标签分布 $y$ 作为权重，对预测分布的负对数概率 $-\log p_i$ 做加权平均。

当 $y$ 是 one-hot 分布时，只有真实类别 $c$ 那一维的权重为 1，其余维度权重都为 0，因此求和会自动塌缩成单项：

\[\ell=-\log p_c\]

这正是分类任务里最常见的形式。它与最大似然估计（Maximum Likelihood Estimation, MLE）完全一致：最小化交叉熵等价于最大化真实类别的对数似然。

若 $y$ 从 one-hot 转向一个在多个类别上分配了非零概率质量的分布，那么交叉熵就已经从读取单个类别 $p_c$ 扩展到对整条标签分布做加权。常见来源有两类。

第一类是软标签（Soft Label）。它指真实监督信号本身就是一个概率分布，而非“只有一个绝对正确类别”的硬标签（Hard Label）。例如一张图像可能被标注为“70% 像猫、30% 像狐狸”，或一个样本本身就带有多标注者投票汇总后的类别分布。在这种情况下， $y_i$ 直接表示第 $i$ 类的目标概率，交叉熵自然要对所有类别一起计算。

第二类是教师分布蒸馏（Knowledge Distillation from Teacher Distribution）。知识蒸馏（Knowledge Distillation）的做法是：让学生去拟合教师模型（Teacher Model）给出的类别分布，而非只依赖人工标签单独监督学生模型（Student Model）。若教师在某个样本上输出 $q$，学生输出 $p$，则训练目标常包含 $-\sum_i q_i\log p_i$ 这样的交叉熵或等价的 KL 散度项。它传递的不只是“哪一类是对的”，还传递“其余类别分别有多像”，因此常被称为暗知识（Dark Knowledge）。

这两种情况的共同点是：标签本身已经核心是一条分布。于是交叉熵的计算对象就已经从“真实类别那一项”扩展到整个目标分布与预测分布之间的匹配程度。Label Smoothing 也会把 one-hot 改成软分布，但它承担的是训练目标修正的角色，因此放在后文“分类任务正则化”里更清晰。

从信息论角度看，交叉熵的标准定义是两个分布 $P$ 与 $Q$ 之间的

\[H(P,Q)=-\sum_x P(x)\log Q(x)\]

分类里的 $\ell_{\mathrm{CE}}(y,p)$ 与这个定义并不矛盾，它只是把信息论中的 $P$ 和 $Q$ 分别具体化成了“单个样本对应的真实标签分布 $y$”与“模型在这个样本上的预测分布 $p$”。若标签是 one-hot，那么 $P$ 退化成一个只在真实类别处取值为 1 的离散分布，于是信息论里的交叉熵自然退化成 $-\log p_c$。

进一步地，交叉熵与 KL 散度（Kullback–Leibler Divergence）的关系可以直接写成：

\[H(P,Q)=H(P)+D_{\mathrm{KL}}(P\|Q)\]

这里 $H(P)=-\sum_x P(x)\log P(x)$ 是真实分布 $P$ 自身的熵（Entropy），只由数据分布决定； $D_{\mathrm{KL}}(P\|Q)=\sum_x P(x)\log\frac{P(x)}{Q(x)}$ 是 KL 散度，用来衡量预测分布 $Q$ 相对真实分布 $P$ 的偏离程度。于是，在训练数据固定时， $H(P)$ 是常数，最小化交叉熵 $H(P,Q)$ 就等价于最小化 $D_{\mathrm{KL}}(P\|Q)$。

因此，“最小化交叉熵就是最小化 KL 散度”这句话在监督学习里通常成立，但更准确的表述是：在真实分布固定不变时，最小化交叉熵与最小化预测分布对真实分布的 KL 偏离是等价的。KL 散度确实可以理解为“与真实分布的差异或偏离”，但它并非对称距离（Symmetric Distance）：一般有 $D_{\mathrm{KL}}(P\|Q) \neq D_{\mathrm{KL}}(Q\|P)$，也不满足严格距离函数的三角不等式，因此更准确的名称是分布失配（distribution mismatch）或相对熵（relative entropy）。

若进一步把 $p$ 写成 softmax 作用在 logits $z$ 上，则多分类交叉熵可直接写成：

\[\ell_{\mathrm{CE}}(z,c)=-\log\mathrm{softmax}(z)_c=-z_c+\log\sum_{j=1}^{C}e^{z_j}\]

这条式子把任务头和损失函数直接接起来：线性头先输出 logits，softmax 把它们归一化为概率，交叉熵再读取真实类别的负对数概率。由于 softmax 具有平移不变性，给所有 logits 同时加上同一个常数不会改变这个损失，因此实现中通常直接从 logits 计算交叉熵（log-sum-exp 形式），并先减去 $\max_j z_j$ 做数值稳定，而非显式先算 softmax 再取 log。

Focal Loss

Focal Loss 常用于类别极不平衡的分类任务，尤其是目标检测（Object Detection）这类“负样本远多于正样本”的场景。它核心是在交叉熵前再乘一个与样本难度相关的调制因子，使已经分得很对的容易样本贡献变小，把梯度预算更多留给困难样本：

\[\ell_{\mathrm{focal}}(p_t)=-(1-p_t)^\gamma\log p_t\]

这里 $p_t$ 表示“真实类别对应的预测概率”：若真实标签 $y=1$，则 $p_t=p$；若 $y=0$，则 $p_t=1-p$。因此 $-\log p_t$ 就是普通交叉熵，而前面的 $(1-p_t)^\gamma$ 是额外加上的难度调制项。参数 $\gamma\ge 0$ 控制聚焦强度： $\gamma=0$ 时，Focal Loss 退化回普通交叉熵； $\gamma$ 越大，对容易样本的压低越明显。

这个机制的关键在于样本难度如何反映到权重上。若某个样本已经分得很对，例如真实类别概率 $p_t=0.99$，则调制因子 $(1-p_t)^\gamma$ 会非常小；以 $\gamma=2$ 为例，权重大约只有 $(0.01)^2=10^{-4}$，这意味着它对总损失和梯度的影响被大幅削弱。相反，若某个样本很难，例如 $p_t=0.2$，则权重约为 $(0.8)^2=0.64$，其损失会被较大程度保留。于是训练过程不再被海量“早就分对的简单样本”主导，而会持续关注误分样本、边界样本和少数类样本。

目标检测是最典型的应用例子。以单阶段检测器（One-stage Detector）为例，一张图像上往往有成千上万个候选框（Anchors），但真正包含目标的正样本只占极少数；绝大多数候选框都是背景。若直接使用普通交叉熵，训练会被这些“背景且容易判断”的负样本淹没：它们单个损失虽小，但数量太多，累积后仍然主导梯度。Focal Loss 的作用正是把这批容易背景样本的权重压下去，让模型把更多注意力放在少数正样本、遮挡目标、边界模糊目标，以及那些看起来像目标但其实是背景的困难负样本上。这样做通常会显著改善长尾检测与前景-背景极不平衡时的训练效果。

Hinge Loss

Hinge Loss 是 SVM 常用的分类损失：

\[\ell_{\mathrm{hinge}}(y,f)=\max(0,1-yf),\quad y\in\{-1,+1\}\]

其中 $f$ 是模型分数而非概率。当 $yf\ge 1$ 时，说明不仅分类正确，而且留出了足够间隔，损失为 0；当 $yf<1$ 时，就要受罚。它强调的不仅“分对”，还“分对且留有安全距离”。

度量学习损失

度量学习（Metric Learning）不直接预测类别，通常会学习一个表示空间，让“应该相似的样本靠近，不该相似的样本拉远”。这类损失在检索、人脸识别、推荐召回和 embedding 学习中非常常见。

Contrastive Loss

Contrastive Loss 处理样本对（pair）。若一对样本应相似，则拉近它们；若应不同，则至少推开到某个间隔 $m$ 之外：

\[\ell=y\,d^2+(1-y)\max(0,m-d)^2\]

这里 $d$ 是两者在嵌入空间中的距离， $y=1$ 表示正对， $y=0$ 表示负对。它像“朋友要坐得近，陌生人至少别挤在一起”。

Triplet Loss

Triplet Loss 使用三元组：锚点（Anchor）、正样本（Positive）、负样本（Negative）。目标是让锚点离正样本比离负样本更近至少一个 margin：

\[\ell=\max\big(0,\ d(a,p)-d(a,n)+m\big)\]

这条式子表达的是一种相对排序约束，而非绝对相似度分数。它非常适合“谁比谁更像”的任务，例如人脸验证：同一个人的两张照片应比不同人的照片更近。

InfoNCE

InfoNCE 是现代对比学习最常见的损失之一。对一个锚点来说，它把正样本放进一堆候选里，要求模型把正样本打分最高：

\[-\log \frac{\exp(\mathrm{sim}(z_i,z_i^+)/\tau)}{\sum_j \exp(\mathrm{sim}(z_i,z_j)/\tau)}\]

分子是正确配对，分母是所有候选。这个结构和 softmax 分类非常像，只不过类别从固定标签转向“在一堆候选里，谁才是真正匹配的那个”。在大语言模型 embedding、图像表征学习和多模态对齐里，它几乎是标准配置。

任务头（Task Head）

任务头（Task Head）是把主干网络（Backbone）产出的隐藏表示（Hidden Representation）映射到具体任务输出空间的模块。主干负责抽取通用特征，任务头负责把特征“读出来”并对齐到目标形式（类别、数值、序列标签、跨度、关系等）。在工程上，绝大多数“用 Transformer 做下游任务”都可以写成：Transformer backbone + task head + task loss。

中间表示、logits 与任务头的关系

主干网络输出的隐藏表示（Hidden Representation）是任务头的输入，任务头则是把这种内部表示读成具体任务输出的最后一层或最后几层变换。若把主干输出记为 $h$、$H$ 或更一般的张量 $\mathcal{H}$，则任务头通常先做一次线性读出（Linear Readout）得到分数，再视任务类型决定是否接 sigmoid、softmax、CRF 解码或直接保留实数输出。

logits 就是在这个读出阶段最常见的中间产物。它们是任务头输出、但尚未归一化或尚未解码的原始分数。例如，多分类头常先产生 $z\in\mathbb{R}^{C}$，这里 $C$ 是类别数， $z_c$ 表示模型对第 $c$ 类的偏好分数；softmax 之后这些分数才变成概率。对 token 分类任务，task head 产生的核心是一整张 logits 矩阵 $Z\in\mathbb{R}^{L\times C}$；对语言模型，输出则是词表 logits $Z\in\mathbb{R}^{L\times V}$，其中 $V$ 是词表大小。

因此，关系可以概括为：输入先被 backbone 编码成中间表示，中间表示再被 task head 读成 logits 或其他任务分数，最后再由概率映射、解码器或损失函数把这些分数变成最终预测。logits 核心是“距离最终任务输出只差一步”的那类任务分数；它们通常由任务头生成，而非由主干网络中间每一层都显式生成。

任务头输出对照表

不同任务头的差异，最核心地体现在“直接输出什么张量、这些张量后面还要经过什么处理”这两个问题上。下面这张表把常见任务头的输入形状、直接输出和后续处理并列起来，便于从工程实现角度快速对照。

任务类型	任务头常见输入	任务头直接输出	后续处理
二分类	单样本表示 $h\in\mathbb{R}^{d}$	标量 logit $z\in\mathbb{R}$，或二维 logits $\mathbf{z}\in\mathbb{R}^{2}$	sigmoid 或 softmax，得到类别概率
多分类	单样本表示 $h\in\mathbb{R}^{d}$	类别 logits 向量 $\mathbf{z}\in\mathbb{R}^{C}$	softmax 后得到 $C$ 类概率
多标签分类	单样本表示 $h\in\mathbb{R}^{d}$	每个标签一个 logit，组成 $\mathbf{z}\in\mathbb{R}^{C}$	对每一维独立做 sigmoid，而非在类别间做 softmax
回归	单样本表示 $h\in\mathbb{R}^{d}$	实数或向量 $\hat{\mathbf{y}}\in\mathbb{R}^{m}$	通常不做概率归一化，直接配合回归损失
Token 分类 / NER	序列表示 $H\in\mathbb{R}^{L\times d}$	token-level logits 矩阵 $Z\in\mathbb{R}^{L\times C}$	逐 token softmax，或接 CRF 做全局解码
语言模型 / 文本生成	序列表示 $H\in\mathbb{R}^{L\times d}$	词表 logits $Z\in\mathbb{R}^{L\times V}$	对每个位置在词表维做 softmax，得到 next-token 分布
跨度抽取（Span Extraction）	序列表示 $H\in\mathbb{R}^{L\times d}$	起点 logits $\mathbf{a}\in\mathbb{R}^{L}$ 与终点 logits $\mathbf{b}\in\mathbb{R}^{L}$，或 span 分数矩阵	在起止位置上做 softmax 或联合评分，输出片段边界
依存句法 / 关系抽取	成对表示 $h_i,h_j$ 或序列表示 $H$	边分数矩阵 $S\in\mathbb{R}^{L\times L}$，或关系分数张量 $\mathcal{S}\in\mathbb{R}^{L\times L\times C}$	argmax、biaffine 解码或图结构约束解码
度量学习 / 检索	单样本表示 $h\in\mathbb{R}^{d}$	embedding 向量 $e\in\mathbb{R}^{d'}$	不直接输出 logits；后续用相似度函数或对比损失比较

这张表的关键在于区分“任务头直接输出什么”和“用户最终看到什么”。很多任务头直接输出的核心是 logits、边分数、起止位置分数或 embedding。概率、标签、生成 token、依存边、异常分数等最终结果，通常还需要经过归一化、解码、阈值化或搜索过程才能得到。

分类头

分类头（Classification Head）的核心职责，是把主干网络输出的表示 $h\in\mathbb{R}^{d}$ 变成类别分数（Class Scores）或 logits。最常见的做法是一层线性映射：

\[\mathbf{z}=W\mathbf{h}+\mathbf{b}\]

这里 $\mathbf{h}\in\mathbb{R}^{d}$ 是单个样本的隐藏表示， $W$ 是任务头权重矩阵， $\mathbf{b}$ 是偏置向量， $\mathbf{z}$ 是未归一化类别分数。分类任务的关键区别不在于“有没有线性层”，而在于：输出空间是否互斥、每个样本允许几个标签成立、以及这些分数之后接什么归一化与损失。

直觉上，这个线性头就是一个“可学习的读出（Readout）”：在高维表示空间里用超平面（Hyperplane）切分区域，或用线性映射把表示投影到目标坐标系。这里的“读出”指的是：主干网络先把输入编码成内部表示，而任务头再把这种内部表示转换成模型真正需要输出的量，例如类别 logits、词表 logits、回归值、span 分数或关系分数。换言之，读出核心是把已经形成的表示翻译成任务空间中的可判定分数。

二分类

二分类（Binary Classification）要求每个样本只在两个互斥类别中选一个，例如“垃圾 / 非垃圾”“欺诈 / 正常”“阳性 / 阴性”。最常见的写法是输出一个标量 logit：

\[z=\mathbf{w}^\top \mathbf{h}+b\]

然后通过 sigmoid 得到正类概率：

\[p=P(y=1\mid x)=\sigma(z)=\frac{1}{1+e^{-z}}\]

这里 $z$ 是模型对正类的原始偏好分数， $p$ 是正类概率，负类概率则是 $1-p$。训练时通常配合二分类交叉熵（Binary Cross-Entropy, BCE）。工程上也可以输出二维 logits $\mathbf{z}\in\mathbb{R}^{2}$，再接 softmax；但若任务确实只有两个互斥类别，单 logit + sigmoid 更常见，也更经济。

多分类

多分类（Multi-class Classification）要求每个样本在 $C$ 个互斥类别中恰好选一个类别，例如“猫 / 狗 / 鸟”“体育 / 财经 / 科技 / 娱乐”。此时任务头不会只输出一个标量，会输出长度为 $C$ 的 logits 向量：

\[\mathbf{z}=W\mathbf{h}+\mathbf{b},\qquad W\in\mathbb{R}^{C\times d},\ \mathbf{z}\in\mathbb{R}^{C}\]

其中第 $c$ 维 $z_c$ 表示模型对第 $c$ 个类别的原始偏好分数。由于这些类别互斥，后续通常接 softmax，把整组分数归一化成概率分布：

\[p(y=c\mid x)=\frac{e^{z_c}}{\sum_{j=1}^{C}e^{z_j}}\]

这条式子的含义很直接：分子 $e^{z_c}$ 是第 $c$ 类的相对强度，分母 $\sum_{j=1}^{C}e^{z_j}$ 把所有类别一起归一化，因此最终得到的 $p(y=c\mid x)$ 落在 $(0,1)$ 之间，且所有类别概率和为 1。也正因为总和必须为 1，多分类头天然表达的是“类间竞争”：某一类概率上升，其他类的总概率就必须下降。

训练时通常直接把 logits $\mathbf{z}$ 输入多分类交叉熵（Cross-Entropy）损失，而非手动先算 softmax 再取对数。这样做的原因是数值稳定：损失函数内部会把 softmax 与对数合并成 log-sum-exp 形式，避免指数溢出。推理时若只关心类别标签，直接取 $\arg\max_c z_c$ 或 $\arg\max_c p(y=c\mid x)$ 即可；若需要概率、阈值或校准，再显式使用 softmax。

多标签分类

多标签分类（Multi-label Classification）与多分类名字相近，但任务结构完全不同。它核心是同一个样本可以同时拥有多个标签。例如一篇文章可以同时属于“AI、NLP、Transformer”，一张图片可以同时打上“室内、人物、宠物”三个标签。

这种任务里，标签之间不再互斥，因此不能使用 softmax。若仍用 softmax，所有标签概率会被强制归一化为和 1，相当于错误地假设“只能有一个标签成立”。多标签头通常输出 $C$ 个 logits：

\[\mathbf{z}=W\mathbf{h}+\mathbf{b},\qquad \mathbf{z}\in\mathbb{R}^{C}\]

但后续核心是对每一维独立做 sigmoid：

\[p_i=\sigma(z_i),\qquad i=1,\dots,C\]

这里 $p_i$ 表示“第 $i$ 个标签是否成立”的独立概率。训练时通常使用逐维二分类交叉熵，即把每个标签都当作一个独立的二分类问题，再在标签维上求和或取平均：

\[\ell_{\mathrm{multi\mbox{-}label}}=-\sum_{i=1}^{C}\Big(y_i\log p_i+(1-y_i)\log(1-p_i)\Big)\]

因此，多标签头的关键核心是这 $C$ 维之间不竞争，每一维都在独立回答一个 yes/no 问题。推理时也核心是对每一维做阈值判断，例如输出所有满足 $p_i>0.5$ 的标签，或按业务分别设定不同标签阈值。

回归头

回归头（Regression Head）直接输出连续数值（Continuous Value）或连续向量，不负责在离散类别之间做判别。最常见的形式仍然是一层线性映射：

\[\hat{\mathbf{y}}=W\mathbf{h}+\mathbf{b},\qquad \hat{\mathbf{y}}\in\mathbb{R}^{m}\]

这里 $m$ 是回归目标维度。若 $m=1$，就是标量回归，例如房价预测、评分预测、温度预测；若 $m>1$，则是多维回归，例如边界框坐标回归、姿态参数回归或多目标数值预测。

回归头通常不接 softmax，也不强制输出落在 $(0,1)$。原因很简单：回归任务关心的是数值大小本身，而非类别概率竞争。训练时常配合均方误差（MSE）、平均绝对误差（MAE）或 Huber Loss。只有当目标值本身有明确范围约束时，才会额外接 sigmoid、tanh 或其他变换，把输出压到指定区间。

语言模型头（LM Head）

语言模型头（Language Modeling Head, LM Head）是把隐藏表示映射回词表空间的输出头。只要任务目标是“在若干位置上对词表中的 token 做预测”，就会出现这一类头；因此它不只存在于 Decoder-only 大模型，也存在于 Encoder-only 的掩码语言模型（Masked Language Model, MLM）以及 Encoder-Decoder 的生成端。它读取主干网络在每个位置输出的隐藏状态 $H\in\mathbb{R}^{L\;\times d_{\text{model}}}$，并把每个位置的表示投影到整张词表空间，得到词表 logits：

\[Z = HW_{\text{vocab}} + \mathbf{1}b^\top,\quad W_{\text{vocab}}\in\mathbb{R}^{d_{\text{model}}\;\times {V}},\ Z\in\mathbb{R}^{L\;\times {V}}\]

这条式子先描述整体矩阵，再自然落到单个位置。这里 $L$ 是序列长度，表示当前一共有多少个位置； $d_{\text{model}}$ 是隐藏维度； $V$ 是词表大小（Vocabulary Size）。因此，隐藏状态矩阵 $H\in\mathbb{R}^{L\;\times d_{\text{model}}}$ 的每一行对应一个位置的表示，输出权重矩阵 $W_{\text{vocab}}\in\mathbb{R}^{d_{\text{model}}\;\times {V}}$ 的每一列对应“词表中某个 token 作为候选答案时的读出方向”，最终得到的 $Z\in\mathbb{R}^{L\;\times {V}}$ 就是一个“位置 $\times$ 词表”的打分表：行表示位置，列表示候选 token。

把这张打分表聚焦到第 $t$ 行，就得到 $Z_{t,:}\in\mathbb{R}^{V}$，也就是“第 $t$ 个位置对整张词表所有 token 的一整行 logits”。这里 $H_t\in\mathbb{R}^{d_{\text{model}}}$ 表示第 $t$ 个位置的隐藏状态，冒号 $:$ 表示该行的全部列；若写成 $Z_{:,i}$，则表示第 $i$ 列，也就是“所有位置对第 $i$ 个 token 的分数”。继续缩小到单个元素 $Z_{t,i}$，它表示“在第 $t$ 个位置，把词表中第 $i$ 个 token 作为下一个输出时的原始分数”。

把矩阵形式按单个位置、单个候选 token 展开后，打分可写成：

\[Z_{t,i}=H_t\cdot W_{\text{vocab},:,i}+b_i\]

这里 $W_{\text{vocab},:,i}$ 表示输出权重矩阵的第 $i$ 列，也就是与词表第 $i$ 个 token 对应的参数向量； $b_i$ 是该 token 的偏置项。这个公式的读法是：拿第 $t$ 个位置的隐藏表示 $H_t$，与“token $i$ 的读出向量”做一次点积，再加偏置，就得到该 token 在该位置的 logit。

LM Head 与分类头的根本区别在于输出空间。普通分类头通常只需输出 $C$ 个类别分数；LM Head 则要在每个位置输出 $V$ 个分数，而 $V$ 往往达到几万甚至几十万。因此，LM Head 本质上是“逐位置的大规模多分类器”：每一步都在问“下一个 token 应该是词表中的哪一个”。

同一个 LM Head 公式，在不同 Transformer 架构里的使用方式并不相同。对 Encoder-only 模型，LM Head 通常服务于掩码语言建模：模型先用双向注意力得到各位置隐藏状态，再只在被遮蔽的位置上读取 $Z_{t,:}$ 来预测原 token；这一过程通常是一次性编码，不涉及自回归生成，也没有 KV Cache 逐步增长的问题。对 Decoder-only 模型，LM Head 用于 next-token 预测：第 $t$ 个位置的隐藏状态对应预测 $x_{t+1}$，推理时会逐步生成，因此会配合因果注意力（Causal Self-Attention）和 KV Cache。对 Encoder-Decoder 模型，LM Head 位于解码器一侧：编码器先产出源序列表示，解码器再在因果自注意力与交叉注意力（Cross-Attention）的共同作用下生成目标侧隐藏状态，最后由 LM Head 映射到词表。

训练时，自回归语言模型（Autoregressive Language Model）通常采用 next-token 目标：第 $t$ 个位置的隐藏状态 $H_t$ 用来预测真实的下一个 token $x_{t+1}$。对应损失可写成：

\[\mathcal{L}_{\mathrm{LM}}=-\sum_{t=1}^{L-1}\log \frac{\exp(Z_{t,x_{t+1}})}{\sum_{i=1}^{V}\exp(Z_{t,i})}\]

这个损失公式也可以逐项拆开理解。左边的 $\mathcal{L}_{\mathrm{LM}}$ 是整段序列的语言模型损失；求和下标 $t=1,\dots,L-1$ 表示：前 $L-1$ 个位置都要各自预测一次下一个 token。分子里的 $\exp(Z_{t,x_{t+1}})$ 表示“真实下一个 token 在第 $t$ 个位置对应的指数化分数”；这里 $x_{t+1}$ 是真实的下一个 token id，所以 $Z_{t,x_{t+1}}$ 表示在位置 $t$ 对这个真实 token 的 logit。分母 $\sum_{i=1}^{V}\exp(Z_{t,i})$ 则把整张词表所有候选 token 的分数全部加起来做归一化。因此整个分式就是“在位置 $t$ 预测真实下一个 token 的概率”，外面的负对数再把它变成训练损失。

推理时则核心是先对 $Z_{t,:}$ 做 softmax 得到下一个 token 的条件分布。这里的 $Z_{t,:}$ 核心是长度为 $V$ 的向量，包含位置 $t$ 对整张词表每个 token 的分数。对这整行做 softmax 后，得到的是：

\[p(x_{t+1}=i\mid x_{\le t})=\frac{e^{Z_{t,i}}}{\sum_{j=1}^{V}e^{Z_{t,j}}},\qquad i=1,\dots,V\]

这条式子表示：在已经看到前缀 $x_{\le t}$ 的条件下，下一个 token 取词表中第 $i$ 个词的概率是多少。随后再配合贪心搜索（Greedy Decoding）、束搜索（Beam Search）、温度采样（Temperature Sampling）、top-k / top-p 等策略，从这组概率中选出真正生成的 token。也就是说，LM Head 负责把隐藏表示变成“词表级候选分数”，真正的文本生成还要再经过一层解码（Decoding）策略。

很多 LLM 还会使用权重共享（Weight Tying）：把输入嵌入表 $E\in\mathbb{R}^{V\;\times d_{\text{model}}}$ 与输出头绑定，使 $W_{\text{vocab}}=E^\top$。这样一来，输入端“一个 token 的向量表示”与输出端“一个 token 作为候选答案时的原型向量”共用同一套参数空间。它通常既能减少参数量，也让输入和输出语义空间保持更强一致性。

从工程角度看，LM Head 往往比分类头更贵，因为它直接与词表大小 $V$ 成正比：词表越大，最后一层的矩阵乘法、softmax 和采样都越重。因此，大模型的推理优化常会专门围绕 LM Head 展开，例如 fused softmax、采样优化、logits processor、词表裁剪或 speculative decoding 等。本质上，这些优化都在解决同一个问题：如何更高效地从词表 logits 走到最终生成 token。

序列标注头（Token Classification）

序列标注（Sequence Labeling）/Token 分类（Token Classification）要求对每个 token 预测一个标签（例如 NER）。设主干输出 $H\in\mathbb{R}^{L\times d}$（长度 $L$，隐藏维 $d$），则逐 token 线性头为：

\[Z=HW^\top+\mathbf{1}b^\top,\quad W\in\mathbb{R}^{C\times d},\ Z\in\mathbb{R}^{L\times C}\]

对第 $t$ 个 token，用 softmax 得到 $p(y_t|x)$ 并用逐 token 交叉熵训练。该做法把每个位置的标签看作条件独立，能工作，但会忽略标签之间的结构约束（例如 BIO 体系中不允许

I-ORG

紧跟

）。

例：对 “Apple Inc. is in California” 的 NER（Named Entity Recognition），合理标签序列可能是

B-ORG I-ORG O O B-LOC

。若逐 token softmax 独立预测，模型可能输出不合法的组合；这类“结构错误”通常需要结构化任务头（Structured Head）来显式建模。

条件随机场（CRF）

线性链条件随机场（Linear-chain Conditional Random Field, CRF）在 token 分类头上增加一个转移矩阵（Transition Matrix）$A\in\mathbb{R}^{C\times C}$，对整段标签序列做归一化建模。令发射分数（Emission Score）为 $s_t(y)=Z_{t,y}$，则序列 $y_{1:L}$ 的总分为：

\[\mathrm{score}(x,y)=\sum_{t=1}^{L}\Big(A_{y_{t-1},y_t}+s_t(y_t)\Big)\]

并定义条件概率：

\[p(y|x)=\frac{\exp(\mathrm{score}(x,y))}{\sum_{y'}\exp(\mathrm{score}(x,y'))}\]

训练最小化负对数似然（Negative Log-Likelihood）；解码用 Viterbi 算法（动态规划）求 $\arg\max_y \mathrm{score}(x,y)$。CRF 的收益是把“标签合法性/连贯性”学进转移项，从而显著减少结构错误。

双仿射头（Biaffine）

双仿射（Biaffine）任务头常用于“成对打分”（Pairwise Scoring），例如依存句法（Dependency Parsing）里的“当前词应依附到哪个词”，或关系抽取（Relation Extraction）里的“两个实体之间是否存在某种关系”。它的名字可以按层级直接理解：对一个变量， $Wx$ 是线性， $Wx+b$ 是仿射；对两个变量， $h_i^\top U h_j$ 是双线性（Bilinear）；在这个双线性项之外再加上线性项和偏置项，就得到双仿射（Biaffine）。因此，双仿射的本质是：既建模两个表示之间的交互，又保留各自单独的角色偏好。

\[s(i,j)=h_i^\top U h_j + w^\top [h_i;h_j] + b\]

这条式子可以逐项拆开读。 $h_i,h_j\in\mathbb{R}^{d}$ 是两个待配对对象的表示向量；在依存句法里，它们可分别表示“当前词”和“候选 head”；在关系抽取里，它们可分别表示“实体 1”和“实体 2”。 $U\in\mathbb{R}^{d\times d}$ 是双线性参数矩阵，因此 $h_i^\top U h_j$ 建模的是二者之间的交互强度：核心是看“这两个向量放在一起是否匹配”。把它展开后就是 $\sum_{p=1}^{d}\sum_{q=1}^{d}(h_i)_p\,U_{pq}\,(h_j)_q$，因此 $U_{pq}$ 可以理解为“第 $p$ 个 dependent 特征与第 $q$ 个 head 特征同时出现时，该给多少分”。

若任务需要一次输出多类关系分数，工程实现通常会为每个类别各放一张矩阵 $U^{(k)}$，或直接使用三阶参数张量。这样不同关系类型就能拥有不同的交互模式，而不必共用同一套 $U$。

$[h_i;h_j]\in\mathbb{R}^{2d}$ 表示把两个向量直接拼接； $w^\top [h_i;h_j]$ 是普通仿射项，可以进一步拆成“只依赖 $h_i$ 的线性项 + 只依赖 $h_j$ 的线性项”。它的作用是补充单边信息：即使暂时不看两者之间的乘性交互，某些 token 或实体本身也可能更像 head、更像 dependent，或更像某类关系的一端。最后的 $b$ 是全局偏置，给整类配对提供一个基线分数。

具象地看， $h_i^\top U h_j$ 像在问“这两个人之间是否搭得上”， $w^\top [h_i;h_j]$ 像在问“这两个人各自单独看，是否本来就带某种角色倾向”。把两部分合起来，模型既能利用配对关系，也不会丢掉单个对象自身的类型线索。这正是双仿射通常比纯双线性更稳、更有表达力的原因。

把 $s(i,j)$ 对所有 $(i,j)$ 组合都算出来，就能形成一个 $L\times L$ 的分数矩阵；对每个位置 $i$，再在所有候选 $j$ 上做 $\arg\max$ 或 softmax 分类，就能得到“它最可能依附到谁”或“它与谁最可能存在某种关系”。这种头的关键点在于：任务监督信号作用在“对”的层面，而非单点分类。

解析式 NLP（Analytical NLP）任务选型

解析式 NLP（Analytical NLP）指一类“结构化输出”的语言任务：输出核心是标签序列、树或图。这类任务的工程难点通常不在 backbone，而在输出结构约束、标注成本、以及错误后果（例如信息抽取用于合规/风控）。

任务	输出结构	常见任务头	数据/标注成本	蒸馏难度
NER	BIO 标签序列	Token 分类；CRF（可选）	中（需要一致的标注规范）	低~中（教师模型能稳定给出 token-level 或 span-level 标签）
DEP（Dependency Parsing）	树（每 token 一个 head）	Biaffine / 图解析器（Parser）	高（标注复杂；语言差异大）	中~高（结构约束更强；蒸馏需覆盖长尾句式）
SDP（Semantic Dependency Parsing）	有向图（多 head / 多边）	图结构头（Graph Head）	很高（语义标注成本高）	高（输出空间更大；错误更难用局部规则修正）

多任务与多头

同一个 backbone 可以挂多个任务头（Multi-head / Multi-task）：共享表示学习带来数据效率，但不同任务的梯度可能冲突，需要权衡损失权重（Loss Weighting）与采样策略。工程上也常见“同任务多头”：例如同时输出 token 标签与 span 边界，或同时输出检索 embedding 与分类 logits，用不同头对齐不同指标。

反向传播

反向传播（Backpropagation）描述的是训练阶段中“如何把损失函数对输出的误差信号传回网络内部，并进一步求出各层参数梯度”的过程。理解这一章时，可以把它拆成三件事：前向传播先把值算出来，反向传播再把梯度传回去，而链式法则与 Jacobian 则给出这件事的数学形式。

前向传播

前向传播（Forward Propagation）是训练与推理中首先发生的计算过程：给定输入 $x$ 和当前参数 $\theta$，按照网络定义从前到后依次计算各层输出、最终预测 $\hat y$，以及训练时对应的损失 $L$。若把网络写成函数复合

\[h_1=f_0(x),\quad h_2=f_1(h_1),\quad \cdots,\quad h_L=f_{L-1}(h_{L-1}),\quad \hat y=g(h_L),\quad L=\ell(\hat y,y)\]

那么前向传播做的就是按 $x\to h_1\to h_2\to \cdots \to h_L\to \hat y \to L$ 的顺序把这些值算出来。它回答的问题是：在当前参数下，这个样本会被模型算成什么结果，以及这个结果与真实标签相差多大。

前向传播的产物不仅是最终预测，还包括中间激活值（Activation）。这些中间量一方面构成模型当前这次推理的内部表示，另一方面也是后续反向传播计算梯度时必须依赖的节点。因此，训练过程总是先有前向传播，再有反向传播：前者负责算值，后者负责算这些值对参数的敏感度。

反向传播

反向传播（Backpropagation）是深度学习里用于高效计算梯度（Gradient）的算法。训练神经网络的目标，是最小化损失函数（Loss Function）$L(\theta)$；而要用梯度下降（Gradient Descent）或 Adam 之类的优化器更新参数，就必须先知道每个参数对损失的影响，也就是 $\frac{\partial L}{\partial \theta}$。

这个需求在深层网络里会立刻变得庞大。一个模型往往包含从数万到数十亿个参数；如果对每个参数都单独做一次数值扰动，逐个估计“它变一点时损失会怎么变”，计算代价会高得无法训练。反向传播出现的直接原因，就是要把这个原本几乎不可做的问题，变成一次前向传播（Forward Pass）加一次反向传播（Backward Pass）即可完成的梯度计算流程。

它的来源并不神秘：神经网络本质上是许多简单函数的复合。线性层、激活函数、归一化、注意力、损失函数，都会把前一层输出当作后一层输入。只要这些局部变换可导（Differentiable）或几乎处处可导，就可以对整条复合链应用链式法则（Chain Rule）。反向传播就是把链式法则改写成一种适合计算图（Computational Graph）执行的程序：前向时保存必要的中间结果，反向时从最终损失出发，把局部导数一层层乘回去，并把梯度分发给每个中间变量和参数。

因此，反向传播核心是链式法则在复合函数上的工程化实现。它做的事情可以概括为两步：第一步，前向传播先算出各层激活值与最终损失；第二步，从 $\frac{\partial L}{\partial L}=1$ 出发，把损失敏感度沿着依赖边反向传回去，依次得到 $\frac{\partial L}{\partial h_l}$、 $\frac{\partial L}{\partial W_l}$、 $\frac{\partial L}{\partial b_l}$ 等量。到这一步为止，反向传播完成的是梯度计算；参数真正如何更新，则属于优化器（Optimizer）的职责。

最简单的梯度下降（Gradient Descent）更新写成

\[\theta \leftarrow \theta - \eta \nabla_{\theta} L\]

这里更适合写梯度符号 $\nabla_{\theta}L$，因为 $\theta$ 往往是整个参数向量或参数集合，而非单个标量。若只讨论某一个标量参数，才可写成 $\theta \leftarrow \theta - \eta \frac{\partial L}{\partial \theta}$。从计算方式看，反向传播对应自动微分（Automatic Differentiation）中的反向模式（Reverse Mode AD）。它特别适合“输入参数很多、输出损失很少”的场景；而神经网络训练恰好就是这种结构：参数维度极大，但最终通常只关心一个标量损失。因此，反向传播成为现代深度学习训练的标准机制。

一个最小手算例子

先看一个只多加一层激活函数（Activation）的最小网络。设输入 $x=2$，参数为权重 $w=1$ 与偏置 $b=-1$，先做仿射变换（Affine Transform）

\[z=wx+b=1\cdot 2-1=1\]

再经过 ReLU 激活函数

\[a=\mathrm{ReLU}(z)=\max(0,z)=1\]

把激活值当作最终预测，即 $\hat y=a$。若真实标签 $y=0$，损失取平方损失（Squared Loss）

\[L=\frac12(\hat y-y)^2=\frac12(1-0)^2=0.5\]

前向传播链条现在是

\[x\ \longrightarrow\ z\ \longrightarrow\ a=\hat y\ \longrightarrow\ L\]

反向传播先从损失对输出的导数开始：

\[\frac{\partial L}{\partial \hat y}=\hat y-y=1\]

由于这里 $\hat y=a$，所以

\[\frac{\partial L}{\partial a}=1\]

再经过激活函数这一层。因为当前 $z=1>0$，ReLU 的导数为

\[\frac{\partial a}{\partial z}=\mathrm{ReLU}'(z)=1\]

于是梯度传回仿射层输出：

\[\frac{\partial L}{\partial z}=\frac{\partial L}{\partial a}\cdot\frac{\partial a}{\partial z}=1\cdot 1=1\]

最后再看仿射层对参数的局部导数：

\[\frac{\partial z}{\partial w}=x=2,\qquad \frac{\partial z}{\partial b}=1\]

因此

\[\frac{\partial L}{\partial w}=\frac{\partial L}{\partial z}\cdot\frac{\partial z}{\partial w}=1\cdot 2=2\] \[\frac{\partial L}{\partial b}=\frac{\partial L}{\partial z}\cdot\frac{\partial z}{\partial b}=1\cdot 1=1\]

若学习率 $\eta=0.1$，梯度下降更新后

\[w\leftarrow 1-0.1\cdot 2=0.8,\qquad b\leftarrow -1-0.1\cdot 1=-1.1\]

这个版本比纯线性例子多了一站 $z\to a$，因此链式法则也多乘了一个局部导数 $\frac{\partial a}{\partial z}$。这正是反向传播的一般形式：误差信号每穿过一层，就乘上这一层自己的局部导数。若这里的 $z<0$，则 ReLU 导数为 0，上游梯度也会在这一层被截断。

链式法则与雅可比连乘

反向传播（Backpropagation）本质是链式法则（Chain Rule）在计算图（Computational Graph）上的系统化应用：把最终损失对中间变量的导数沿依赖关系向后传。

固定一个训练样本 $(x,y)$ 后，损失 $L$ 最终当然可以看成参数 $\theta$ 的函数；训练时真正要更新的也确实是权重（Weight）。但在计算图里， $L(\theta)$ 核心是先经过各层线性变换、激活值（Activation）和输出再到损失。因此，反向传播会先求 $\frac{\partial L}{\partial h_l}$ 这类“损失对中间激活值的敏感度”，再由这些中间梯度继续求出 $\frac{\partial L}{\partial \theta_l}$。

Jacobian 一节已经给出局部线性化：若 $h_{l+1}=f_l(h_l)$，则在当前点附近有 $dh_{l+1}\approx J_l\,dh_l$，其中 $J_l=\frac{\partial h_{l+1}}{\partial h_l}$。这条式子描述的是输入扰动如何向前传到输出扰动；反向传播关心的是相反方向的问题：输出端的损失敏感度如何传回输入端。

先看一层。由于损失 $L$ 是标量，若采用与前文 Jacobian 一致的分子布局（Numerator Layout），把 $\frac{\partial L}{\partial h_l}$ 记成 $1\;\times d_l$ 的行向量，则向量链式法则写成：

\[\frac{\partial L}{\partial h_l}=\frac{\partial L}{\partial h_{l+1}}\frac{\partial h_{l+1}}{\partial h_l}=\frac{\partial L}{\partial h_{l+1}}J_l\]

这条式子最好按符号逐个读。先看 $h_l$ 与 $h_{l+1}$：它们分别表示第 $l$ 层的输入表示和该层输出表示。若 $h_l$ 有 $d_l$ 个分量， $h_{l+1}$ 有 $d_{l+1}$ 个分量，那么

\[\frac{\partial L}{\partial h_{l+1}}=\begin{bmatrix}\frac{\partial L}{\partial h_{l+1,1}} & \frac{\partial L}{\partial h_{l+1,2}} & \cdots & \frac{\partial L}{\partial h_{l+1,d_{l+1}}}\end{bmatrix}\in\mathbb{R}^{1\;\times d_{l+1}}\]

它表示：损失 $L$ 对第 $l+1$ 层每个输出分量分别有多敏感。这里把它写成行向量，是因为前文采用的是分子布局（Numerator Layout）。

再看 Jacobian：

\[J_l=\frac{\partial h_{l+1}}{\partial h_l}\in\mathbb{R}^{d_{l+1}\;\times d_l}\]

其中第 $(i,j)$ 个元素是

\[(J_l)_{ij}=\frac{\partial h_{l+1,i}}{\partial h_{l,j}}\]

意思是：第 $l$ 层第 $j$ 个输入分量变化一点，会让第 $l+1$ 层第 $i$ 个输出分量变化多少。因此，Jacobian 记录的是“输入各分量 $\to$ 输出各分量”的局部影响表。

现在看乘法

\[\frac{\partial L}{\partial h_l}=\frac{\partial L}{\partial h_{l+1}}J_l\]

左边最终应该是一个关于 $h_l$ 各分量的梯度，所以它必须有 $d_l$ 个分量。维度上， $\frac{\partial L}{\partial h_{l+1}}$ 是 $1\;\times d_{l+1}$， $J_l$ 是 $d_{l+1}\;\times d_l$，两者相乘后确实得到 $1\;\times d_l$。

如果把第 $j$ 个分量单独展开，这个乘法其实就是

\[\frac{\partial L}{\partial h_{l,j}}=\sum_{i=1}^{d_{l+1}}\frac{\partial L}{\partial h_{l+1,i}}\frac{\partial h_{l+1,i}}{\partial h_{l,j}}\]

这时含义就完全显出来了：第 $l$ 层第 $j$ 个输入分量，会通过第 $l+1$ 层的所有输出分量共同影响损失；因此要把“损失对每个输出分量的敏感度”乘上“该输出分量对当前输入分量的局部导数”，再对所有输出分量求和。矩阵乘法只是把这组求和一次性写成了紧凑形式。

把这条一层公式沿网络递推展开，对深度网络 $h_{l+1}=f_l(h_l)$ 可得：

\[\frac{\partial L}{\partial h_0}=\frac{\partial L}{\partial h_L}J_{L-1}J_{L-2}\cdots J_0,\qquad J_l=\frac{\partial h_{l+1}}{\partial h_l}\]

这条公式的读法非常具体：前向传播按 $h_0\to h_1\to\cdots\to h_L$ 计算；反向传播则从最终梯度 $\frac{\partial L}{\partial h_L}$ 出发，依次乘上最后一层到第一层的 Jacobian，把敏感度一层层传回去。矩阵乘法满足结合律（Associativity），因此可以逐层累积；但不满足交换律，乘法顺序不能改，因为每个 Jacobian 都对应不同层的局部坐标变换。

一个最小可算例可以把这件事完全写开。设输入 $x$ 是标量，第一层有两个参数 $w_{11},w_{12}$，输出二维隐藏表示：

\[h_1=\begin{bmatrix}h_{1,1}\\h_{1,2}\end{bmatrix}=\begin{bmatrix}w_{11}x\\w_{12}x\end{bmatrix}\]

第二层有两个参数 $w_{21},w_{22}$，把二维隐藏表示读成一个标量预测：

\[\hat y=w_{21}h_{1,1}+w_{22}h_{1,2}\]

损失取最简单的平方损失（Squared Loss）：

\[L=\frac12(\hat y-y)^2\]

这里总参数一共四个，但反向传播不会直接去“猜” $\frac{\partial L}{\partial w_{11}}$、 $\frac{\partial L}{\partial w_{12}}$ 等结果，会先沿着计算图写出中间量：

\[x\ \longrightarrow\ h_1\ \longrightarrow\ \hat y\ \longrightarrow\ L\]

先看第二层的局部 Jacobian。因为 $\hat y$ 是标量、 $h_1\in\mathbb{R}^2$，所以

\[J_1=\frac{\partial \hat y}{\partial h_1}=\begin{bmatrix}w_{21}&w_{22}\end{bmatrix}\]

再看第一层的局部 Jacobian。因为 $h_1\in\mathbb{R}^2$、 $x$ 是标量，所以

\[J_0=\frac{\partial h_1}{\partial x}=\begin{bmatrix}w_{11}\\w_{12}\end{bmatrix}\]

损失对最终输出的导数最容易先算：

\[\frac{\partial L}{\partial \hat y}=\hat y-y\]

于是，损失对隐藏表示的梯度由链式法则得到：

\[\frac{\partial L}{\partial h_1}=\frac{\partial L}{\partial \hat y}\frac{\partial \hat y}{\partial h_1}=(\hat y-y)\begin{bmatrix}w_{21}&w_{22}\end{bmatrix}\]

这一步已经把“损失对输出的敏感度”传回到了中间激活值 $h_1$。继续往回乘第一层 Jacobian，就得到损失对输入的梯度：

\[\frac{\partial L}{\partial x}=\frac{\partial L}{\partial \hat y}J_1J_0\] \[=(\hat y-y)\begin{bmatrix}w_{21}&w_{22}\end{bmatrix}\begin{bmatrix}w_{11}\\w_{12}\end{bmatrix}\] \[=(\hat y-y)(w_{21}w_{11}+w_{22}w_{12})\]

对参数的梯度也是同样的思路。第二层参数直接作用在 $\hat y$ 上，因此

\[\frac{\partial L}{\partial w_{21}}=\frac{\partial L}{\partial \hat y}\frac{\partial \hat y}{\partial w_{21}}=(\hat y-y)h_{1,1}\] \[\frac{\partial L}{\partial w_{22}}=\frac{\partial L}{\partial \hat y}\frac{\partial \hat y}{\partial w_{22}}=(\hat y-y)h_{1,2}\]

第一层参数不直接连到损失，通常会先影响 $h_1$，再影响 $\hat y$ 和 $L$，所以必须经过中间激活值这一站：

\[\frac{\partial L}{\partial w_{11}}=\frac{\partial L}{\partial h_{1,1}}\frac{\partial h_{1,1}}{\partial w_{11}}=[(\hat y-y)w_{21}]\,x\] \[\frac{\partial L}{\partial w_{12}}=\frac{\partial L}{\partial h_{1,2}}\frac{\partial h_{1,2}}{\partial w_{12}}=[(\hat y-y)w_{22}]\,x\]

若取一组具体数值 $x=2$、 $y=1$、 $w_{11}=1$、 $w_{12}=-1$、 $w_{21}=0.5$、 $w_{22}=2$，则前向传播先得到

\[h_1=\begin{bmatrix}2\\-2\end{bmatrix},\qquad \hat y=0.5\cdot 2+2\cdot(-2)=-3,\qquad \frac{\partial L}{\partial \hat y}=\hat y-y=-4\]

于是反向传播依次得到

\[\frac{\partial L}{\partial h_1}=-4\begin{bmatrix}0.5&2\end{bmatrix}=\begin{bmatrix}-2&-8\end{bmatrix}\] \[\frac{\partial L}{\partial x}=\begin{bmatrix}-2&-8\end{bmatrix}\begin{bmatrix}1\\-1\end{bmatrix}=6\] \[\frac{\partial L}{\partial w_{21}}=-4\cdot 2=-8,\qquad \frac{\partial L}{\partial w_{22}}=-4\cdot(-2)=8\] \[\frac{\partial L}{\partial w_{11}}=(-2)\cdot 2=-4,\qquad \frac{\partial L}{\partial w_{12}}=(-8)\cdot 2=-16\]

这个最小例子把反向传播的结构完整展示了出来：损失函数最终是参数的函数，但梯度并非“绕开中间层直接对权重求”。它必须先通过 $\frac{\partial L}{\partial \hat y}$、 $\frac{\partial L}{\partial h_1}$ 这样的中间敏感度逐步回传。激活值因此核心是计算图中必经的节点。

若改用深度学习里更常见的列向量梯度记号 $\nabla_{h_l}L\in\mathbb{R}^{d_l}$，同一件事会写成

\[\nabla_{h_l}L=J_l^\top \nabla_{h_{l+1}}L\]

这与上面的公式没有本质区别，只是把“左乘 Jacobian 的行向量记号”改写成了“右侧乘 Jacobian 转置的列向量记号”。工程实现里常见的 Vector-Jacobian Product，本质上就是这一步。

对参数的梯度也是同一个模式。若第 $l$ 层含参数 $\theta_l$，则

\[\frac{\partial L}{\partial \theta_l}=\frac{\partial L}{\partial h_{l+1}}\frac{\partial h_{l+1}}{\partial \theta_l}\]

因此 backward 的核心是复用每一层的局部 Jacobian，把同一个上游梯度分别传给输入变量和参数。

梯度消失与爆炸

梯度消失（Vanishing Gradients）与梯度爆炸（Exploding Gradients）通常来自连乘的数值尺度：若这些雅可比的有效增益（Effective Gain）的奇异值（Singular Values）长期小于 1，则梯度指数级衰减；长期大于 1 则指数级放大。

在 RNN 的 BPTT 中，这种现象尤其明显：同一递归矩阵在时间轴上重复相乘。粗略地看，若 $W_{hh}$ 的谱半径（Spectral Radius）$\rho(W_{hh})$ 明显大于 1，梯度更易爆炸；明显小于 1 更易消失。但这并非“只要 $\lambda>1$ 就一定爆炸”的二选一结论，因为实际还受到激活函数导数、归一化、残差/门控结构、以及数据分布的共同影响。

“梯度随训练慢慢变小是否正常？”在接近最优点时，梯度范数下降是预期现象；需要警惕的是训练早期就出现系统性消失（例如大量饱和激活导致导数接近 0）或出现不稳定爆炸（loss/梯度频繁变成 NaN/Inf）。

常见应对：

梯度裁剪（Gradient Clipping）：抑制爆炸。
合理初始化（Xavier/He）、归一化（BatchNorm/LayerNorm）、残差连接（Residual）。
门控结构（Gated Units）：LSTM/GRU 通过门控缓解长程梯度问题。

权重初始化

权重初始化（Weight Initialization）的目标核心是控制信号在层间传播的数值尺度。设第 $l$ 层的线性部分为 $z^{(l)}=W^{(l)}h^{(l-1)}+b^{(l)}$。若 $z^{(l)}$ 的二阶原点矩（Second Raw Moment）在层间持续放大，前向激活与反向梯度都会倾向爆炸；若持续衰减，则会出现梯度消失。

对单个神经元，写成 $z=\sum_{i=1}^{n}w_i x_i+b$。初始化分析里通常进一步假设 $w_i$ 与 $x_i$ 相互独立，且权重满足 $\mathbb{E}[w_i]=0$。这里的 $\mathbb{E}[w_i]=0$ 核心是在分析初始化时，把权重看作从一个以 0 为中心的随机分布中抽样得到；这样做的目的，是避免网络在一开始就对某一方向产生系统性偏置，并让前向输出的均值计算更干净。基于这一初始化假设，在线性部分有

\[\mathbb{E}[z]=0,\quad \mathbb{E}[z^2]=n\,\mathrm{Var}(w)\,\mathbb{E}[x^2]\]

当输入也近似零均值时， $\mathbb{E}[x^2]\approx \mathrm{Var}(x)$，于是常写成 $\mathrm{Var}(z)\approx n\,\mathrm{Var}(w)\,\mathrm{Var}(x)$。这里 $n$ 就是 fan_in。因此初始化的核心约束可以概括为：让 $n\,\mathrm{Var}(w)$ 保持在 1 附近。

更严格地说，深度初始化分析常跟踪的是 $\mathbb{E}[h^2]$，而非所有层都精确使用方差；因为经过 ReLU 之后，激活不再零均值，此时二阶原点矩与方差不再完全相同。但在线性层与零均值近似下，两者是一致的，因此“保持方差稳定”仍是准确的工程表述。

两种朴素做法都会失败：若所有权重都初始化为 0，则各神经元保持完全对称，反向传播得到相同更新，网络退化为“许多拷贝的同一个单元”；若直接令 $\mathrm{Var}(w)=1$，则线性输出的尺度会随层数按 fan_in 连乘，深层网络极易数值失稳。偏置（Bias）通常初始化为 0 或很小的常数；真正决定尺度的是权重矩阵的方差结构。

这里的 fan_in 与 fan_out 可以直接按“这层连接了多少路信号”来理解。对某个线性层中的一个输出神经元，fan_in 是流入它的输入通道数；输入通道越多，很多随机小贡献叠加后，输出就越容易变大。对某个输入神经元，fan_out 是它连接到下一层多少个输出通道；fan_out 越大，这个输入方向上的梯度在反向传播时就会被分发到更多支路。因此，fan_in 主要约束前向激活的放大量级，fan_out 主要约束反向梯度的放大量级。

具象地看，一个神经元像一个汇流节点：fan_in 决定有多少根水管把信号同时灌进来，fan_out 决定这股信号会被分流到多少个下游节点。初始化如果不考虑这两个连接数，网络就会在“汇流过猛”与“分流过弱”之间失衡。Xavier 正是在前向与反向之间做折中，He 则进一步把激活函数本身带来的能量损失也纳入补偿。

正态、均匀、常数与正交初始化

导图里把初始化方法拆成正态分布、均匀分布、常数和正交四类，这种分法是成立的，因为它们回答的是两个不同层面的问题。正态分布初始化（Normal Initialization）与均匀分布初始化（Uniform Initialization）回答的是“权重样本从哪一种随机分布里抽”；常数初始化（Constant Initialization）回答的是“是否所有参数起点都相同”；正交初始化（Orthogonal Initialization）则进一步约束权重矩阵的几何结构，使不同方向在初始阶段尽量保持独立、不过度放大或压缩。

常数初始化最容易说明为什么会失败。若一个全连接层里所有权重都初始化为同一个常数，哪怕这个常数并非 0，各神经元在前向时看到的输入组合仍完全一致，反向时梯度也完全一致，结果就是整层神经元始终学习同一组特征，无法打破对称性。因此，偏置可以常数初始化，但权重矩阵通常不能整体常数初始化。

正态分布与均匀分布本身并没有绝对优劣，关键在于方差尺度是否合理。若只是“从一个随机分布里抽”，但不控制 fan_in / fan_out，网络一样会出现层间尺度失衡。因此工程实践里真正有意义的，通常是“用 Xavier 正态”“用 Xavier 均匀”“用 He 正态”“用 He 均匀”。分布族决定采样形状，方差公式决定数值稳定性。

正交初始化（Orthogonal Initialization）则更进一步。若 $W^\top W\approx I$ 或 $WW^\top\approx I$，线性变换对向量长度的扭曲会更受控，信息在不同方向上的耦合也更弱。这对深层线性网络、RNN 的递归矩阵，以及某些残差结构尤其有价值，因为它能更好地维持奇异值谱接近 1，缓解梯度在层间或时间步之间迅速爆炸或衰减。

因此，这四类方法的关系可以概括为：常数初始化主要是反例和边界条件；正态与均匀是随机采样家族；Xavier / He 是方差控制规则；正交初始化是额外的矩阵几何约束。实际工程里最常见的组合是“Xavier/He + 正态或均匀采样”，以及在特定循环或深层结构中使用正交初始化。

Xavier 初始化

Xavier 初始化（Xavier Initialization）也称 Glorot 初始化（Glorot Initialization），针对近似线性的激活工作区间设计，例如 tanh 与 sigmoid 在原点附近的局部线性区域。它的目标是同时控制前向激活与反向梯度的尺度，使它们在穿过每一层时不发生系统性放大或衰减。

若暂时忽略激活函数对二阶原点矩的额外缩放，则前向保持尺度不变要求 $\mathrm{Var}(w)\approx 1/\mathrm{fan\_in}$；反向对应地要求 $\mathrm{Var}(w)\approx 1/\mathrm{fan\_out}$。Glorot 给出的折中形式因此写成：

\[\mathrm{Var}(w)=\frac{2}{\mathrm{fan\_in}+\mathrm{fan\_out}}\]

常见实现包括正态版 $w\sim\mathcal{N}\!\left(0,\frac{2}{\mathrm{fan\_in}+\mathrm{fan\_out}}\right)$，以及均匀版 $w\sim U\!\left[-\sqrt{\frac{6}{\mathrm{fan\_in}+\mathrm{fan\_out}}},\sqrt{\frac{6}{\mathrm{fan\_in}+\mathrm{fan\_out}}}\right]$。

从直觉上看，Xavier 初始化像是在给每一层设置一个“不过度放大、也不过度压缩”的中性增益（neutral gain）。可以把一层线性变换想成一组并联的混音器：输入信号从上一层流入，经过许多权重通道混合后送到下一层。Xavier 的目标就是让这组混音器在初始状态下近似保持“总音量”不变，使信号既不会层层变得越来越吵，也不会层层变得越来越弱。

Xavier 的局限在于：它默认激活函数不会系统性丢失太多能量。对 ReLU 这类半波整流（Half-wave Rectification）激活，这个假设不再成立；即使线性层前后的尺度匹配，经过激活后信号的二阶原点矩仍会明显下降。

He 初始化

He 初始化（He Initialization）也称 Kaiming 初始化（Kaiming Initialization），专门处理 ReLU 家族的整流效应。若线性输出 $z$ 近似关于 0 对称，经过 $\mathrm{ReLU}(z)=\max(0,z)$ 后，大约一半的质量被截断为 0，并且

\[\mathbb{E}[\mathrm{ReLU}(z)^2]=\frac{1}{2}\mathbb{E}[z^2]\]

因此，若仍使用 Xavier 量级，信号的二阶原点矩会随层数持续衰减。He 初始化通过把权重方差提高到

\[\mathrm{Var}(w)=\frac{2}{\mathrm{fan\_in}}\]

来补偿这一半波损失。对应实现可写为正态版 $w\sim\mathcal{N}\!\left(0,\frac{2}{\mathrm{fan\_in}}\right)$，或均匀版 $w\sim U\!\left[-\sqrt{\frac{6}{\mathrm{fan\_in}}},\sqrt{\frac{6}{\mathrm{fan\_in}}}\right]$。

具象地看，ReLU 像一道只允许正值通过的闸门：一批近似对称分布的信号经过后，负半边会被直接截成 0，等于天然损失了一部分能量。He 初始化做的事情就是在闸门前把信号预先放大一些，使它通过这道“半波闸门”之后，整体尺度仍能维持在稳定区间。Xavier 假定通道基本不漏能量，He 则明确把 ReLU 的漏损补偿计入初始化方差。

对 Leaky ReLU/PReLU，补偿因子可推广为 $\frac{2}{(1+a^2)\,\mathrm{fan\_in}}$，其中 $a$ 是负半轴斜率。实践上，ReLU 及其变体默认优先使用 He 初始化；tanh/sigmoid 更适合 Xavier。归一化层与残差连接可以进一步放宽初始化的容错区间，但不能替代合理的初始尺度控制。

大语言模型里的初始化

Transformer / 大语言模型（Large Language Model, LLM）里的初始化通常不按“整模统一套 Xavier”或“整模统一套 He”来理解，而更像一套围绕残差流（Residual Stream）稳定性、归一化层和深度扩展设计的小方差初始化配方。原因在于：LLM 的主干核心是由自注意力、残差连接、LayerNorm / RMSNorm、MLP / SwiGLU 等子结构共同组成；纯粹以某个激活函数为中心推导的 Xavier / He，只能覆盖其中一部分局部直觉。

工程上最常见的做法是：嵌入层与线性层权重用零均值的小方差正态分布初始化，偏置置零或省略；随后依靠 LayerNorm / RMSNorm 与残差结构维持训练初期的数值稳定。BERT、GPT-2 一类经典 Transformer 常见做法是使用标准差约为 $0.02$ 的正态或截断正态初始化；很多更现代的 Decoder-only LLM 仍延续“小方差高斯初始化”这一主线，只是在具体投影层上再叠加按隐藏维度、层数或残差分支做缩放的配方。

从直觉上看，LLM 初始化更像是在给一条很深的多车道主干道设置初始车流密度。若注意力里的 $Q/K/V/O$ 投影、FFN 的升维/降维投影以及其他会把结果写回残差流的线性层初始尺度过大，残差分支会把信号越叠越猛，训练初期容易震荡；若尺度过小，几十层上百层残差块叠起来后，真正进入有效学习区的信号又会太弱。因此，现代 LLM 初始化的重点往往核心是让残差支路在深层网络中既能传递信息，又不会在训练一开始就把数值尺度推离稳定区。

具体到模块分工，也可以这样理解：MLP 内部若使用 ReLU 家族激活，He 的补偿思想仍然成立；若使用 GELU、SiLU、SwiGLU 这类更平滑或带门控的激活，则实现里往往直接采用统一的小方差正态初始化，再由归一化、残差和训练配方共同保证稳定性。LLM 把 Xavier / He 背后的“方差守恒”原则嵌入到了更完整的 Transformer 初始化策略里，并没有抛弃这套原则。

方法	核心方差	适用激活	主要问题 / 逻辑
零初始化	$\mathrm{Var}(w)=0$	无	破坏对称性；所有神经元学到相同特征
标准正态随机	$\mathrm{Var}(w)=1$	无	尺度随深度快速放大；易导致爆炸
Xavier / Glorot	$\frac{2}{\mathrm{fan\_in}+\mathrm{fan\_out}}$	Tanh、Sigmoid	兼顾前向与反向尺度；假设激活近似线性
He / Kaiming	$\frac{2}{\mathrm{fan\_in}}$	ReLU、Leaky ReLU	补偿 ReLU 的半波截断；保持二阶原点矩稳定
LLM 常用小方差高斯初始化	常取固定小标准差，或再叠加按宽度 / 深度缩放	Transformer 模块整体	服务残差流、归一化层与深层稳定训练；并非单纯按某一种激活推导

正则化

正则化（Regularization）在经验风险（Empirical Risk）上增加复杂度惩罚，缓解过拟合（Overfitting）。假设函数/模型 $f_\theta$ 决定预测；样本损失 $\ell$ 度量单样本误差；代价函数/成本函数 $L(\theta)$ 汇总训练集误差；目标函数 $J(\theta)$ 则是 $L(\theta)$ 加上正则化项： $J(\theta)=L(\theta)+\lambda\Omega(\theta)$。

\[J(\theta)=\frac{1}{m}\sum_{i=1}^{m}\ell\!\left(f_{\theta}(x^{(i)}),y^{(i)}\right)+\lambda\Omega(\theta)\]

L1 正则化（Lasso）

L1 正则化（L1 Regularization）使用 $\Omega(\theta)=\|\theta\|_1$。它倾向产生稀疏解（Sparsity），即一部分权重被直接压到 0，因此可同时做参数学习和特征选择（Feature Selection）。

从优化角度看，L1 的梯度是次梯度（Subgradient）：对单个参数 $\theta_k$，当 $\theta_k\ne 0$ 时有 $\frac{\partial}{\partial \theta_k}\|\theta\|_1=\mathrm{sign}(\theta_k)$；在 0 点是一段区间 $[-1,1]$。这使得优化过程更容易把小权重“推过 0”，形成精确稀疏。

在很多实现中，会用近端算子（Proximal Operator）给出更清晰的“压到 0”机制：对标量 $w$，软阈值化（Soft-Thresholding）是

\[\mathrm{soft}(w,\alpha)=\mathrm{sign}(w)\max(|w|-\alpha,0)\]

当 $|w|\le \alpha$ 时直接变为 0。

L2 正则化（Ridge / Weight Decay）

L2 正则化（L2 Regularization）使用 $\Omega(\theta)=\|\theta\|_2^2$。它倾向均匀缩小参数，但通常不会把参数精确压到 0。直观上，L1 在 0 点不可导，更容易触发“阈值化”解；L2 是光滑二次惩罚，更新更连续。

梯度层面，L2 会在原梯度上叠加一个“拉回原点”的项：若目标为 $\ell(\theta)+\lambda\|\theta\|_2^2$，则 $\nabla_\theta=\nabla \ell(\theta)+2\lambda\theta$。工程上常把这个效果称为权重衰减（Weight Decay）：每一步都把权重按比例缩小。

需要区分一个常见细节：在自适应优化器（如 Adam）里，“把 $\lambda\|\theta\|_2^2$ 加到损失里”与“直接做 weight decay”在数值上并不完全等价；因此实践中常用解耦权重衰减（Decoupled Weight Decay，典型实现是 AdamW）来获得更可控的正则化行为。

把带惩罚的目标改写成约束形式后，几何差异会非常直观： $\min_\theta L(\theta)\ \mathrm{s.t.}\ \|\theta\|_1\le t$ 的可行域在二维里是菱形， $\min_\theta L(\theta)\ \mathrm{s.t.}\ \|\theta\|_2\le t$ 的可行域则是圆盘。损失等高线从外向内收缩时，第一次接触 $L_1$ 边界，往往更容易落在角点；角点恰好对应某些坐标精确等于 0。 $L_2$ 边界处处光滑，接触点通常只是把所有坐标一起缩小，而非把其中一部分直接压成 0。

从一维更新机制看，这个差异也对应两种不同的收缩方式。 $L_2$ 更像连续比例收缩：权重越大，拉回原点的力越强，但通常不会在有限步内变成精确 0。 $L_1$ 则对应软阈值化（Soft-Thresholding）：一旦 $|w|$ 小于阈值，就会被直接压成 0。因此， $L_1$ 不仅“把权重变小”，还会主动把一部分坐标从模型中删掉，这就是稀疏性（Sparsity）的来源。

Dropout

Dropout 通过随机屏蔽部分神经元输出，减少共适应（Co-adaptation），等价于在训练时对网络做一种随机子网络集成（Ensemble）。这里的共适应，是指若干神经元彼此形成了固定搭配：模型过度依赖它们同时出现、按特定组合共同完成判断，而非让每个单元都学到相对独立、稳健的特征。Dropout 随机拿掉其中一部分单元后，网络不能再把能力押注在某一组固定配合上，只能把有用模式分散到更稳健的表示里。令隐藏向量为 $h$，mask $m_i\sim \mathrm{Bernoulli}(p)$，常见的 inverted dropout 写法为：

\[\tilde h = \frac{m\odot h}{p}\]

其中 $p$ 是保留概率（Keep Probability）。这样推理时可直接使用原网络（不再采样 mask），避免额外缩放。

Word Dropout 与 Variational Dropout

在 NLP 中，Dropout 还经常有更具体的变体。Word Dropout 会在训练时随机把一部分 token 替换成未知词、占位符或空输入，从而降低模型对某些高频词项的脆弱依赖；Variational Dropout 则在 RNN 等结构中对时间维共享同一个 dropout mask，避免每个时间步都采样不同 mask 破坏时序稳定性。它们都服务于同一个目标：让模型不要过度依赖局部偶然线索。

对抗训练

对抗训练（Adversarial Training）通过在输入或嵌入空间中加入微小、朝最坏方向设计的扰动，迫使模型在局部邻域内保持预测稳定。它并不只属于安全研究，在文本分类、序列标注和对比学习中也常被用来提升鲁棒性。对 NLP 而言，常见做法是在 embedding 上加入小扰动，再用额外损失约束模型在扰动前后保持一致或仍能正确预测。

Batch Normalization

Batch Normalization（BatchNorm）在训练时用 mini-batch 的均值/方差做归一化，并学习缩放/平移参数。对特征维上的某个分量 $x$，典型形式是：

\[\mathrm{BN}(x)=\gamma\cdot \frac{x-\mu_{\text{batch}}}{\sqrt{\sigma_{\text{batch}}^2+\epsilon}}+\beta\]

推理阶段通常使用训练过程累积的运行均值（Running Mean）与运行方差（Running Variance），因此训练/推理行为不同。BatchNorm 在 CNN 中极常见，因为卷积特征图在同一通道上的空间位置具有较强同质性，跨样本统计量较容易稳定；但在 Transformer 中，主流做法核心是使用与 batch 统计无关的 LayerNorm 或 RMSNorm。

原因在于 Transformer 的基本计算单元是 token 表示。序列长度常常可变，batch size 在训练与推理中也经常变化，尤其大模型训练会受到显存限制而使用较小、波动甚至分布式切分后的 micro-batch。若使用 BatchNorm，某个 token 的归一化结果会显式依赖同一 batch 中其他样本与其他位置的统计量，这会引入跨样本耦合，使训练和推理的数值语义不一致，也不利于自回归解码阶段逐 token 稳定生成。

Layer Normalization

Layer Normalization（LayerNorm）对每个样本（或每个 token）的特征维做归一化，不依赖 batch 统计量，因此更适合变长序列与自回归推理。对向量 $x\in\mathbb{R}^{d}$：

\[\mathrm{LN}(x)=\gamma\odot \frac{x-\mu}{\sqrt{\sigma^2+\epsilon}}+\beta,\quad \mu=\frac{1}{d}\sum_{i=1}^{d}x_i,\ \sigma^2=\frac{1}{d}\sum_{i=1}^{d}(x_i-\mu)^2\]

这里的均值 $\mu$ 与方差 $\sigma^2$ 都只在当前样本、当前 token 的特征维内部计算，因此每个 token 都能独立完成归一化。这个性质与 Transformer 的残差流（Residual Stream）非常匹配：无论 batch 如何变化、序列如何裁剪、推理时是否一次只输入一个 token，归一化规则都保持一致。

当前主流的 Transformer 归一化实践可以概括为两类。Encoder-only 与很多 Vision Transformer（ViT）架构通常沿用 LayerNorm；Decoder-only 大语言模型（Large Language Model, LLM）则大量采用 Pre-Norm 残差块，并进一步把 LayerNorm 简化为 RMSNorm。前者保留去均值与方差缩放，后者只保留尺度归一化，计算更轻，也更适合超大规模训练。

Early Stopping

Early Stopping 用验证集指标监控训练过程，在泛化性能不再提升时提前停止，从而避免在训练集上继续拟合噪声。工程上常用“耐心（Patience）”：若验证集指标连续 $K$ 次评估都未改善，则停止训练并回滚到最佳 checkpoint。它属于训练流程级的隐式正则化（Implicit Regularization）。

分类任务正则化

分类任务正则化（Regularization for Classification Tasks）直接作用在分类训练的监督方式、样本混合方式或概率分布形状上。它的主要目标包括：缓解过度自信、减轻类别不平衡造成的梯度偏置、降低标签噪声影响，以及让决策边界在训练样本之间保持更平滑的过渡。

Label Smoothing

Label Smoothing（标签平滑）把 one-hot 标签从“真实类为 1、其余类为 0”改写成更平滑的目标分布。对 $C$ 分类问题，常见写法是：

\[y_i^{\mathrm{LS}}=(1-\varepsilon)\mathbf{1}[i=c]+\frac{\varepsilon}{C}\]

这里 $c$ 是真实类别， $\varepsilon\in(0,1)$ 是平滑系数。真实类别仍占最大权重，但其他类别也会分到一小部分概率质量。训练因此不再持续奖励模型把正确类别概率推到 1、把其余类别压到 0，输出分布通常会更平滑，概率校准（Calibration）也更稳定。

在固定阈值或直接取 $\arg\max$ 的分类系统里，Label Smoothing 带来的收益往往更多体现在 loss 曲线与概率可信度上，而非直接转化为同等幅度的 F1 提升。若模型输出概率还会进入阈值调优、排序、融合、拒识或风险控制，这种校准改进的价值会更明显。

类别重加权与重采样

类别重加权（Class Reweighting）与重采样（Resampling）主要处理类别不平衡（Class Imbalance）。其核心思想是让少数类样本在训练中获得更大的有效权重，避免优化过程被大量易分类的多数类样本主导。加权交叉熵的常见形式为：

\[\ell_{\mathrm{wCE}}(y,p)=-\sum_{i=1}^{C}\alpha_i y_i\log p_i\]

这里 $\alpha_i$ 是第 $i$ 类的损失权重。若某类样本极少，可以给它更大的 $\alpha_i$，使模型在误分该类时承担更高代价。重采样则直接改变 mini-batch 的类别组成，例如过采样少数类、欠采样多数类，或用类别均衡采样器（Class-balanced Sampler）保证 batch 内标签分布更均衡。

这类方法的直接效果，是让决策边界不再默认偏向多数类。代价则是：过强的重加权会放大少数类中的噪声标签，过强的过采样会提高过拟合风险。因此它通常要与验证集上的 Precision / Recall / F1 一起调节，而不只盯着训练损失。

Mixup 与 CutMix

Mixup 与 CutMix 通过构造“介于两个训练样本之间”的新样本，显式约束分类器在样本间插值区域上的行为，从而平滑决策边界。Mixup 的典型形式是：

\[\tilde x=\lambda x_i+(1-\lambda)x_j,\qquad \tilde y=\lambda y_i+(1-\lambda)y_j\]

这里 $\lambda\in[0,1]$ 通常从 Beta 分布采样。输入和标签都被线性混合，于是模型被要求在 $x_i$ 与 $x_j$ 之间给出相应的插值预测。CutMix 则核心是把一张图像中的局部区域替换为另一张图像的对应区域，同时按被替换面积比例混合标签。

这类方法对图像分类尤其有效，因为它们直接惩罚“决策边界贴着训练样本走”的过拟合行为。换一个视角看，Mixup / CutMix 核心是在告诉模型：输入空间里两点之间的过渡区域也应当保持语义上的平滑可解释。

置信度惩罚与熵正则

置信度惩罚（Confidence Penalty）和熵正则（Entropy Regularization）直接约束输出分布不要过早塌缩到极端尖锐形状。一个常见做法是在交叉熵之外，再加入预测分布熵的奖励项：

\[\mathcal{L}=\mathcal{L}_{\mathrm{CE}}-\beta H(p),\qquad H(p)=-\sum_{i=1}^{C}p_i\log p_i\]

这里 $\beta>0$ 控制正则强度。由于熵越大表示分布越平滑，这一项会抑制模型过快形成极端概率。它和 Label Smoothing 的方向相近，但切入点不同：Label Smoothing 改的是监督目标分布，置信度惩罚改的是模型预测分布本身。

两者都常用于需要更好概率校准的分类系统。相比之下，Focal Loss 更强调“把梯度预算留给困难样本”，因此它在类别不平衡或难例挖掘场景更常见；Label Smoothing 与熵正则则更偏向控制过度自信与改善概率形状。

回归任务正则化

回归任务正则化（Regularization for Regression Tasks）除了常见的参数惩罚外，还经常直接约束预测函数 $f(x)$ 的形状。回归目标是连续值，因此“曲线是否足够平滑、是否满足单调关系、是否具有合理曲率”往往和任务正确性本身直接相关。

平滑性正则化与样条惩罚

平滑性正则化（Smoothness Regularization）要求回归函数不要在输入空间里出现不必要的高频震荡。最典型的形式是惩罚导数，尤其是二阶导数：

\[J(f)=\sum_{i=1}^{N}(y_i-f(x_i))^2+\lambda\int (f''(x))^2\,dx\]

第二项就是经典的样条平滑惩罚（Smoothing Spline Penalty）。它惩罚曲率过大，相当于抑制函数频繁弯折。 $\lambda$ 越大，拟合曲线越平滑； $\lambda$ 越小，模型越愿意追随样本中的局部波动。很多非参数回归（Nonparametric Regression）与时间序列平滑，本质上都在做这种“数据拟合 + 曲率惩罚”的权衡。

Total Variation 与 Fused Lasso

Total Variation（TV）正则与 Fused Lasso 适合分段平滑（Piecewise Smooth）的回归目标。它们允许少数突变点存在，不强求函数处处光滑，同时惩罚过多的相邻跳变。离散形式的 TV 惩罚常写成：

\[\Omega_{\mathrm{TV}}(f)=\sum_{t=2}^{T}|f_t-f_{t-1}|\]

若同时对参数本身加 $L_1$ 惩罚，再对相邻参数差分加 $L_1$ 惩罚，就得到 Fused Lasso：

\[J(\beta)=L(\beta)+\lambda_1\sum_j |\beta_j|+\lambda_2\sum_{j=2}^{d}|\beta_j-\beta_{j-1}|\]

这类方法非常适合信号去噪、时序回归、基因拷贝数分段估计，以及任何“整体大致平稳、局部允许少数结构突变”的问题。与样条惩罚相比，它更偏好形成平坦区段，而非全局光滑弯曲曲线。

单调性约束

很多回归任务天然带有单调先验：广告出价上升，曝光概率通常不应系统性下降；贷款风险特征上升，违约风险不应系统性降低；药物剂量增加，效应在一定区间内通常应单调增强。单调性约束（Monotonicity Constraint）把这种领域知识直接写进模型：

\[\frac{\partial f(x)}{\partial x_k}\ge 0\quad \text{或}\quad \frac{\partial f(x)}{\partial x_k}\le 0\]

这里 $x_k$ 是某个具有明确方向含义的特征。在线性模型里，这等价于约束对应权重非负或非正；在树模型和神经网络里，则可以通过结构限制、投影步骤或软惩罚项来实现。单调约束的价值不只在提高泛化，还在于提升可解释性与业务一致性。

凸性与曲率约束

当回归函数预期具有凸性（Convexity）、凹性（Concavity）或有限曲率时，可以继续对二阶导数施加方向性约束。例如一维凸函数满足：

\[f''(x)\ge 0\]

这类约束在成本函数建模、供需曲线估计、剂量反应建模和某些经济学回归问题里非常常见。即使不要求严格凸性，也常通过曲率上界控制函数不要弯折过猛，例如惩罚 Hessian 范数或二阶差分幅度。它们的作用与平滑惩罚相近，但强调的是“弯曲方向和弯曲强度应满足领域结构”，而不只是单纯地压低高频波动。

Lipschitz 与梯度约束

Lipschitz 约束（Lipschitz Constraint）控制的是输入微小变化会把输出放大多少。若存在常数 $K$，使得

\[|f(x)-f(x')|\le K\|x-x'\|\]

则函数变化速度受到统一上界控制。对可导函数，一个常见做法是直接惩罚输入梯度范数：

\[J(\theta)=L(\theta)+\lambda\,\mathbb{E}_{x}\|\nabla_x f_\theta(x)\|_2^2\]

这种正则化常用于需要鲁棒输出的回归系统，例如物理量估计、坐标回归和噪声敏感的传感器建模。它抑制模型对局部输入扰动过度敏感，也能缓解高维回归中出现的不稳定尖峰。

概率回归的分布约束

概率回归（Probabilistic Regression）不仅预测均值，还会预测方差、分位数或整个条件分布。此时正则化对象不再只有均值函数，还包括分布参数之间的结构关系。例如异方差回归（Heteroscedastic Regression）中，方差参数必须保持正值；分位数回归（Quantile Regression）中，不同分位点曲线应尽量避免交叉（Quantile Crossing）。

若模型同时预测多个分位点 $\hat q_{\tau_1}(x),\hat q_{\tau_2}(x)$ 且 $\tau_1<\tau_2$，则理想上应满足：

\[\hat q_{\tau_1}(x)\le \hat q_{\tau_2}(x)\]

工程上常通过排序约束、投影修正或惩罚项来维持这种分布一致性。对高斯 NLL、混合密度网络（Mixture Density Network）或生存分析模型，也会对尺度参数、危险率函数或累积分布形状加入额外约束，使预测分布既拟合数据，又保持统计上可解释、数值上稳定。

深度学习

深度学习（Deep Learning）是以多层神经网络为核心、通过大规模数据和梯度优化自动学习表示的建模范式。若上一章讨论的是神经网络的基本部件，例如线性层、激活函数、损失函数、反向传播、初始化与正则化；这一章讨论的则是这些部件在更深层、更大规模、更强归纳偏置下，如何组合成现代模型家族，并在视觉、语音、语言、生成和图结构任务上形成方法论分水岭。

“深度”并不只是层数更多。更关键的变化是：模型开始把原始输入逐层改写成越来越抽象的中间表示，从边缘、纹理、局部模式，逐步组合到部件、对象、语义关系与任务决策。于是，模型能力的来源已经从最后那一层分类器扩展到整条表示变换链本身。

下文的卷积神经网络（CNN）、循环神经网络（RNN）、Transformer、生成模型（Generative Model）、图神经网络（GNN）和 ONNX，分别对应深度学习里几条非常重要的主线：空间局部归纳偏置、时序递推建模、自注意力驱动的通用序列建模、生成式分布学习、关系数据表示学习，以及模型部署交换格式。它们共同构成了现代深度学习的主要版图。其中 Transformer 因为后续内容体量很大，会在第 3 篇中单独展开；这里先给出它在技术演进中的位置。

表示学习与端到端学习

在传统机器学习流程里，特征工程和预测器常常是分开的：先由人手设计特征，再把这些特征交给线性模型、树模型或核方法完成分类与回归。深度学习把这两步合并进同一个可微计算图。前面的层负责把原始输入转写为更有判别力、更有结构感的表示，后面的层负责完成具体任务，所有参数围绕同一个目标函数联合优化。这就是端到端学习（End-to-End Learning）的核心含义。

表示学习（Representation Learning）之所以重要，是因为感知任务真正困难的部分，往往不在“最后怎么分一下类”，而在“怎样把原始信号变成对任务友好的坐标系”。图像像素、语音波形、文本序列和图结构都高度高维、局部相关且语义分散。深度网络的价值，在于它能用层级结构自动提取适合当前任务的中间表示，而不再完全依赖人工定义纹理统计量、边界特征、语言规则或图特征模板。

深度学习会改变整个方法栈，原因正在这里。过去很多系统的主要工作量放在“特征怎么造”；深度学习之后，工作重心逐渐转向“架构如何设计、数据如何构造、训练如何稳定、预训练如何迁移、部署如何落地”。从研究到工业实践，核心竞争力开始沿着表示学习能力重新分布。

为什么深度学习成为里程碑

多层神经网络并非 2010 年代才出现的新概念。真正的转折点在于，一系列条件在同一时期同时成熟，使深网络第一次具备了大规模可训练、可迁移、可复用的现实基础。深度学习成为里程碑，靠的核心是数据、算力、优化、架构和软件工程几条线一起闭环。

关键条件	作用	为什么重要
大规模数据	提供足够多样的监督信号与统计规律	深网络参数量大，若没有足够样本，表达能力会迅速转化为过拟合风险
GPU / 并行算力	把大规模矩阵乘法、卷积和反向传播变成可承受的训练过程	很多深层模型在理论上可定义，但在工程上长期“训不动”
优化技术成熟	ReLU、Xavier / He 初始化、BatchNorm、残差连接、门控结构等共同提升可训练性	它们解决的是梯度消失、数值失稳和深层退化等根本瓶颈
强归纳偏置的架构	CNN 利用空间局部性，RNN 利用时序递推，GNN 利用图邻接关系	深度并不自动等于有效，架构必须贴合数据结构
预训练与迁移学习	先在大数据上学通用表示，再迁移到下游任务	这使深度学习从“每个任务从零训练”转向“共享表征资产”
框架与工程生态	自动求导、分布式训练、模型导出和部署工具日益成熟	研究原型和生产系统之间的距离被显著缩短

从方法史角度看，深度学习真正改变的是“模型从何处获得有用表示”。经典机器学习更多依赖人工抽取特征，再用较浅模型做判别；深度学习则把表示构造本身纳入训练。这个变化一旦与数据和算力结合，就会呈现出非常强的规模效应。

关键技术演进

AlexNet 与视觉模型复兴

AlexNet 是现代深度学习史上的标志性节点。它的意义不仅 ImageNet 分类精度显著提升，还证明了一个足够深、足够宽、用 GPU 训练、配合 ReLU 和数据增强的卷积网络，能够系统性压过人工特征加浅层分类器的旧路线。视觉领域由此从“设计特征”转向“训练特征”。

这次转折的后果极其深远。分类只是起点，检测、分割、检索、视频理解和视觉问答很快都转向以深层 backbone 为中心的范式。很多后续工作从从零设计整套视觉特征转向围绕预训练卷积网络做迁移、微调和多任务扩展。

Seq2Seq 与 Attention

在序列任务上，深度学习的关键进展并不只来自更强的 RNN / LSTM / GRU，还来自编码器-解码器（Encoder-Decoder）和注意力（Attention）机制。Seq2Seq 让模型能够把输入序列映射为输出序列，最早大规模改变了机器翻译、语音识别和摘要生成等任务；注意力则突破了“所有信息都必须挤进一个固定长度向量”的瓶颈，使解码器可以在生成每一步时，动态读取输入序列中最相关的部分。

这条技术线的重要性在于，它把序列建模从“单纯递推记忆”推进到“按需访问上下文”。Transformer 正是在这条线上进一步把注意力从辅助机制推到主干架构，因此 Seq2Seq 与 Attention 构成了通往下一篇 Transformer 主线的直接前史。

Transformer

Transformer 可以看作深度学习在序列建模上的又一次架构级跃迁。它从把循环或卷积作为主干转向以自注意力（Self-Attention）为核心，让每个位置都能直接与其他位置建立依赖关系。这样做的结果是：长距离关系更容易建模，训练更适合并行化，模型也更容易沿着数据规模、参数规模和上下文长度继续扩展。

Transformer 最初在机器翻译中取得突破，随后迅速扩展到语言建模、视觉、语音、多模态和生成任务，最终成为大模型时代最核心的基础架构之一。从深度学习的全局版图看，它核心是建立在表示学习、端到端训练、注意力机制、残差连接和大规模预训练这些深度学习主线之上的综合结果。后续第 3 篇会专门展开它的结构与演进。

GAN 与生成式建模跃迁

深度学习早期最强的成果主要集中在识别任务，而 GAN 把研究重点大幅推进到“高质量生成”本身。它展示了深网络不仅能判断图像属于什么类别，还能学习数据分布并生成逼真的新样本。这使图像合成、风格迁移、超分辨率、图像到图像翻译等方向迅速发展，也改变了人们对“模型能力边界”的直觉。

GAN 之后，生成式建模继续沿着 VAE、流模型、扩散模型等路线演进。它们关注的问题已经不仅判别准确率，还样本质量、潜空间结构、可控生成和条件生成。生成模型因此成为深度学习内部一条独立而强势的方法线，后文会单独展开。

预训练与迁移学习

深度学习的另一个方法学跃迁，是从“每个任务都从随机初始化开始学”转向“先学通用表示，再迁移到具体任务”。在视觉里，这条线最初体现为 ImageNet 预训练 backbone；在语音和语言里，则逐步发展为更大规模的自监督预训练。迁移学习显著降低了下游任务对标注数据量的依赖，也让模型参数本身成为可复用资产。

这一变化与大模型时代直接相连。大语言模型核心是深度学习在预训练、表示共享和规模扩展三条线上持续推进后的自然结果。因此，把深度学习理解成“大模型之前的旧阶段”并不准确；更贴切的说法是，大模型建立在深度学习已经完成的方法论基础之上。

可训练深度与残差学习

深度学习真正变成“深”这件事，并非把层数机械堆高就结束了。模型一旦变深，前向信号尺度、反向梯度传播、优化地形和参数更新路径都会迅速恶化。也就是说，网络的理论表达能力和它能否被稳定训练，根本并非同一回事。可训练深度（Trainable Depth）讨论的正是这个问题：怎样让几十层、上百层甚至更深的网络，不仅写得出来，还真的训得动。

深层网络为什么难训练

深层网络的困难，不能只概括成“梯度消失或爆炸”。那当然是重要问题，但并非全部。更本质地说，随着层数增加，模型必须在一连串非线性变换里同时维持三件事：有用信息不能太快丢失，梯度不能在回传时彻底衰减或失控，优化器还要能在高维参数空间里找到稳定下降方向。哪怕某个更深模型在理论上至少不比浅模型差，训练出来的结果也可能反而更糟，这就是深层退化（Degradation）问题。

若把一个深层块写成 $H(x)$，传统堆叠要求这一组层直接学习完整映射 $x\mapsto H(x)$。问题在于，当最优映射本身接近恒等映射，或只需要对输入做很小修正时，让网络从零学习整张映射会非常低效。层数越多，这种“每一层都要重新写一遍答案”的负担就越重。

ResNet

ResNet（Residual Network）对这个难题给出的回答是残差学习（Residual Learning）。它不要求若干层直接学习 $H(x)$，重点是改学相对输入的增量 $F(x)=H(x)-x$，于是输出变成

\[y=F(x)+x\]

这里 $x$ 是块输入， $F(x)$ 是卷积、归一化和非线性组成的残差分支， $y$ 是块输出。这个重写非常关键，因为它把“学习完整映射”改成了“在已有表示上做局部修正”。若当前层不需要大改输入，只要让 $F(x)\approx 0$ 即可；若需要修正，再通过残差分支逐步补上。

这等于给深层网络提供了一条默认可行的起点：最坏情况下，信息至少可以沿着恒等路径往后传，而不必在每一层都被迫经过强变换。ResNet 因此核心是在重新定义深层块应该学什么。

残差连接为什么有效

残差连接（Residual Connection）之所以有效，可以从前向和反向两条路同时理解。前向上，主表示已经从能依赖一串层层覆盖的非线性变换扩展到有一条更短、更稳定的通道把已有信息直接送到后面；这使模型更容易保留低层有用特征，不会因为层数增加而过快破坏已有表示。反向上，梯度也多了一条更直接的传播路径，因此不会被所有中间层的局部导数连续压缩。

若把损失记为 $\mathcal{L}$，残差块输出为 $y=x+F(x)$，则对输入的梯度满足

\[\frac{\partial \mathcal{L}}{\partial x}=\frac{\partial \mathcal{L}}{\partial y}\left(I+\frac{\partial F(x)}{\partial x}\right)\]

这个式子的意义是：即使残差分支 $\frac{\partial F(x)}{\partial x}$ 在某些区域学得不理想，梯度仍然至少能通过恒等项 $I$ 保留一条直接路径。因此，残差连接缓解的核心是深层优化本身的困难。

具象地看，普通深网络像要求每一层都重写一遍完整草稿；残差网络则允许每一层只在上一版稿子旁边批注修改。真正需要改动的地方写入残差，不需要改的地方直接保留原文。这个抽象后来成为深层网络设计中极其通用的模式。

影响超出 CNN

ResNet 最早在视觉里爆发，但残差学习的影响远远超出 CNN。Transformer 的每一层都依赖残差连接把注意力子层和 MLP 子层写回主表示流；扩散模型中的 U-Net 主干大量使用残差块；很多现代语音、视频、多模态和图模型也都把 skip connection 当作默认部件。原因很简单：残差连接解决的是深层网络的通用训练稳定性，而非某种视觉特有问题。

因此，在知识体系里，ResNet 一方面是 CNN 家族中的里程碑架构，另一方面又代表了一条跨架构的方法学原则。后文在卷积神经网络部分仍会把 ResNet 作为经典视觉架构展开；这里更强调它在整个深度学习版图中的地位：它让“更深的网络”第一次大规模变成了工程上可持续扩展的现实路线。

深度学习的实际应用

深度学习之所以成为主流，核心是因为它在大量真实任务上持续改写了系统能力边界。它最擅长的场景，通常具备三个特征：输入高维、原始信号结构复杂、手工特征难以穷尽。只要这三个条件同时出现，表示学习的优势就会迅速放大。

应用方向	深度学习在做什么	典型模型或系统	关键价值
图像分类、检测与分割	从像素中直接学习目标、边界和语义区域的层级表示	CNN backbone、Faster R-CNN、U-Net、Mask R-CNN	显著降低人工视觉特征设计需求，并统一多类视觉任务的表示基础
人脸识别与设备认证	学习稳定的人脸嵌入，用于身份匹配、聚类和检索	FaceNet、ArcFace、Face ID 一类终端系统	把“看起来像不像”变成可度量的特征空间距离，并兼顾鲁棒性与低误识率
语音识别与语音合成	把连续波形映射为音素、文本或声学表示，再进一步合成自然语音	Deep Speech、Conformer、Tacotron、WaveNet	显著提升端到端语音系统的准确率与自然度
机器翻译与序列理解	学习跨语言或跨序列位置的上下文依赖与对齐关系	Seq2Seq、Attention、Transformer	把规则驱动和短上下文模型推进到可扩展的端到端序列建模
医学影像与工业质检	从高维图像中识别微小异常、边界结构和组织模式	ResNet、U-Net、3D CNN	在噪声高、细节密、人工判读成本高的场景中放大模型辅助价值
推荐、排序与多模态检索	把用户、内容、上下文和行为序列编码进共享表示空间	Wide & Deep、DeepFM、双塔检索模型	提升匹配能力，并支持召回、排序、粗排到精排的分层建模

人脸识别本身毫无疑问属于深度学习的典型落地方向，而 Face ID 这类系统则更接近“深度学习模型 + 传感器 + 活体检测 + 安全芯片 + 阈值策略”的产品级集成。深度网络负责学习人脸表征与匹配规则，但真正可商用的身份认证系统，还必须处理深度信息、环境光变化、攻击对抗、设备端隐私隔离和误识率控制等工程问题。这类例子很能说明：模型往往是核心能力来源，但完整系统从来不只是一张网络结构图。

卷积神经网络（CNN）

卷积层

卷积（Convolution）在连续形式下定义为函数重叠积分：

\[(f*g)(t)=\int_{-\infty}^{+\infty} f(\tau)\,g(t-\tau)\,d\tau\]

在离散二维图像中常写为：

\[(I*K)(i,j)=\sum_m\sum_n I(i-m,j-n)\,K(m,n)\]

深度学习框架里多数“卷积层”实现的是互相关（Cross-Correlation）而非严格翻转核的数学卷积，但工程上沿用“卷积”命名。卷积核（Kernel）共享权重（Weight Sharing），天然利用局部性（Locality）与平移等变（Translation Equivariance）。

直观上，卷积层做的事情是：对每个位置取一个局部窗口，把窗口里的像素与卷积核做加权求和，得到该位置的响应。不同卷积核学习不同的局部模式（边缘、纹理、角点等）。

一维互相关示例：输入 $x=[0,0,1,1,1,0,0]$，核 $w=[1,0,-1]$，则在从左到右滑动时，核会对“上升沿/下降沿”给出大幅响应（本质上是比较左右两侧的差异）。这就是经典的边缘检测直觉在离散信号上的对应。

卷积的“系统视角”能统一理解 CNN 与信号处理：把卷积核看作响应函数（Response Kernel），输出就是对历史输入的加权累积。参见“微积分 ➡ 卷积（Convolution）”中的因果卷积与“打点滴累积药效”直觉例子。

池化、下采样与上采样

池化（Pooling）是卷积网络里最经典的一类分辨率操作。最大池化（Max Pooling）和平均池化（Average Pooling）都会把局部窗口压缩成更小的表示，因此它们首先属于下采样（Downsampling）。把这一点说清楚之后，再讨论与之相对的上采样（Upsampling），结构才是完整的。

更一般地说，上采样与下采样讨论的是：在神经网络或信号处理中，怎样改变表示的分辨率、采样密度或时间粒度。图像里它通常表现为特征图宽高的变化；音频里表现为采样率变化；时间序列里则表现为时间轴被压缩或展开。它们核心是一类跨模态的基础操作。

下采样的目标是把表示变粗。若二维特征图 $X\in\mathbb{R}^{H\times W}$ 经过步幅为 $s$ 的下采样后，输出空间尺寸通常近似变成 $\lfloor H/s\rfloor \times \lfloor W/s\rfloor$。最常见的方式包括最大池化（Max Pooling）、平均池化（Average Pooling）和步幅卷积（Strided Convolution）。它带来的直接收益是：计算量下降、后续层感受野扩大、模型更容易聚焦高层语义；代价则是细边界、小目标和高频细节可能被抹掉。

上采样的目标是把表示变细。若输入特征图大小为 $H\times W$，放大倍率为 $r$，则输出空间尺寸会变成 $rH\times rW$。最常见的方法包括最近邻插值（Nearest Neighbor Interpolation）、双线性插值（Bilinear Interpolation）、转置卷积（Transposed Convolution）、反池化（Unpooling）与 Pixel Shuffle。它的任务核心是把低分辨率表示重新投影到更细网格上，使后续模块能够输出与原输入同尺度的结果。

二者经常成对出现。分类骨干网络通常不断下采样，把原始像素压缩成更抽象的低分辨率语义表示；分割、超分辨率、生成模型和部分语音/时序重建任务则需要再把这些粗表示上采样回去。U-Net、FPN 和 encoder-decoder 结构长期流行，正是因为它们在回答同一个问题：如何在压缩信息、扩大感受野的同时，仍然把输出恢复到需要的空间或时间分辨率。

这里还要区分“降采样有信息丢失”和“升采样无法保证恢复全部细节”这两个事实。若下采样前没有做足够的低通滤波（Low-pass Filtering），高频成分会折叠成错误的低频模式，产生混叠（Aliasing）；若上采样只依赖插值，则新位置往往只是旧值的平滑填充，而非恢复出真正的新结构。因此在工程上，很多高质量系统会把下采样后的高层语义与浅层高分辨率特征通过跳跃连接（Skip Connection）重新融合，再做上采样，以减轻细节损失。

扩张卷积（Dilated Convolution）

扩张卷积（Dilated Convolution）处理的核心问题是：在不显著增加参数量和计算量的前提下，如何让卷积层看到更大的上下文。它通过在卷积核元素之间插入空洞（dilation gap），把原本紧密相邻的采样点拉开，从而扩大感受野（Receptive Field）。

若一维卷积核长度为 $k$、扩张率为 $r$，则其有效感受野长度可写成：

\[k_{\mathrm{eff}}=k+(k-1)(r-1)\]

这条式子说明：当 $r=1$ 时，它退化为普通卷积；当 $r>1$ 时，在不增加核参数个数的情况下，有效覆盖范围会迅速变大。以 $k=3$ 为例，若 $r=2$，有效感受野就从 3 扩展到 5；若 $r=4$，则扩展到 9。

扩张卷积特别适合语义分割、语音建模、时间序列和需要多尺度上下文的视觉任务，因为它兼顾了两件事：一方面保留卷积的局部共享权重结构，另一方面又能在较浅层就看到更远范围的信息。它的代价是采样点变稀，若扩张率设计不当，容易出现栅格效应（Gridding Effect），也就是某些局部细节被系统性跳过。因此工程上常把不同扩张率交替堆叠，或与普通卷积、残差块结合使用。

经典架构

LeNet

LeNet 可以看作现代卷积神经网络（Convolutional Neural Network, CNN）的原型。它面对的是手写数字识别这类“局部笔画决定整体类别”的任务，因此核心思想很直接：先用卷积层提取局部边缘、角点和笔画，再用池化（Pooling）降低分辨率与局部扰动敏感性，最后把高层特征送入全连接层做分类。

经典 LeNet-5 的结构可以概括为“卷积 - 池化 - 卷积 - 池化 - 全连接”。前面的卷积层负责把原始像素变成越来越抽象的特征图（Feature Map），后面的全连接层负责把这些局部特征整合成类别判断。它的重要性不只是“识别数字有效”，更在于证明了三件事可以协同工作：局部感受野（Local Receptive Field）、权重共享（Weight Sharing）和层级特征提取（Hierarchical Feature Learning）。

卷积层里的一个典型计算是：

\[y_{i,j}^{(k)}=\sum_{u}\sum_{v}\sum_{c} W_{u,v,c}^{(k)}\,x_{i+u,j+v,c}+b^{(k)}\]

这里 $x$ 是输入图像或上一层特征图， $W^{(k)}$ 是第 $k$ 个卷积核， $c$ 是输入通道索引， $(i,j)$ 是空间位置， $y_{i,j}^{(k)}$ 是输出特征图在该位置上的响应。这个公式表达的就是：用同一个卷积核在整张图上滑动，寻找“哪里出现了我关心的局部模式”。

训练上，LeNet 已经体现出现代深度学习的基本闭环：前向传播得到类别 logits，损失函数衡量预测与真实标签的差距，反向传播把梯度传回卷积核和全连接层参数，再用梯度下降更新权重。它最典型的应用是 MNIST 手写数字识别，也常被用作理解 CNN 的第一块教学样板，因为结构短、计算图清晰、局部模式学习的直觉非常强。

AlexNet

AlexNet 标志着深度卷积网络在大规模视觉识别上的突破。它面对的核心是 ImageNet 级别的彩色自然图像，因此核心思想从“能提特征”进一步推进到“更深、更宽、更可训练”：增加网络容量，用 ReLU（Rectified Linear Unit）加快优化，用 Dropout 缓解过拟合，用数据增强提升泛化，再借助 GPU 让大模型真正训得动。

其典型结构是多层卷积堆叠后接全连接层，早期卷积核较大、步幅较大，用于迅速降采样并提取低层纹理；中后期卷积核变小，重点转向更细粒度的组合特征。AlexNet 还使用了局部响应归一化（Local Response Normalization, LRN）这一今天较少使用、但在当时有历史意义的设计。整体上，它把 CNN 从“可用于小型任务的模型”推向了“可以在大规模视觉基准上碾压传统方法的通用架构”。

它最有代表性的非线性是 ReLU：

\[\mathrm{ReLU}(z)=\max(0,z)\]

其中 $z$ 是线性层或卷积层的输出。与 sigmoid / tanh 相比，ReLU 在正半轴不饱和，梯度传播更直接，因此深层网络更容易优化。AlexNet 的历史意义之一，就是把“激活函数的选择会显著影响深网络可训练性”这件事变成了工程共识。

训练上，AlexNet 典型地结合随机裁剪、翻转、颜色扰动等数据增强，并在全连接层使用 Dropout。它的直接应用是大规模图像分类；更深远的影响则是推动了整个视觉领域转向“预训练 CNN + 迁移学习”的工作流。很多后续检测、分割与检索系统，都曾把 AlexNet 当作特征提取骨干网络（Backbone）。

VGG

VGG 的核心思想是：用结构极其规整的小卷积核反复堆叠，把网络做深。它放弃了早期“大卷积核 + 大步幅”的粗放设计，转而几乎全程使用 $3\times 3$ 卷积，通过增加层数来扩大感受野、提高非线性表达能力，并让整套架构在工程上更统一、更易复用。

VGG 的典型结构非常整齐：若干个 $3\times 3$ 卷积层组成一个 stage，stage 之间通过池化层下采样，最后再接全连接分类头。它的重要工程思想是“深度本身就是能力来源之一”。相较于更杂糅的早期网络，VGG 的层次感非常强：浅层提边缘和纹理，中层提局部部件，高层提更完整的语义结构。

为什么反复使用 $3\times 3$ 卷积有效，可以从感受野和参数量两方面理解。两个连续的 $3\times 3$ 卷积，其有效感受野接近一个 $5\times 5$ 卷积，但中间多了一次非线性变换，参数量通常还更少。若忽略通道数变化，单层 $5\times 5$ 卷积大约有 25 个核参数，而两层 $3\times 3$ 卷积一共是 18 个核参数。

训练上，VGG 比 AlexNet 更依赖较好的初始化、较强的正则化和更大的算力预算，因为它的参数量尤其在全连接部分非常大。它的直接应用是图像分类，但工程上更著名的是作为“通用视觉特征提取器”：在风格迁移、感知损失（Perceptual Loss）、检测与分割早期系统中，VGG 特征长期是强基线。它的代价也很明显：参数多、推理重、显存占用高，这直接推动了后续更高效架构的出现。

ResNet

若把上一节的“残差学习”放回视觉主线里看，ResNet（Residual Network）就是它在卷积神经网络中的代表性实现。它的关键突破核心是重新设计“深层网络应该学什么”。它提出残差学习（Residual Learning）：一层或一组层学习相对于输入的增量，无需直接学习完整映射 $H(x)$ $F(x)=H(x)-x$。这样网络输出就写成：

\[y=F(x)+x\]

这里 $x$ 是块输入， $F(x)$ 是若干卷积层、归一化和激活组成的残差分支输出， $y$ 是该残差块的最终输出。若最优映射本身就接近恒等映射（Identity Mapping），那么让网络学习“只改一点点”通常比“从零重建整个映射”更容易优化。

具象地看，普通深网络像要求每一层都重新写一遍完整答案；ResNet 则允许每一层在原答案旁边写批注：需要修改的地方补上增量，不需要改的地方直接走捷径。这个“捷径连接（Skip Connection）”让梯度能沿更短路径传播，因此网络深到几十层、上百层时仍可训练。ResNet 解决的核心问题是深层优化退化（Degradation）：层数增加后，训练误差反而上升。

训练上，ResNet 通常结合 BatchNorm、较深的 stage 结构和全局平均池化（Global Average Pooling）来替代庞大的全连接头。它在图像分类上大获成功后，很快成为检测、分割、关键点、视频理解等视觉任务的主流骨干网络。更深远的影响是：残差连接后来成为 Transformer、扩散模型和许多现代深网络的标准部件，因为它本质上是在为深层优化建立稳定的信息主通路。

循环神经网络（RNN）

RNN

循环神经网络（Recurrent Neural Network, RNN）按时间步（Time Step）处理序列。第 $t$ 个时刻输入是 $x_t$，隐藏状态（Hidden State）递推为：

\[h_t=\phi(W_{xh}x_t+W_{hh}h_{t-1}+b_h),\quad y_t=W_{hy}h_t+b_y\]

$W_{xh}$（输入到隐层）与 $W_{hh}$（隐层到隐层）在所有时刻共享，这是 RNN 能在变长序列上泛化的关键。

把它展开（Unroll）到时间轴上会更直观：同一套参数在每个时间步重复使用，形成一个深度为 $T$ 的计算图。这也是 RNN 训练常说的“通过时间的反向传播（Backpropagation Through Time, BPTT）”。

RNN 的经典难点是梯度消失/爆炸（Vanishing/Exploding Gradients）：反向传播时会反复乘以 $W_{hh}$ 的雅可比，从而导致梯度范数指数级衰减或增长。LSTM/GRU 通过门控（Gating）与更“线性”的记忆通道缓解这一问题。

Seq2Seq（Sequence-to-Sequence）是任务范式，不限定具体单元。早期 Seq2Seq 常由 RNN/LSTM/GRU 的编码器-解码器（Encoder-Decoder）实现；后续被 Transformer 大规模替代。

“乘法 + 加法 + 非线性”为何有效：线性变换负责特征重表达，非线性激活（Nonlinearity）提供函数逼近能力，时间递推提供记忆路径，三者叠加形成高表达力。

LSTM

LSTM（Long Short-Term Memory）是为了解决普通 RNN 难以稳定保留长程信息的问题而设计的门控循环结构。它的核心思想核心是显式维护一个记忆单元（Cell State） $c_t$，并用门控决定“忘掉什么、写入什么、读出什么”。这使得序列中的关键信息可以沿着一条更接近线性的通道向后传播，而不必在每个时间步都被强非线性反复改写。

LSTM 的典型更新写成：

\[f_t=\sigma(W_f x_t+U_f h_{t-1}+b_f),\quad i_t=\sigma(W_i x_t+U_i h_{t-1}+b_i)\] \[\tilde c_t=\tanh(W_c x_t+U_c h_{t-1}+b_c),\quad c_t=f_t\odot c_{t-1}+i_t\odot \tilde c_t\] \[o_t=\sigma(W_o x_t+U_o h_{t-1}+b_o),\quad h_t=o_t\odot \tanh(c_t)\]

其中 $x_t$ 是当前输入， $h_{t-1}$ 是前一时刻隐藏状态， $c_{t-1}$ 是前一时刻记忆单元； $f_t$ 是遗忘门（Forget Gate），控制旧记忆保留多少； $i_t$ 是输入门（Input Gate），控制当前候选记忆 $\tilde c_t$ 写入多少； $o_t$ 是输出门（Output Gate），控制当前记忆暴露给隐藏状态多少； $\sigma$ 是 sigmoid，把门值压到 $(0,1)$ 区间； $\odot$ 是逐元素乘法。

具象地看，LSTM 像一条带阀门的记忆水管。普通 RNN 每走一步都把旧信息和新输入一锅重拌，长距离信息容易被冲淡；LSTM 则允许旧记忆沿主管道直接往后流，同时用三个阀门分别控制“放掉旧水”“注入新水”“输出多少”。这正是它能比普通 RNN 更稳定地记住长距离依赖的原因。

训练上，LSTM 仍然通过时间反向传播（BPTT）学习参数，但门控结构显著改善了梯度流。它曾长期是机器翻译、语音识别、语言建模、时间序列预测和序列标注的主力模型。在 Transformer 出现之前，大量 Seq2Seq 系统都建立在双向 LSTM 或多层 LSTM 之上；在某些中小规模时序任务里，LSTM 今天仍然是强而稳的基线。

GRU

GRU（Gated Recurrent Unit）可以看作 LSTM 的简化版本。它保留了“用门控控制信息保留与更新”的核心思想，但把记忆单元与隐藏状态合并，不再单独维护 $c_t$，从而用更少参数换取更紧凑的结构与更快的训练速度。

GRU 的一组典型公式是：

\[z_t=\sigma(W_z x_t+U_z h_{t-1}+b_z),\quad r_t=\sigma(W_r x_t+U_r h_{t-1}+b_r)\] \[\tilde h_t=\tanh(W_h x_t+U_h(r_t\odot h_{t-1})+b_h)\] \[h_t=(1-z_t)\odot h_{t-1}+z_t\odot \tilde h_t\]

这里 $z_t$ 是更新门（Update Gate），决定旧状态保留多少、新候选状态写入多少； $r_t$ 是重置门（Reset Gate），决定在构造候选状态 $\tilde h_t$ 时，历史信息应当被参考到什么程度。若 $z_t$ 很小，模型更倾向保留旧记忆；若很大，模型更倾向用新信息刷新状态。

从直觉上看，GRU 把 LSTM 的三道阀门压缩成两道更紧凑的控制逻辑：一方面决定“要不要更新”，另一方面决定“生成候选更新时要不要忘掉旧状态的一部分”。这让它在很多任务上能以更少参数达到与 LSTM 相近的效果，尤其适合数据量不极大、模型容量受限或推理效率敏感的场景。

训练上，GRU 与 LSTM 一样使用 BPTT。应用上，它常见于语音、时序预测、较轻量的编码器-解码器模型，以及很多工业界的表格时间序列任务。若需要更强的显式记忆控制，LSTM 往往更稳；若更看重结构简洁和训练效率，GRU 常是更自然的选择。

递归神经网络与序列堆叠变体

导图里的递归神经网络（Recursive Neural Network）与循环神经网络名字相近，但建模对象不同。RNN 按时间顺序在链式序列上递推；Recursive Neural Network 则沿树结构自底向上组合表示，更适合句法树、短语树或其他层次结构输入。Tree-RNN、Matrix-Vector RNN、Syntactically-Unified RNN 都属于这一支。它们在早期句法分析、情感组合性建模和结构化语义表示中很重要，但在 2026 年已经明显并非主流通用底座，更多作为结构归纳偏置的历史代表存在。

与之相邻的另一条工程线，是在链式序列模型上继续堆叠和增强，例如 Stacked LSTM、LSTM-CRF、Highway Connection。Stacked LSTM 通过多层递推增加表示深度；LSTM-CRF 把序列编码器与结构化解码结合，长期是序列标注强基线；Highway Connection 则让层间信息可以部分直通，缓解深层递推网络的优化困难。它们共同代表了 Transformer 出现之前，序列建模系统如何通过门控、堆叠与结构化解码不断逼近更强表达力的那条主线。

生成模型

生成模型（Generative Model）关注的核心问题是“数据本身是如何产生出来的”。更形式化地说，它试图学习数据分布 $p(x)$，或条件分布 $p(x|c)$，从而能够采样、重建、补全、去噪或按条件生成新样本。不同生成模型的主要差别在于它们选择了不同的概率建模路径：有的学隐变量，有的学博弈过程，有的学逐步去噪，有的更偏重表示压缩。

自编码器（AE）

自编码器（Autoencoder, AE）的核心思想是“先压缩，再重建”。它把输入 $x$ 通过编码器（Encoder）映射到低维或受约束的隐表示（Latent Representation） $z$，再通过解码器（Decoder）把 $z$ 重建回 $\hat x$。如果模型在受限瓶颈下仍能较好重建输入，就说明 $z$ 抓住了数据中的关键结构。

其基本形式可以写成：

\[z=f_{\theta}(x),\qquad \hat x=g_{\phi}(z)\] \[\mathcal{L}_{\mathrm{AE}}=\|x-\hat x\|_2^2\quad \text{或}\quad -\sum_i x_i\log \hat x_i\]

这里 $f_{\theta}$ 是编码器， $g_{\phi}$ 是解码器， $z$ 是瓶颈表示， $\hat x$ 是重建结果。若输入是连续值，常用均方误差；若输入近似二值或归一化到概率意义，常用逐维交叉熵。这个目标迫使模型学习“怎样用更紧凑的表示保存足够重建原样本的信息”。

自编码器本身并不天然是强生成模型，因为它主要学会的是“给定输入怎么重建自己”，而非如何从一个规则、可采样的潜空间中稳定地产生新样本。它更适合理解为表示学习或降维模型。通过在结构或训练目标上增加限制，例如稀疏自编码器（Sparse AE）、去噪自编码器（Denoising AE）或收缩自编码器（Contractive AE），它可以学到更稳健的隐表示。

应用上，AE 常用于降维、异常检测、去噪、预训练和表征学习。例如在工业异常检测里，模型只用正常样本训练，推理时若某个输入无法被良好重建，重建误差就可能提示该样本偏离了正常分布。

变分自编码器（VAE）

变分自编码器（Variational Autoencoder, VAE）是在 AE 基础上把“隐空间可采样”这件事做成概率建模的方案。它从把编码器输出一个确定的潜向量转向输出一个潜变量分布 $q_{\phi}(z|x)$；同时假设存在生成分布 $p_{\theta}(x|z)$。这样，模型既能重建输入，又能从一个规则的潜空间里采样新样本。

VAE 的核心训练目标是证据下界（Evidence Lower Bound, ELBO）：

\[\mathcal{L}_{\mathrm{VAE}}=\mathbb{E}_{q_{\phi}(z|x)}[\log p_{\theta}(x|z)]-D_{\mathrm{KL}}\big(q_{\phi}(z|x)\,\|\,p(z)\big)\]

其中第一项是重建项，鼓励给定 $z$ 时能把 $x$ 生成回来；第二项是 KL 散度（Kullback-Leibler Divergence），把编码器输出的后验近似分布 $q_{\phi}(z|x)$ 拉向先验分布 $p(z)$，通常取标准高斯 $\mathcal{N}(0,I)$。这一步的作用是把隐空间整理成“规则、连续、可插值、可采样”的形状。

训练上的关键技巧是重参数化（Reparameterization Trick）：若直接从 $q_{\phi}(z|x)$ 采样，梯度难以回传；VAE 通常把采样写成 $z=\mu+\sigma\odot \epsilon$，其中 $\epsilon\sim\mathcal{N}(0,I)$，而 $\mu,\sigma$ 由编码器输出。这样随机性被转移到与参数无关的 $\epsilon$ 上，梯度就能顺利穿过 $\mu,\sigma$ 回传。

应用上，VAE 特别适合做潜空间操作，例如插值生成、属性控制、缺失补全和概率建模。与 GAN 相比，VAE 生成结果往往更平滑、更稳定，但图像清晰度常较弱；与扩散模型相比，VAE 在采样效率上更高，但生成质量上通常并非最强路线。

生成对抗网络（GAN）

生成对抗网络（Generative Adversarial Network, GAN）的核心思想是对抗式学习：让生成器（Generator）负责“伪造样本”，让判别器（Discriminator）负责“分辨真假”，两者在博弈中共同提高。生成器学会把随机噪声变成越来越像真实数据的样本，判别器则学会识别这些样本是否来自真实分布。

经典 GAN 的目标写成：

\[\min_G\max_D\ V(D,G)=\mathbb{E}_{x\sim p_{\mathrm{data}}}[\log D(x)]+\mathbb{E}_{z\sim p(z)}[\log(1-D(G(z)))] \]

这里 $z$ 是从先验分布中采样的随机噪声， $G(z)$ 是生成器产生的假样本， $D(x)$ 输出输入样本为真样本的概率。判别器希望让真实样本分数高、伪样本分数低；生成器则希望骗过判别器，让 $G(z)$ 看起来足够真实。

具象地看，GAN 像“伪造者”和“鉴定师”的对抗升级。鉴定师越强，伪造者就被迫学会更精细的伪造技巧；伪造者越强，鉴定师也必须学会更细致的辨别规则。理论上，这种动态会把生成分布推向真实数据分布；工程上，它带来的最大问题是训练不稳定，常见现象包括模式崩塌（Mode Collapse）、震荡和判别器过强导致生成器梯度过弱。

GAN 在图像生成、图像翻译、超分辨率和风格迁移里曾经极其成功，因为它特别善于生成锐利、感知上真实的图像纹理。但它对训练技巧依赖很强，后来在大规模高保真图像生成上逐渐被扩散模型压过；即便如此，GAN 在需要低步数快速生成或特定视觉变换任务中仍然很有生命力。

扩散模型（Diffusion）

扩散模型（Diffusion Model）的核心思想是：把“直接学会生成复杂数据”拆成“先逐步加噪，再逐步去噪”这条更稳定的路径。前向过程把真实样本一步步污染成近似高斯噪声，反向过程则训练一个神经网络学会在每一步去掉一小部分噪声。最终从纯噪声出发，经过多步反向去噪，就能逐步生成结构清晰的样本。

记号上，前向扩散链从真实样本 $x_0$ 出发，依次得到 $x_1,x_2,\dots,x_T$。因此 $x_0$ 表示原始数据样本， $x_t$ 表示第 $t$ 步加噪后的样本。

一个常见的前向加噪过程写成：

\[q(x_t|x_{t-1})=\mathcal{N}\!\left(x_t;\sqrt{1-\beta_t}\,x_{t-1},\beta_t I\right)\]

这里 $\beta_t$ 是第 $t$ 步的噪声强度：它控制从 $x_{t-1}$ 走到 $x_t$ 时，原信号衰减多少、随机噪声注入多少。训练时常把从 $x_0$ 到 $x_t$ 的若干步合并写成

\[x_t=\sqrt{\bar\alpha_t}\,x_0+\sqrt{1-\bar\alpha_t}\,\epsilon,\qquad \epsilon\sim\mathcal{N}(0,I)\]

这里 $\bar\alpha_t$ 是由噪声日程（Noise Schedule）累乘得到的系数，控制到第 $t$ 步时，原始信号保留了多少、噪声混入了多少。实际训练中，网络通常不直接预测 $x_0$，通常会预测噪声 $\epsilon$，典型损失是：

\[\mathcal{L}_{\mathrm{diff}}=\mathbb{E}\big[\|\epsilon-\epsilon_{\theta}(x_t,t)\|_2^2\big]\]

这条路径之所以有效，在于“预测一步噪声”比“直接一次生成整张复杂图片”更容易优化。训练上，扩散模型相对稳定，较少出现 GAN 那种对抗不平衡；代价是采样通常需要多步迭代，推理速度较慢。应用上，扩散模型已经成为图像生成、文生图、图像编辑、超分辨率、视频生成和分子设计的重要主线。Stable Diffusion 一类系统，本质上就是把扩散过程放到了潜空间（Latent Space）里执行，以降低像素空间扩散的计算成本。

图神经网络（GNN）

图神经网络（Graph Neural Network, GNN）处理的对象核心是由节点（Node）和边（Edge）组成的图（Graph）。它的核心问题是：当样本之间存在不规则连接关系时，如何让一个节点的表示同时反映“自己的特征”和“邻居结构中的上下文”。因此，GNN 的基本直觉核心是让节点在图上传递消息、聚合邻居信息，再更新自身表示。

图卷积网络（GCN）

图卷积网络（Graph Convolutional Network, GCN）把卷积思想推广到图结构上。它的核心思想是：一个节点的新表示，不应只由自己决定，还应由其邻居节点的表示共同决定；但这种聚合不能简单相加，而需要根据图结构做适当归一化，否则高度节点会在信息聚合中占据过大权重。

GCN 的经典一层更新公式写成：

\[H^{(l+1)}=\sigma\!\left(\tilde D^{-1/2}\tilde A\tilde D^{-1/2}H^{(l)}W^{(l)}\right)\]

其中 $H^{(l)}$ 是第 $l$ 层所有节点的表示矩阵； $W^{(l)}$ 是该层可学习权重； $\tilde A=A+I$ 表示在原邻接矩阵 $A$ 上加自环（Self-loop），让节点保留自己的信息； $\tilde D$ 是 $\tilde A$ 的度矩阵（Degree Matrix）； $\sigma$ 是非线性激活。中间那项对邻居求和并按度做归一化，本质上是在做“平滑的邻居平均”。

具象地看，GCN 像在社交网络里更新一个人的画像：不仅看这个人自己填写的特征，还参考他一跳邻居的大致特征，再做归一化，避免“朋友特别多的人”把自己的表示稀释得过于严重。多层堆叠后，一个节点就能间接接触到两跳、三跳甚至更远范围的信息。

训练上，GCN 常用于节点分类、图分类和链路预测。它的经典应用包括引文网络分类、分子图预测和推荐系统图表示学习。局限也很典型：层数太深时，节点表示会越来越相似，出现过平滑（Oversmoothing）；大图上直接用全图邻接矩阵训练也会带来显存与计算压力。

图注意力网络（GAT）

图注意力网络（Graph Attention Network, GAT）在 GCN 的“统一归一化邻居平均”之上进一步提出：不同邻居的重要性不应被预先固定，而应由模型动态学习。它的核心思想是把注意力机制引入图结构，使每个节点在聚合邻居时，能够自适应决定“更该听谁的话”。

一层 GAT 的典型计算是：

\[e_{ij}=a(Wh_i,Wh_j),\qquad \alpha_{ij}=\frac{\exp(e_{ij})}{\sum_{k\in \mathcal{N}(i)}\exp(e_{ik})}\] \[h_i'=\sigma\!\left(\sum_{j\in \mathcal{N}(i)} \alpha_{ij}\,Wh_j\right)\]

这里 $h_i$ 是节点 $i$ 的输入表示， $W$ 是线性变换矩阵， $a(\cdot,\cdot)$ 是注意力打分函数， $e_{ij}$ 是节点 $j$ 对节点 $i$ 的未归一化重要性分数， $\alpha_{ij}$ 是在邻居集合 $\mathcal{N}(i)$ 内 softmax 归一化后的注意力权重。

与 GCN 相比，GAT 的关键收益是更灵活：若某个邻居特别重要，模型可以给它更高权重；若某个邻居噪声较大，则可自动抑制。训练上，GAT 仍通过监督或自监督目标学习节点表示，常用多头注意力（Multi-head Attention）稳定训练。应用上，它常见于异质关系更复杂、邻居重要性差异显著的图任务，例如社交网络分析、知识图谱局部推断和分子性质预测。

GraphSAGE

GraphSAGE（Graph Sample and Aggregate）的核心思想是把 GNN 从“转导式（Transductive）图编码”推进到“归纳式（Inductive）图表示学习”。传统 GCN 常依赖整张训练图；GraphSAGE 则强调：即使测试时出现训练中未见过的新节点，只要能拿到它的邻居特征，也应能在线生成它的表示。

其典型更新形式是先采样邻居，再做聚合：

\[h_{\mathcal{N}(v)}^{(k)}=\mathrm{AGG}^{(k)}\big(\{h_u^{(k-1)}:u\in \mathcal{N}(v)\}\big)\] \[h_v^{(k)}=\sigma\!\left(W^{(k)}[h_v^{(k-1)}\|h_{\mathcal{N}(v)}^{(k)}]\right)\]

这里 $h_v^{(k)}$ 是节点 $v$ 在第 $k$ 层的表示， $\mathcal{N}(v)$ 是其邻居集合， $\mathrm{AGG}$ 可以是均值、池化或 LSTM 聚合器， $[\cdot\|\cdot]$ 表示向量拼接。GraphSAGE 的关键工程点是“采样”，因为超大图中不可能每次把全部邻居完整展开。

具象地看，GraphSAGE 像为每个节点建立一套“从邻居摘要中构造自我画像”的规则。它不要求记住整张训练图中每个节点的专属嵌入，重点是学会一套可迁移的邻域聚合函数。这正是它能处理新节点、动态图和大规模图数据的原因。

应用上，GraphSAGE 在推荐系统、社交网络、风控图谱和工业知识图谱中非常常见，因为这些场景经常不断出现新节点、新边，归纳式能力比单纯在固定图上做转导预测更重要。

消息传递机制（Message Passing）

消息传递（Message Passing）核心是理解 GNN 的统一抽象框架。无论是 GCN、GAT 还是 GraphSAGE，本质上都可以拆成两步：第一步，节点从邻居那里接收消息；第二步，把这些消息与自己的旧表示结合，更新成新的节点表示。

这一抽象常写成：

\[m_v^{(l+1)}=\mathrm{AGG}\Big(\{M^{(l)}(h_v^{(l)},h_u^{(l)},e_{uv})\,:\,u\in\mathcal{N}(v)\}\Big)\] \[h_v^{(l+1)}=U^{(l)}\big(h_v^{(l)},m_v^{(l+1)}\big)\]

其中 $h_v^{(l)}$ 是节点 $v$ 在第 $l$ 层的表示， $e_{uv}$ 是边特征， $M^{(l)}$ 是消息函数，决定一条边上传递什么信息； $\mathrm{AGG}$ 是聚合函数，如求和、均值、最大值或注意力加权和； $U^{(l)}$ 是更新函数，把旧表示与聚合后的消息合成为新表示。

这个框架的重要性在于，它把看似不同的图模型放进了一套统一语言里：GCN 相当于使用归一化线性消息与均值式聚合，GAT 相当于把注意力权重写进聚合，GraphSAGE 相当于强调采样与归纳式聚合。理解了消息传递，就能把很多图模型看成“消息函数、聚合函数、更新函数”三处设计选择的不同组合。

训练上，消息传递式 GNN 常用于三类任务：节点级任务（例如节点分类）、边级任务（例如链路预测）、图级任务（例如分子性质预测）。它们的共同难点包括：过平滑、邻居爆炸（Neighborhood Explosion）、异质图关系复杂，以及深层堆叠后长程依赖难以稳定传播。很多现代 GNN 改进，本质上都在围绕这几个瓶颈重新设计消息传递规则。

ONNX

ONNX（Open Neural Network Exchange，开放神经网络交换格式）是一种描述机器学习模型的开放标准。它的核心作用，核心是把已经定义并训练好的神经网络表示成一种可交换、可部署、跨框架可读的中间格式，使模型能够从训练环境转移到不同推理环境中运行。

它解决什么问题

训练阶段常用 PyTorch、TensorFlow、JAX 等框架；部署阶段则常落到 ONNX Runtime、TensorRT、OpenVINO、移动端推理引擎或嵌入式执行环境。问题在于，这些系统各自拥有不同的内部表示方式、图执行器和算子实现，原生模型格式并不天然互通。ONNX 解决的正是这条链路中的“中间表示”问题。

可以把 ONNX 理解为模型世界里的 PDF：训练框架先把网络导出为

.onnx

文件，部署侧再由相应 runtime 读取、优化并执行。它并不同于某一种具体推理引擎，而更像一个让不同框架与部署后端彼此对接的交换层。

一个 ONNX 文件里有什么

从结构上看，ONNX 文件本质上是一份静态计算图（Static Computation Graph）加权重参数的描述。其中通常包含四类核心信息：

计算图：模型由哪些算子组成，例如卷积（Conv）、矩阵乘法（MatMul）、归一化、激活、注意力等。
张量元信息：输入、输出与中间张量的形状（Shape）和数据类型（Data Type）。
参数权重：训练后得到的权重矩阵、偏置和其他可学习参数；大模型也可能采用外部权重文件。
算子版本信息：模型依赖的 ONNX opset 版本，以及每个算子的语义约定。

这种表示方式的关键价值，是把“Python 前向代码如何写”转写成“部署时应该执行哪条算子图”。一旦导出完成，部署系统通常从依赖训练时的 Python 类定义转向按 ONNX 图里的算子与依赖关系直接执行。

常见用途

场景	说明
部署加速	交给 ONNX Runtime、TensorRT 等后端做图优化、算子融合、低精度执行和量化推理
跨框架部署	例如用 PyTorch 训练，再导出 ONNX，交由另一套推理栈加载运行
多端适配	同一模型可进一步转接到服务器、边缘设备、移动端或嵌入式环境，前提是目标引擎支持相应算子

与 PyTorch 的关系

在 PyTorch 生态里，ONNX 最常见的入口是导出。开发者通常先在 PyTorch 中定义并训练模型，再用

torch.onnx.export(...)

把模型转换成 ONNX 图。这个过程的本质，是把 PyTorch 里的前向路径从“解释执行的 Python 模块”改写成“显式算子图”。

导出之后，部署侧执行的已从原始 Python 前向代码转向 ONNX 图中的算子序列。因此，依赖复杂动态控制流、框架私有算子或运行时分支逻辑的模型，在导出时往往需要额外改写、简化或替换成更可静态化的结构。

局限与边界

ONNX 的价值很大，但它并非“只要导出就一定能无缝部署”的万能格式。第一，并非所有训练框架中的算子都存在完美的 ONNX 映射，复杂模型可能导出失败，或需要改写成等价但更标准的图结构。第二，不同推理引擎对 ONNX 的支持程度并不完全一致：即使同样读取 ONNX 文件，也可能只支持某些 opset 版本或某一部分算子子集。第三，ONNX 更适合表达相对稳定的前向计算图；当模型强依赖高度动态的运行逻辑时，静态导出路径会更受约束。

因此，ONNX 的更贴切定位是训练环境与部署环境之间的中间表示层。它的意义在于把模型从原始框架内部释放出来，交给更适合推理、优化和跨平台执行的后端系统。

The post 人工智能知识 - 主要应用领域 appeared first on 绿色记忆.

目标	形式	直觉	常见风险
点式（Pointwise）	学习 \(s(q,d)\) 或 \(p(y=1\mid q,d)\)	把相关性当作二分类/回归	分数标定（Calibration）难；对“相对顺序”监督较弱
对式（Pairwise）	学习 \(s(q,d^+)>s(q,d^-)\)	直接优化排序边际（Margin）	负样本质量决定上限；采样偏差可能放大
列表式（Listwise）	对候选列表联合优化（如 softmax over list）	更贴近 NDCG/MRR 等排序指标	计算与实现复杂；受上下文窗口约束

Teacher → Student	监督信号	常见损失	收益	主要风险
LLM / 生成式 reranker → Cross-Encoder	软分数（log-odds / graded）或偏好对	回归（MSE）/ 对式（pairwise logistic）	显著降成本；保留较强语义与推理能力	学生上限受教师约束；教师偏差会被复制
Cross-Encoder → Bi-Encoder	相对顺序/分数	对比学习（InfoNCE）/ 蒸馏排序边际	把精排能力“下放”到召回，提高召回质量	需要大量 hard negatives；对领域漂移敏感
LLM → 数据标注（作为训练集构造器）	弱标注标签 + 解释/证据	按目标任务训练（点式/对式/列表式）	快速构造大规模领域数据；迭代快	噪声标注；需抽样人工复核与在线 A/B 验证

阶段	常见架构	代表实现	核心逻辑	速度	精度
召回	双编码器（Bi-Encoder）	BGE-Embedding text-embedding-3	向量相似度	极快	中
精排（稳健基线）	交叉编码器（Cross-Encoder）	BAAI bge-reranker-v2-m3	\([q;d]\) 深度交互	中	高
精排（顶配）	生成式 / 列表式（LLM-based）	BGE-Reranker-v2-Gemma Jina-Reranker-v3	生成式打分或 listwise 竞争	较慢	极高

阶段	产物	作用	主要风险
文档切块	TextUnit	把长文档切成可抽取、可引用、可嵌入的文本单元，并保留回到原文的 provenance。	chunk 太大时抽取粒度变粗；chunk 太小时跨段关系容易断裂。
图抽取	Entity / Relationship	由 LLM 从每个 TextUnit 中抽取实体和关系，形成局部子图，再把同名同类型实体、同源同目标关系合并。	抽取 schema、实体规范化、别名合并和关系方向都会受 prompt、领域术语与语料风格影响。
描述归并	实体描述 / 关系描述	同一个实体或关系往往来自多个 TextUnit，系统会把多条描述压缩成更稳定的统一描述。	摘要可能丢失少数但关键的限定条件，适合保留原文引用链做复核。
claim 抽取	Covariate	抽取关于实体的事实陈述、状态、时间边界等补充信息，适合需要时态和断言管理的语料。	需要先定义哪些断言值得抽取；领域边界不清时，LLM 容易抽出大量低价值或难验证 claim。
社区检测	Community	在实体关系图上运行层次化 Leiden 社区检测，把图划分成不同粒度的语义簇。	社区质量依赖图质量；过密节点、噪声边和抽取错误会影响聚类结构。
社区报告	Community Report	LLM 为每个社区生成报告，概括该社区的主题、关键实体、关系和相关 claim。	报告是压缩表示，适合全局综合；遇到法律、医疗、审计等高风险场景仍需回查原文。
嵌入写入	向量索引	对 TextUnit、实体描述和社区报告等字段做 embedding，支持后续 Local、Global、DRIFT 等查询模式。	嵌入模型变化、字段选择和向量库配置会影响召回行为。

查询模式	上下文构造方式	适合问题	代价与边界
Local Search	先把 query 映射到相关实体，再沿实体关系图取候选实体、关系、TextUnit、Covariate 和 Community Report，排序过滤后放入上下文。	围绕具体对象的问题，例如某个人、组织、事件、产品、项目或概念的关系和事实。	依赖实体抽取和实体描述 embedding；query 没有明显实体锚点时，召回可能不稳定。
Global Search	遍历某一层级的 Community Report，用 map-reduce 方式先生成带评分的中间要点，再聚合成最终答案。	面向整个语料的主题、趋势、共性、差异和战略性综述，例如“这些材料里最重要的主题是什么”。	资源消耗高；社区层级选择会影响答案粒度，层级太高会粗，层级太低会碎。
DRIFT Search	Dynamic Reasoning and Inference with Flexible Traversal。先利用社区信息扩展查询起点，再通过局部搜索生成后续问题和中间答案，最后汇总。	既需要全局背景又需要局部细节的问题，例如从一个宽泛主题追到具体实体证据。	比纯 Local Search 复杂；需要控制 follow-up 深度、并发、社区数量和上下文预算。
Basic Search	按传统向量 RAG 方式检索 top-k TextUnit，再放入生成上下文。	作为基线、调试工具或简单事实检索。	缺少图结构和社区摘要，只适合语义相似度能够直接命中证据的场景。

维度	普通向量 RAG	Microsoft GraphRAG
索引成本	切块、embedding、写入向量库，成本相对可控。	增加 LLM 抽取、描述总结、社区检测、社区报告和多类 embedding，索引成本显著更高。
知识结构	主要依赖 chunk 与向量相似度。	显式保存实体、关系、claim、社区和社区报告。
查询能力	适合证据片段与 query 语义接近的问题。	适合实体关系、多跳问题、跨文档综合和全语料主题问题。
可解释性	解释主要来自召回片段。	可以同时展示实体、关系、社区、报告和原文引用链。
维护成本	新增文档后重建或增量写入相对简单。	新增文档可能影响实体合并、关系图、社区划分和报告摘要，需要更严格的增量策略。
失败模式	召回不到、召回片段碎、相似但不相关。	抽取错误、实体合并错误、社区划分偏移、社区报告压缩失真。

层	内容	职责	关键约束
Raw sources	论文、网页、图片、数据文件、访谈、会议纪要、代码、截图	保存不可变事实来源，作为引用和复核依据。	LLM 可以读取，但不应随意改写；它是事实源。
Wiki	LLM 生成和维护的 Markdown 页面，包括来源摘要、实体页、概念页、比较页、主题综述	承载经过整理的知识层，负责链接、综合、冲突记录和长期复用。	需要引用 raw sources；不能把没有来源的推测写成事实。
Schema	CLAUDE.md 、 AGENTS.md 或类似规则文件	规定目录结构、命名方式、引用格式、摄取流程、查询流程、维护流程。	没有 schema，LLM 会退化成随手写笔记；有 schema，agent 才像稳定的知识库维护者。

操作	目标	典型动作	和 RAG 的关系
Ingest	把新资料合入知识层。	读取 raw source，生成来源摘要，更新实体页、概念页、主题页，记录冲突，更新索引和日志。	相当于把一部分“查询时综合”提前做掉。
Query	基于 wiki 回答问题。	先读 index.md 定位相关页面，再读取具体页面和必要 raw source，最后给出有引用的回答。	检索对象从原始 chunk 扩展为已整理页面、索引、日志和来源。
Lint	维护知识库健康。	找矛盾、过期结论、孤立页面、缺失链接、缺失实体页、缺失引用和需要补充搜索的问题。	普通 RAG 很少有长期健康检查；LLM Wiki 把维护变成一等公民。

维度	传统 RAG	LLM Wiki
主要工作发生时间	查询时检索、拼接、生成。	摄取时整理、维护时修订、查询时复用。
知识中间层	chunk、embedding、元数据、检索结果。	Markdown 页面、实体页、概念页、主题页、交叉链接、索引、日志。
知识是否累积	通常弱累积；一次 query 的综合结果留在对话历史里。	强累积；有价值的综合结论会写回 wiki，成为后续查询资产。
可读性	索引主要服务机器检索。	wiki 同时服务人和 agent，适合人工浏览、复核和版本管理。
主要风险	召回不足、噪声片段、上下文过长、重排不足。	错误写入后长期传播、引用不严、schema 松散、维护成本和版本治理。

对象	主产物	更适合的问题	局限
LLM Wiki	可读 Markdown wiki、索引、日志、交叉链接	长期研究、个人/团队知识沉淀、持续综合、人工审阅	依赖 schema 纪律；错误页面会长期影响后续查询。
Graphify	知识图谱、报告、交互图、可选 wiki / MCP	代码库导航、多模态项目理解、跨文件关系、agent 读项目前的结构地图	图结构更服务机器导航；人类长期写作和审稿仍需要 wiki 层承接。
GraphRAG	实体关系图、社区、社区摘要、图检索流程	全局主题、多跳关系、跨文档综合、query-focused summarization	抽取、聚类、摘要和查询链路更复杂；小知识库未必值得引入。

记忆类型	保存内容	典型载体	工程价值
情景记忆（Episodic）	具体事件、行动轨迹、失败案例、会话历史	任务日志、轨迹摘要、审计记录	支持回放、复盘、反思与重试
语义记忆（Semantic）	稳定知识、规则、事实、领域概念	知识库、文档索引、结构化事实表	支持检索、问答、约束判断
程序记忆（Procedural）	工作流程、技能脚本、工具使用模式	系统提示、工具说明、可复用 playbook	把“会做事”沉淀为稳定操作习惯

框架/形态	控制流模型	强项	代价	适用
LangChain / LangGraph	链式/图式（Graph）	组件化；易组合 RAG、工具与记忆；LangGraph 适合复杂状态机	抽象层较多；需要明确工程边界	生产 RAG/Agent pipeline
AutoGen	事件驱动多智能体（Event-driven）	消息传递清晰；适合团队式协作与研究	系统设计自由度高；需要自定治理边界	多智能体实验；复杂协作流程
CrewAI	角色 + 任务流水线	任务编排直观；适合“岗位分工”式流程	可控性取决于框架提供的扩展点	面向业务流程的多角色 Agent
OpenClaw	自托管 Gateway + Agent runtime	多渠道接入、会话路由、插件与设备节点整合强	更像入口与运行时基础设施，并非最轻量的 Python 编排库	本地优先、多渠道助手、长期在线 Agent 网关
Hermes Agent	自治运行时（Autonomous Runtime）	内建 learning loop、skills、memory、profiles 与 delegation	系统较重；要真正发挥优势需要接受其运行时哲学	长期运行、自我积累、强工具使用的个人/团队 Agent
OpenAI Responses API / Agents SDK	平台托管（Managed）	内建工具、Tracing、Handoff 与托管能力完善	更依赖平台抽象；深度定制时需额外设计 runtime	快速构建生产 Agent；希望复用官方工具栈

规范 / 工具体系	核心定位	主要工件	工作流特点	适合场景	主要边界
GitHub Spec Kit	面向 AI coding agent 的规范驱动开发工具包	spec、plan、tasks、模板、CLI 与多 Agent 集成	强调从 specification 到 implementation plan，再到可执行任务；适合把需求、计划和实现步骤标准化	团队希望用统一模板管理 AI 编程任务，并接入 Copilot、Claude Code、Gemini CLI、Cursor 等不同 Agent	规范质量仍取决于人类审查；工具能组织工件，但不能替代产品判断和架构判断
OpenSpec	轻量级、工具无关的 SDD 框架	proposal、spec、design、tasks、change archive	每个变更有独立目录；实现完成后归档，把未来状态合并成稳定规范	希望在现有仓库、现有 IDE、现有 CLI Agent 上增加轻量规范层的团队	更偏文件规范和流程约束；复杂权限、执行沙箱和多 Agent 调度需要外部系统补齐
Kiro Specs	Agentic IDE 内置的规格化开发流程	requirements.md / bugfix.md、design.md、tasks.md	在 IDE 中把需求、设计和任务串成三阶段流程，并支持任务状态跟踪和并行执行	愿意在 Kiro IDE 内完成从需求到实现的团队；适合新功能和 bugfix 都需要可追踪流程的场景	流程与 IDE 绑定较强；若团队同时使用多种 IDE 或 CLI，需要额外同步规范工件
Agent OS	面向 Agent 的项目标准和规范注入系统	产品说明、技术栈、代码规范、项目标准、spec 和任务	重点是发现、维护和部署项目自己的 coding standards，让 Agent 按团队习惯工作	已有代码库风格强、团队规范多、希望减少 Agent 乱写代码的项目	它更强调标准和规范注入，不直接替代完整的 IDE、测试平台或云端执行环境
BMAD Method	AI 驱动的敏捷开发和多角色工作流框架	角色代理、PRD、架构文档、故事、任务、QA / SM / Developer 工作流	用产品、架构、开发、QA 等角色把需求发现、计划和实现拆成团队式流程	从想法到版本交付都希望由多个角色协作推进的项目，尤其适合复杂新产品和较大功能	流程较重；小修小改可能不需要完整角色体系，过度流程化会降低速度
Tessl	以“spec 作为主产物”为目标的软件开发平台	结构化 spec、行为描述、生成实现和验证反馈	更接近 spec-as-source 路线，强调由规范表达意图，再由 Agent 生成符合规范的实现	希望把软件意图提升到代码之上、长期以规范驱动实现演进的团队	这种路线对规范表达能力、工具链成熟度和组织习惯要求更高；现阶段落地仍需要谨慎评估

Skills / 工作流栈	核心定位	主要机制	强项	适合场景	主要边界
Superpowers	面向 coding agent 的软件开发方法论与组合式 skills 框架	通过 brainstorming、planning、test-first / TDD、implementation、debugging、review、verification 等 skills，把开发过程拆成可重复步骤	执行纪律强，强调先理解问题、先写计划、用测试约束实现，并通过验证减少“看起来能跑”的代码	需要提高单个 Agent 写代码质量的项目；适合 bug fix、功能实现、重构和需要测试闭环的任务	它更擅长把执行做稳；产品方向、架构权衡、跨角色争议和长期上下文治理仍需要额外机制
GStack	角色化的 AI 软件团队和 slash-command skills 集合	把 CEO、Designer、Engineering Manager、QA、Security Officer、Release Engineer、Docs Engineer 等角色做成不同技能或命令	决策视角丰富，适合在编码前暴露产品、设计、架构、QA、安全和发布风险；也强调浏览器、评审和发布等工程动作	新功能设计、产品取舍、架构评审、UI / UX 检查、安全审计、发布前 review	角色多会增加流程和 token 成本；小任务全量启用会显得重，需要按任务挑选角色
GSD（Get Shit Done）	轻量级 meta-prompting、上下文工程和 SDD 系统	通过阶段拆分、计划文件、状态文件、任务边界和 fresh context，把长任务拆成可验证的原子阶段	核心价值是控制 context rot：避免一个长会话越做越乱，把项目状态、阶段目标和完成标准固化到文件中	中大型功能、跨多文件修改、长时间执行、需要多轮验证和阶段性交付的任务	它主要稳定上下文和流程，本身不替代测试、代码审查、产品判断或具体执行技能
GSPowers / 组合式路由	把 GStack、GSD、Superpowers 串成一条可执行工作流	常见组合是 GStack 做多角色讨论与方案评审，GSD 做阶段化计划和状态管理，Superpowers 做 TDD 执行与验证	把“谁负责决策、谁负责锁定上下文、谁负责落地执行”分开，减少框架之间互相抢任务	复杂项目、夜间批量执行、需要先评审方案再分阶段交给 Agent 实现的工作流	组合栈维护成本更高；如果没有清晰路由规则，Agent 可能在多个 skills 之间来回切换，反而增加混乱

环境形态	代表产品	核心能力	适合场景	主要边界
IDE 插件	GitHub Copilot、JetBrains AI Assistant、Gemini Code Assist、CodeBuddy Plugin、iFlyCode、Continue、Cline	补全、代码解释、局部重构、单文件或小范围多文件修改、IDE 内问答	保留原有 IDE 工作流；团队已经深度使用 VS Code、JetBrains、Visual Studio 或 Xcode	受 IDE 插件接口限制，长任务、隔离执行和跨工具编排能力通常弱于专门的 Agent 环境
Agentic IDE	Cursor、Windsurf、Trae、Qoder、CodeBuddy IDE、Kiro	代码库索引、多文件改写、Agent 模式、Rules / Memories / Repo Wiki、内置终端、diff 审查	希望把“读代码、改代码、运行命令、审查变更”放进同一界面的开发者	通常要求迁移到新 IDE 或接受 VS Code fork 工作流；企业推广时要考虑 IDE 标准化成本
CLI Agent	Claude Code、OpenAI Codex CLI、Gemini CLI / Antigravity CLI、GitHub Copilot CLI、Aider、Trae Agent、CodeBuddy Code	在终端中读取仓库、编辑文件、运行测试、执行 shell、生成 patch 或提交	后端工程、DevOps、远程服务器、容器环境、自动化脚本和高阶工程师工作流	权限边界必须清晰；命令执行、网络访问、文件写入和凭证使用都需要显式控制
云端异步 Agent	GitHub Copilot coding agent、OpenAI Codex cloud、Cursor Cloud Agent、Devin 等	在隔离 dev environment 中执行任务，运行测试，提交 PR 或生成可审查变更	Issue 修复、批量小任务、后台长任务、并行探索、多仓库维护	环境复现、依赖安装、私有网络访问、测试成本和安全审计会成为核心工程问题
设计到代码 / 应用生成器	v0、Bolt、Lovable、Replit Agent、CodeBuddy IDE 等	从自然语言、草图、设计稿或产品描述生成前端页面、原型、应用骨架和部署产物	原型验证、前端页面、低代码应用、产品经理与设计师参与开发链路	复杂业务逻辑、长期维护性、后端权限模型和测试体系仍需要工程化补齐

模型家族	典型代表	编程优势	适合放在开发环境的哪里
Anthropic Claude 系列	Claude Sonnet / Opus 等	长上下文、多文件理解、代码审查、复杂需求拆解和自然语言沟通能力强	Claude Code、Agentic IDE、PR 审查、复杂重构、长任务规划
OpenAI GPT / Codex 系列	GPT 系列、Codex 专用模型	工具调用、代码编辑、测试驱动修复、跨任务推理和 Agent harness 结合紧密	Codex CLI / Cloud、IDE 扩展、云端异步 Agent、自动化软件工程流水线
Google Gemini 系列	Gemini Pro / Flash、Gemini Code Assist 使用的模型	长上下文、Google Cloud / Android / Workspace 生态连接、IDE 内 Agent 模式	Gemini Code Assist、Gemini CLI / Antigravity、Android Studio 和云开发工作流
DeepSeek 系列	DeepSeek Coder、DeepSeek V 系列	代码生成、数学推理、成本效率和开源生态适配度较高	私有化部署、低成本 Agent 后端、国内工具链、多模型路由
Qwen Coder 系列	Qwen Coder / Qwen3 Coder 等	中文语境、代码补全、工具调用、开源权重和企业私有化友好	本地/私有化 AI 编程平台、中文团队 IDE 插件、代码问答与补全
Kimi / Moonshot 系列	Kimi K 系列	长上下文、复杂文本理解、代码库阅读和多文件任务有竞争力	长文档代码库理解、需求分析、复杂上下文辅助开发
GLM / MiniMax / 其他国产模型	GLM、MiniMax、讯飞星火等	中文企业场景、本地合规、专有生态集成和成本控制	国内企业插件、私有化服务、行业定制编码助手
开源代码模型	StarCoder、Code Llama、WizardCoder、CodeGeeX 等	可本地部署、可微调、适合低延迟补全和受控实验	离线补全、小模型蒸馏、企业内网原型、专有语言或 DSL 微调