1. 为什么需要对齐(Alignment)?
预训练 LLM 的目标是"预测下一个 token",但这与"产生有用且安全的回复"之间存在巨大鸿沟——这就是对齐问题(Alignment Problem)。
未对齐的模型可能:① 编造虚假信息(幻觉)② 产生有害/偏见内容 ③ 不遵循指令 ④ 泄露训练数据中的隐私信息 ⑤ 被恶意提示"越狱"。
Anthropic 提出的 HHH 原则——Helpful(有用)、Honest(诚实)、Harmless(无害)——已成为对齐技术的评估框架。
2. 经典 RLHF 三阶段流水线
Step 1 — SFT(Supervised Fine-Tuning):在人工编写的高质量 prompt→response 数据上微调预训练模型。InstructGPT 使用约 13K 条人工编写的对话数据。SFT 是粗对齐——让模型学会"遵循指令的格式"。
Step 2 — 奖励模型(Reward Model):让标注员对同一 prompt 的多个模型输出进行偏好排序(如 A > B > C)。训练一个奖励模型学习人类偏好。InstructGPT 使用约 33K 条对比数据。
L(θ) = -E(x, yw, yl) [log σ(rθ(x, yw) - rθ(x, yl))]
其中 yw 为偏好输出,yl 为非偏好输出
Step 3 — PPO 优化:使用奖励模型作为环境反馈,通过 PPO(Proximal Policy Optimization)算法优化 LLM 策略,同时加 KL 散度约束防止偏离 SFT 模型太远。
max E[rθ(x, y) - β · KL(πRL ∥ πSFT)]
β 控制 KL 惩罚强度,防止"reward hacking"
3. DPO:无需 RL 的直接偏好优化
DPO(Direct Preference Optimization)(Rafailov et al., 2023)证明可以跳过奖励模型和 RL,直接在偏好数据上优化策略:
| 对比 | RLHF (PPO) | DPO |
|---|---|---|
| 训练阶段 | SFT → RM → PPO(3步) | SFT → DPO(2步) |
| 需要奖励模型 | 是 | 否 |
| RL 训练 | 需要(PPO,调参复杂) | 不需要(简单交叉熵损失) |
| 内存需求 | 高(4个模型并行) | 低(2个模型) |
| 效果 | 经验上略优 | 接近或持平 |
| 代表用户 | OpenAI, DeepMind | Meta (Llama 3), Mistral |
DPO 因其简单高效,已被 Llama 3、Zephyr、Mistral 等广泛采用。但在极端对齐场景下,PPO 仍可能优于 DPO。
4. Constitutional AI(CAI)—— Anthropic 的自我对齐
Anthropic(Claude 背后的公司)提出了 Constitutional AI——减少对人工标注的依赖,让 AI 根据"宪法原则"自我监督:
阶段一(Critique + Revision):让模型生成回复 → 根据宪法原则自我批评("这个回复是否有害?")→ 自我修改。这一过程生成大量改进后的训练数据。
阶段二(RLAIF):用 AI 模型(而非人类标注员)根据宪法原则判断偏好排序 → 训练奖励模型 → RL 优化。
宪法原则示例:
• "请选择最有帮助、最准确、最无害的回复"
• "请选择不鼓励非法或不道德行为的回复"
• "请选择不表现出偏见的回复"
CAI 大幅降低了对齐的人工成本,同时通过可审计的原则集使对齐过程更加透明。Claude 系列模型均基于 CAI 训练。
5. 前沿对齐技术
| 技术 | 核心思想 | 代表 |
|---|---|---|
| RLHF | 人类标注偏好 + RL 优化 | ChatGPT, GPT-4 |
| DPO / IPO / KTO | 直接优化偏好,无需 RL | Llama 3, Zephyr |
| CAI / RLAIF | AI 自我监督 + 宪法原则 | Claude 系列 |
| SPIN | Self-Play 迭代博弈 | 研究阶段 |
| Debate | 两个 AI 辩论,人类裁判 | Anthropic 研究 |
| IDA | 迭代蒸馏放大 | 理论框架 |
| Scalable Oversight | 可扩展的人类监督 | OpenAI 超级对齐团队 |
o1 系列的 Process RM:OpenAI o1 使用过程奖励模型(Process Reward Model)——不仅评估最终答案的正确性,还评估推理过程中每一步的正确性。这种细粒度监督有效减少了推理链中的错误传播。
DeepSeek-R1 的纯 RL 路线:DeepSeek-R1 证明不使用 SFT,仅通过 RL(结合规则奖励和过程奖励)也能训练出强大的推理模型。这挑战了"SFT 是必要前置步骤"的传统认知。
6. 对齐的开放挑战
Reward Hacking:模型学会"讨好"奖励模型而非真正满足人类意图——例如生成冗长但空洞的回复以获得高分。
超人类对齐:当 AI 能力超过人类时,人类如何监督和对齐?OpenAI 的"Superalignment"团队(已解散并部分重组)试图解决这一根本问题。
对齐税(Alignment Tax):对齐通常会牺牲部分原始能力——如何在安全和有用性之间找到最优平衡?
越狱与对抗鲁棒性:即使经过精心对齐,当前所有主流 LLM 仍可被精心构造的对抗性提示"越狱"。对齐不是一次性工作,而是持续的攻防博弈。