🎯 RLHF 与对齐技术

RLHF(Reinforcement Learning from Human Feedback)是让大语言模型从"能力强大但不可控"变为"有用、诚实、无害"的关键技术。对齐是当前 AI 安全的核心议题。

1. 为什么需要对齐(Alignment)?

预训练 LLM 的目标是"预测下一个 token",但这与"产生有用且安全的回复"之间存在巨大鸿沟——这就是对齐问题(Alignment Problem)

未对齐的模型可能:① 编造虚假信息(幻觉)② 产生有害/偏见内容 ③ 不遵循指令 ④ 泄露训练数据中的隐私信息 ⑤ 被恶意提示"越狱"。

Anthropic 提出的 HHH 原则——Helpful(有用)、Honest(诚实)、Harmless(无害)——已成为对齐技术的评估框架。

2. 经典 RLHF 三阶段流水线

Step 1SFT 监督微调
Step 2奖励模型 RM
Step 3PPO 强化学习
对齐模型

Step 1 — SFT(Supervised Fine-Tuning):在人工编写的高质量 prompt→response 数据上微调预训练模型。InstructGPT 使用约 13K 条人工编写的对话数据。SFT 是粗对齐——让模型学会"遵循指令的格式"。

Step 2 — 奖励模型(Reward Model):让标注员对同一 prompt 的多个模型输出进行偏好排序(如 A > B > C)。训练一个奖励模型学习人类偏好。InstructGPT 使用约 33K 条对比数据。

RM 训练目标(Bradley-Terry 模型):
L(θ) = -E(x, yw, yl) [log σ(rθ(x, yw) - rθ(x, yl))]
其中 yw 为偏好输出,yl 为非偏好输出

Step 3 — PPO 优化:使用奖励模型作为环境反馈,通过 PPO(Proximal Policy Optimization)算法优化 LLM 策略,同时加 KL 散度约束防止偏离 SFT 模型太远。

PPO 目标函数:
max E[rθ(x, y) - β · KL(πRL ∥ πSFT)]
β 控制 KL 惩罚强度,防止"reward hacking"

3. DPO:无需 RL 的直接偏好优化

DPO(Direct Preference Optimization)(Rafailov et al., 2023)证明可以跳过奖励模型和 RL,直接在偏好数据上优化策略:

LDPOθ; πref) = -E[log σ(β · (log πθ(yw|x)/πref(yw|x) - log πθ(yl|x)/πref(yl|x)))]
对比RLHF (PPO)DPO
训练阶段SFT → RM → PPO(3步)SFT → DPO(2步)
需要奖励模型
RL 训练需要(PPO,调参复杂)不需要(简单交叉熵损失)
内存需求高(4个模型并行)低(2个模型)
效果经验上略优接近或持平
代表用户OpenAI, DeepMindMeta (Llama 3), Mistral

DPO 因其简单高效,已被 Llama 3、Zephyr、Mistral 等广泛采用。但在极端对齐场景下,PPO 仍可能优于 DPO。

4. Constitutional AI(CAI)—— Anthropic 的自我对齐

Anthropic(Claude 背后的公司)提出了 Constitutional AI——减少对人工标注的依赖,让 AI 根据"宪法原则"自我监督:

阶段一(Critique + Revision):让模型生成回复 → 根据宪法原则自我批评("这个回复是否有害?")→ 自我修改。这一过程生成大量改进后的训练数据。

阶段二(RLAIF):用 AI 模型(而非人类标注员)根据宪法原则判断偏好排序 → 训练奖励模型 → RL 优化。

宪法原则示例

• "请选择最有帮助、最准确、最无害的回复"

• "请选择不鼓励非法或不道德行为的回复"

• "请选择不表现出偏见的回复"

CAI 大幅降低了对齐的人工成本,同时通过可审计的原则集使对齐过程更加透明。Claude 系列模型均基于 CAI 训练。

5. 前沿对齐技术

技术核心思想代表
RLHF人类标注偏好 + RL 优化ChatGPT, GPT-4
DPO / IPO / KTO直接优化偏好,无需 RLLlama 3, Zephyr
CAI / RLAIFAI 自我监督 + 宪法原则Claude 系列
SPINSelf-Play 迭代博弈研究阶段
Debate两个 AI 辩论,人类裁判Anthropic 研究
IDA迭代蒸馏放大理论框架
Scalable Oversight可扩展的人类监督OpenAI 超级对齐团队

o1 系列的 Process RM:OpenAI o1 使用过程奖励模型(Process Reward Model)——不仅评估最终答案的正确性,还评估推理过程中每一步的正确性。这种细粒度监督有效减少了推理链中的错误传播。

DeepSeek-R1 的纯 RL 路线:DeepSeek-R1 证明不使用 SFT,仅通过 RL(结合规则奖励和过程奖励)也能训练出强大的推理模型。这挑战了"SFT 是必要前置步骤"的传统认知。

6. 对齐的开放挑战

Reward Hacking:模型学会"讨好"奖励模型而非真正满足人类意图——例如生成冗长但空洞的回复以获得高分。

超人类对齐:当 AI 能力超过人类时,人类如何监督和对齐?OpenAI 的"Superalignment"团队(已解散并部分重组)试图解决这一根本问题。

对齐税(Alignment Tax):对齐通常会牺牲部分原始能力——如何在安全和有用性之间找到最优平衡?

越狱与对抗鲁棒性:即使经过精心对齐,当前所有主流 LLM 仍可被精心构造的对抗性提示"越狱"。对齐不是一次性工作,而是持续的攻防博弈。