🎯 RLHF 与对齐技术

RLHF（Reinforcement Learning from Human Feedback）是让大语言模型从"能力强大但不可控"变为"有用、诚实、无害"的关键技术。对齐是当前 AI 安全的核心议题。

预训练 LLM 的目标是"预测下一个 token"，但这与"产生有用且安全的回复"之间存在巨大鸿沟——这就是对齐问题（Alignment Problem）。

未对齐的模型可能：① 编造虚假信息（幻觉）② 产生有害/偏见内容 ③ 不遵循指令 ④ 泄露训练数据中的隐私信息 ⑤ 被恶意提示"越狱"。

Anthropic 提出的 HHH 原则——Helpful（有用）、Honest（诚实）、Harmless（无害）——已成为对齐技术的评估框架。

Step 1SFT 监督微调

→

Step 2奖励模型 RM

→

Step 3PPO 强化学习

→

✓对齐模型

Step 1 — SFT（Supervised Fine-Tuning）：在人工编写的高质量 prompt→response 数据上微调预训练模型。InstructGPT 使用约 13K 条人工编写的对话数据。SFT 是粗对齐——让模型学会"遵循指令的格式"。

Step 2 — 奖励模型（Reward Model）：让标注员对同一 prompt 的多个模型输出进行偏好排序（如 A > B > C）。训练一个奖励模型学习人类偏好。InstructGPT 使用约 33K 条对比数据。

RM 训练目标（Bradley-Terry 模型）：
L(θ) = -E_{(x, y_w, y_l)} [log σ(r_θ(x, y_w) - r_θ(x, y_l))]
其中 y_w 为偏好输出，y_l 为非偏好输出

Step 3 — PPO 优化：使用奖励模型作为环境反馈，通过 PPO（Proximal Policy Optimization）算法优化 LLM 策略，同时加 KL 散度约束防止偏离 SFT 模型太远。

PPO 目标函数：
max E[r_θ(x, y) - β · KL(π_RL ∥ π_SFT)]
β 控制 KL 惩罚强度，防止"reward hacking"

DPO（Direct Preference Optimization）（Rafailov et al., 2023）证明可以跳过奖励模型和 RL，直接在偏好数据上优化策略：

L_DPO(π_θ; π_ref) = -E[log σ(β · (log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x)))]

DPO 因其简单高效，已被 Llama 3、Zephyr、Mistral 等广泛采用。但在极端对齐场景下，PPO 仍可能优于 DPO。

Anthropic（Claude 背后的公司）提出了 Constitutional AI——减少对人工标注的依赖，让 AI 根据"宪法原则"自我监督：

阶段一（Critique + Revision）：让模型生成回复 → 根据宪法原则自我批评（"这个回复是否有害？"）→ 自我修改。这一过程生成大量改进后的训练数据。

阶段二（RLAIF）：用 AI 模型（而非人类标注员）根据宪法原则判断偏好排序 → 训练奖励模型 → RL 优化。

宪法原则示例：

• "请选择最有帮助、最准确、最无害的回复"

• "请选择不鼓励非法或不道德行为的回复"

• "请选择不表现出偏见的回复"

CAI 大幅降低了对齐的人工成本，同时通过可审计的原则集使对齐过程更加透明。Claude 系列模型均基于 CAI 训练。

o1 系列的 Process RM：OpenAI o1 使用过程奖励模型（Process Reward Model）——不仅评估最终答案的正确性，还评估推理过程中每一步的正确性。这种细粒度监督有效减少了推理链中的错误传播。

DeepSeek-R1 的纯 RL 路线：DeepSeek-R1 证明不使用 SFT，仅通过 RL（结合规则奖励和过程奖励）也能训练出强大的推理模型。这挑战了"SFT 是必要前置步骤"的传统认知。

Reward Hacking：模型学会"讨好"奖励模型而非真正满足人类意图——例如生成冗长但空洞的回复以获得高分。

超人类对齐：当 AI 能力超过人类时，人类如何监督和对齐？OpenAI 的"Superalignment"团队（已解散并部分重组）试图解决这一根本问题。

对齐税（Alignment Tax）：对齐通常会牺牲部分原始能力——如何在安全和有用性之间找到最优平衡？

越狱与对抗鲁棒性：即使经过精心对齐，当前所有主流 LLM 仍可被精心构造的对抗性提示"越狱"。对齐不是一次性工作，而是持续的攻防博弈。