🚀 GPT 系列演进

从 2018 年 117M 参数的 GPT-1 到 2023 年的 GPT-4，OpenAI 的 GPT 系列定义了大语言模型的发展轨迹。每一代都是规模、能力和范式的跃迁。

核心论文："Improving Language Understanding by Generative Pre-Training"（Radford et al.）

架构：12 层 Transformer Decoder，117M 参数，BPE tokenizer（词表 40K）。

训练方法：两阶段——① 在 BookCorpus（约 7000 本书）上无监督预训练（语言建模）；② 在下游任务上有监督微调。

关键创新：证明了"在大规模无标注数据上预训练，再在小规模标注数据上微调"的可行性。在 9 个 NLP 基准中 8 个取得当时最优。

意义：开创了 NLP 的预训练范式——与 BERT 的双向掩码不同，GPT 选择了自回归生成（从左到右预测下一个 token）路线，这一选择后来被证明是通向 AGI 的更优路径。

参数量：1.5B（GPT-1 的 12.8 倍），48 层，d_model=1600。

训练数据：WebText（800 万网页，约 40GB 文本），首次使用大规模互联网数据。

核心发现——Zero-Shot 能力：GPT-2 在从未微调的情况下表现出了翻译、摘要、问答等能力。论文标题即是宣言："Language Models are Unsupervised Multitask Learners"。

安全争议：OpenAI 以"可能被用于生成假新闻"为由，采用分阶段发布策略（先 124M → 355M → 774M → 全量 1.5B），这是 AI 领域首次因安全考虑限制模型发布。

技术细节：改用 Pre-LN（先归一化后子层），训练更稳定；上下文长度从 512 增至 1024。

参数量：175B（GPT-2 的 116 倍），96 层，96 头，d_model=12288。

训练数据：~300B tokens（混合 Common Crawl 60%、WebText2 22%、Books 16%、Wikipedia 3%）。

核心突破——In-Context Learning：GPT-3 展示了惊人的 few-shot 涌现能力——无需梯度更新，仅通过在提示中给出几个示例，即可执行任意 NLP 任务。

规模效应：论文系统分析了从 125M 到 175B 的 8 个模型变体，发现许多能力（如 3 位数加法）只在模型超过一定规模后突然出现——这就是后来被称为"涌现能力"（Emergent Abilities）的现象。

商业化：GPT-3 API（2020.6 开放）是首个大规模 LLM API 商业服务，催生了 Jasper、Copy.ai 等第一批 AI-native 应用。

核心技术——RLHF：GPT-3 虽然能力强大，但经常产生有害、偏见或不遵循指令的输出。OpenAI 创造性地将人类反馈强化学习（RLHF）应用于 LLM 对齐：

三步对齐流程：
① SFT：在人工编写的高质量对话数据上监督微调
② RM：训练奖励模型（人工标注偏好排序对）
③ PPO：用奖励模型作为反馈信号，通过 PPO 算法优化策略

InstructGPT（2022.1 论文）：仅 1.3B 参数的 InstructGPT 在人类评估中优于 175B 的原始 GPT-3——说明对齐比规模更重要。

ChatGPT（2022.11.30）：基于 GPT-3.5-turbo + RLHF，专门优化了多轮对话能力。5 天用户破 100 万，2 个月破 1 亿——史上增长最快的消费级应用，引爆全球 AI 热潮。

能力飞跃：GPT-4 在 GRE 定量推理 163/170（>80%）、律师资格考试 90th 百分位、SAT 数学 700/800。在 26 种语言上均超过 GPT-3.5 的英文表现。

多模态：首次支持图像输入——可以理解图表、照片、截图中的内容并进行推理。

架构（传闻）：业界广泛报道 GPT-4 采用 8×220B MoE（Mixture of Experts）架构，每个 token 仅激活约 2 个专家（~55B 参数），总参数约 1.76T。OpenAI 未官方确认。

规模定律：每一代 GPT 都证明了增加参数量和训练数据可以可预测地提升能力。从 117M → 1.5B → 175B → ~1.76T，每次量级提升都带来质变。

范式演进：预训练+微调（GPT-1）→ zero/few-shot（GPT-2/3）→ RLHF 对齐（ChatGPT）→ 多模态+工具使用（GPT-4）→ 思维链推理（o1）。

Decoder-Only 路线的胜利：GPT 系列始终坚持自回归 Decoder-Only 架构，证明了"预测下一个 token"这个简单目标可以产生通用智能。

安全与对齐：从 GPT-2 的延迟发布到 RLHF 对齐，再到 o1 的安全红队测试，负责任的 AI 发展理念贯穿整个系列。