🚀 GPT 系列演进

从 2018 年 117M 参数的 GPT-1 到 2023 年的 GPT-4,OpenAI 的 GPT 系列定义了大语言模型的发展轨迹。每一代都是规模、能力和范式的跃迁。

1. GPT-1:预训练+微调范式的诞生(2018.6)

核心论文:"Improving Language Understanding by Generative Pre-Training"(Radford et al.)

架构:12 层 Transformer Decoder,117M 参数,BPE tokenizer(词表 40K)。

训练方法:两阶段——① 在 BookCorpus(约 7000 本书)上无监督预训练(语言建模);② 在下游任务上有监督微调。

关键创新:证明了"在大规模无标注数据上预训练,再在小规模标注数据上微调"的可行性。在 9 个 NLP 基准中 8 个取得当时最优。

意义:开创了 NLP 的预训练范式——与 BERT 的双向掩码不同,GPT 选择了自回归生成(从左到右预测下一个 token)路线,这一选择后来被证明是通向 AGI 的更优路径。

2. GPT-2:规模的力量(2019.2)

参数量:1.5B(GPT-1 的 12.8 倍),48 层,dmodel=1600。

训练数据:WebText(800 万网页,约 40GB 文本),首次使用大规模互联网数据。

核心发现——Zero-Shot 能力:GPT-2 在从未微调的情况下表现出了翻译、摘要、问答等能力。论文标题即是宣言:"Language Models are Unsupervised Multitask Learners"。

安全争议:OpenAI 以"可能被用于生成假新闻"为由,采用分阶段发布策略(先 124M → 355M → 774M → 全量 1.5B),这是 AI 领域首次因安全考虑限制模型发布。

技术细节:改用 Pre-LN(先归一化后子层),训练更稳定;上下文长度从 512 增至 1024。

3. GPT-3:涌现与 Few-Shot Learning(2020.5)

参数量:175B(GPT-2 的 116 倍),96 层,96 头,dmodel=12288。

训练数据:~300B tokens(混合 Common Crawl 60%、WebText2 22%、Books 16%、Wikipedia 3%)。

核心突破——In-Context Learning:GPT-3 展示了惊人的 few-shot 涌现能力——无需梯度更新,仅通过在提示中给出几个示例,即可执行任意 NLP 任务。

学习方式说明效果
Zero-shot仅给任务描述多数任务可用
One-shot提供 1 个示例显著提升
Few-shot提供 2-64 个示例接近微调 SOTA

规模效应:论文系统分析了从 125M 到 175B 的 8 个模型变体,发现许多能力(如 3 位数加法)只在模型超过一定规模后突然出现——这就是后来被称为"涌现能力"(Emergent Abilities)的现象。

商业化:GPT-3 API(2020.6 开放)是首个大规模 LLM API 商业服务,催生了 Jasper、Copy.ai 等第一批 AI-native 应用。

4. InstructGPT / ChatGPT:对齐革命(2022)

核心技术——RLHF:GPT-3 虽然能力强大,但经常产生有害、偏见或不遵循指令的输出。OpenAI 创造性地将人类反馈强化学习(RLHF)应用于 LLM 对齐:

三步对齐流程:
① SFT:在人工编写的高质量对话数据上监督微调
② RM:训练奖励模型(人工标注偏好排序对)
③ PPO:用奖励模型作为反馈信号,通过 PPO 算法优化策略

InstructGPT(2022.1 论文):仅 1.3B 参数的 InstructGPT 在人类评估中优于 175B 的原始 GPT-3——说明对齐比规模更重要

ChatGPT(2022.11.30):基于 GPT-3.5-turbo + RLHF,专门优化了多轮对话能力。5 天用户破 100 万,2 个月破 1 亿——史上增长最快的消费级应用,引爆全球 AI 热潮。

5. GPT-4:多模态的飞跃(2023.3)

能力飞跃:GPT-4 在 GRE 定量推理 163/170(>80%)、律师资格考试 90th 百分位、SAT 数学 700/800。在 26 种语言上均超过 GPT-3.5 的英文表现。

多模态:首次支持图像输入——可以理解图表、照片、截图中的内容并进行推理。

架构(传闻):业界广泛报道 GPT-4 采用 8×220B MoE(Mixture of Experts)架构,每个 token 仅激活约 2 个专家(~55B 参数),总参数约 1.76T。OpenAI 未官方确认。

模型参数上下文训练截止关键能力
GPT-4 (2023.3)~1.76T MoE8K / 32K2021.9多模态、顶级推理
GPT-4 Turbo (2023.11)128K2023.4更快更便宜,JSON mode
GPT-4o (2024.5)128K2023.10全模态(文本/图像/音频/视频),2× 速度,50% 成本
o1 (2024.9)128K2023.10思维链推理,数学/编程 SOTA

6. GPT 系列的核心启示

规模定律:每一代 GPT 都证明了增加参数量和训练数据可以可预测地提升能力。从 117M → 1.5B → 175B → ~1.76T,每次量级提升都带来质变。

范式演进:预训练+微调(GPT-1)→ zero/few-shot(GPT-2/3)→ RLHF 对齐(ChatGPT)→ 多模态+工具使用(GPT-4)→ 思维链推理(o1)。

Decoder-Only 路线的胜利:GPT 系列始终坚持自回归 Decoder-Only 架构,证明了"预测下一个 token"这个简单目标可以产生通用智能。

安全与对齐:从 GPT-2 的延迟发布到 RLHF 对齐,再到 o1 的安全红队测试,负责任的 AI 发展理念贯穿整个系列。