🤖 AI 与大模型知识体系
从人工智能基础理论到大语言模型前沿进展,系统梳理 AI 发展脉络、核心模型架构、关键技术突破与实用工具资源
主流大语言模型(LLM)
GPT 系列
OpenAI · 2018至今开创"预训练+微调"范式的先驱。GPT-1(2018)117M参数验证概念,GPT-3(2020)175B参数展示few-shot涌现能力,GPT-4(2023)实现多模态推理。ChatGPT(2022.11)引爆全球AI应用浪潮,至今拥有超2亿周活用户。
Claude 系列
Anthropic · 2023至今由前OpenAI核心成员创立的Anthropic打造,强调AI安全与"Constitutional AI"对齐方法。Claude 3/4 系列在推理和长上下文上表现突出。Claude Code 是 Anthropic 官方终端式 coding agent,可在终端、IDE 与 GitHub 工作流中使用。
Gemini 系列
Google DeepMind · 2023至今Google将DeepMind与Brain团队合并后推出的多模态原生模型。Gemini 1.5 Pro实现百万级token上下文窗口,在长文档理解和视频分析上领先。2024起深度整合至Google全产品(搜索、Workspace、Android)。
Llama 系列
Meta · 2023至今Meta推出的开源大模型系列,推动了开源LLM生态爆发。Llama 2(2023.7)首次允许商用,Llama 3.1(2024.7)405B参数比肩闭源模型。开源许可证允许自由微调、部署,催生大量衍生模型(Vicuna、Alpaca等)。
DeepSeek 系列
深度求索 · 2024至今DeepSeek V4 Preview 于 2026-04-24 发布,提供 V4-Pro 与 V4-Flash 两条路线:Pro 面向高强度推理与长上下文,Flash 面向低延迟与低成本。官方权重已开源,API 支持非思考、思考与 Think Max 三种模式。
其他重要模型
多家厂商通义千问(Qwen) — 阿里云,开源多规格模型
文心一言(ERNIE Bot) — 百度,中文生态集成
Mistral — 法国,高效小模型典范
Grok — xAI(Musk),实时数据访问
Cohere Command R+ — 企业级RAG优化