🤖 AI 与大模型知识体系

从人工智能基础理论到大语言模型前沿进展,系统梳理 AI 发展脉络、核心模型架构、关键技术突破与实用工具资源

主流大语言模型(LLM)

🟢

GPT 系列

OpenAI · 2018至今

开创"预训练+微调"范式的先驱。GPT-1(2018)117M参数验证概念,GPT-3(2020)175B参数展示few-shot涌现能力,GPT-4(2023)实现多模态推理。ChatGPT(2022.11)引爆全球AI应用浪潮,至今拥有超2亿周活用户。

Transformer DecoderRLHF多模态Function Calling
🟠

Claude 系列

Anthropic · 2023至今

由前OpenAI核心成员创立的Anthropic打造,强调AI安全与"Constitutional AI"对齐方法。Claude 3/4 系列在推理和长上下文上表现突出。Claude Code 是 Anthropic 官方终端式 coding agent,可在终端、IDE 与 GitHub 工作流中使用。

Constitutional AI200K ContextExtended ThinkingMCP 协议
🔵

Gemini 系列

Google DeepMind · 2023至今

Google将DeepMind与Brain团队合并后推出的多模态原生模型。Gemini 1.5 Pro实现百万级token上下文窗口,在长文档理解和视频分析上领先。2024起深度整合至Google全产品(搜索、Workspace、Android)。

多模态原生1M ContextMixture of ExpertsGoogle 生态
🦙

Llama 系列

Meta · 2023至今

Meta推出的开源大模型系列,推动了开源LLM生态爆发。Llama 2(2023.7)首次允许商用,Llama 3.1(2024.7)405B参数比肩闭源模型。开源许可证允许自由微调、部署,催生大量衍生模型(Vicuna、Alpaca等)。

开源405B 参数128K Context商用许可
🔷

DeepSeek 系列

深度求索 · 2024至今

DeepSeek V4 Preview 于 2026-04-24 发布,提供 V4-Pro 与 V4-Flash 两条路线:Pro 面向高强度推理与长上下文,Flash 面向低延迟与低成本。官方权重已开源,API 支持非思考、思考与 Think Max 三种模式。

V4 PreviewMoE1M ContextThink Max
🟣

其他重要模型

多家厂商

通义千问(Qwen) — 阿里云,开源多规格模型
文心一言(ERNIE Bot) — 百度,中文生态集成
Mistral — 法国,高效小模型典范
Grok — xAI(Musk),实时数据访问
Cohere Command R+ — 企业级RAG优化

Qwen 开源Mistral MoEGrok 实时

必备资源与工具

官方文档与 API

论文与学习资源

实用工具

站内专题