🔥从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

“为什么所有大模型(LLM)都长一个样?”
因为它们都有一个共同的“基因”——Decoder-Only 架构

在前面两节中,我们学习了:

  • BERT:Encoder-Only,擅长“理解语言”
  • T5:Encoder-Decoder,统一“理解+生成”

而今天,我们要进入真正引爆 AI 浪潮的主角世界——

🚀 Decoder-Only 模型,也就是当前所有大语言模型(LLM)的“母体”。

GPT-1ChatGPT,从 LLaMAGLM,它们虽然名字不同,但都基于同一个核心架构:仅由 Decoder 堆叠而成的 Transformer

本文将带你深入理解:

  1. Decoder-Only 是什么?
  2. GPT 系列如何一步步引爆 LLM 时代?
  3. LLaMA 和 GLM 又做了哪些关键改进?

准备好了吗?我们出发!


🧬 一、什么是 Decoder-Only 架构?

在原始 Transformer 中,Decoder 本是用于“生成目标语言”的部分,它包含两个注意力机制:

  1. Masked Self-Attention:只能看到前面的 token(防止“偷看答案”)
  2. Encoder-Decoder Attention:接收 Encoder 的语义信息

从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型_架构

上图为Decoder-Only 模型的模型架构图,Decoder-Only 模型(如 GPT)做了一个大胆的决定:

❌ 去掉 Encoder
❌ 去掉 Encoder-Decoder Attention
✅ 只保留 Masked Self-Attention,自己理解、自己生成

输入文本 → Tokenizer → Embedding → N 层 Decoder → 输出文本

这种架构天生适合 自回归生成(Autoregressive Generation)

  • 输入:“今天天气”
  • 模型预测:“好”
  • 接着输入:“今天天气好”,预测下一个词……
  • 如此循环,生成完整句子。

✅ 优势:简单、高效、可无限生成文本
❌ 缺点:无法双向理解(但大模型通过“体量”弥补了这一点)


🚀 二、GPT:Decoder-Only 的开山鼻祖

1. 模型架构:Pre-LN + Masked Self-Attention

GPT 的结构与 BERT 类似,但关键区别在于:

组件

GPT 做法

位置编码

使用 Transformer 原始的 Sinusoidal 编码(非可学习)

LayerNorm

采用 Pre-Norm:先归一化再进注意力(更稳定)

注意力机制

仅保留 Masked Self-Attention,无 Encoder 交互

MLP 层

早期用卷积,后期改用全连接

🔍 Pre-Norm 是什么?
在残差连接前做 LayerNorm,能有效缓解梯度消失,适合深层网络。


2. 预训练任务:CLM(因果语言模型)

GPT 使用 CLM(Causal Language Modeling),也就是:

根据前面的词,预测下一个词

例如:

  • 输入:The cat sat on the
  • 输出:mat

这本质上是 N-gram 的神经网络升级版,完全契合人类语言生成习惯。

✅ 优势:

  • 不需要标注数据,直接用文本训练
  • 与下游生成任务(如写作、对话)完全一致

3. GPT 系列的“力大砖飞”之路

模型

参数量

隐藏层

层数

预训练数据

关键突破

GPT-1

0.12B

768

12

5GB

首提“预训练+微调”

GPT-2

1.5B

1600

48

40GB

支持 zero-shot

GPT-3

175B

12288

96

570GB

few-shot + 涌现能力

📌 GPT-3 的三大革命:
  1. 参数爆炸:1750亿参数,首次展现“涌现能力”
  2. 上下文学习(In-context Learning):无需微调,只需给几个例子(few-shot)就能学会新任务
  3. 稀疏注意力:应对长文本,提升训练效率

💡 举例:情感分类的 few-shot prompt

判断情感:'这真是个绝佳机会' → 正向(1) 示例:'你太棒了' → 1;'太糟糕了' → 0;'好主意' → 1 问题:'这真是个绝佳机会' → ?

这种“提示即编程”的方式,直接催生了 Prompt Engineering 的兴起。


🐫 三、LLaMA:开源 LLM 的标杆

如果说 GPT 是闭源王者,那 LLaMA 就是开源世界的“平民英雄”。

Meta 从 2023 年起陆续发布 LLaMA-1/2/3,成为当前开源 LLM 的事实标准架构

1. 模型架构:GPT 的“优化版”

LLaMA 整体沿用 GPT 架构,但做了多项关键改进:

改进点

说明

RoPE 位置编码

旋转式位置编码,支持超长上下文(8K~32K)

RMSNorm

替代 LayerNorm,训练更稳定

SwiGLU 激活函数

比 ReLU/GELU 更强的非线性能力

GQA(分组查询注意力)

减少 KV Cache,提升推理速度

🔍 GQA 是什么?
将多个注意力头共享 KV 向量,平衡 MQA(单KV)和 MHA(全KV)的性能与效率。


2. LLaMA 系列发展史

版本

参数

上下文

训练数据

亮点

LLaMA-1

7B~65B

2K

1T token

开源,引爆社区

LLaMA-2

7B~70B

4K

2T token

支持对话微调

LLaMA-3

8B~70B

8K

15T token

128K词表,接近GPT-4

✅ LLaMA-3 的 128K 词表大幅提升多语言和代码能力。


🇨🇳 四、GLM:中文 LLM 的独特探索

由智谱 AI(Zhipu AI)开发的 GLM 系列,是中国最早开源的大模型之一。

1. 模型架构:Post-Norm + 简洁设计

GLM 初期尝试了一条不同于 GPT 的路径:

特点

说明

Post-Norm

残差连接后归一化,增强鲁棒性

单层输出头

减少参数,提升稳定性

GELU 激活函数

平滑非线性,优于 ReLU

⚠️ 注意:主流模型多用 Pre-Norm,但 GLM 认为 Post-Norm 更稳定。


2. 预训练任务:GLM(空白填充)

GLM 的核心创新是 GLM 预训练任务——结合 MLM 和 CLM:

  • 随机遮蔽连续一段文本
  • 模型需从上下文预测这段文本,并按顺序生成其中每个 token

例如:

  • 输入:I <MASK> because you <MASK>
  • 输出:love you 和 are a wonderful person

✅ 优势:兼顾理解与生成
❌ 劣势:训练复杂,大模型时代被 CLM 取代

📌 现状:从 ChatGLM2 起,GLM 系列也回归 CLM + GPT 架构。


3. GLM 家族发展

模型

参数

上下文

关键能力

ChatGLM-6B

6B

2K

首个开源中文 LLM

ChatGLM2-6B

6B

32K

支持长文本

ChatGLM3-6B

6B

32K

支持函数调用、代码解释器

GLM-4

未开源

128K

英文性能对标 GPT-4

GLM-4-9B

9B

8K

开源轻量版,支持工具调用

💡 ChatGLM3 开始支持 Agent 开发,可调用工具、执行代码,迈向 AI 自主行动。


🆚 五、三大模型架构对比

模型

架构

预训练任务

是否开源

代表能力

GPT

Decoder-Only

CLM

❌ 闭源

通用生成、few-shot

LLaMA

Decoder-Only

CLM

✅ 开源

高效、可定制

GLM

Decoder-Only

GLM → CLM

✅ 开源

中文强、支持 Agent


🌟 六、Decoder-Only 为何能统治 LLM 时代?

尽管 BERT 和 T5 在 NLU 任务上曾领先,但 Decoder-Only 最终胜出,原因如下:

  1. 生成即王道
    大模型的核心价值是“对话”“写作”“编程”,生成能力比理解更重要。
  2. 任务统一性
    所有任务都可以转化为“输入提示 → 输出答案”,无需复杂微调。
  3. 涌现能力(Emergent Ability)
    当模型足够大时,CLM 训练的模型反而在理解任务上超越 BERT。
  4. 工程友好
    架构简单,易于分布式训练和推理优化。

📣 结语:LLM 的未来,始于 Decoder-Only

从 GPT-1 的默默无闻,到 GPT-3 的横空出世,再到 LLaMA 和 GLM 的开源繁荣,

Decoder-Only 架构 用十年时间证明了:

“简单、专注、规模” 才是通向 AGI 的最短路径。

如今,几乎所有主流 LLM(包括 Qwen、Baichuan、Yi 等)都基于这一架构。

🔁 所以,要理解大模型,你必须先读懂 GPT。

📚 参考资料:

  • 《Language Models are Few-Shot Learners》(GPT-3)
  • 《LLaMA: Open and Efficient Foundation Language Models》
  • 《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》
  • HuggingFace、Meta AI、Zhipu AI 官方文档
  • https://github.com/datawhalechina/happy-llm