第06篇:Transformer 解剖——Decoder-only 是怎么炼成的

前置知识:第05篇(CNN/RNN/Attention)/ 第02篇(归一化与激活函数)


引言:全文最核心的一篇

如果说整个专栏是一棵技术树,那这一篇就是树干

Transformer 架构是一切大模型的基石。GPT、LLaMA、Qwen、ChatGLM——名字五花八门,但核心都是一样的 Decoder-only 架构。如果你只能精读一篇,那就是这一篇。

这一篇做什么:

  1. 拆解从输入到输出的完整前向流程
  2. 从零搭建一个 Mini-GPT2
  3. 解释每个组件的设计选择和工程细节
  4. 用参数公式验证你的模型到底"大"在哪里

一、从 Encoder-Decoder 到 Decoder-only

1.1 原始 Transformer

2017 年的《Attention Is All You Need》提出了 Encoder-Decoder 架构:

输入序列 → Encoder(双向注意力)→ 编码表示