第06篇：Transformer 解剖——Decoder-only 是怎么炼成的-拓冰建站

前置知识：第05篇（CNN/RNN/Attention）/ 第02篇（归一化与激活函数）

如果说整个专栏是一棵技术树，那这一篇就是树干。

Transformer 架构是一切大模型的基石。GPT、LLaMA、Qwen、ChatGLM——名字五花八门，但核心都是一样的 Decoder-only 架构。如果你只能精读一篇，那就是这一篇。

这一篇做什么：

2017 年的《Attention Is All You Need》提出了 Encoder-Decoder 架构：

输入序列 → Encoder（双向注意力）→ 编码表示

第06篇：Transformer 解剖——Decoder-only 是怎么炼成的