机器学习与模式识别第十七章 Transformers LLMs 考点压缩-拓冰建站

第十七章：Transformers & LLMs — 知识点笔记

综合来源：Lecture 17 PDF（35页）、课堂笔记（CSDN）

占位图

17.1 LLM概述

什么是LLM

Large：参数量巨大（数十亿→万亿级）
Language Model：预测语言（下一词）
预测下一个词 = 回答问题 + 讲故事 + 完成任务 =生成式AI

17.2 Tokenization ⭐

Token vs Word

Token = 词、词缀、标点、特殊字符
“The smallest tokenizer!” → [“The”, " small", “est”, " token", “izer”, “!”]
优势：允许处理新词/拼写错误/数字

BPE（Byte Pair Encoding）⭐

初始token集=所有字符+数字+特殊字符
统计语料中最高频的token对→合并为新token
重复→直到达到目标词汇量
例：Llama-2: 32K → Llama-3:128Ktokens

17.3 因果语言建模 ⭐⭐

Causal Language Modeling

P(next token∣context tokens)P(\text{next token} | \text{context tokens})P(next token∣context tokens)

条件于之前的所有token（有序上下文）
一次生成一个token
“The best class at SDU is ___” → 模型输出下一个token的概率分布→采样/选最大

自回归解码（Auto-Regressive Decoding）

计算下一token的概率分布
选择下一token（最大概率/采样top-k）
将选中token追加到上下文
重复→直到<stop>token

一次一个token→逐步生成完整文本！

17.4 Decoder Transformer ⭐⭐

Encoder的问题

标准Self-Attention→所有token互相可见→生成时"偷看"答案
不适合因果（自回归）生成

Masked Attention（因果掩码）

只允许关注当前及之前的token（不能看到未来）
上三角掩码→−∞-\infty−∞→Softmax后权重为0
α=SoftMax(QKTDk+M)\boldsymbol{\alpha} = \text{SoftMax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{D_k}} + \mathbf{M}\right)α=SoftMax(DkQKT+M)

Mij={0i≥j−∞i<j\mathbf{M}_{ij} = \begin{cases} 0 & i \geq j \\ -\infty & i < j \end{cases}Mij={0−∞i≥ji<j

Decoder展开

每次新token加入→整个序列重新计算
但可缓存之前的K,V→KV Cache加速
最后一个token计算量最大（需attend所有历史）

17.5 Llama-3架构 ⭐

RMSNorm → Grouped Query Attention (+RoPE) → +残差 → RMSNorm → FFN with SwiGLU → +残差

组件	说明
RMSNorm	LayerNorm的简化版→训练稳定
GQA	Grouped Query Attention→效率+表达力
RoPE	Rotary Position Embedding→融入Q,K的旋转位置编码
SwiGLU	门控FFN激活函数
残差连接	梯度直通

规模（Llama-3 70B）

Hidden size: 8192 | 层数: 80 | Query heads: 64 | KV heads: 8

17.6 Encoder-Decoder vs Decoder-Only

架构	结构	代表模型
Encoder-Only	双向Attention	BERT
Encoder-Decoder	编码+解码+Cross-Attention	原版Transformer, T5, BART
Decoder-Only	仅Masked Attention	GPT系列, Llama(现代主流)

LLM演进时间线

2018: Word2Vec, GloVe, GPT-1, BERT 2019: GPT-2, RoBERTa, XLNet 2020: GPT-3, T5, DeBERTa 2021-22: GPT-J, OPT, BLOOM 2023-: Llama-2, Llama-3, GPT-4 (Decoder-Only主导)

笔记中的图片索引

序号	图片内容描述	来源位置
图1	BPE构建过程	Lecture 17 第7页
图2	自回归解码逐步生成	Lecture 17 第13-18页
图3	Masked Attention因果掩码	Lecture 17 第24-25页
图4	Llama-3架构图	Lecture 17 第31页
图5	Encoder-Decoder结构	Lecture 17 第33页
图6	LLM演进时间线	Lecture 17 第34页