机器学习与模式识别 第十七章 Transformers  LLMs 考点压缩

第十七章:Transformers & LLMs — 知识点笔记

综合来源:Lecture 17 PDF(35页)、课堂笔记(CSDN)


占位图

17.1 LLM概述

什么是LLM

  • Large:参数量巨大(数十亿→万亿级)
  • Language Model:预测语言(下一词)
  • 预测下一个词 = 回答问题 + 讲故事 + 完成任务 =生成式AI

17.2 Tokenization ⭐

Token vs Word

  • Token = 词、词缀、标点、特殊字符
  • “The smallest tokenizer!” → [“The”, " small", “est”, " token", “izer”, “!”]
  • 优势:允许处理新词/拼写错误/数字

BPE(Byte Pair Encoding)⭐

  1. 初始token集=所有字符+数字+特殊字符
  2. 统计语料中最高频的token对→合并为新token
  3. 重复→直到达到目标词汇量
  4. 例:Llama-2: 32K → Llama-3:128Ktokens

17.3 因果语言建模 ⭐⭐

Causal Language Modeling

P(next token∣context tokens)P(\text{next token} | \text{context tokens})P(next tokencontext tokens)

  • 条件于之前的所有token(有序上下文)
  • 一次生成一个token
  • “The best class at SDU is ___” → 模型输出下一个token的概率分布→采样/选最大

自回归解码(Auto-Regressive Decoding)

  1. 计算下一token的概率分布
  2. 选择下一token(最大概率/采样top-k)
  3. 将选中token追加到上下文
  4. 重复→直到<stop>token

一次一个token→逐步生成完整文本!


17.4 Decoder Transformer ⭐⭐

Encoder的问题

  • 标准Self-Attention→所有token互相可见→生成时"偷看"答案
  • 不适合因果(自回归)生成

Masked Attention(因果掩码)

  • 只允许关注当前及之前的token(不能看到未来)
  • 上三角掩码→−∞-\infty→Softmax后权重为0
    α=SoftMax(QKTDk+M)\boldsymbol{\alpha} = \text{SoftMax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{D_k}} + \mathbf{M}\right)α=SoftMax(DkQKT+M)

Mij={0i≥j−∞i<j\mathbf{M}_{ij} = \begin{cases} 0 & i \geq j \\ -\infty & i < j \end{cases}Mij={0iji<j

Decoder展开

  • 每次新token加入→整个序列重新计算
  • 但可缓存之前的K,V→KV Cache加速
  • 最后一个token计算量最大(需attend所有历史)

17.5 Llama-3架构 ⭐

RMSNorm → Grouped Query Attention (+RoPE) → +残差 → RMSNorm → FFN with SwiGLU → +残差
组件说明
RMSNormLayerNorm的简化版→训练稳定
GQAGrouped Query Attention→效率+表达力
RoPERotary Position Embedding→融入Q,K的旋转位置编码
SwiGLU门控FFN激活函数
残差连接梯度直通

规模(Llama-3 70B)

  • Hidden size: 8192 | 层数: 80 | Query heads: 64 | KV heads: 8

17.6 Encoder-Decoder vs Decoder-Only

架构结构代表模型
Encoder-Only双向AttentionBERT
Encoder-Decoder编码+解码+Cross-Attention原版Transformer, T5, BART
Decoder-Only仅Masked AttentionGPT系列, Llama(现代主流)

LLM演进时间线

2018: Word2Vec, GloVe, GPT-1, BERT 2019: GPT-2, RoBERTa, XLNet 2020: GPT-3, T5, DeBERTa 2021-22: GPT-J, OPT, BLOOM 2023-: Llama-2, Llama-3, GPT-4 (Decoder-Only主导)

笔记中的图片索引

序号图片内容描述来源位置
图1BPE构建过程Lecture 17 第7页
图2自回归解码逐步生成Lecture 17 第13-18页
图3Masked Attention因果掩码Lecture 17 第24-25页
图4Llama-3架构图Lecture 17 第31页
图5Encoder-Decoder结构Lecture 17 第33页
图6LLM演进时间线Lecture 17 第34页

笔记整理时间:2026年6月30日