LLM对齐算法 - PPO / DPO / GRPO / Online DPO / KTO / IPO / ORPO / SimPO-拓冰建站

什么是“对齐 Alignment”

预训练大模型只是学了海量文本的文字规律，只会续写文字，不懂人类的喜好、安全、需求：

会胡说八道（幻觉）、答非所问
遇到危险提问会给出有害回答
回答干巴巴、不贴心，分不清哪种答案人类更喜欢

对齐（Alignment）：通过微调算法，把模型行为对齐人类价值观、偏好、安全规范，让模型做到 HHH：

Helpful（有用、贴心、完整回答）
Honest（诚实、不编造信息）
Harmless（安全、拒绝违规提问）

对齐算法 = 实现这个目标的各类损失 / 优化算法（PPO/DPO/GRPO/KTO/ORPO/SimPO 全部属于对齐算法）

对齐两大阶段

SFT 监督微调（基础对齐）

用人工写好的「指令 - 标准答案」训练，让模型学会听懂指令、标准对话格式，是所有对齐的前置步骤

偏好对齐（核心对齐算法）

解决「同一个问题多条回答，区分好坏」，分两大流派：在线强化学习对齐、离线偏好优化对齐

两大流派

在线强化学习派（RLHF）：PPO、GRPO、Online DPO（训练时实时采样新回答，在线探索）
离线直接偏好优化派（无奖励模型、单轮监督式训练）：DPO、IPO、KTO、ORPO、SimPO（只用标注好的好坏回答对，不在线采样）

PPO（Proximal Policy Optimization，近端策略优化）

proximalˈprɒksɪməladj. 近端的；近源的；（牙齿）近侧的

核心

传统 RLHF 标准核心算法

OpenAI GPT3.5/4 初代对齐方案，完整流程（三步 RLHF）

SFT 监督微调
训练 Reward Model（RM 奖励打分器）
PPO 强化学习：Actor 生成回答→RM 打分→Critic 价值网络估计优势→裁剪更新策略，KL 约束防止模型跑偏

OpenAI Instruct GPT 原始论文标准：RLHF 是 3 阶段，《Training language models to follow instructions with human feedback》

官方定义 3 大核心阶段，预训练不算 RLHF 流程本身：

阶段 1：SFT 监督微调。拿“人工指令 - 回答对”，微调预训练基座，让模型听懂指令、会正常对话
阶段 2：训练 Reward Model（RM 奖励模型）。同一个 prompt 生成多条回答，人工好坏排序，训练打分模型，量化人类偏好
阶段 3：PPO 强化学习迭代。Actor 生成回答 → RM 打分 → Critic 算优势 → PPO 裁剪更新策略，搭配 KL 约束防止模型遗忘原有能力

市面 “4 步 RLHF” 口径 1：把「基座预训练」算进完整工程链路，完整模型全生命周期 4 步：

预训练（基座大模型，海量文本学习语言）
SFT 监督微调
训练 RM 奖励模型
PPO 强化学习优化
缺陷：预训练不属于 RLHF 对齐流程，只是对齐前的前置步骤，严格来说不能算 RLHF 内部步骤

市面 “4 步 RLHF” 口径 2：把 PPO 内部循环拆成独立第 4 阶段，即把 PPO 内部的「样本采样 Rollout」单独拆出来，变成 4 段流水线：

SFT
训练 RM
Rollout 采样：用 Actor 批量生成回答、RM 打分
PPO 参数更新训练
本质只是把原来第 3 阶段的 PPO 内部流程一拆二，算法逻辑没变，只是流水线拆分粒度不同

RLHF 第三大阶段就叫「PPO 强化学习迭代」，它不是单一操作，是循环往复执行多轮的完整训练流程，目的是持续优化 Actor 模型。整个阶段会重复跑成千上万次内层循环，直到模型收敛、奖励稳定
内层：单轮迭代的完整执行流水线：Actor 生成→RM 打分→Critic 算优势→裁剪更新 + KL 约束，是这个迭代内部每一轮循环的完整执行步骤

核心特点
在线交互：训练时实时生成新样本，泛化能力强
显存开销极大：同时持有 Actor、Critic、RM、参考模型 4 套权重

缺点：调参敏感、训练易震荡、资源成本高
适用：高安全要求、超大基座模型、复杂多维度行为控制

Actor 策略模型
直译：演员，生成回答的主大模型，就是最终要优化、对外提供服务的对话模型

作用

接收用户 Prompt，输出完整回答
PPO 训练的核心优化对象，所有参数更新都针对它
训练目标：多生成高分、人类喜欢的回答，少生成劣质 / 违规内容
关联初始化权重来自 SFT 微调后的模型

Critic 价值网络
直译：评论家，价值评估小网络，和 Actor 配套训练
核心作用：计算优势函数 Advantage，判断「这条回答比平均水平好多少」
A = R - V
R：RM 给出的真实奖励分数
V：Critic 预测的这条回答预期奖励

如果 A>0：这条回答更好，加大 Actor 更新幅度，鼓励
如果 A<0：这条回答很差，反向修正 Actor，抑制

特点：不生成文本，只做数值打分；训练时和 Actor 同步更新，PPO 经典「Actor-Critic 双网络架构」

KL 散度（Kullback-Leibler Divergence）全称KL Divergence，KL 散度，行业直接简称 KL
核心作用：防模型 “学跑偏、忘本”

Actor 只看奖励会疯狂迎合打分，出现两个严重问题：

灾难性遗忘：丢失预训练学到的通用知识、逻辑
奖励黑客（Reward Hacking）：钻奖励模型漏洞，输出看似高分但毫无意义的文本

原理
拿一份冻结不动的参考模型（Ref Model，SFT 后的原始模型）做基准：计算 Actor 当前输出分布和参考模型输出分布的 KL 距离，作为惩罚项加到损失里
KL 越大：Actor 输出和原始模型差距越大，惩罚越强
强制 Actor 更新时不能脱离原本的语言、知识体系

通俗举例
参考模型：正常回答数学题
如果 Actor 为了高分疯狂重复同一句话刷奖励，两者分布差异极大，KL 惩罚会大幅拉低 loss，阻止模型这么更新

DPO（Direct Preference Optimization，直接偏好优化）

2023 年提出，离线替代 PPO 的里程碑算法，把强化学习转化为普通分类损失

不用单独训练奖励模型，将奖励函数隐式融入损失；输入一组(prompt, 优选回答y_w, 劣选回答y_l)，最大化「好回答相对坏回答的概率比值」，搭配冻结 SFT 参考模型做 KL 约束

特点
离线训练：无需在线采样，不用 Critic/RM，仅保留策略 + 参考 2 个模型。训练稳定、工程简单、显存占用远低于 PPO

短板：
依赖高质量离线偏好数据，分布外泛化弱于在线 PPO

Online DPO（在线 DPO）

DPO 的在线改良版，融合 PPO 在线探索能力 + DPO 简单损失

区别于原生 DPO
原生 DPO 只用固定离线标注数据；Online DPO 训练循环中实时生成新回答、人工 / 自动打分，持续扩充偏好数据集，兼顾 DPO 的稳定与 PPO 的泛化能力

适用场景
数据量不足、需要持续迭代扩充样本的推理模型

GRPO（Group Relative Policy Optimization，组相对策略优化）

DeepSeek 2024 提出，PPO 轻量化替代，数学 / 代码推理模型标配（DeepSeek-R1 核心算法）

核心创新

移除 Critic 价值网络，显存直接降低 50%
同一条 prompt 批量生成 N 个回答（组 Group），用组内奖励相对差值替代优势函数
内置 KL 正则，不用额外奖励模型

特点

纯在线强化学习，完美适配 TTCS 多路径采样场景
对数学、代码、逻辑推理提升极强
开销远低于 PPO，7B 模型单卡即可微调

KTO（Kahneman-Tversky Optimization，前景理论偏好优化）

基于行为经济学前景理论，适配单条二元标注（单回答点赞 / 点踩，无需好坏配对）

Daniel Kahneman 丹尼尔・卡尼曼ˈkɑːnəmən
以色列裔美国心理学家，《思考，快与慢》作者，2002 诺贝尔经济学奖得主
Amos Tversky 阿莫斯・特沃斯基ˈtɜːvski
卡尼曼长期搭档，行为心理学先驱，1996 年早逝，诺奖不授予逝者，因此只有卡尼曼领奖

两人核心理论：前景理论 Prospect Theory
传统经济学假设人是理性的；二人证明人做决策存在系统性非理性：

损失带来的痛苦 > 同等收益的快乐
判断依赖直觉启发、锚定效应、框架偏差

KTO = Kahneman-Tversky Optimization
算法借用二人「前景理论」思想：不要求成对（好 / 坏）样本，只用单条回答 + 正负标签，模拟人类对收益、损失的不对称偏好打分

核心区别
其他算法都需要成对(好,坏)样本；KTO 可以只用独立单样本：输入单个回答 + 标签（正向 / 负向），分别加权损失

优势
标注成本更低，适合海量零散用户反馈（对话点赞数据）；无需参考模型，显存友好

IPO（Identity Preference Optimization，恒等偏好优化）

DPO 的正则化改进，解决 DPO 训练梯度爆炸、偏好过拟合问题

损失逻辑
DPO 是 sigmoid 二分类损失；IPO 改用平方损失，强制好坏回答对数概率差逼近固定阈值1/(2β)，平滑梯度、防止极端更新

适用：
偏好标注极度干净、数据噪声少的场景

ORPO（Odds Ratio Preference Optimization，比值比偏好优化）

单阶段对齐算法，唯一不需要独立 SFT 阶段、不需要冻结参考模型的主流方法

核心创新
将偏好损失直接叠加在 SFT 监督损失上，一步完成指令微调 + 人类对齐；去掉 DPO 必需的参考模型，大幅节省显存。
短板：长文本、复杂推理场景效果略弱于 DPO/GRPO

SimPO（Simple Preference Optimization，极简偏好优化）

无参考模型、极简离线偏好算法，2024 年提出，极致省显存

彻底移除 DPO 依赖的冻结参考模型
加入长度归一化，解决模型偏好生成长回答的 bias
损失仅依赖当前模型自身概率比值

优势：
仅加载 1 套模型权重，显存占用最低；小模型轻量化对齐首选

RLHF

RLHF = Reinforcement Learning from Human Feedback 基于人类反馈的强化学习

完整三段式标准流程（GPT-3.5/GPT4 原始训练链路）

阶段 1：SFT 监督微调（Supervised Fine-Tuning）
拿人工标注好的高质量「指令 - 回答」对话数据，直接微调基座大模型
目标：让模型学会听懂人类指令、输出通顺合规的文本，打下基础对话能力

阶段 2：RM 奖励模型训练（Reward Model）
同一个 prompt，让 SFT 模型生成多条不同回答；
人工对比排序：给回答分出好坏、优劣层级；
训练一个独立奖励模型，输入一段对话，输出 0~1 之间的分数，代表人类对这段回答的满意程度。
作用：把人的主观偏好转化为可计算的数字奖励，给后续强化学习打分。

阶段 3：PPO 强化学习优化（核心 RL 环节）
Actor 模型（待优化主模型）接收 prompt，生成回答；
把回答丢进Reward Model，拿到奖励分数；
用 Critic 价值网络估算每条样本的收益优势；
PPO 裁剪策略更新，同时加 KL 散度约束，防止模型彻底跑偏、丢失原有知识；
迭代更新 Actor，让模型越来越倾向生成高分、人类更喜欢的回答。