什么是“对齐 Alignment”
预训练大模型只是学了海量文本的文字规律,只会续写文字,不懂人类的喜好、安全、需求:
- 会胡说八道(幻觉)、答非所问
- 遇到危险提问会给出有害回答
- 回答干巴巴、不贴心,分不清哪种答案人类更喜欢
对齐(Alignment):通过微调算法,把模型行为对齐人类价值观、偏好、安全规范,让模型做到 HHH:
- Helpful(有用、贴心、完整回答)
- Honest(诚实、不编造信息)
- Harmless(安全、拒绝违规提问)
对齐算法 = 实现这个目标的各类损失 / 优化算法(PPO/DPO/GRPO/KTO/ORPO/SimPO 全部属于对齐算法)
对齐两大阶段
SFT 监督微调(基础对齐)
用人工写好的「指令 - 标准答案」训练,让模型学会听懂指令、标准对话格式,是所有对齐的前置步骤
偏好对齐(核心对齐算法)
解决「同一个问题多条回答,区分好坏」,分两大流派:在线强化学习对齐、离线偏好优化对齐
两大流派
在线强化学习派(RLHF):PPO、GRPO、Online DPO(训练时实时采样新回答,在线探索)
离线直接偏好优化派(无奖励模型、单轮监督式训练):DPO、IPO、KTO、ORPO、SimPO(只用标注好的好坏回答对,不在线采样)
PPO(Proximal Policy Optimization,近端策略优化)
proximalˈprɒksɪməladj. 近端的;近源的;(牙齿)近侧的
核心
传统 RLHF 标准核心算法
OpenAI GPT3.5/4 初代对齐方案,完整流程(三步 RLHF)
- SFT 监督微调
- 训练 Reward Model(RM 奖励打分器)
- PPO 强化学习:Actor 生成回答→RM 打分→Critic 价值网络估计优势→裁剪更新策略,KL 约束防止模型跑偏
OpenAI Instruct GPT 原始论文标准:RLHF 是 3 阶段,《Training language models to follow instructions with human feedback》
官方定义 3 大核心阶段,预训练不算 RLHF 流程本身:
- 阶段 1:SFT 监督微调。拿“人工指令 - 回答对”,微调预训练基座,让模型听懂指令、会正常对话
- 阶段 2:训练 Reward Model(RM 奖励模型)。同一个 prompt 生成多条回答,人工好坏排序,训练打分模型,量化人类偏好
- 阶段 3:PPO 强化学习迭代。Actor 生成回答 → RM 打分 → Critic 算优势 → PPO 裁剪更新策略,搭配 KL 约束防止模型遗忘原有能力
市面 “4 步 RLHF” 口径 1:把「基座预训练」算进完整工程链路,完整模型全生命周期 4 步:
- 预训练(基座大模型,海量文本学习语言)
- SFT 监督微调
- 训练 RM 奖励模型
- PPO 强化学习优化
缺陷:预训练不属于 RLHF 对齐流程,只是对齐前的前置步骤,严格来说不能算 RLHF 内部步骤
市面 “4 步 RLHF” 口径 2:把 PPO 内部循环拆成独立第 4 阶段,即把 PPO 内部的「样本采样 Rollout」单独拆出来,变成 4 段流水线:
- SFT
- 训练 RM
- Rollout 采样:用 Actor 批量生成回答、RM 打分
- PPO 参数更新训练
本质只是把原来第 3 阶段的 PPO 内部流程一拆二,算法逻辑没变,只是流水线拆分粒度不同
RLHF 第三大阶段就叫「PPO 强化学习迭代」,它不是单一操作,是循环往复执行多轮的完整训练流程,目的是持续优化 Actor 模型。整个阶段会重复跑成千上万次内层循环,直到模型收敛、奖励稳定
内层:单轮迭代的完整执行流水线:Actor 生成→RM 打分→Critic 算优势→裁剪更新 + KL 约束,是这个迭代内部每一轮循环的完整执行步骤
核心特点
在线交互:训练时实时生成新样本,泛化能力强
显存开销极大:同时持有 Actor、Critic、RM、参考模型 4 套权重
缺点:调参敏感、训练易震荡、资源成本高
适用:高安全要求、超大基座模型、复杂多维度行为控制
Actor 策略模型
直译:演员,生成回答的主大模型,就是最终要优化、对外提供服务的对话模型
作用
- 接收用户 Prompt,输出完整回答
- PPO 训练的核心优化对象,所有参数更新都针对它
- 训练目标:多生成高分、人类喜欢的回答,少生成劣质 / 违规内容
- 关联初始化权重来自 SFT 微调后的模型
Critic 价值网络
直译:评论家,价值评估小网络,和 Actor 配套训练
核心作用:计算优势函数 Advantage,判断「这条回答比平均水平好多少」
A = R - V
R:RM 给出的真实奖励分数
V:Critic 预测的这条回答预期奖励
如果 A>0:这条回答更好,加大 Actor 更新幅度,鼓励
如果 A<0:这条回答很差,反向修正 Actor,抑制
特点:不生成文本,只做数值打分;训练时和 Actor 同步更新,PPO 经典「Actor-Critic 双网络架构」
KL 散度(Kullback-Leibler Divergence)全称KL Divergence,KL 散度,行业直接简称 KL
核心作用:防模型 “学跑偏、忘本”
Actor 只看奖励会疯狂迎合打分,出现两个严重问题:
- 灾难性遗忘:丢失预训练学到的通用知识、逻辑
- 奖励黑客(Reward Hacking):钻奖励模型漏洞,输出看似高分但毫无意义的文本
原理
拿一份冻结不动的参考模型(Ref Model,SFT 后的原始模型) 做基准:计算 Actor 当前输出分布 和 参考模型输出分布 的 KL 距离,作为惩罚项加到损失里
KL 越大:Actor 输出和原始模型差距越大,惩罚越强
强制 Actor 更新时不能脱离原本的语言、知识体系
通俗举例
参考模型:正常回答数学题
如果 Actor 为了高分疯狂重复同一句话刷奖励,两者分布差异极大,KL 惩罚会大幅拉低 loss,阻止模型这么更新
DPO(Direct Preference Optimization,直接偏好优化)
2023 年提出,离线替代 PPO 的里程碑算法,把强化学习转化为普通分类损失
不用单独训练奖励模型,将奖励函数隐式融入损失;输入一组(prompt, 优选回答y_w, 劣选回答y_l),最大化「好回答相对坏回答的概率比值」,搭配冻结 SFT 参考模型做 KL 约束
特点
离线训练:无需在线采样,不用 Critic/RM,仅保留策略 + 参考 2 个模型。训练稳定、工程简单、显存占用远低于 PPO
短板:
依赖高质量离线偏好数据,分布外泛化弱于在线 PPO
Online DPO(在线 DPO)
DPO 的在线改良版,融合 PPO 在线探索能力 + DPO 简单损失
区别于原生 DPO
原生 DPO 只用固定离线标注数据;Online DPO 训练循环中实时生成新回答、人工 / 自动打分,持续扩充偏好数据集,兼顾 DPO 的稳定与 PPO 的泛化能力
适用场景
数据量不足、需要持续迭代扩充样本的推理模型
GRPO(Group Relative Policy Optimization,组相对策略优化)
DeepSeek 2024 提出,PPO 轻量化替代,数学 / 代码推理模型标配(DeepSeek-R1 核心算法)
核心创新
- 移除 Critic 价值网络,显存直接降低 50%
- 同一条 prompt 批量生成 N 个回答(组 Group),用组内奖励相对差值替代优势函数
- 内置 KL 正则,不用额外奖励模型
特点
- 纯在线强化学习,完美适配 TTCS 多路径采样场景
- 对数学、代码、逻辑推理提升极强
- 开销远低于 PPO,7B 模型单卡即可微调
KTO(Kahneman-Tversky Optimization,前景理论偏好优化)
基于行为经济学前景理论,适配单条二元标注(单回答点赞 / 点踩,无需好坏配对)
Daniel Kahneman 丹尼尔・卡尼曼ˈkɑːnəmən
以色列裔美国心理学家,《思考,快与慢》作者,2002 诺贝尔经济学奖得主
Amos Tversky 阿莫斯・特沃斯基ˈtɜːvski
卡尼曼长期搭档,行为心理学先驱,1996 年早逝,诺奖不授予逝者,因此只有卡尼曼领奖
两人核心理论:前景理论 Prospect Theory
传统经济学假设人是理性的;二人证明人做决策存在系统性非理性:
- 损失带来的痛苦 > 同等收益的快乐
- 判断依赖直觉启发、锚定效应、框架偏差
KTO = Kahneman-Tversky Optimization
算法借用二人「前景理论」思想:不要求成对(好 / 坏)样本,只用单条回答 + 正负标签,模拟人类对收益、损失的不对称偏好打分
核心区别
其他算法都需要成对(好,坏)样本;KTO 可以只用独立单样本:输入单个回答 + 标签(正向 / 负向),分别加权损失
优势
标注成本更低,适合海量零散用户反馈(对话点赞数据);无需参考模型,显存友好
IPO(Identity Preference Optimization,恒等偏好优化)
DPO 的正则化改进,解决 DPO 训练梯度爆炸、偏好过拟合问题
损失逻辑
DPO 是 sigmoid 二分类损失;IPO 改用平方损失,强制好坏回答对数概率差逼近固定阈值1/(2β),平滑梯度、防止极端更新
适用:
偏好标注极度干净、数据噪声少的场景
ORPO(Odds Ratio Preference Optimization,比值比偏好优化)
单阶段对齐算法,唯一不需要独立 SFT 阶段、不需要冻结参考模型的主流方法
核心创新
将偏好损失直接叠加在 SFT 监督损失上,一步完成指令微调 + 人类对齐;去掉 DPO 必需的参考模型,大幅节省显存。
短板:长文本、复杂推理场景效果略弱于 DPO/GRPO
SimPO(Simple Preference Optimization,极简偏好优化)
无参考模型、极简离线偏好算法,2024 年提出,极致省显存
彻底移除 DPO 依赖的冻结参考模型
加入长度归一化,解决模型偏好生成长回答的 bias
损失仅依赖当前模型自身概率比值
优势:
仅加载 1 套模型权重,显存占用最低;小模型轻量化对齐首选
RLHF
RLHF = Reinforcement Learning from Human Feedback 基于人类反馈的强化学习
完整三段式标准流程(GPT-3.5/GPT4 原始训练链路)
阶段 1:SFT 监督微调(Supervised Fine-Tuning)
拿人工标注好的高质量「指令 - 回答」对话数据,直接微调基座大模型
目标:让模型学会听懂人类指令、输出通顺合规的文本,打下基础对话能力
阶段 2:RM 奖励模型训练(Reward Model)
同一个 prompt,让 SFT 模型生成多条不同回答;
人工对比排序:给回答分出好坏、优劣层级;
训练一个独立奖励模型,输入一段对话,输出 0~1 之间的分数,代表人类对这段回答的满意程度。
作用:把人的主观偏好转化为可计算的数字奖励,给后续强化学习打分。
阶段 3:PPO 强化学习优化(核心 RL 环节)
Actor 模型(待优化主模型)接收 prompt,生成回答;
把回答丢进Reward Model,拿到奖励分数;
用 Critic 价值网络估算每条样本的收益优势;
PPO 裁剪策略更新,同时加 KL 散度约束,防止模型彻底跑偏、丢失原有知识;
迭代更新 Actor,让模型越来越倾向生成高分、人类更喜欢的回答。
RLAIF
RLAIF:Reinforcement Learning from AI Feedback
AI 反馈强化学习,不用人工标注,用更强的大模型替代人类打分,降低标注成本(现在 R1、o1 推理模型主流方案)
RL vs 直接偏好优化(DPO/ORPO 等)
传统 RLHF 必须单独训 Reward Model+PPO 双阶段强化
DPO、KTO、ORPO 这类算法抛弃了完整 RLHF 流程,直接用偏好对做损失,不用独立奖励模型,工程更简单
o1、R1 一般指什么
OpenAI o1(闭源推理模型)
o:两层官方 + 行业通用解读
官方:代表 OpenAI,区分传统 GPT 产品线
内部代号代称:Orion(猎户座),内部项目代号 “Strawberry(草莓)”
官方明确解释:重置计数,推理新赛道的第 1 代里程碑
原文:we are resetting the counter back to 1
寓意:不再沿用 GPT-4/5 通用对话模型命名,单独开辟深度推理模型全新产品线,o1 是这条推理系列的起点,后续迭代 o2/o3
全球首个大规模落地 Test-Time Compute Scaling(推理时算力缩放) 的商用模型,靠超长思维链、多路径自校验、在线强化学习,专门解决数学、代码、竞赛级复杂逻辑难题
分支版本:o1(完整版)、o1-preview、o1-mini(轻量编码专用)
DeepSeek R1(开源推理模型)
R = Reasoning(推理),专门突出该模型主打深度推理能力
1 = 第一代推理专用大模型,DeepSeek 推理系列开山之作,全称 DeepSeek-R1
R1 是对标 o1 的开源平替,核心创新算法就是 GRPO(Group Relative Policy Optimization)
完美适配 TTCS 多路径采样、MCTS 树搜索推理,是目前开源圈最主流的推理模型
完全开源权重(MIT 协议),可本地端侧 / 私有服务端部署
训练逻辑:SFT + GRPO 在线强化学习,批量生成多条回答做组内对比,天然适配推理时扩容