本文分类:news发布日期:2026/4/3 7:55:00
打赏

相关文章

大模型强化学习算法概览

0. 算法概览与分类 算法 核心机制 主要优势 On/Off-Policy DPO 偏好数据直接优化 无需RL循环,实现简单 Off-Policy PPO 价值网络 + 绝对优势 + 截断 稳定性强,RL标准范式 On-Policy GRPO 组内相对优势 无价值网络,计算高效 On-Policy DAPO 解耦截断 + 动态采样 缓解熵崩溃,…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部