Variance Reduction with Baseline 补充 - 加基线使得方差降低-拓冰建站

什么叫基线基线就是一个只和当前状态s有关、和动作a无关的数值 b(s)用来做 “参考平均分”假设某状态s平均长期收益 b(s)10某条轨迹 G_t18A_t18-1080动作比平均更好加大该动作概率某条轨迹 G_t3A_t3-10-70动作比平均差压低该动作概率不加基线的问题如果所有轨迹奖励全是正数所有动作都会无脑被拉高概率分不清好坏梯度震荡严重减去基线后只看相对好坏梯度波动大幅缩小什么叫加基线在计算策略梯度时用「未来总回报减去当前状态平均收益」作为动作权重在不改变优化方向的前提下稳定梯度、减少训练震荡。所有 RL 教材、论文统一表述引入新的变量叫加基线variance reduction with baseline带基线降噪、add a state baseline加入状态基线最优基线 b(s)V(s)状态价值函数代表在状态s下能拿到的平均未来回报此时 A_tG_t-V(s_t) 就是标准优势函数 Advantage也是 Actor-Critic、PPO 里通用的权重公式证明期望的定义展开期望定义备注交换积分与梯度的顺序代回原式得到最终结果b(s)只能依赖s、不能依赖a否则没法把b(s)提出对a的积分上面的推导就不成立了。对应 REINFORCE示例“期望是对联合分布 p(s,a)p(s) * π(a|s) 取的”意思计算期望时每一组状态动作的权重是它同时出现的总概率这个总概率由「环境出现该状态的概率」乘以「策略在该状态选这个动作的概率」相乘得到设定小游戏离散状态、离散动作

Variance Reduction with Baseline 补充 - 加基线使得方差降低

相关新闻

昭通高口碑黄金回收白银回收

静态住宅 IP 选型方法论:从原理到 Python 批量验真

长沙高口碑黄金铂金回收白银回收实体老店

最新新闻

GitHub Copilot 实战指南：结对编程式AI辅助开发核心逻辑与7大高频场景

【Bug已解决】Codex CLI Linux 报错 version GLIBC_2.xx not found 解决方案

自媒体运营分析-可视化探索

【安全架构师必修】别把“登录”当“授权”！万字深透计算机网络访问控制核心体系与零信任实战

【Bug已解决】Codex CLI Mac 报错 bad CPU type in executable 解决方案

2026年沈阳奢侈品回收常见误区大整理，这些坑你踩过吗

日新闻

中文大模型选型不是比参数，而是做工程化决策

STM32与LENA-R8构建全球定位与通信嵌入式系统

含金量高的EMBA｜2026国内及境外中英双语EMBA综合实力TOP5榜单

周新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

GXDE OS下Wayland兼容性实战：从deepin-mutter原理到VMware Tools修复

企业AI落地困境与AgenticOps实践指南

月新闻

[C++]内存管理：串顺序存储的内存回收

移动端游戏功耗测试实战：电流、功率、亮度和场景对比

足球口袋教练 HarmonyOS 离线应用实战（03/20）：ArkUI 首页仪表盘搭建