Variance Reduction with Baseline 补充 - 加基线使得方差降低 什么叫基线基线就是一个只和当前状态s有关、和动作a无关的数值 b(s)用来做 “参考平均分”假设某状态s平均长期收益 b(s)10某条轨迹 G_t18A_t18-1080动作比平均更好加大该动作概率某条轨迹 G_t3A_t3-10-70动作比平均差压低该动作概率不加基线的问题如果所有轨迹奖励全是正数所有动作都会无脑被拉高概率分不清好坏梯度震荡严重减去基线后只看相对好坏梯度波动大幅缩小什么叫加基线在计算策略梯度时用「未来总回报减去当前状态平均收益」作为动作权重在不改变优化方向的前提下稳定梯度、减少训练震荡。所有 RL 教材、论文统一表述引入新的变量叫加基线variance reduction with baseline带基线降噪、add a state baseline加入状态基线最优基线 b(s)V(s)状态价值函数代表在状态s下能拿到的平均未来回报此时 A_tG_t-V(s_t) 就是标准优势函数 Advantage也是 Actor-Critic、PPO 里通用的权重公式证明期望的定义展开期望定义备注交换积分与梯度的顺序代回原式得到最终结果b(s)只能依赖s、不能依赖a否则没法把b(s)提出对a的积分上面的推导就不成立了。对应 REINFORCE示例“期望是对联合分布 p(s,a)p(s) * π(a|s) 取的”意思计算期望时每一组状态 动作的权重是它同时出现的总概率这个总概率由「环境出现该状态的概率」乘以「策略在该状态选这个动作的概率」相乘得到设定小游戏离散状态、离散动作