本文分类:news发布日期:2025/10/27 16:13:37
打赏

相关文章

大模型后训练

预训练(基础知识广泛学)------微调(具体实操岗前学)------后训练(RLHF专业领域深入学) 策略模型、参考模型、价值模型、奖励模型策略模型:待后训练的大模型 参考模型:初始的策略模型。 奖励模型(RM):目标是刻画模…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部