Reference-Model

强化学习中的KL约束与奖励机制解析

分类:人工智能

标签:强化学习、PPO算法、KL约束

日期:2025年4月12日

核心观点总结

在强化学习中,KL约束被用于防止策略偏离预训练模型太远。通过冻结SFT模型参数并在PPO训练中加入per-token的KL约束项,确保策略的稳定性。奖励机制通过调整公式,使得新的token-level reward能够更准确地反映策略的有效性。
Pasted image 20250416211533.png

重点内容

KL约束在PPO训练中的应用

在PPO训练过程中,冻结SFT模型的参数,并利用其产生per-token的KL约束项。这种机制旨在防止策略过度偏离SFT模型,确保训练过程中策略的稳定性。

奖励机制的调整

新的奖励公式可以表示为:

r(x,y)βKL_reward

其中,token-level reward根据时间状态进行区分。

奖励公式的具体表达

其中T表示终止状态时间,即句子末尾的token。
Pasted image 20250416211541.png

操作步骤

  1. ✅ 冻结SFT模型参数。
  2. ⚠ 在PPO训练中加入per-token的KL约束项。
  3. ❗ 调整奖励公式以反映新的策略有效性。

常见错误

⚠ 在训练过程中,忽视KL约束可能导致策略偏离预期结果。

💡 启发点

通过引入KL约束,可以有效地控制策略的偏移,从而提高模型的稳定性和可靠性。

行动清单

原始出处:[文本来源未提供]