Reference-Model

强化学习中的KL约束与奖励机制解析

分类：人工智能

标签：强化学习、PPO算法、KL约束

日期：2025年4月12日

在强化学习中，KL约束被用于防止策略偏离预训练模型太远。通过冻结SFT模型参数并在PPO训练中加入per-token的KL约束项，确保策略的稳定性。奖励机制通过调整公式，使得新的token-level reward能够更准确地反映策略的有效性。

在PPO训练过程中，冻结SFT模型的参数，并利用其产生per-token的KL约束项。这种机制旨在防止策略过度偏离SFT模型，确保训练过程中策略的稳定性。

新的奖励公式可以表示为：

r (x, y) - β \cdot K L_r e w a r d

其中，token-level reward根据时间状态进行区分。

当 $t \neq T$ 时：
$r_{t} = - β \cdot (\log \frac{π_{r e f} (a_{t} ∣ s_{t})}{π (a_{t} ∣ s_{t})})$
当 $t = T$ 时：
$r_{t} = r (x, y) - β \cdot (\log \frac{π_{r e f} (a_{t} ∣ s_{t})}{π (a_{t} ∣ s_{t})})$

其中 $T$ 表示终止状态时间，即句子末尾的token。

⚠ 在训练过程中，忽视KL约束可能导致策略偏离预期结果。

通过引入KL约束，可以有效地控制策略的偏移，从而提高模型的稳定性和可靠性。

原始出处：[文本来源未提供]