RLHF研究方法及研究总结

人类偏好建模与奖励函数优化：RLHF方法

分类：人工智能、机器学习

标签：人类偏好、奖励函数、RL算法

日期：2025年4月12日

在研究中，算法通过拟合奖励函数与人类偏好，并使用强化学习（RL）算法训练策略，以优化当前预测的奖励函数。人类通过比较智能体行为轨迹片段来提供偏好标签，而不是绝对数值分数。此方法利用了人类更容易进行比较的特性，帮助学习人类偏好。

偏好标签与建模
对于两个智能体轨迹片段 $σ_{1}$ 和 $σ_{2}$ ，偏好标签 $y$ 可以表示为 0, 1 或 0.5，分别对应 $σ_{1}$ 更被偏好、 $σ_{2}$ 更被偏好或两者同等偏好。
偏好建模方法
假设人类偏好一个片段的概率与潜在奖励在该片段长度上的总和呈指数关系。基于 Bradley-Terry 模型，可以得出人类偏好片段 $σ_{1}$ 超过 $σ_{2}$ 的概率：
$\hat{P} [σ_{1} ≻ σ_{2}] = \frac{\exp \sum \hat{r} (s_{t}^{1}, a_{t}^{1})}{\exp \sum \hat{r} (s_{t}^{1}, a_{t}^{1}) + \exp \sum \hat{r} (s_{t}^{2}, a_{t}^{2})}$
奖励学习与优化
收集到的人类偏好标签可以通过二分类思路来学习奖励函数，损失函数采用交叉熵：
$loss (\hat{r}) = - E_{(σ_{1}, σ_{2}, y) \in D} [y (σ_{1} ≻ σ_{2}) \log \hat{P} [σ_{1} ≻ σ_{2}] + y (σ_{2} ≻ σ_{1}) \log \hat{P} [σ_{2} ≻ σ_{1}]]$

⚠ 在收集人类偏好标签时，确保数据的多样性和代表性，以避免偏差。

原始出处：研究方法与算法描述文档

通过这种方法，我们能够更好地理解和应用人类偏好，从而提升人工智能系统的表现和用户满意度。