YaRN方法解析：扩展RoPE嵌入与注意力优化的实践

元数据

YaRN（Yet another RoPE extensioN method）是一种针对RoPE（旋转位置编码）进行扩展的方法，通过引入温度参数 $$t$$，优化了注意力权重的计算。该方法在推理和训练阶段没有额外开销，且适用于扩展上下文窗口的场景，如LLaMA模型的增强。

引入温度参数统一影响困惑度
在计算注意力权重时，通过在softmax操作前引入温度参数 $$t$$，可以实现对困惑度的统一调节，提升模型的适配能力。
按比例缩放RoPE嵌入
将query和key向量以 $$1/t$$ 的比例缩放，使得嵌入更具鲁棒性，并结合NTK-by-parts方法（分段自然梯度核）完成YaRN的实现。
无额外开销
RoPE嵌入提前生成且可重复使用，因此YaRN在推理和训练阶段不会增加额外计算成本。
推荐公式
对于LLaMA模型，建议使用以下公式进行温度参数的选择：
$\frac{1}{t} = 0.1 \ln (s) + 1$

在传统注意力权重计算中，softmax操作的输入为query和key的点积结果。通过引入温度 $$t$$，公式变为：

softmax (t \cdot \frac{q_{m}^{T} k_{n}}{\sqrt{d_{k}}})

这里 $$q_m$$ 和 $$k_n$$ 分别是query和key向量，$$d_k$$ 是向量的维度。温度参数 $$t$$ 的作用是调整点积结果的幅度，从而影响softmax分布的陡峭程度。

💡启发点：通过调整温度参数，可以更灵活地适配不同上下文长度下的注意力分布。

RoPE（旋转位置编码）是一种通过对query和key向量进行旋转变换来引入位置信息的方法。在YaRN中，进一步对RoPE嵌入进行按比例缩放：

缩放因子 = \frac{1}{t}

这种方式使得query和key能够更好地适配扩展上下文窗口中的远距离依赖。

对于LLaMA模型，YaRN提供了一个经验公式来选择温度参数：

\frac{1}{t} = 0.1 \ln (s) + 1

其中，$$s$$ 是上下文窗口的扩展比例。这个公式可以帮助模型在不同上下文长度下保持较好的性能。

✅ 操作步骤：

⚠️ 常见错误：

原始出处：[论文/文章未注明具体来源]

📈 趋势预测
随着上下文窗口扩展需求的增加，像YaRN这样的方法可能会被更广泛地应用于大语言模型（LLM），尤其是在需要高效处理长文本任务时。