模型打分与数据去重

元数据

分类：数据处理与机器学习
标签：数据清洗、预训练模型、去重算法
日期：2023-10-31

在预训练模型开发过程中，数据质量直接影响模型性能。通过模型打分和数据去重，可以有效提升训练数据的质量。本文探讨了如何利用打分模型评估数据质量，以及在预训练阶段进行数据去重的具体方法和注意事项。

💡 启发点：打分器的训练时间和资源投入应适度，避免过度优化导致效率低下。

训练数据集内部重复：
- 单个文档内部的重复（如重复行、段落、n-grams）。
- 多个文档之间的完全匹配或模糊匹配。
- 示例：CommonCrawl 和 T5 的 C4 数据集存在来源重复。
训练迭代设置的重复：
- 不同数据集采样时设定的重复轮次（Epochs）。
训练与测试集的重复：
- 测试集应从训练集移除相似数据，以避免影响评估结果。

确定处理单元（Unit）：
- 根据数据来源和特征选择基本处理单元。
- 示例：
  - CommonCrawl：按行级别去重（Line-level）。
  - Books3：按书籍覆盖率超过90%进行去重。
  - Github代码：按文件级别完全匹配去重。
Unit自身去重：
- 分析单元内部是否存在大量重复内容（如重复行或段落）。
- 如果重复比例过高，则直接丢弃整个单元。
Unit之间去重：
- 检查多个单元之间是否存在完全匹配或模糊匹配重复。

原文出处：《模型打分与数据去重在预训练中的应用》