数据生产合成与质量过滤

分类:数据科学
标签:数据合成、质量过滤、模型训练
日期:2023年10月25日

数据生产合成

数据生产合成的核心在于通过多样化的 prompt(提示)设计来满足大模型在不同专项能力上的需求。这通常通过以下几种方法实现:
Pasted image 20250410222852.png

生产合成 Prompt

  1. Self-Instruct 方法:将技能库划分为不同的任务类型(task_type),为每个类型准备一些种子提示(seed prompt)。然后随机选择种子,利用强大模型生成更多问题。
  2. 启发式规则合成:通过各种启发式规则收集不同任务类型的数据集,并进行适当改写。改写可以通过强大模型完成,生成不同格式和风格的 prompt。

生产合成 Answer

使用效果好的模型如 GPT-4 来生成答案是优选方案。对于成本敏感或中文数据为主的场景,可选择在本地部署模型如 Qwen_72B。

数据质量过滤

IFD 过滤

数据质量过滤的关键在于根据指令跟踪难度筛选数据。初步训练阶段,模型通过内在的指令辨别能力评估数据集质量。

Pasted image 20250410222910.png

总体流程

  1. 经验学习:从简单经验中学习,强迫模型首先熟悉目标数据集的一个子集。
  2. 多样性确保:在指令嵌入上使用 K-Means 聚类方法,确保初始模型遇到足够多样的指令。

思考

原始出处:https://github.com/vndee/llm-sandboxhttps://arxiv.org/abs/2410.23074

操作步骤

  1. ✅ 划分技能库并准备种子提示。
  2. ⚠ 使用启发式规则收集和改写数据。
  3. ❗ 使用强大模型生成答案并进行模型训练。

常见错误

警告:在数据合成过程中,忽视多样性可能导致模型过拟合。

💡 启发点

行动清单

📈 趋势预测

未来,随着大模型需求的增加,数据合成和质量过滤技术将会更加智能化和自动化,以支持更复杂的任务类型。

后续追踪