数据生产合成与质量过滤
分类:数据科学
标签:数据合成、质量过滤、模型训练
日期:2023年10月25日
数据生产合成
数据生产合成的核心在于通过多样化的 prompt(提示)设计来满足大模型在不同专项能力上的需求。这通常通过以下几种方法实现:
生产合成 Prompt
- Self-Instruct 方法:将技能库划分为不同的任务类型(task_type),为每个类型准备一些种子提示(seed prompt)。然后随机选择种子,利用强大模型生成更多问题。
- 启发式规则合成:通过各种启发式规则收集不同任务类型的数据集,并进行适当改写。改写可以通过强大模型完成,生成不同格式和风格的 prompt。
生产合成 Answer
使用效果好的模型如 GPT-4 来生成答案是优选方案。对于成本敏感或中文数据为主的场景,可选择在本地部署模型如 Qwen_72B。
数据质量过滤
IFD 过滤
数据质量过滤的关键在于根据指令跟踪难度筛选数据。初步训练阶段,模型通过内在的指令辨别能力评估数据集质量。
总体流程
- 经验学习:从简单经验中学习,强迫模型首先熟悉目标数据集的一个子集。
- 多样性确保:在指令嵌入上使用 K-Means 聚类方法,确保初始模型遇到足够多样的指令。
思考
- 如何在数据合成过程中更高效地提高 prompt 的多样性?
- 在数据质量过滤中,如何自动化评估指令执行难度?
- 是否有其他更有效的方法来优化小模型的训练过程?
原始出处:https://github.com/vndee/llm-sandbox、https://arxiv.org/abs/2410.23074
操作步骤
- ✅ 划分技能库并准备种子提示。
- ⚠ 使用启发式规则收集和改写数据。
- ❗ 使用强大模型生成答案并进行模型训练。
常见错误
警告:在数据合成过程中,忽视多样性可能导致模型过拟合。
💡 启发点
- 利用强大模型进行数据合成可以显著提升生成效果。
- 数据质量过滤通过指令辨别能力提高整体数据集质量。
行动清单
- 研究更多启发式规则以优化 prompt 合成。
- 探索自动化评估指令执行难度的方法。
- 试验不同模型组合以优化训练效果。
📈 趋势预测
未来,随着大模型需求的增加,数据合成和质量过滤技术将会更加智能化和自动化,以支持更复杂的任务类型。
后续追踪
- 进一步探索自我指导的方式来评估指令难度。
- 开发更高效的数据质量过滤算法。