论文地址:https://arxiv.org/abs/2403.18058

这篇论文介绍了COIG-CQIA这个高质量的中文指令微调数据集,并探讨了如何更好地将模型行为与人类交互相匹配。该数据集收集自各种来源的高质量人类撰写的语料库,包括问答社区、维基百科、考试和现有的NLP数据集等。通过深入评估和分析,作者发现训练在CQIA子集中不同规模的模型可以实现具有竞争力的人类评价以及知识和安全基准测试结果。这些实验结果为选择和发展中文指令微调数据集提供了有价值的见解。

论文方法

方法描述

该论文主要介绍了如何构建高质量的指令调优数据集(CQIA),以提高大模型在任务执行方面的性能。作者使用了多种来源的数据源,并通过手动筛选、过滤低质量数据等方式来保证数据的质量。同时,他们还探索了不同数据源对于模型性能的影响,并发现增加指令多样性可以有效提高模型性能。

方法改进

相比于传统的基于人工标注的方式,该方法采用了更加高效的方式来构建数据集。通过利用已有的大规模语料库和LLM模型的能力,可以快速地生成大量的高质量指令调优数据。此外,该方法还可以根据不同的需求和目标,灵活地选择不同的数据源和策略来进行数据构建。

解决的问题

当前的大规模预训练语言模型虽然具有很强的语言理解和生成能力,但在实际应用中仍存在一些问题,如缺乏任务特定的知识和技能等。而构建高质量的指令调优数据集可以帮助模型更好地学习这些任务特定的知识和技能,从而提高其在实际应用中的表现。因此,该方法为解决这些问题提供了一种有效的解决方案。

“弱智吧”不弱智:弱智吧竟成最佳中文AI训练数据?_大模型

“弱智吧”不弱智:弱智吧竟成最佳中文AI训练数据?_LLM_02

论文实验

本文主要介绍了对COIG-CQIA模型的多方面实验和评价方法。具体来说,文章包括以下四个部分:

  1. 实验内容:首先介绍了实验的具体内容,即使用COIG-CQIA来微调模型,并阐述了实验中使用的评估方法。
  2. 实验结果:接着从四个方面展示了实验的结果,分别是:1)Ablating Instruction Data Sources(数据源的影响),2)Human Evaluation(人类评价),3)Scaling Model Size(模型大小的影响),4)Safety(安全性)。
  3. 实验细节:在第二部分中,每个实验都有详细的实施细节,如数据集来源、模型选择等。
  4. 结论:最后总结了实验的主要发现和结论。

接下来将详细介绍每个实验的内容和结果:

  1. 数据源的影响:本实验通过微调不同数据源的Yi系列模型和Qwen-72B模型,分析数据源对模型能力的影响。实验结果显示,Exam子集表现最好,其次是Ruoziba,而COIG-PC表现较差。这表明数据源的选择对于模型性能具有重要影响。
  2. 人类评价:该实验通过对Yi-6B模型与基准模型进行比较,以真实世界的人类问题为样本,评估模型的表现。实验结果显示,相对于其他基准模型,CQIA-Subset获得了更高的人类偏好度,至少有超过60%的回答优于或等于基准模型。这归因于CQIA不仅生成高质量的答案,而且其回答更符合现实世界的交流模式,因此受到更高的人类偏爱。
  3. 模型大小的影响:本实验研究了不同基础模型参数规模对模型性能的影响。结果表明,Yi-6B模型超越了Qwen-14B和InternLM-20B,尽管后者的参数量是前者的两倍。此外,Yi-34B在C-Eval和CMMLU基准测试中的表现与Qwen-72B相当。这说明模型大小、架构优化和训练方法之间的平衡很重要。虽然参数数量可能暗示着模型性能更好,但结果表明并非总是如此。
  4. 安全性:本实验探讨了数据源对模型安全性的影

论文总结

文章优点

  • 该研究提出了一种高质量的中文指令微调数据集COIG-CQIA,为中文NLP社区提供了高质量的人机交互导向的指令微调数据。
  • 数据集来源于真实的中文互联网来源,包括问答会话和文章,并经过彻底的清理、重构和人工审查以确保高质量、多样性和相关性。
  • 研究人员进行了各种基准测试和人类评估,证实了在CQIA数据集上微调的模型表现出优越性能,因此建立了CQIA作为有价值的资源供中文NLP社区使用。

方法创新点

  • 该研究通过严格的数据过滤程序实现了与人机交互的高度匹配。
  • 通过对不同数据源的影响进行探索,如社交媒体、百科全书和传统NLP任务等,研究人员提供了选择来自中国互联网的训练数据的重要见解。
  • 研究人员采用了多种基准测试和人类评估来验证模型在CQIA数据集上的表现,这有助于建立该数据集的质量和可靠性。

未来展望

  • 在未来的实验中,可以进一步扩大数据集规模并增加更多不同类型的数据源,以提高模型的泛化能力和适应性。
  • 可以考虑将该数据集与其他类型的中文数据集结合使用,以获得更全面的训练效果。
  • 可以进一步探索如何利用该数据集来开发更加智能和高效的人机交互系统,以满足人们日益增长的需求。