“弱智吧”不弱智：弱智吧竟成最佳中文AI训练数据？

原创

芝士AI吃鱼 2024-04-11 16:23:33 博主文章分类：大模型 ©著作权

©著作权归作者所有：来自51CTO博客作者芝士AI吃鱼的原创作品，请联系作者获取转载授权，否则将追究法律责任

论文地址：https://arxiv.org/abs/2403.18058

这篇论文介绍了COIG-CQIA这个高质量的中文指令微调数据集，并探讨了如何更好地将模型行为与人类交互相匹配。该数据集收集自各种来源的高质量人类撰写的语料库，包括问答社区、维基百科、考试和现有的NLP数据集等。通过深入评估和分析，作者发现训练在CQIA子集中不同规模的模型可以实现具有竞争力的人类评价以及知识和安全基准测试结果。这些实验结果为选择和发展中文指令微调数据集提供了有价值的见解。

论文方法

方法描述

该论文主要介绍了如何构建高质量的指令调优数据集（CQIA），以提高大模型在任务执行方面的性能。作者使用了多种来源的数据源，并通过手动筛选、过滤低质量数据等方式来保证数据的质量。同时，他们还探索了不同数据源对于模型性能的影响，并发现增加指令多样性可以有效提高模型性能。

方法改进

相比于传统的基于人工标注的方式，该方法采用了更加高效的方式来构建数据集。通过利用已有的大规模语料库和LLM模型的能力，可以快速地生成大量的高质量指令调优数据。此外，该方法还可以根据不同的需求和目标，灵活地选择不同的数据源和策略来进行数据构建。

解决的问题

当前的大规模预训练语言模型虽然具有很强的语言理解和生成能力，但在实际应用中仍存在一些问题，如缺乏任务特定的知识和技能等。而构建高质量的指令调优数据集可以帮助模型更好地学习这些任务特定的知识和技能，从而提高其在实际应用中的表现。因此，该方法为解决这些问题提供了一种有效的解决方案。

“弱智吧”不弱智：弱智吧竟成最佳中文AI训练数据？_大模型

“弱智吧”不弱智：弱智吧竟成最佳中文AI训练数据？_LLM_02

论文实验

本文主要介绍了对COIG-CQIA模型的多方面实验和评价方法。具体来说，文章包括以下四个部分：

实验内容：首先介绍了实验的具体内容，即使用COIG-CQIA来微调模型，并阐述了实验中使用的评估方法。
实验结果：接着从四个方面展示了实验的结果，分别是：1）Ablating Instruction Data Sources（数据源的影响），2）Human Evaluation（人类评价），3）Scaling Model Size（模型大小的影响），4）Safety（安全性）。
实验细节：在第二部分中，每个实验都有详细的实施细节，如数据集来源、模型选择等。
结论：最后总结了实验的主要发现和结论。

接下来将详细介绍每个实验的内容和结果：

数据源的影响：本实验通过微调不同数据源的Yi系列模型和Qwen-72B模型，分析数据源对模型能力的影响。实验结果显示，Exam子集表现最好，其次是Ruoziba，而COIG-PC表现较差。这表明数据源的选择对于模型性能具有重要影响。
人类评价：该实验通过对Yi-6B模型与基准模型进行比较，以真实世界的人类问题为样本，评估模型的表现。实验结果显示，相对于其他基准模型，CQIA-Subset获得了更高的人类偏好度，至少有超过60%的回答优于或等于基准模型。这归因于CQIA不仅生成高质量的答案，而且其回答更符合现实世界的交流模式，因此受到更高的人类偏爱。
模型大小的影响：本实验研究了不同基础模型参数规模对模型性能的影响。结果表明，Yi-6B模型超越了Qwen-14B和InternLM-20B，尽管后者的参数量是前者的两倍。此外，Yi-34B在C-Eval和CMMLU基准测试中的表现与Qwen-72B相当。这说明模型大小、架构优化和训练方法之间的平衡很重要。虽然参数数量可能暗示着模型性能更好，但结果表明并非总是如此。
安全性：本实验探讨了数据源对模型安全性的影