震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦

原创

夕小瑶谈人工智能 2023-06-11 07:04:50 ©著作权

文章标签 人工智能数据集数据数据收集 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者夕小瑶谈人工智能的原创作品，请联系作者获取转载授权，否则将追究法律责任

震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦_人工智能

文 | 小戏

“数据”！“数据”！“数据”！

大模型时代，最珍贵的是什么？是 Transformer 的架构吗？是 RLHF 的方法吗？

不是！是数据，是高质量的数据，是高质量且开源的数据！

这种数据 OpenAI 有，谷歌有，微软有，但是我们没有。

不过这种“没有”的状况可能从今天起要画上一个句点，因为一个名为“OpenAssistant”的高质量人工标注的对话数据集震撼开源。

震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦_人工智能_02

这个数据集由13500名全球志愿者共同标注完成，拥有包含 35 种语言在内的 66497 个完整的对话树，其中共 161443 条消息，以及 461292 条优质的人类评分。

震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦_数据_03

基于这个开源数据集，作者们也训练出了第一个完全开源的基于人类数据训练的大规模语言模型，在作者进行的一项实验中显示，OpenAssistant 的回复与 GPT-3.5-turbo（ChatGPT）的表现相当，相对胜率为 48.3% 对 51.7%。最关键的是，这是一个从数据集到模型完全开源的项目。基于这个模型，作者也构建了熟悉的聊天界面供我们使用。

震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦_数据_04

作者们表示，希望大家都可以参与到这个开源项目的建设中来，真正实现 OpenAssistant创立之初“Conversational Al for everyone”的目标。

Chat 界面：
https://open-assistant.io/chat
项目主页：
https://open-assistant.io
数据集地址：
https://huggingface.co/datasets/OpenAssistant/oasst1
代码地址：
https://github.com/LAION-AI/Open-Assistant
论文地址：
https://ykilcher.com/oa-paper

数据集结构

整体而言，如下图所示，数据集由 Conversation Tree 构成，树的每个节点代表对话中志愿者给出的消息，而根节点代表工作人员最初给的提示（Prompt），从根节点到其中任意一个节点都可以被成为一次有效的对话，每个对话还会记录诸如“时间戳”、“语言”等元数据，每个节点都会有等级或评分排序作为标注。

震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦_人工智能_05

数据收集

OpenAssistant Conversations 数据集使用众包方法，通过一个 Web-app 接口进行收集。作者团队们利用任务分类的方式使得收集数据的流程更高效，同时得以保证任务分类的准确性和数据质量，充分利用志愿者的工作时间。

整套收集流程有：

创造提示
志愿者回复
提示器（工作人员/机器）回复
标记提示/回复
排序志愿者回复

为了确保收集到的数据真实可信，作者团队们构建了“Contributor Guidelines”，供志愿者们更好的完成数据的收集工作。同时，也引入诸如排行榜、奖励机制、人工再次审核等方式，以最大程度的提升数据集的质量，利用好志愿者门参与工作的有限时间。

震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦_数据集_06

数据集构成

数据集共包含 161,443条消息，分布在 66,497 个对话树中，涵盖了 35 种不同的语言，标注了 461,292 个质量评分，其中包含了 8,576 条合成的消息以及 152,867 条由人工提交的消息。作者团队将数据集进行了不同程度的过滤和筛选，其中 10,968 个对话树已经被认为是完整的，包含总共 92,365 个消息。同时，作者们也将消息的品质分为了多个类别，并采用人工标注的方式进行了质量评价。值得注意的是，这个数据集的主要语言是英语与西班牙语，其中英语占总数据的42.8%，西班牙语占31.4%。这可能是由于 OpenAssistant 社区起源于以英语为主的开源社区，并且该数据集在西班牙的机器学习社区中得到了广泛的宣传和推广。

震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦_数据_07

此外，还有一个值得注意的点是数据集中的大部分消息来源于少数几个用户，如下图所示，这一现象非常有可能导致数据集存在偏见，尽管作者团队在数据收集的过程中已经使用多种手段避免比如直接的复制粘贴的情况，但是这一问题不可避免的仍然存在。

震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦_数据集_08

志愿者基本情况

为了深入了解参与构建与标注的志愿者的基本情况，作者团队对志愿者的基本信息进行了统计，其中226位参与者接受并回答了调查问卷。其中 201 人是男性，10 人是女性，5 位认为自己是非二元性别，10 位选择保密。同时，志愿者们的教育水平与对人工智能的理解也有显著差异，也对 AI 技术抱持不同的技术立场。

震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦_数据集_09

实验

作者们基于两种不同的训练方法—— Pythia 和 LLaMA，构建了 Pythia-12B，LLaMA-13B和目前为止最大的 LLaMA-30B 模型。并且，基于 Pythia-12B 对数据集进行了实验验证。通过构建一系列实验问题，分别通过 Pythia-12B 和 ChatGPT 得到了问题答案，并将这些答案编撰为问卷送往社区收集数据以完成对比 ChatGPT 的偏好研究。截至目前，共收到 348 份有效的答案，通过数据分析可以发现，Pythia-12B 在比赛中获胜的概率是 48.3%。

震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦_数据集_10