开源NLP 开源nlp多伦对话

转载

编程小天才 2023-09-11 16:49:13

文章标签 开源NLP NLP 中文对话数据集对话数据集对话系统数据 文章分类 NLP 人工智能

一、豆瓣多轮对话数据集

1、简介：

测试数据包含 1000 个对话上下文，对于每个上下文，创建 10 个响应作为候选。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签，大多数标签被视为最终决定。

开源NLP 开源nlp多伦对话_对话数据集

2、数据格式：

标签 \t 对话话语（由 \t 分割）\t 响应

3、下载

https://github.com/MarkWuNLP/MultiTurnResponseSelection

二、KdConv

1、清华 ACL 2020 论文：https://arxiv.org/abs/2004.04100

2、简介：KdConv是中文多领域知识驱动对话数据集。KdConv 包含来自三个领域（电影、音乐和旅行）的4.5K对话和86K话语，平均轮数为19.0。这些对话包含对相关主题的深入讨论和多个主题之间的自然过渡，同时语料库还可以用于探索迁移学习和领域适应。

3、下载：

https://github.com/thu-coai/KdConv

三、zhdd

1、简介：

zhddline: 中文对话数据集, 从 DailyDialog 数据集翻译而来（基于搜狗翻译API），短文本。
zhdd: zhddline的会话版，每一个会话被拼接为一个文档，长文本。共有12336个文档。.

涉及领域：日常生活的各种话题

2、下载链接

https://github.com/zll17/Neural_Topic_Models#datasets

四、2018-2019年京东对话挑战赛数据集

京东对话挑战赛对话数据集主要是客服对话数据

1、2018年

数据集说明：

(1).原训练语料, path：data/chat.txt

(2).数据清洗之后的训练语料：train.enc、train.dec、test.enc、test.dec

(3).测试模型数据，测试问题test.txt和输出结果result.txt，path：data/test/

2、2019年：

数据各字段属性的解释 (1)会话编号：每个会话都会有唯一的编号，可以以此区分会话。 (2)顾客ID：每位顾客都会有唯一的ID，已脱敏。 (3)SKU：商品的编号。每个商品都有唯一的编号。若SKU的值为NULL，则表示该会话不涉及具体商品

数据的规模开发集和测试集均包含52个会话。

3、下载：

2018年：https://github.com/SimonJYang/JDDC-Baseline-Seq2Seq

2019年：https://github.com/EndlessLethe/jddc2019-3th-retrieve-model

五、淘宝客服对话数据

又名：E-commerical Conversation Corpus

1、简介：

电子商务对话语料库，包括基于检索的聊天机器人的训练数据集、开发集和测试集。电子商务会话语料库统计如下表所示。

开源NLP 开源nlp多伦对话_NLP_02

2、数据格式：

跟豆瓣多轮对话数据集一样

3、下载：

https://github.com/cooelf/DeepUtteranceAggregation

六、chatterbot-corpus-chinese

1、简介：

ChatterBot Corpus 中包含的数据文件使用YAML语法进行格式化。按类型领域分类，质量较高。

涉及领域：历史、电影、食物等十几种类型，每一类型一个yml文件

缺点：每一类型的对话数量很少

2、下载：

https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese

七、天池中文医疗数据集CMDD

1、简介：

本数据集CMDD由好大夫和圣地亚哥大学提供。可基于数据集进行学习、科学研究

2、下载：

https://tianchi.aliyun.com/dataset/dataDetail?dataId=92110b

八、天池中文医疗数据集Toyhom

1、简介

中文医疗对话数据集由792099个问答对组成。本数据集共有6个文件，包括男科、内科、妇产科、肿瘤科、儿科和外科。

2、下载：

Chinese Medical Dialogue Dataset 中文医疗对话数据集_数据集-阿里云天池

九、Ubuntu对话语料库

1、简介：

Ubuntu对话语料库包括从Ubuntu聊天记录中提取的近一百万个两人对话，用于获得针对与Ubuntu相关的各种问题的技术支持。每次对话平均8轮，至少3轮。所有对话均以文本形式（而非音频）进行。

完整的数据集包含93万个对话和超过1亿个单词。该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.69亿个单词的文本，分布超过了2600万圈。

2、下载：

Ubuntu对话语料库 2600万次自然的两人对话_数据集-阿里云天池

十、百度DuConv

1、简介

训练集样例数量	开发集样例数量	测试集样例数量	单／多轮	领域
19858	2000	5000	多轮	电影、明星

2、下载：

https://github.com/Cindy-xdZhang/ACL-duconv

3、论文：

Proactive Human-Machine Conversation with Explicit Conversation Goals

十一、百度DuRecDial

1、简介：

DuRecDial包含多种类型的对话(推荐对话、闲聊、任务导向对话和QA)，来自7个领域(电影、明星、音乐、新闻、食物、poi和天气)的10.2k对话，以及156K个utterances。

2、下载：

https://baidu-nlp.bj.bcebos.com/DuRecDial.zip

3、论文：

https://arxiv.org/pdf/2005.03954.pdf

十二、清华LCCC

1、简介：

所提供的数据集LCCC(Large-scale Cleaned Chinese Conversation)主要包含两部分: LCCC-base 和 LCCC-large，属于开放域对话数据集。

开源NLP 开源nlp多伦对话_NLP_03

开源NLP 开源nlp多伦对话_对话数据集_04

2、下载：

https://github.com/thu-coai/CDial-GPT

十三、PTT 中文語料

1、简介：

台湾PTT论坛繁体字八卦版，单轮对话，文本噪声比较大。

有两份数据：Gossiping-QA-Dataset.txt 和 Gossiping-QA-Dataset-2_0.csv

2、下载：

https://github.com/zake7749/Gossiping-Chinese-Corpus

十四、Subtitle Corpus

1、简介：

电视剧对白语料，来自爬取的电影和美剧的字幕。有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）。

2、下载：

https://github.com/aceimnorstuvwxz/dgk_lost_conv

十五、青云语料库

1、简介：

来源于聊天机器人交流群。开放域。12万条对话。

2、下载：

https://drive.google.com/file/d/1So-m83NdUHexfjJ912rQ4GItdLvnmJMD/view?usp=sharing

十六、weibo微博语料

1、简介：

来自华为的paper，443W条对话。

2、下载：

https://drive.google.com/file/d/1So-m83NdUHexfjJ912rQ4GItdLvnmJMD/view?usp=sharing

十七、贴吧论坛回帖语料

1、简介：

来源于贴吧论坛回帖，是多轮对话数据集。存在有噪音。

2、下载：

https://github.com/codemayq/chinese_chatbot_corpus

十八、腾讯NaturalConv

1、简介：

NaturalConv是腾讯2021年发布的中文对话数据集，是基于话题驱动的中文对话生成，它更接近于类人对话，具有自然属性，包括场景假设、自由话题扩展、问候等。它更接近于类人对话，具有自然属性，包括场景假设、自由话题扩展、问候语等完整的自然环境。它包含约400K语句和19.9K对话，涉及多个领域（包括但不限于体育、娱乐、科技）。平均轮数为20，明显长于其他语料库。

2、下载：

Dialogue Research-Tencent AI Lab

3、论文：

https://arxiv.org/pdf/2103.02548.pdf