文内容由学堂在线的课程助教 于延涛 整理,方便大家在数据科学学习过程中查找数据。
本文内容较长,共分三部分,数据科学领域不同领域的学习者可以各取所需。
- 第一部分:80+国内外常用的数据集,适合中、高级的学习者;
- 第二部分:国内外数据资源,适合初、中、高级学习者;
- 第三部分:数据科学领域经典的参考书,适合初、中级学习者;
- 第四部分:清华大学数据科学认证项目,适合所有数据科学爱好者。
以下按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧!
1
数 据 集
1 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案 http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
2 博主原创语料库:包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字 http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
3 亚马逊美食评论[Kaggle]:包含亚马逊用户在2012年10月前留下的568,454条食评 https://www.kaggle.com/snap/amazon-fine-food-reviews
4 斯坦福收集的3500万条亚马逊评论 https://snap.stanford.edu/data/web-Amazon.html
5 ArXiv上所有收录论文全文+源文件 http://arxiv.org/help/bulk_data_s3
6 ASAP自动作文评分[Kaggle]:在本次比赛中,有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息,而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分,并采用双评分制 https://www.kaggle.com/c/asap-aes/data
7 ASAP简答题评分[Kaggle]每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息,而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分,并采用双评分制 https://www.kaggle.com/c/asap-sas/data
8 政治社交媒体分类:按内容分类来自政客的社交媒体消息https://www.crowdflower.com/data-for-everyone/
9 CLiPS文体学研究(CSI)语料库:每年扩展两种类型的学生写作:文章和综述。这个语料库的目的主要在于文体学研究,当然也可用于其他研究 http://www.clips.uantwerpen.be/datasets/csi-corpus
10 ClueWeb09 FACC:带有Freebase注释的ClueWeb09 http://lemurproject.org/clueweb09/FACC1/
11 ClueWeb11 FACC:带有Freebase注释的ClueWeb11 http://lemurproject.org/clueweb12/FACC1/
12 常见爬虫语料库:由超过50亿个网页爬虫数据构成。http://aws.amazon.com/de/datasets/common-crawl-corpus/
13 康奈尔电影对话语料库(Cornell Movie Dialog Corpus):包含大量丰富的元数据,从原始电影剧本中提取的对话集合:617部电影,10,292对电影人物之间的220,579次会话交流 http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
14 企业信息:分类企业在社交媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息(关于公司或其活动的客观陈述),对话(回复用户等)或行动(要求投票或要求用户点击链接等的信息)http://aws.amazon.com/de/datasets/common-crawl-corpus/
15 Crosswikis:关联英语短语与维基百科文章的数据库http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
16 一个网络社区关于从维基百科中提取结构化信息并使得此信息在网络上可用的共同成果 http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords% 23encyclopedic
17 Death Row,1984年以来处决的每个犯人的遗言http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html
18 Del.icio.us上125万书签 http://arvindn.livejournal.com/116137.html
19 社交媒体上的灾难推文 https://www.crowdflower.com/data-for-everyone/
20 经济新闻相关文章:确定新闻文章与美国经济是否相关,如果相关,文章的基调是什么。时间范围从1951年到2014年 https://www.crowdflower.com/data-for-everyone/
21 安然公司电子邮件数据:包含1,227,255封电子邮件,其中493,384个附件覆盖151位管理者 http://aws.amazon.com/de/datasets/enron-email-data/
22 事件注册:免费工具,可以实时访问全球100,000个媒体的新闻文章。有API接口 http://eventregistry.org/
23 Examiner.com—用新闻头条钓鱼的垃圾邮件[Kaggle]:现已停用的钓鱼网站The Examiner从2010年到2015年发布的3百万众包新闻头条https://www.kaggle.com/therohk/examine-the-examiner
24 联邦采购数据中心的联邦合同(USASpending.gov):来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/
25 Flickr个人分类法:个人标签的树结构数据集http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
26 Freebase数据库:Freebase中所有当前事实和推断的数据库 http://aws.amazon.com/de/datasets/freebase-data-dump/
27 Freebase简单主题库:Freebase中每个主题中基本的可识别事实的数据库 http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/
28 Freebase四元库:Freebase中所有当前事实和推断的数据库[LZ1]http://aws.amazon.com/de/datasets/freebase-quad-dump/
29 GigaOM Wordpress挑战赛[Kaggle]:博客文章,元数据,用户喜好 https://www.kaggle.com/c/predict-wordpress-likes/data
30 谷歌图书n元语法 http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
31 谷歌网页5元语法 https://catalog.ldc.upenn.edu/LDC2006T13
32 Gutenberg带注释的电子书清单 http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
33 加拿大第36届议会正式记录(Hansards)的130万标准文本块 http://www.isi.edu/natural-language/download/hansard/
34 哈佛图书馆超过1,200万册资料记录 http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset
35 仇恨言论识别:志愿人查看短文,并确定它是否a)包含仇恨言论,b)冒犯性的,但没有仇恨言论,或c)一点也没有冒犯性。包含近15千行,每个文本字符串有三个志愿者判断 https://github.com/t-davidson/hate-speech-and-offensive-language
36 希拉里克林顿的电子邮件[Kaggle]:整理了近7,000页克林顿的电邮 https://www.kaggle.com/kaggle/hillary-clinton-emails
37 家得宝公司产品搜索关联[Kaggle]:包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签,家得宝公司将搜索/产品配对众包给多个评分者打分 https://www.kaggle.com/c/home-depot-product-search-relevance/data
38 确定文本中的关键短语:问题/答案对和文本组成;判断上下文文本是否与问题/答案相关 https://www.crowdflower.com/data-for-everyone/
39 美国电视节目‘危险’:216930个过去出现在‘危险’节目的问题合集http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
40 200k英语明文笑话:208000种不同来源的明文笑话存档。https://github.com/taivop/joke-dataset
41 欧洲语言机器翻译 http://statmt.org/wmt11/translation-task.html#download
42 材料安全数据表 http://aws.amazon.com/de/datasets/material-safety-data-sheets/
43 百万新闻头条-澳大利亚ABC[Kaggle]:由澳大利亚ABC新闻发布的从2003到2017年的130万新闻 https://www.kaggle.com/therohk/million-headlines
44 MCTest:可免费使用的660个故事集和相关问题,可用于研究文本机器理解、问答 http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html
45 Negra:德国报纸文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。 http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
46 新闻头条-印度时报[Kaggle]:印度时报发表的从2001到2017年的270万类新闻头条 https://www.crowdflower.com/data-for-everyone/
47 新闻文章/维基百科页面配对:志愿者阅读一篇短文,被问及最匹配的两篇维基百科文章是哪一篇 https://www.kaggle.com/benhamner/nips-2015-papers/version/2
48 2015 NIPS论文(版本2)[Kaggle]:所有2015年nips论文全文https://www.kaggle.com/benhamner/nips-2015-papers/version/2
49 纽约时报脸谱网数据:所有纽约时报在脸谱网的帖子http://minimaxir.com/2015/07/facebook-scraper/
50 全球新闻一周供稿[Kaggle]:在2017年8月的一周,用20多种语言全球发表的140万篇新闻事件数据集 https://www.kaggle.com/therohk/global-news-week
51 句子/概念对的正确性:志愿者读关于两个概念的句子。例如,“狗是一种动物”,或者“船长可以和主人有同样的意思”,然后他们被问到这个句子是否正确,并将其1-5评级 https://www.crowdflower.com/data-for-everyone/
52公开图书馆所有记录修改合集 https://openlibrary.org/developers/dumps
53 人物语料库:收集了作者文章风格和个性预测的实验。由145名学生的145篇荷兰语文章组成(获得需要申请) http://www.clips.uantwerpen.be/datasets/personae-corpus
54 Reddit评论:截至2015年7月,reddit论坛所有公开的评论。共计17亿条评论https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
55 Reddit评论(2015年5月) https://www.kaggle.com/reddit/reddit-comments-may-2015
56 Reddit提交语料库:2006年1月-2015年8月31日所有公开可得的Reddit提交内容https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/
57 路透社语料库:一个包含路透社新闻报道的数据集,用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1,它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取 https://trec.nist.gov/data/reuters/reuters.html
58 SaudiNewsNet:31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据 https://github.com/ParallelMazen/SaudiNewsNet
59 垃圾短信数据集:5574条被标记为合法/不合法的、未经编码的真实英文短信消息 http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
60《南方公园》数据集:csv格式文件,包含季、集、角色和台词的剧本信息 https://github.com/BobAdamsEE/SouthParkData
61 Stackoverflow:730万条stackoverflow问题和其他stackexchange(问答工具)上的问答 http://data.stackexchange.com/
62 Twitter的Cheng-Caverlee-lee用户定位数据集:2009年9月-2010年1月的推文定位 https://archive.org/details/twitter_cikm_2010
63 Twitter上关于新英格兰爱国者队“放气门”事件的舆情:在2015年超级碗比赛前,人们对被放了气的橄榄球以及爱国者队是否存在欺骗行为议论纷纷。该数据集提供了丑闻发生的这段时间里Twitter上的舆情,以便评估公众对整个事件的感受 https://www.figure-eight.com/data-for-everyone/
64 Twitter上对于左倾相关事件的舆情分析:关于堕胎合法化、女权主义、希拉里·克林顿等各种左倾相关事件的推文 https://www.figure-eight.com/data-for-everyone/
65 Twitter的Sentiment140(情感分析数据集):关于品牌/关键词的推文,网站包括论文和研究想法 http://help.sentiment140.com/for-students/
66 Twitter上关于自动驾驶汽车的舆情分析:贡献者们阅读推文后,将推文里对于自动驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与自动驾驶汽车无关,他们也要标记出来 https://www.figure-eight.com/data-for-everyone/
67 Twitter上定位于东京的推文:20万条来自东京的推文http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/
68 Twitter上定位于英国的推文:17万条来自英国的推文http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/
69 Twitter上定位于美国的推文:20万条来自美国的推文http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/
70 Twitter上对于美国各大航空公司的态度(Kaggle数据集):这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文,贡献者们将其分类为积极、消极和中立,对于那些分类为消极态度的推文,还会给出原因(例如“飞机晚点”或“服务态度差”等) https://www.kaggle.com/crowdflower/twitter-airline-sentiment
71 基于新闻标题的美国经济表现:根据新闻标题头条和摘要,对新闻和美国经济的相关性进行排序 https://www.figure-eight.com/data-for-everyone/
72 城市词典(美国在线俚语词典)里的单词和定义:一个经过清洗的CSV语料库,包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况 https://www.kaggle.com/therohk/urban-dictionary-words-dataset
73 亚马逊的Wesbury Lab Usenet语料库:2005-2010的47,860个英文新闻组的邮件匿名汇编 http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/
74 维基百科的Wesbury Lab语料库:2010年4月维基百科英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料(如导航文本等)。语料库是未经标记的原始文本,它被用于Stanford NLPhttp://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html
75 Stanford NLP跳转的链接 https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5
76 英文版维基百科 http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/
77 维基百科的XML格式数据:所有维基媒体(Wikimedia)的完整复制,以维基文本元(wikitext source)和元数据的形式嵌入到XML中http://aws.amazon.com/de/datasets/wikipedia-xml-data/
78 雅虎问答中的综合问题与答案:截至2007年10月25日的雅虎问答语料库,包含4,483,032条问答 http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
79 雅虎问答中用法语提问的问题:2006-2015年雅虎问答语料库的子数据集,包含170万条法语问答 https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
80 雅虎问答中的关于“如何做”的问题[LZ2]:根据语言属性从2007年10月25日雅虎问答语料库选出的子集,包含142,627条问答https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
81 雅虎从公开网页中提取的HTML格式页面:包含少量复杂HTML格式的页面和267万个复杂格式的页面 https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
82 雅虎从公开网页页面中提取的元数据:1亿个RDF格式数据的三元组https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
83 雅虎的N元语法模型表示(N-Gram Representations)数据:该数据集包含N元语法表示数据,这些数据可以用于IR研究中常见的查询重写(query rewriting)任务,也可以用于NLP研究中常见的词语和句子相似性分析任务https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
84 雅虎的N元语法模型数据(版本2.0):n元语法模型数据(n=1-5),从一个包含1460万个文档(1.26亿条不重复的语句,34亿个运行词)的语料库中提取,这些文档是从12000个面向新闻的站点里爬取的https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
85 雅虎搜索日志的相关性判断:匿名雅虎搜索日志的相关性判断https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
86 雅虎的英语维基百科语义注释快照:包含从2006年11月4日开始的经一些公开的NLP工具处理后的英文维基百科,共有1,490,688个条目https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
87 Yelp餐厅排名和220万条评论。 https://www.yelp.com/dataset
88 Youtube170万条视频描述 https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/
2
资 源
- 国外资源
1优秀的公开NLP数据集 https://github.com/awesomedata/awesome-public-datasets
2 亚马逊公开数据集: https://aws.amazon.com/de/datasets/
3 CrowdFlower数据集(包含大量小调查和对特定任务以众包方式获得的数据)https://www.crowdflower.com/data-for-everyone/
4 Kaggle数据集 https://www.kaggle.com/datasets
5 Kaggle比赛(请确保这些kaggle比赛数据可以在比赛之外使用)https://www.kaggle.com/competitions
6 开放图书馆 https://openlibrary.org/developers/dumps
7 Quora(大部分为已标注好的语料库) https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus
8 reddit数据集(无数个数据集,大部分由业余爱好者爬取,但数据的整理和许可可能不够规范) https://www.reddit.com/r/datasets
9 Rs.io:也是一个很长的数据集清单 http://rs.io/100-interesting-data-sets-for-statistics/
10 Stackexchange公开数据 http://opendata.stackexchange.com/
11 斯坦福NLP组(大部分为已标注的语料库和TreeBanks,以及实用的NLP工具) https://nlp.stanford.edu/links/statnlp.html
12 雅虎研究院的数据集汇总Webscope(还包含了使用了这些数据的论文列表)http://webscope.sandbox.yahoo.com/
- 国内资源
13 天池大数据:https://tianchi.shuju.aliyun.com/
简介:由国内科技巨头阿里举办,应该算是国内一流的数据挖掘类型的比赛了。由于是阿里举办,所以比赛获得不错名次的可以获得阿里校招直通车的权利,题目难度与kaggle相仿。
14 di-tech算法大赛:https://ditech.didichuxing.com
简介:由近年来发展迅猛的滴滴公司举办。奖品好像很丰富哎,每周周冠军好像都有不菲的奖品。如果想进滴滴研究院或者滴滴公司,参加这个比赛还是很有好处滴。
15 全国高校云计算应用创新大赛:https://cloud.seu.edu.cn/contest/
简介:这是一个面向大学生的比赛,大概每年举办一次,相比于其他竞赛难度较低。主要涉及hadoop,Spark等大数据分析计算工具的使用。
16 AI Challenger 全球AI挑战赛:https://challenger.ai/
简介:AI Challenger 的赛题主要是面向人工智能领域的不同应用场景,想要从事现在正火的深度学习的小伙伴可以在上面大展身手,“AI Challenger·全球AI挑战赛”的定位是国内面向AI领域科研人才,致力于打造大型、全面的科研数据集与世界级竞赛平台,推进AI在科研与商业领域的结合,促进世界范围内AI研发人员共同探索前沿领域的技术突破及应用创新。
3
参 考 书
- 强烈推荐:《机器学习》 (西瓜书)
- 入门读物:
《深入浅出数据分析》 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。 难易程度:非常易
《啤酒与尿布》 通过案例来说事情,而且是最经典的例子。 难易程度:非常易
《数据之美》 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。 难易程度:易
《数学之美》 这本书非常棒啦,入门读起来很不错!
《SciPy and NumPy 》 这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。
《 Python for Data Analysis 》) 作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!
- 适合入门的教程
《 集体智慧编程 》学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。
难易程度:中
《Machine Learning in Action 》 用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师已经翻译这本书了。
《机器学习实战 》这本书本身质量就很高,王老师的翻译质量也很高。 难易程度:中
《Building Machine Learning Systems with Python 》 虽然是英文的,但是由于写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
《数据挖掘导论 》 最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。 难易程度:中上
- 稍微专业些的参考书
《 Introduction to Semi-Supervised Learning 》 半监督学习必读必看的书。
《 Learning to Rank for Information Retrieval 》 微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!
《Learning to Rank for Information Retrieval and Natural Language Processing 》 李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
《推荐系统实践 》 这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
《 Natural Language Processing with Python 》 NLP 经典,其实主要是讲 NLTK 这个包,但是啊,NLTK 这个包几乎涵盖了 NLP 的很多内容了啊!
- 机器学习的推荐教材
《The Elements of Statistical Learning 》 这本书有对应的中文版:统计学习基础 (豆瓣)。书中配有R包,非常赞!可以参照着代码学习算法。 统计学习方法 (豆瓣) 李航老师的扛鼎之作,强烈推荐。
难易程度:难
《Machine Learning 》 去年出版的新书,作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
《Machine Learning 》 这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 之前由于配有代码,所以理解起来比较容易。
《 Pattern Recognition And Machine Learning 》经典中的经典。
《Bayesian Reasoning and Machine Learning 》 看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
《Convex Optimization 》 凸优化中最好的教材,没有之一了。课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。