各领域公开数据集下载
使用的数据集
THCHS30是Dong Wang, Xuewei Zhang, Zhiyong Zhang这几位大神发布的开放语音数据集,可用于开发中文语音识别系统。
为了感谢这几位大神,我是跪在电脑前写的本帖代码。
下载中文语音数据集(5G+):
$ wget http://data.cslt.org/thchs30/zip/wav.tgz
$ wget http://data.cslt.org/thchs30/zip/doc.tgz
$ wget http://data.cslt.org/thchs30/zip/lm.tgz
解压
$ tar xvf wav.tgz$ tar xvf doc.tgz$ tar xvf lm.tgz |
在开始之前,先好好检视一下数据集。
训练
金融
沪深股票除权除息、配股增发全量数据,截止 2016.12.31
上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票
深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票
深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票
深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票
上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票
深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票
深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票
Forex平台外汇交易历史数据几组外汇交易逐笔(Ticks)数据
Lending Club 网贷违约数据【Kaggle数据】
Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】
Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】
Homesite 保险定价竞赛数据【Kaggle竞赛】
Winton 股票回报率预测竞赛数据【Kaggle竞赛】
交通
纽约 Uber 接客数据 【Kaggle数据】
英国车祸数据(2005-2015)【Kaagle数据】
Cityscapes 场景标注数据【数据太大仅有部分】
芝加哥Divvy共享自行车骑行数据(2013年至今)
运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】
纽约出租车管理委员会官方的乘车数据(2009年-2016年)
商业
Amazon 食品评论数据【Kaggle数据】
Amazon 无锁手机评论数据【Kaggle数据】
美国视频游戏销售和评价数据【Kaggle数据】
Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】
Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】
推荐系统
Jester
医疗健康
细胞病理识别
美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】
Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】
TCIA RIDER NEURO 癌症MRI影像数据
图像数据
综合图像
ILSVRC 2014 训练数据(ImageNet的一部分)
PASCAL Visual Object Classes 2012 图像数据
PASCAL Visual Object Classes 2011 图像数据
PASCAL Visual Object Classes 2010 图像数据
80 Million Tiny Image 图像数据【数据太大仅有介绍】
Google Open Images【数据太大仅有介绍】
场景图像
UCF Google Street View 图像数据
The Celebrity in Places 图像数据
Web标签图像
Animals With Attributes 标签图像
人形轮廓图像
MPII Human Shape人体轮廓数据
Biwi Kinect Head Pose 头部姿势数据
视觉文字识别图像
Street View House Number 门牌号图像数据
3D MNIST 数字识别图像数据【Kaggle数据】
MediaTeam Document 文档影印和内容数据
NIST Handprinted Forms and Characters 手写英文字符数据
NIST Structured Forms Reference Set of Binary Images(SFRS) 图像数据
NIST Structured Forms Reference Set of Binary Images(SFRS) II 图像数据
特定一类事物图像
Caltech-UCSDBirds200 鸟类图像数据
Labeled Fishesin the Wild 鱼类图像
CMU-OxfordSculpture 塑像雕像图像
NatureConservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】
材质纹理图像
ETHZ Synthesizability 纹理图像数据
Describable Textures 纹理图像数据
物体分类图像
人脸图像
IMDB-WIKI 500k+ 人脸图像、年龄性别数据
Labeled Faces in the Wild 人脸数据
Extended Yale Face Database B 人脸数据
FDDB_Face Detection Data Set and BenchmarkNIST Mugshot Identification Database
Caltech 10k Web Faces 人脸图像数据
姿势动作图像
HMDB_a large human motion database
Human Actions and Scenes Dataset
Buffy Stickmen V3 人体轮廓识别图像数据
Human Pose Evaluator 人体轮廓识别图像数据
VGG Human Pose Estimation 姿势图像标注数据
指纹识别
NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cardsin 500 pixels per inch 指纹识别数据
NIST Plain and Rolled Images from Paired Fingerprint Cards1000 pixels per inch 指纹识别数据
其它图像数据
Visual Question Answering V1.0 图像数据
Visual Question Answering V2.0 图像数据
视频数据
综合视频
DAVIS_Densely Annotated Video Segmentation 数据
YouTube-8M 视频数据集【数据太大仅有介绍】
人类动作视频
Microsoft Research Action 人类动作视频数据
UCF50 Action Recognition 动作识别数据
UCF101 Action Recognition 动作识别数据
Recognition of human actions 动作视频数据
SBU Kinect Interaction 肢体动作视频数据
目标检测视频
密集人群视频
Crowd Segmentation 高密度人群视频数据
Tracking in High Density Crowds 高密度人群视频
其它视频
音频数据
综合音频
Google Audioset 音频数据【数据太大仅有介绍】
语音识别
LibriSpeech ASR corpus 语音数据
Room Impulse Response and Noise 语音数据
自然语言处理
First Quora Release Question Pairs 问答数据
Multi-Domain Sentiment V2.0
Yale Youtube Vedio Text斯坦福问答数据【Kaggle数据】
NIPS会议文章信息数据(1987-2016)【Kaggle数据】
European Parliament Proceedings Parallel Corpus 机器翻译数据
WMT 2011 News Crawl 机器翻译数据
Stanford Sentiment Treebank 词汇数据
社会数据
世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】
世界范围显著地震数据(1965-2016)【Kaagle数据】
美国H1-B签证申请数据【Kaggle数据】
美联航 Twitter 用户评论数据【Kaggle数据】
处理后的科研和竞赛数据
台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据
几个UCI 中 large-scale 分类建模数据
Social ComputingData Repository 社交网络数据
根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】