各领域公开数据集下载

使用的数据集

​THCHS30​​是Dong Wang, Xuewei Zhang, Zhiyong Zhang这几位大神发布的开放语音数据集,可用于开发中文语音识别系统。

为了感谢这几位大神,我是跪在电脑前写的本帖代码。

下载中文语音数据集(5G+):

$ wget ​​http://data.cslt.org/thchs30/zip/wav.tgz​​​​

$ wget ​​http://data.cslt.org/thchs30/zip/doc.tgz​​​​

$ wget ​​http://data.cslt.org/thchs30/zip/lm.tgz​​​​

解压

$ tar xvf wav.tgz$ tar xvf doc.tgz$ tar xvf lm.tgz |

在开始之前,先好好检视一下数据集。

训练

金融

​美国劳工部统计局官方发布数据​

​沪深股票除权除息、配股增发全量数据,截止 2016.12.31​

​上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票​

​深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票​

​深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票​

​深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票​

​上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票​

​深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票​

​深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票​

​MT4平台外汇交易历史数据​

​Forex平台外汇交易历史数据​​​​几组外汇交易逐笔(Ticks)数据​

​美国股票新闻数据【Kaggle数据】​

​美国医疗保险市场数据【Kaggle数据】​

​美国金融客户投诉数据【Kaggle数据】​

​Lending Club 网贷违约数据​​​​【Kaggle数据】​

​信用卡欺诈数据​​​​【Kaggle 数据】​

​美国股票数据XBRL​​​​【Kaggle数据】​

​纽约股票交易所数据【Kaggle数据】​

​贷款违约预测竞赛数据【Kaggle竞赛】​

​Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】​

​Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】​

​Homesite 保险定价竞赛数据【Kaggle竞赛】​

​Winton 股票回报率预测竞赛数据【Kaggle竞赛】​

交通

​2013年纽约出租车行驶数据​

​2013年芝加哥出租车行驶数据​

​Udacity自动驾驶数据​

​纽约 Uber 接客数据 【Kaggle数据​​​​】​

​英国车祸数据(2005-2015)【Kaagle数据】​

​芝加哥汽车超速数据​​​​【Kaggle数据】​

​KITTI 自动驾驶任务数据【数据太大仅有部分】​

​Cityscapes 场景标注数据【数据太大仅有部分】​

​德国交通标志识别数据​

​交通信号识别数据​

​芝加哥Divvy共享自行车骑行数据(2013年至今)​

​美国查塔努加市共享单车骑行数据​

​Capital 共享单车骑行数据​

​Bay Area 共享单车骑行数据​

​Nice Ride 共享单车骑行数据​

​花旗银行共享单车骑行数据​

​运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】​

​纽约出租车管理委员会官方的乘车数据(2009年-2016年)​

商业

​Airbnb 开放的民宿信息和住客评论数据​

​Amazon 食品评论数据​​​​【Kaggle数据】​

​Amazon 无锁手机评论数据​​​​【Kaggle数据】​

​美国视频游戏销售和评价数据​​​​【Kaggle数据】​

​Kaggle 各项竞赛情况数据【Kaggle数据】​

​Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】​

​预测公寓租金竞赛数据​

​广告点击预测竞赛数据​

​餐厅营业收入预测建模竞赛​

​银行产品推荐竞赛数据​

​网站用户推荐点击预测竞赛数据​

​在线广告实时竞价数据【Kaggle数据】​

​购物车商品关联竞赛数据【Kaggle竞赛】​

​Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】​

推荐系统

​Netflix 电影评价数据​

​MovieLens 20m 电影推荐数据集​

​WikiLens​

​Jester​

​HetRec2011​

​Book Crossing​

​Large Movie Review​

​Retailrocket 商品评论和推荐数据​

医疗健康

​人识别物体时大脑核磁共振影像数据​

​人理解单词时大脑核磁共振影像数据​

​心脏病心房图像及标注数据​

​细胞病理识别​

​FIRE 视网膜眼底病变图像数据​

​食物营养成分数据 【Kaggle数据】​

​EGG 大脑电波形状数据【Kaggle数据】​

​某人基因序列数据【Kaggle数据】​

​癌症CT影像数据【Kaggle数据】​

​软组织肉瘤CT图像数据【Kaggle数据】​

​美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】​

​Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】​

​TCGA-LUAD 肺癌CT图像数据​

​RIDER Lung CT 肺癌CT影像​

​TCGA-COAD癌症CT影像数据​

​TCIA-TCGA-OV 癌症CT影像数据​

​TCIA RIDER NEURO 癌症MRI影像数据​

​QIN Beast 乳腺癌MRI影像数据​

图像数据

综合图像

​Visual Genome 图像数据​

​Visual7w 图像数据​

​COCO 图像数据​

​SUFR 图像数据​

​ILSVRC 2014 训练数据(ImageNet的一部分)​

​PASCAL Visual Object Classes 2012 图像数据​

​PASCAL Visual Object Classes 2011 图像数据​

​PASCAL Visual Object Classes 2010 图像数据​

​80 Million Tiny Image 图像数据​​​​【数据太大仅有介绍】​

​ImageNet【数据太大仅有介绍】​

​Google Open Images【数据太大仅有介绍】​

场景图像

​Street Scences 图像数据​

​Places2 场景图像数据​

​UCF Google Street View 图像数据​

​SUN 场景图像数据​

​The Celebrity in Places 图像数据​

Web标签图像

​HARRISON 社交标签​​​​图像​

​NUS-WIDE 标签图像​

​Visual Synset 标签图像​

​Animals With Attributes 标签图像​

人形轮廓图像

​MPII Human Shape​​​​人体轮廓数据​

​Biwi Kinect Head Pose 头部姿势数据​

​上半身人像数据​

​INRIA Person 数据集​

视觉文字识别图像

​Street View House Number 门牌号图像数据​

​MNIST 手写数字识别图像数据​

​3D MNIST 数字识别图像数据【Kaggle数据】​

​MediaTeam Document 文档影印和内容数据​

​Text Recognition 文字图像数据​

​NIST Handprinted Forms and Characters 手写英文字符数据​

​NIST Structured Forms Reference Set of Binary Images(SFRS) 图像数据​

​NIST Structured Forms Reference Set of Binary Images(SFRS) II 图像数据​

特定一类事物图像

​著名的猫图像标注数据​

​Caltech-UCSDBirds200 鸟类图像数据​

​Stanford Car 汽车图像数据​

​Cars 汽车图像数据​

​MIT Cars 汽车图像数据​

​Stanford Cars 汽车图像数据​

​Food-101 美食图像数据​

​17_Category_Flower图像数据​

​102_Category_Flower图像数据​

​UCI Folio Leaf 图像数据​

​Labeled Fishesin the Wild 鱼类图像​

​美国 Yelp 点评网站酒店照片​

​CMU-OxfordSculpture 塑像雕像图像​

​Oxford-IIIT Pet 宠物图像数据​

​NatureConservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】​

材质纹理图像

​CURET 纹理材质图像数据​

​ETHZ Synthesizability 纹理图像数据​

​KTH-TIPS 纹理材质图像数据​

​Describable Textures 纹理图像数据​

物体分类图像

​COIL-20 图像数据​

​COIL-100 图像数据​

​Caltech-101 图像数据​

​Caltech-256 图像数据​

​CIFAR-10 图像数据​

​CIFAR-100 图像数据​

​STL-10 图像数据​

​LabelMe_12_50k​​​​图像数据​

​NORB v1.0 图像数据​

​NEC Toy Animal 图像数据​

​iCubWorld 图像分类数据​

​Multi-class 图像分类数据​

​GRAZ 图像分类数据​

人脸图像

​IMDB-WIKI 500k+ 人脸图像、年龄性别数据​

​Labeled Faces in the Wild 人脸数据​

​Extended Yale Face Database B 人脸数据​

​Bao Face 人脸数据​

​DC-IGN 论文人脸数据​

​300 Face in Wild 图像数据​

​BioID Face 人脸数据​

​CMU Frontal Face Images​

​FDDB_Face Detection Data Set and Benchmark​​​​NIST Mugshot Identification Database​

​Faces in the Wild 人脸数据​

​CelebA 名人人脸图像数据​

​VGG Face 人脸图像数据​

​Caltech 10k Web Faces 人脸图像数据​

姿势动作图像

​HMDB_a large human motion database​

​Human Actions and Scenes Dataset​

​Buffy Stickmen V3 人体轮廓识别图像数据​

​Human Pose Evaluator 人体轮廓识别图像数据​

​Buffy pose 人类姿势图像数据​

​VGG Human Pose Estimation 姿势图像标注数据​

指纹识别

​NIST FIGS 指纹识别数据​

​NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据​

​NIST Plain and Rolled Images from Paired Fingerprint Cardsin 500 pixels per inch 指纹识别数据​

​NIST Plain and Rolled Images from Paired Fingerprint Cards1000 pixels per inch 指纹识别数据​

其它图像数据

​Visual Question Answering V1.0 图像数据​

​Visual Question Answering V2.0 图像数据​

视频数据

综合视频

​DAVIS_Densely Annotated Video Segmentation 数据​

​YouTube-8M 视频数据集【数据太大仅有介绍】​

​YouTube 网站视频备份【数据太大仅有介绍】​

人类动作视频

​Microsoft Research Action 人类动作视频数据​

​UCF50 Action Recognition 动作识别数据​

​UCF101 Action Recognition 动作识别数据​

​UT-Interaction 人类动作视频数据​

​UCF iPhone 运动中传感器数据​

​UCF YouTube 人类动作视频数据​

​UCF Sport 人类动作视频数据​

​UCF-ARG 人类动作视频数据​

​HMDB 人类动作视频​

​HOLLYWOOD2 人类行为动作视频数据​

​Recognition of human actions 动作视频数据​

​Motion Capture 动作捕捉视频数据​

​SBU Kinect Interaction 肢体动作视频数据​

目标检测视频

​UCSD Pedestrian 行人视频数据​

​Caltech Pedestrian 行人视频数据​

​ETH 行人视频数据​

​INRIA 行人视频数据​

​TudBrussels 行人视频数据​

​Daimler 行人视频数据​

​ALOV++ 物体追踪视频数据​

密集人群视频

​Crowd Counting 高密度人群图像​

​Crowd Segmentation 高密度人群视频数据​

​Tracking in High Density Crowds 高密度人群视频​

其它视频

​Fire Detection 视频数据​

音频数据

综合音频

​Google Audioset 音频数据【数据太大仅有介绍】​

语音识别

​Sinhala TTS 英语语音识别​

​TIMIT 美式英语语音识别数据​

​LibriSpeech ASR corpus 语音数据​

​Room Impulse Response and Noise 语音数据​

​ALFFA 非洲语音数据​

​THUYG-20 维吾尔语语音数据​

​AMI Corpus 语音识别​

自然语言处理

​RCV1​​​​英语​​​​新闻数据​

​20news 英语新闻数据​

​First Quora Release Question Pairs 问答数据​

​JRC Names​​​​各国语言专有实体名称​

​Multi-Domain Sentiment V2.0​

​LETOR 信息检索数据​

​Yale Youtube Vedio Text​​​​斯坦福问答数据​​​​【Kaggle数据】​

​美国假新闻数据​​​​【Kaggle数据】​

​NIPS会议文章信息数据(1987-2016)【Kaggle数据】​

​2016年美国总统选举辩论数据【Kaggle数据】​

​WikiLinks 跨文档指代语料​

​European Parliament Proceedings Parallel Corpus 机器翻译数据​

​WikiText 英语语义词库数据​

​WMT 2011 News Crawl 机器翻译数据​

​Stanford Sentiment Treebank 词汇数据​

​英语语言模型单词预测竞赛数据​

社会数据

​希拉里邮件门泄露邮件​

​波士顿Airbnb 公开数据【Kaggle数据】​

​世界各国经济发展数据【Kaagle数据】​

​世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】​

​世界范围显著地震数据(1965-2016)【Kaagle数据】​

​美国婴儿姓名数据【Kaagle数据】​

​全世界鲨鱼袭击人类数据【Kaagle数据】​

​1908年以来空难数据【Kaagle数据】​

​2016年美国总统大选数据【Kaagle数据】​

​2013年美国社区统计数据【Kaagle数据】​

​2014年美国社区统计数据【Kaagle数据】​

​2015年美国社区统计数据【Kaagle数据】​

​欧洲足球运动员赛事表现数据【Kaagle数据】​

​美国环境污染数据【Kaagle数据】​

​美国H1-B签证申请数​​​​据​​【​​Kaggle数据】​

​IMDB五千部电影数据【Kaggle数据】​

​2015年航班延误和取消数据【Kaggle数据】​

​凶杀案报告数据【Kaggle数据】​

​人力资源分析数据【Kaggle数据】​

​美国费城犯罪数据【Kaggle数据】​

​安然公司邮件数据【Kaggle数据】​

​历史棒球数据【Kaggle数据】​

​美联航 Twitter 用户评论数据【Kaggle数据】​

​波士顿 Airbnb 公开数据【Kaggle数据】​

​芝加哥市2001年以来犯罪记录数据​

​美国查塔努加市犯罪记录数据(2003年至今)​

​芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据​

​芝加哥餐馆卫生检查结果数据​

​几个人类运动位置路线GPS数据集(骑行、跑步等)​

处理后的科研和竞赛数据

​NIPS 2003 属性选择竞赛数据​

​台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据​

​Large-scale 分类建模数据​

​几个UCI 中 large-scale 分类建模数据​

​Social ComputingData Repository 社交网络数据​

​猫和狗分类识别竞赛数据【Kaggle竞赛】​

​DSTL 卫星图像识别竞赛数据【Kaggle竞赛】​

​根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】​

​人脸关键点标定竞赛数据【Kaggle竞赛】​

​Kaggle竞赛数据合辑(部分竞赛数据)​