开源语料库集:http://www.openslr.org/resources.php1.中文普通话:
1.1 Aishell (178小时)
数据:http://www.openslr.org/33/(15G)
400个说话者(训练集:340,验证集:40,测试集:20)男186,女214
麦克风(44.1KHZ 16-bit),安卓(16kHZ 16-bit),iOS(16kHZ 16-bit)
人工文本转写准确率在95%以上kaldi实例:https:///kaldi-asr/kaldi/tree/master/egs/aishell/s5

SOTA: 4.07% training on 8000 hours data.
THE SPEECHTRANSFORMER FOR LARGE-SCALE MANDARIN CHINESE SPEECH RECOGNITION
1.2 AISHELL-2
数据:训练集: 学术申请:aishell.foundation@ 商用申请:bd@aishelldata.com验证集&测试集:http://aishell-eval.oss-cn-beijing.aliyuncs.com/TEST%26DEV%20DATA.zip
训练集:1000小时,全部为iOS系统手机录制16kHZ 16-bit
1991说话者(845男性,1146女性)
文本转录正确率96%以上
验证集:2500 utterances from 5 speakers
测试集:5000 utterances from 10 speakerskaldi实例:https:///kaldi-asr/kaldi/tree/master/egs/aishell2

SOTA: 3.71%来自依图科技
2.多语言混合
2.1 SEAME(中英混合)
数据 需要购买
66.8小时,来自于自然对话和采访talks。
包含155个说话者,115个新加坡人和40个马来西亚人。
男性女性比例分别为55%和45%。
普通话和英语单语片段比例分别为12%和6%。分集():
文件:SEAME-dev-set [github] 参考论文:TOWARDS END-TO-END CODE-SWITCHING SPEECH RECOGNITION

3.其他
3.1 MUSAN
数据:http://www.openslr.org/17/(10G)音频格式: 16KHz语音:60h44m,全部来自公共场合背景的语音 其中:20h21m来自阅读Librivox,一半是英语,其余是11种语言。40h1m来自美国政府部门语音,全部为英语。音乐:42h31m,被分为Western art music (e.g., Baroque, Romantic, and Classical)和popular genres (e.g., jazz, bluegrass, hiphop, etc).。 标签有体裁、表演者、有无vocal。对于Western art music,有作曲者标签。噪音:6h,929种。包括技术性噪音(如,DTMF音调、拨号声、传真机器噪音等)和环境噪音(如,汽车空转声、雷声、风声、脚步声、纸的沙沙声、雨声、动物噪音等),不包括人的交谈声。但有一些是人群的噪音(有模糊的语音)
3.2 RIRS_NOISES
数据:http://www.openslr.org/28/(1.3G)音频格式: 16kHz,16-bit (1)模拟和真实房间脉冲响应、各向同性和点源噪声的数据库。 此数据中的音频文件均为 16k 采样率和 16 位精度。 (2)该数据包括在提交给 ICASSP 2017 的论文“A Study on Reverberant Speech for Robust Speech Recognition”中使用的所有房间脉冲响应 (RIR) 和噪声。它包括来自 RWCP 声音场景的真实 RIR 和各向同性噪声 数据库、2014 REVERB 挑战数据库和亚琛脉冲响应数据库 (AIR); 生成的模拟 RIR 以及从 MUSAN 语料库中提取的点源噪声。
参考: [1] 希尔贝壳 [官网] [2] AISHELL-2:全球最大中文开源数据库 [语音杂谈] [3] AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale [论文] [3] 语音识别大战又添明星AI公司:依图联合微软、华为推出两款产品 [新闻] [4] openslr [官网]
















