语音已经是目前市场上的人工智能产品的主要入口之一,语音识别也是当前人工智能领域的重点研究方向,在家居、汽车、机器人等方面有着广泛的应用,未来也将深入到我们学习、生活、工作的各个环节。

随着人工智能的快速发展,国内外科技巨头不断推出自己的应用产品。百度旗下的DuerOS已经成了国内规模最大、最活跃、生态最繁荣的对话式人工智能操作系统。从驾车时“小度小度,导航回家”到小度在家智能音箱快速进入千家万户。
图片来自网络

语音识别巨头科大讯飞旗下的的讯飞翻译机,可帮助使用者在各语种间快速互译,并且准确识别方言。
图片来自网络

搜狗今年新发布的AI录音笔,不仅内置智能降噪功能,还支持对记录语音转写文本后并提供智能摘要。
图片来自网络

如此之多的人工智能产品,相信有不少其他行业的小伙伴好奇,从零开始,构建基础语音识别能力又该从哪里入手呢? 目前业界公认的语音识别技术能力主要分为基础语音识别、基于不同应用场景特征性语音识别。对于基础语音识别技术来说,只要语音活动检测( Voice Activity Detection,简称VAD)检测到有语音输入,唤醒识别系统,读懂说话者意图并作出回应,即为一个优秀系统。 通过语音识别系统原理,我们不难得知语音数据对于声音及语言模型的建立与优化起着至关重要的作用。

语音识别系统原理

基础语音识别能力的训练数据可分为:朗读语音、自然对话、引导语音、噪音环境、情感语音、声纹识别等六大类语音数据。其中,朗读语音,即说话人参照着预定文本进行朗读或复述,该语音数据的优点是要录制的文本内容可以提前设计,使得话题覆盖领域和音素平衡达到理想状态,同样,朗读语音也是构建基础语音识别能力的最佳数据。

朗读类语音数据

普通话1505小时普通话手机采集语音数据849小时普通话家居交互手机语音数据662小时中文重口音手机采集语音数据132小时中文重口音手机采集语音数据1026小时中文重口音手机采集语音数据203人噪音环境口音普通话手机采集语音数据_朗读

方言:1044小时闽南语手机采集语音数据1652小时粤语手机采集语音数据1032小时上海方言手机采集语音数据250人苏州方言手机语音采集数据400人杭州方言手机语音采集数据1000小时长沙方言手机采集语音数据794小时四川方言手机采集语音数据1000小时武汉方言手机采集语音数据1000小时昆明方言手机采集语音数据312人东北方言手机采集语音数据463人河南方言手机采集语音数据738小时维语手机采集语音数据 1000小时藏语手机采集语音数据204人台湾普通话手机采集语音数据_朗读

英语:201小时北美英语手机采集语音数据215小时美式英语手机采集语音数据_朗读 800小时美式英语手机采集语音数据_交互场景199小时英式英语手机采集语音数据_朗读800小时英式英语手机采集语音数据1000小时印度英语手机采集语音数据593小时中国人说英语手机采集语音数据500小时中国人说英语手机采集语音数据500小时西班牙人说英语手机采集语音数据520小时法国人说英语手机采集语音数据535小时德国人说英语手机采集语音数据200小时意大利人说英语手机采集语音数据200小时葡萄牙人说英语手机采集语音数据 200小时拉丁美洲人说英语手机采集语音数据 500小时日本人说英语手机采集语音数据 500小时韩国人说英语手机采集语音数据 500小时俄罗斯人说英语手机采集语音数据 200小时巴西人说英语手机采集语音数据 500小时澳大利亚英语手机采集语音数据 500小时加拿大英语手机采集语音数据 300小时新加坡英语手机采集语音数据 200小时马来西亚英语手机采集语音数据

欧洲语系:211小时德语手机采集数据_朗读1800小时德语手机采集语音数据215小时意大利语手机采集语音数据_朗读347小时意大利语手机采集语音数据1440小时意大利语手机采集语音数据232小时法语手机采集语音数据_朗读768小时法语手机采集语音数据227小时西班牙语手机采集语音数据_朗读338小时西班牙语手机采集语音数据435小时西班牙西班牙语手机采集语音数据 780小时墨西哥哥伦比亚西班牙语手机采集语音1000小时欧洲葡萄牙语手机采集语音数据 800小时俄语手机采集语音数据

亚洲语系:241小时印地语手机采集语音数据_朗读824小时印地语手机采集语音数据235小时日语手机采集语音数据265小时日语手机采集语音数据 514小时日语手机采集语音数据197小时韩语手机采集语音数据_朗读357小时韩语手机采集语音数据500小时韩语手机采集语音数据292小时泰语手机采集数据_朗读360小时印尼语手机采集语音数据_朗读640小时印尼语手机采集语音数据156人马来西亚语手机采集数据_朗读365小时马来语手机采集语音数据500小时越南语手机采集语音数据

美洲语系:1000小时巴西葡萄牙语手机采集语音数据

朗读类语音数据产品优势

l 单人录音时长控制在30分钟左右,同等时长覆盖更多录音人 l 录音文本设计贴合应用,覆盖书面语、通用口语、交互场景、家居及车载命令等日常应用场景l 多设备通道同时录制的数据,只计算单一通道的语音时长,销售时长按单一通道算(其他通道数据赠送)

英式英语朗读类语音数据案例数据的质量就是语音识别能力的质量

训练数据的匹配度和丰富性是推动语音识别系统性能提升的最重要因素之一,数据的好坏对总体性能的影响甚至超过了算法本身。数据堂的语音数据产品可以做到从市场实际应用场景出发,覆盖不同场景下发音内容的多样性,从而达到训练数据与真实应用场景中的数据高度匹配,帮助快速提升语音识别的性能。