滴滴开源kafka 滴滴开源数据语音

转载

mob6454cc6d1c0b 2024-08-19 14:05:19

文章标签 滴滴开源kafka 开源中英文示例数据数据数据库压缩包 文章分类 架构后端开发

巧妇难为无米之炊，今天的推荐是两套开源数据。关注本博客或者公众号的朋友，可能一部分是已经在做自己的课题或者项目，可以直接使用本站这些脚本或者程序的；也有的刚在学习进行中，那么手头可能未必会有合适的数据来进行实验或者提取，分析。这篇文章的目的，为大家推荐两套开源数据库，这些数据有wav和标注好的结果，可以直接用来提取参数，了解实验过程。开源数量是公开免费使用的，但是不能用做商业用途，拿来用做学术研究，写论文都是没问题的，原则上要注明出处。

第一个中文数据是普通话音库，来自标贝公司(https://www.data-baker.com/index.html)，这是一套专门用于语音合成的标准普通话女声音库，共10小时，所有音频wav都有人工精标注。从录音质量上来说，标贝的这套几乎可以称为完美。音质非常清楚，而且有人工精标注的音素信息，这可以说是业界良心了。下载地址是：https://www.data-baker.com/open_source.html，在此页的最下方有“数据下载”，并且有数据和版权说明等；

第二套是英语的CMU(http://www.speech.cs.cmu.edu/databases/)数据库。我的下载方式是在下载HTS合成工具包的时候，它的Demo里自带的数据http://hts.sp.nitech.ac.jp/?Download，这里面带了CMU的英语数据1000句，是raw格式的；

为什么要二次处理这两个数据库

首先这个中文数据下载了之后是三个文件：

Wave.rar, ProsodyLabeling.rar, PhoneLabeling.rar

分别解压之后：

第一个压缩包，Wave.rar，这里面是wav格式的音频，都是在专业录音棚录制的，共10000句，采样率是48K；
第二个压缩包，ProsodyLabeling.rar, 解压之后，是一个文本文件，打开之后如下，这里面的#2等信息在网站有说明，是韵律停顿信息；

000001 卡尔普#2陪外孙#1玩滑梯#4。 

ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1

000002 假语村言#2别再#1拥抱我#4。 

jia2 yu3 cun1 yan2 bie2 zai4 yong1 bao4 wo3 

000003 宝马#1配挂#1跛骡鞍#3，貂蝉#1怨枕#2董翁榻#4。 

bao2 ma3 pei4 gua4 bo3 luo2 an1 diao1 chan2 yuan4 zhen3 dong3 weng1 ta4

https://www.data-baker.com/open_source.html

第三个压缩包，PhoneLabeling.rar，解压之后，是上述10000句音频的人工精标信息，包括音素，以及音素的时间点信息，可以直接用Praat打开：

滴滴开源kafka 滴滴开源数据语音_滴滴开源kafka

所以现在这里二次处理的方式就是通过程序，将汉字和音素（拼音）结合起来放在一个TextGrid里，即：

滴滴开源kafka 滴滴开源数据语音_数据库_02

这样更适合于想通过脚本练习提取数据分析的朋友，除了第一层的人工标注音素信息，在第二层将第二个压缩包的韵律信息融合；

第二个英语数据库，这个下载了之后，是只有raw格式的音频，我这里通过cooledit将它转化成16K的wav，网站还有这些音频对应的英语句子内容：

cmu_us_arctic_slt_a0001: Author of the danger trail, Philip Steels, etc.

如果能将发音也做成TextGrid的形式，对于直接使用数据提取参数也是很有帮助的。这个数据库由于没有直接的人工标注数据，这里采用的是montreal alignment这个对齐工具(http://montreal-forced-aligner.readthedocs.io)自动对齐的结果，这里使用的音素符号要去montreal alignment的网站去查看。

滴滴开源kafka 滴滴开源数据语音_滴滴开源kafka_03