最像人声的语音合成模型-ChatTTS

原创

小殊小殊 2024-07-02 12:22:36 ©著作权

文章标签 人工智能音频深度学习 github 解压缩 文章分类 Html/CSS 前端开发

©著作权归作者所有：来自51CTO博客作者小殊小殊的原创作品，请联系作者获取转载授权，否则将追究法律责任

写在前面

一、使用ChatTTS

二、优点

三、局限

写在前面

最像人声的AI来了！语音开源天花板ChatTTS火速出圈，3天就斩获9k个star。截至发稿前，已经25.9k个star了。这是专门为对话场景设计的语音生成模型，用于LLM助手对话任务、对话语音、视频介绍等，仅支持中英文。硬件要求低，甚至不需要GPU，一台普通PC就能运行。

主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。开源的版本是4 万小时基础模型。

项目地址：https://github.com/jianchang512/ChatTTS-ui，这是原项目ChatTTS的地址，不用下，我们要使用的是ChatTTS-ui，是给ChatTTS增加了UI，并打好了包，开包即用。

一、使用ChatTTS

废话不多少，先玩起来。

1.下载ChatTTS-ui：https://github.com/jianchang512/chatTTS-ui/releases

2.解压缩并运行app.exe

最像人声的语音合成模型-ChatTTS_音频

3.等一会会自动打开默认浏览器，就可以开始生成音频啦！！

最像人声的语音合成模型-ChatTTS_深度学习_02

使用也很简单，输入文字点击立即合成，等待一会下方就会出现结果，下面介绍一下参数：

（1）文本：如果哪里断句不好，可以加一个[break_1]；如果想调整口语程度可以加[oral_0],数字越大，越口语化；如果想加笑声可以加[laugh_1]，但经我测试，加了laugh废话变多了。

（2）选择音色：一共10000个音色，每个音色有一个csv的特征文件，这里下载全部10000个音色。

（3）音色值：如果懒得下载10000个音色文件，也可以在这里输入1-10000的数字，值得注意的是，一旦这里输入，前面的csv就没用了。音色试听在这里。

（4）text seed：扩散模型嘛，肯定要有一个控制噪声的随机种子。

（5）Prompt：现在支持三个值，是全局的，oral控制口语程度数字越大，越口语化，例如[oral_0]就接近朗读的口气；langh会使说话过程中插入笑声，经我测试数越大，与文本无关的废话越多；break控制断句，数越大，断句越干脆。

（6）跳过refine text：如果正文中加入了[uv_break]二效果不好，可以勾上试试。

（7）infer token：推理最大token数，默认就行。

（8）refine token：预处理的时候，会对文本进行优化，使之更适合口语，这个是调整的token数量，也不用动。

（9）语速：数越大，语速越快，但是变化并不是太明显。

(10)temperature：数越大语气、音色、声调等随机性越大。

（11）top_p：控制生成多样性的参数，数越小，多样性越强。比如0.3，那下一个预测token的概率只要大于0.3就有可能被选中，当然也要配合下面的top_k使用。

（12）top_k：同样控制生成多样性的参数，数越大，多样性越强。比如9，那下一个预测token的会选前9个概率最大的，当然也要配合上面的top_p使用。

二、优点

1.ChatTTS针对基于对话的任务进行了优化，实现了自然而富有表现力的语音合成，很接近人声。

2.模型可以加入韵律特征，包括笑声、停顿和叹词。

3.硬件要求低，虽然是扩散模型，但是在CPU上也能流畅使用

三、局限

1.音色文件的提取方式作者没有开源，所以现在不能定制自己的声音。

2.使用扩散模型，仍然需要抽卡，尤其对于长文本，不好控制，商用会有问题。

ChatTTS的使用就简单介绍到这里，关注不迷路(*^▽^*)

关注订阅号了解更多精品文章

最像人声的语音合成模型-ChatTTS_github_03

上一篇：Transformer：加性注意力还是点积注意力？这是个问题~

下一篇：视频生成大模型-可灵-全面测评

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯