文章目录
- 前言
- 一、"pyttsx3"实现“文字到音频”的转换
- 二、"pydub"处理音频
- 1.安装
- 2.测试
- 三、“moviepy”合成字幕和音频
- 1.安装
- 2.测试
- 总结
前言
最近尝试用python实现给一个视频添加字幕和语音,查了很多博客后有了一个拼拼凑凑的方法:
- 使用"pyttsx3"来实现“文字到音频”的转换;
- 使用"pydub"来对得到的音频进行加工和处理;
- 使用"moviepy"来合成字幕和语音文件。
(注:本篇仅作为个人小白的学习记录)
一、"pyttsx3"实现“文字到音频”的转换
pyttsx3是一个很方便的实现从“文字”到“语音”的库,安装和使用都很简单,windows下安装只需要:
pip install pyttsx3
如果要简单实现“文字段”的语音播放也很简单:
import pyttsx3
# 语音模块初始化
engine = pyttsx3.init()
# 设置要播报的字符串
text = "哈哈哈哈哈哈"
engine.say(text)
# 等待运行
engine.runAndWait()
还可以在这基础上将音频文件保存下来:
outFile = "output.aiff"
engine.save_to_file(text, outFile)
# 注意下面这句不能少,否则无法正常生成音频文件
engine.runAndWait()
这里需要注意的一点是,使用pyttsx3能够将文字转为音频,但是其编码格式特殊,保存下来的文件也是"aiff"格式的音频文件,所以如果要使用"MP3"格式则需要pydub中的AudioSegment模块来对其进行更改:
AudioSegment.from_file(outFile).export("Python.mp3", format="mp3")
当然,我也尝试了强行利用“save_to_file”将文件保存为“MP3”格式,虽然能够正常播放,但是这个文件是存在问题的(比如后面使用pydub进行处理的时候会因为无法读入而报错)
参考博客:
二、"pydub"处理音频
1.安装
pip install pydub
安装完pydub之后还需要安装ffmpeg,可以选择去github下载安装包,我这里给出网盘分享(某位老哥分享了网盘链接,我找不到原文链接了抱歉)
链接: https://pan.baidu.com/s/1dsE8p9YL-ji48Mg0vTfaMA
提取码: irxi
解压后在bin文件夹下有以下三个文件:
复制bin文件路径,添加到环境变量中,然后在cmd窗口运行如下命令:
ffmpeg -version
若正常输出则代表安装完了
(当然这里安装完了,在后面实际使用的时候还可能会出问题)
2.测试
from pydub import AudioSegment
# 读入MP3音频文件
audio = AudioSegment.from_mp3('Python.mp3')
# 简单加一段空白(静音)片段
X = 2000 #ms
silent = AudioSegment.silent(duration=X)
new_audio = silent + audio
# 保存文件
new_audio.export("new_Python.mp3", format="mp3")
代码运行到这里一般都会报错,类似于"RuntimeWarning: Couldn’t find ffmpeg or avconv - defaulting to ffmpeg, but may not work warn(“Couldn’t find ffmpeg or avconv - defaulting to ffmpeg, but may not work”, RuntimeWarning)”,或者是"RuntimeWarning: Couldn’t find ffprobe or …"
我也不知道具体为什么,可能是因为环境路径的问题?
直接给出解决办法:
报错应该会给一个"pydub"中的一个叫“utils.py”文件的路径,
第一步:找到该文件
第二步:找到一个叫"which(program)"的函数
第三步:添加前面下载的"ffmpeg"的“bin”文件路径
第四步:重启电脑
补充(第三步实例):
重启后应该能够正常运行了。
三、“moviepy”合成字幕和音频
1.安装
pip install moviepy
# 实际上安装moviepy的时候会自动安装下面两个库
pip install imageio
pip install imageio-ffmpeg
另外需要单独安装ImageMagick软件并添加到环境变量中
2.测试
from moviepy.editor import *
def videocaption(src_mp4, dst_mp4, dottemp):
# input:
# src_mp4: the path of wait-to-dispose video
# dst_mp4: the path of after-dispose video
# dottemp--字幕列表['text1','text2','text3',...]
# 加载视频
video = VideoFileClip(src_mp4)
# 逐句添加字幕
time = [2,2,2,...] # 字幕持续时间,自行设置
start = [4,6,8,10,...] # 字幕开始时间,自行设置
position = ['bottom','center',...] # 显示位置,自行设置
txts = []
for si,sentence in enumerate(dottemp):
txt = (TextClip(sentence, fontsize=40,
font='SimHei', size=(1900, 40),
align='center', color='red')
.set_position(position[si])
.set_duration(time[si]).set_start(start[si]))
txts.append(txt)
# 合成字幕
video = CompositeVideoClip([video, *txts])
# 合成音频
videos = video.set_audio(AudioFileClip('Python.mp3'))
# 保存视频,注意加上参数audio_codec='aac',否则音频无声音
videos.write_videofile(dst_mp4, audio_codec='aac')
if __name__ == '__main__':
# 输入输出路径
src_mp4 = r'input.mp4'
dst_mp4 = r'output.mp4'
# 字幕列表
dottemp = ['test1','test2','test3']
# 合成视频
videocaption(src_mp4,dst_mp4,dottemp)
代码可能会有点问题,自行调试修改
总结
新手上路,小心谨慎,收获良多。