视频中的音频如何转换成文字
前言
前段时间我打算做B站林超的视频笔记,突然想到我是否可以用工具将视频的音频转换成文字,或者将视频中的字幕用OCR转化为文字。这样我就不要干巴巴敲内容了。不过因为林超的视频有BGM,我就没去尝试,但是我这两天写了几篇他的视频笔记。发现还是弄一下这个比较好。能提高我的效率。
我记得微信可以语音转文字,我觉得市场上应该有这个技术,可以在线转文字出来。今天尝试一下。
文章目录
- 视频中的音频如何转换成文字
- 前言
- 信息搜索过程
- 通过百度
- 信息一:腾讯云语音识别
- 信息二:迅捷录音转文字
- 通过知乎
- 通过GITHub
- 将视频的音频转换为文字
- 失败
信息搜索过程
通过百度
百度一下:视频中的音频如何转换成文字
信息一:腾讯云语音识别
然后发现腾讯云智能录音/音频/语音识别_超高识别准确率说:
腾讯云语音识别(Automatic Speech Recognition,ASR) 为企业提供极具性价比的语音识别服务。被微信、王者荣耀、腾讯视频等大量内部业务使用,外部落地录音质检、会议实时转写、法庭/审讯记录、语音输入法等多个场景;开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型企业的需求。
要钱,pass掉。
信息二:迅捷录音转文字
看官网介绍。好牛逼的感觉。免费下载(莫非是免费下载,付费使用),支持语音识别、语音合成。
天下没有免费的午餐,我总觉得有坑在等着我。不知道效果如何。
尝试体验:
果然。
看了广告信不得啊。没有达到我的目标,所以我继续筛选信息。
通过知乎
资料来源于:怎样提取视频中的音频转文字?
一个推荐是使用云猫转码
也不符合我的需求。有钱真好。直接付费最香。奈何没钱。
一个是介绍原理
- 先将mp4视频文件,通过ffmpeg工具库,批量转换为pcm音频文件(语音识别服务仅支持该格式)
- 基于百度云的技术,将pcm文件上传到百度对象存储BOS中,并将日志等记录到本地mysql数据库。
- pcm文件上传完毕后,调用免费的语音识别(录音转写)服务,创建离线录音转写任务。
- 查询转写成功的任务,并将相关转写结果存储到本地mysql库中。
- 基于docx4j库,将数据库中的录音转写结果,导出为规范化的word文档。
第一步应该可以用PR实现。调用语言识别服务,我找找阿里云看看。
一个推荐
视频编辑软件或者播放器工具 提取音频文件
再用类似的音转文软件或者网站转
大概用途是做字幕之类吧
没试过,但是感觉太慢了。
通过GITHub
字幕组机翻小助手 -
【功能1:翻译字幕文件】 .srt .ass .vtt
【功能2:语音转文字】(拖入视频或音频识别出字幕)
(最新版 v3.6.0 更新时间2020年10月13号) 可配置12家翻译服务商,如谷歌,百度,腾讯,彩云,IBM,Azure,Amazon等
(可配置6家语音服务商:阿里云,讯飞,腾讯云,IBM,Azure,Amazon )
优点:
- 可以用多家服务商,
- 自己配 API Key 用自己账户的免费额度,比如腾讯每月有500万字符的免费翻译额度,IBM 有500分钟的语音转文字免费额度
如果使用语言转文字
- 推荐先用
阿里云
,因为每天2个小时的免费额度 (支持8种语言,包括中文,英文,日语,粤语,阿拉伯语等。不包括法语,德语,韩语,泰语,俄罗斯语)(截止至2020年8月31号) -
讯飞
的免费额度是5小时(一次性) 不过只支持中文和英文两种语言 - 不推荐
腾讯云
,字幕断句有问题(一句一大段文字)如果只是想输出纯文字,那问题不大,但如果需要字幕,那质量很差,一句话很多个字,在屏幕上会显示4-5行,占满半个屏幕,影响观看,如果自己去调整时间轴又比较费时。 - 简而言之:如果要识别中文,推荐
阿里云,讯飞,腾讯云
(按这个顺序)
这个项目良心到爆炸。我试一试。
将视频的音频转换为文字
信息搜集后,我决定使用Translate-Subtitle-File
有117M,但是我电脑居然四五秒就下好了????
教程文档:Tern-字幕组机翻小助手
然后我将下载好的视频拖入这个软件中。居然没有阿里云的。国外的懒得去弄。
然后我打开教程,发现教程中明明可以。
既然此路不通。我就直接看看阿里云的OSS
对象云存储。
智能语音交互
失败
不了,浪费太多时间在这什么了,下次再弄。