记一次失败的《将视频中的音频转换成文字》的经历

原创

邓冲 2023-07-25 17:16:57 博主文章分类：工具 ©著作权

©著作权归作者所有：来自51CTO博客作者邓冲的原创作品，请联系作者获取转载授权，否则将追究法律责任

视频中的音频如何转换成文字

前言

前段时间我打算做B站林超的视频笔记，突然想到我是否可以用工具将视频的音频转换成文字，或者将视频中的字幕用OCR转化为文字。这样我就不要干巴巴敲内容了。不过因为林超的视频有BGM，我就没去尝试，但是我这两天写了几篇他的视频笔记。发现还是弄一下这个比较好。能提高我的效率。

我记得微信可以语音转文字，我觉得市场上应该有这个技术，可以在线转文字出来。今天尝试一下。

文章目录

视频中的音频如何转换成文字

前言
信息搜索过程

通过百度

信息一：腾讯云语音识别
信息二：迅捷录音转文字

通过知乎
通过GITHub

将视频的音频转换为文字
失败

信息搜索过程

通过百度

百度一下：视频中的音频如何转换成文字

信息一：腾讯云语音识别

然后发现腾讯云智能录音/音频/语音识别_超高识别准确率说：

腾讯云语音识别（Automatic Speech Recognition，ASR）为企业提供极具性价比的语音识别服务。被微信、王者荣耀、腾讯视频等大量内部业务使用，外部落地录音质检、会议实时转写、法庭/审讯记录、语音输入法等多个场景；开放实时语音识别、一句话识别和录音文件识别三种服务形式，满足不同类型企业的需求。

要钱，pass掉。

信息二：迅捷录音转文字

迅捷文字语音转换器

看官网介绍。好牛逼的感觉。免费下载（莫非是免费下载，付费使用），支持语音识别、语音合成。

天下没有免费的午餐，我总觉得有坑在等着我。不知道效果如何。

尝试体验：

果然。

记一次失败的《将视频中的音频转换成文字》的经历_百度

看了广告信不得啊。没有达到我的目标，所以我继续筛选信息。

通过知乎

资料来源于：怎样提取视频中的音频转文字？

一个推荐是使用云猫转码

记一次失败的《将视频中的音频转换成文字》的经历_腾讯云_02

也不符合我的需求。有钱真好。直接付费最香。奈何没钱。

一个是介绍原理

记一次失败的《将视频中的音频转换成文字》的经历_腾讯云_03

先将mp4视频文件，通过ffmpeg工具库，批量转换为pcm音频文件（语音识别服务仅支持该格式）
基于百度云的技术，将pcm文件上传到百度对象存储BOS中，并将日志等记录到本地mysql数据库。
pcm文件上传完毕后，调用免费的语音识别（录音转写）服务，创建离线录音转写任务。
查询转写成功的任务，并将相关转写结果存储到本地mysql库中。
基于docx4j库，将数据库中的录音转写结果，导出为规范化的word文档。

第一步应该可以用PR实现。调用语言识别服务，我找找阿里云看看。

一个推荐

视频编辑软件或者播放器工具提取音频文件

再用类似的音转文软件或者网站转

大概用途是做字幕之类吧

音视频转文字

记一次失败的《将视频中的音频转换成文字》的经历_百度_04

没试过，但是感觉太慢了。

通过GITHub

字幕组机翻小助手

字幕组机翻小助手 -
【功能1：翻译字幕文件】 .srt .ass .vtt
【功能2：语音转文字】（拖入视频或音频识别出字幕）
(最新版 v3.6.0 更新时间2020年10月13号) 可配置12家翻译服务商，如谷歌,百度,腾讯,彩云,IBM,Azure,Amazon等
（可配置6家语音服务商：阿里云，讯飞，腾讯云，IBM，Azure，Amazon ）
优点：
可以用多家服务商，
自己配 API Key 用自己账户的免费额度，比如腾讯每月有500万字符的免费翻译额度，IBM 有500分钟的语音转文字免费额度

如果使用语言转文字

推荐先用阿里云，因为每天2个小时的免费额度（支持8种语言，包括中文，英文，日语，粤语，阿拉伯语等。不包括法语，德语，韩语，泰语，俄罗斯语）（截止至2020年8月31号）
讯飞的免费额度是5小时（一次性）不过只支持中文和英文两种语言
不推荐腾讯云，字幕断句有问题（一句一大段文字）如果只是想输出纯文字，那问题不大，但如果需要字幕，那质量很差，一句话很多个字，在屏幕上会显示4-5行，占满半个屏幕，影响观看，如果自己去调整时间轴又比较费时。
简而言之：如果要识别中文，推荐阿里云，讯飞，腾讯云（按这个顺序）