视频中的音频如何转换成文字

前言

前段时间我打算做B站林超的视频笔记,突然想到我是否可以用工具将视频的音频转换成文字,或者将视频中的字幕用OCR转化为文字。这样我就不要干巴巴敲内容了。不过因为林超的视频有BGM,我就没去尝试,但是我这两天写了几篇他的视频笔记。发现还是弄一下这个比较好。能提高我的效率。

我记得微信可以语音转文字,我觉得市场上应该有这个技术,可以在线转文字出来。今天尝试一下。

文章目录

  • 视频中的音频如何转换成文字
  • 前言
  • 信息搜索过程
  • 通过百度
  • 信息一:腾讯云语音识别
  • 信息二:迅捷录音转文字
  • 通过知乎
  • 通过GITHub
  • 将视频的音频转换为文字
  • 失败

信息搜索过程

通过百度

百度一下:视频中的音频如何转换成文字

信息一:腾讯云语音识别

然后发现腾讯云智能录音/音频/语音识别_超高识别准确率说:

腾讯云语音识别(Automatic Speech Recognition,ASR) 为企业提供极具性价比的语音识别服务。被微信、王者荣耀、腾讯视频等大量内部业务使用,外部落地录音质检、会议实时转写、法庭/审讯记录、语音输入法等多个场景;开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型企业的需求。

要钱,pass掉。

信息二:迅捷录音转文字

迅捷文字语音转换器

看官网介绍。好牛逼的感觉。免费下载(莫非是免费下载,付费使用),支持语音识别、语音合成。

天下没有免费的午餐,我总觉得有坑在等着我。不知道效果如何。

尝试体验:

果然。

记一次失败的《将视频中的音频转换成文字》的经历_百度

看了广告信不得啊。没有达到我的目标,所以我继续筛选信息。

通过知乎

资料来源于:怎样提取视频中的音频转文字?

一个推荐是使用云猫转码

记一次失败的《将视频中的音频转换成文字》的经历_腾讯云_02

也不符合我的需求。有钱真好。直接付费最香。奈何没钱。

一个是介绍原理

记一次失败的《将视频中的音频转换成文字》的经历_腾讯云_03

  1. 先将mp4视频文件,通过ffmpeg工具库,批量转换为pcm音频文件(语音识别服务仅支持该格式)
  2. 基于百度云的技术,将pcm文件上传到百度对象存储BOS中,并将日志等记录到本地mysql数据库。
  3. pcm文件上传完毕后,调用免费的语音识别(录音转写)服务,创建离线录音转写任务。
  4. 查询转写成功的任务,并将相关转写结果存储到本地mysql库中。
  5. 基于docx4j库,将数据库中的录音转写结果,导出为规范化的word文档。

第一步应该可以用PR实现。调用语言识别服务,我找找阿里云看看。

一个推荐

视频编辑软件或者播放器工具 提取音频文件

再用类似的音转文软件或者网站转

大概用途是做字幕之类吧

音视频转文字

记一次失败的《将视频中的音频转换成文字》的经历_百度_04

没试过,但是感觉太慢了。

通过GITHub

字幕组机翻小助手

字幕组机翻小助手 -

【功能1:翻译字幕文件】 .srt .ass .vtt

【功能2:语音转文字】(拖入视频或音频识别出字幕)

(最新版 v3.6.0 更新时间2020年10月13号) 可配置12家翻译服务商,如谷歌,百度,腾讯,彩云,IBM,Azure,Amazon等

(可配置6家语音服务商:阿里云,讯飞,腾讯云,IBM,Azure,Amazon )

优点:

  1. 可以用多家服务商,
  2. 自己配 API Key 用自己账户的免费额度,比如腾讯每月有500万字符的免费翻译额度,IBM 有500分钟的语音转文字免费额度

如果使用语言转文字

  • 推荐先用阿里云,因为每天2个小时的免费额度 (支持8种语言,包括中文,英文,日语,粤语,阿拉伯语等。不包括法语,德语,韩语,泰语,俄罗斯语)(截止至2020年8月31号)
  • 讯飞的免费额度是5小时(一次性) 不过只支持中文和英文两种语言
  • 不推荐腾讯云,字幕断句有问题(一句一大段文字)如果只是想输出纯文字,那问题不大,但如果需要字幕,那质量很差,一句话很多个字,在屏幕上会显示4-5行,占满半个屏幕,影响观看,如果自己去调整时间轴又比较费时。
  • 简而言之:如果要识别中文,推荐阿里云,讯飞,腾讯云(按这个顺序)

这个项目良心到爆炸。我试一试。

将视频的音频转换为文字

信息搜集后,我决定使用Translate-Subtitle-File

有117M,但是我电脑居然四五秒就下好了????

教程文档:Tern-字幕组机翻小助手

然后我将下载好的视频拖入这个软件中。居然没有阿里云的。国外的懒得去弄。

记一次失败的《将视频中的音频转换成文字》的经历_语音识别_05

然后我打开教程,发现教程中明明可以。

记一次失败的《将视频中的音频转换成文字》的经历_语音识别_06

既然此路不通。我就直接看看阿里云的OSS

对象云存储。

记一次失败的《将视频中的音频转换成文字》的经历_腾讯云_07

智能语音交互

记一次失败的《将视频中的音频转换成文字》的经历_腾讯云_08

失败

不了,浪费太多时间在这什么了,下次再弄。