语音转写系统架构有哪几类语音识别语音转写

转载

话不是这么说的 2024-01-11 23:29:50

文章标签 语音转写系统架构有哪几类语音识别人工智能数据数据集 文章分类 架构后端开发

近几年随着ASR语音转写的出现，录音笔市场开始翻天覆地的变化，科大讯飞研发了高智能的录音笔，该录音笔提供了360°全向收音与120°指向收音，前者适合多人会议或是多人受访的场合中使用，后者则适合单人采访或是视频会议中使用。相比传统录音笔，造型无疑是非常简洁，大量按键放在机身两侧，小尺寸的屏幕也没法显示太多信息，与此同时机身内部却具备蓝牙、Wi-Fi功能，深藏了各种“武艺”，拥有强大的智能能力。

ASR就是自动语音识别技术，是一种将人的语音转换成文本的技术。

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器可以自动识别和理解出人类口述的语言。ASR语音转写就是通过理解把语音信号转变为相应的文本或命令的过程的高技术。

语音转写系统架构有哪几类语音识别语音转写_语音识别

ASR语音转写的工作过程

预处理：

1. 首尾端的静音切除，降低干扰，静音切除的操作一般称为VAD。

2. 声音分帧，就是把声音切开成一小段一小段，每小段称为一帧，使用移动窗函数来实现，不是简单的切开，各帧之间一般是有交叠的。

特征提取：

主要算法有线性预测倒谱系数(LPCC)和Mel 倒谱系数(MFCC)，目的是把每一帧波形变成一个包含声音信息的多维向量；

声学模型(AM)：

通过对语音数据进行训练获得，输入是特征向量，输出为音素信息；

字典：

字或者词与音素的对应，简单来说，中文就是拼音和汉字的对应，英文就是音标与单词的对应；

语言模型(LM)：

通过对大量文本信息进行训练，得到单个字或者词相互关联的概率；

解码：

就是通过声学模型，字典，语言模型对提取特征后的音频数据进行文字输出。

ASR语音转写的应用场景

1、客服

企业设置的呼叫中心的智能转写功能，可实时记录客户询问问题。语音客服机器人可更好地查询和匹配来回答问题，可以有效地解决简单又重复性的工作。

2、教育培训机构

语音转写在教育培训机构中的应用包括中英文的口语评测。

3、医疗

在医疗领域中的应用主要是用于电子病历录入，医生在临床诊断时可将诊断信息实时转化成文字，自动录入医院诊疗系统，有效地提高了医生的效率。

4、金融

现阶段，已有一些银行通过运用ASR语音转写，实现了语音导航、语音交易、办理业务等基础服务。

语音转写系统架构有哪几类语音识别语音转写_数据_02

数据标注对ASR语音转写的重要性

人工智能的发展离不开数据标注，数据标注作为人工智能发展中的基石，成为了众多重要环节之中的重中之重。要想实现人工智能，我们就需要使计算机能够理解我们的语言。数据标注就是把需要计算机识别和分辨的语音打上特征，让计算机不断的识别这些特征语音，从而最终实现计算机能够自主识别语音并转换成文本。

ASR的本质是一种模式识别系统，包括了特征提取、模式匹配、参考模式等三个基本单元。

我们首先要对输入的语音进行预处理，然后提取语音的特征，在此基础上建立语音识别所需要用到的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中原先存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最佳的与输入语音相匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。

这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。而这需要大量标注数据进行不断训练才能得到。

可以说数据决定了AI的落地程度，更具前瞻性的数据集产品和高度定制化数据服务成为了行业发展的主流。

语音转写系统架构有哪几类语音识别语音转写_人工智能_03