海量语音数据的文本转写（ASR）、分析、挖掘与商业应用

原创

倔强的兔农 2024-02-21 17:52:46 ©著作权

©著作权归作者所有：来自51CTO博客作者倔强的兔农的原创作品，请联系作者获取转载授权，否则将追究法律责任

技术实现过程

在实际的电销业务中，当一个客户电话打进来时，通过呼叫中心系统接入，经过优化的ASR模块，将语音内容转化为文本内容，再经过NLP 自然语音处理模块，进行语音质检，客户情绪识别，识别客户意图，向客服推荐合适的服务语言等，同时，将数据结构化，同步到其他业务系统。

现在集团对用户咨询的内容，很大部分都是通过人工客服进行交换回答，整个智能语音系统，主要为客服提供智能决策数据，从而提高客户满意度及成交率，后面再基于语音转文本后的数据进行相关应用。

1.1 技术架构

通过采用录音文件全量转写系统，实现与集团正在使用的客服系统（CRM）间的对接，从CRM系统所使用的SQLServer数据库中提取所需的客户信息、职员信息、部门信息以及电话服务随路信息，并根据随路信息中的所记录的文件信息，从绿瘦集团提供的FTP服务器中提取录音文件，进行转码和并行转写处理后，提交给质检分析服务系统进行质检和分析。

具体采用录音文件全量转写系统在采集到录音后，通过语音转写能力平台提供的http服务接口将转写请求发送到能力平台；能力平台接收到通知信息后开始进行转码，转码完成后通过本系统提供的回调服务接口进行回调。全量转写系统接收到该消息通知后，将转写结果随同随路数据提交到质检分析系统。

海量语音数据的文本转写（ASR）、分析、挖掘与商业应用_数据

图 1 语音系统整体架构

图 1中部分内容重点说明：

智能语音全量转写子系统为非可视化系统：主体功能是完成对外系统的数据采录、数据加工，语音转码、语音转写以及数据匹配和过滤等步骤，将采集数据通过智能语音质检分析子系统提供的服务接口将标准化后采录数据提交给语音质检分析子系统保存以便后续待用。
智能语音质检分析子系统为可视化系统：主体提供对语音数据的质检和检索查询等功能。对于质检，提供工单审核以及任务评分和统计等功能；对于分析，首先提供对数据的全文组合检索服务并展现；以采集数据为基础，根据各种规则配置以及过滤条件等组合搜索，提供所需的分析功能如热词分析、交叉分析、服务质量分析、客户情况分析等业务需求；还提供专题聚合分类等功能。

1.2 ASR模型优化

基于上面的技术架构，为了能够将行业知识、经验以及员工语音发声特点融入到通用语音转写模型中去，形成了这章所涉及到行业的语音识别系统。

现在各大互联网公司都推出了自己的语音转写服务，例如科大讯飞、阿里巴巴、百度等公司。在经过调研了解以后，发现他们的语音转写服务在基于普通话语料输入的情况下准确率较高，对非标准普通话，特定行业的专有词语等识别率会大大下降。为此集团专门成立的研发团队，在现有公知普通话转写模型的基础上，加入行业的语料库进行训练，形成了集团语音转写模型。

我们主要从以下两个方面做了模型优化，一是声学模型优化，二是语音模型优化（见下图3）。我们提取了集团普通话不是很标准的员工通话数据，进行声学标注以及语音语义标注，形成我们自己员工特点的声音数据集和语音数据集，最后将这些数据应用到语音转写算法中。在没有进行优化之前，基于各大公司语音转写模型在我们语音数据的转写准确率在70%左右，进行优化调整后，准确率提升到80%左右，现在这部分数据已经应用到实际业务中。

海量语音数据的文本转写（ASR）、分析、挖掘与商业应用_ico_02

图2 语音转文本模型

1.3 系统构成

基于上述技术架构和模型优化，最终形成整个语音质检系统。

同时，当一个客户电话打进来时，通过呼叫中心系统接入，经过优化的ASR模块，将语音内容转化为文本内容，在经过NLP 自然语音处理模块，进行语音质检，客户情绪识别，识别客户意图，向客服推荐合适的话术等，同时，将数据结构化，同步到其他业务系统。

现在集团对用户咨询的内容，很大部分都是通过人工客服进行交换回答，整个智能语音系统，主要为客服提供智能决策数据，从而提高客户满意度及成交率。见下图3.。

海量语音数据的文本转写（ASR）、分析、挖掘与商业应用_智能语音_03

图3 语音转文本模型

下面分几个部分阐述系统中核心的模块内容。

1.3.1 系统业务架构图

质检系统的功能主要构成如下图4所示。

海量语音数据的文本转写（ASR）、分析、挖掘与商业应用_智能语音_04

图4 系统业务架构图

上述架构图中，下面我们将重点说明质检规则、工单质检、质检统计的相关功能和内容。

1.3.2 质检规则

质检规则是指结合集团实际业务规则，抽象为具体的正则表达式，再结合质检模型去判断每一通电话中的违规情况。

质检规则的确定和优化是整个项目中其中一项最耗时的任务，需要我们详细梳理出来实际业务过程中的相关质检规则，并能抽象出符合系统规则的正则表达式；然后基于语音转写后的文本进行匹配，训练质检规则的覆盖率、命中率和召回率。

质检规则样例：

下表1，是部分质检规则的样例，主要是由一些关键词构成，并且还会结合前后语境来判断是否违规。

规则名称	所属规则集	内容
草率销售	质检双方	{“pattern_草率销售”:{“lexicon_不太好”:[“不太好”, “有问题”,“有毛病”],“lexicon_不正常”:[“不正常”,“比正常人跳得弱”，“慢一些”]}}
索要客户联系方式	质检双方	{“pattern_索要客户联系方式”:{“lexicon_给你打过去”:[“给你打过去”, “给您打过去”,“给您打电话”],“lexicon_电话号码”:[“你给我另一个电话号码”,“报一下电话号码”，“加微信”]}}
------	------	------