中文语音识别深度学习语音识别语种

转载

coolfengsy 2024-01-26 09:34:21

文章标签 中文语音识别深度学习语音识别说话人识别生物识别 Text 文章分类 深度学习人工智能

一、语种识别

语音的自动语言辨识技术（ Language IDentification， LID）就是计算机能够识别出语音段所属的语言的过程。它是从语音信号中自动提取信息的几个过程之一。语言辨识技术可以处理不同的数据（例如：文本、语音），但是这里只讨论语音数据处理。

语言辨识在信息检索和军事领域都有很重要的应用，包括自动转换服务/多语言信息补偿等。在信息服务方面，很多信息查询系统可提供多语言服务，但一开始系统必须以多种语言提示用户选择语言，语言辨识系统确定用户的语言种类后，提供相应语种的服务。这类典型服务的例子包括旅游信息、应急服务、以及购物和银行、股票交易。例如 AT&T 向处理 911紧急呼救的社会机构和警察局推出语言热线服务。自动语言辨识技术还能够用于多语言机器翻译系统的前端处理，以及直接将一种语言转换成另一种语言的通信系统。此外军事上还可以用来对说话人身份和国籍进行监听或判别。随着信息时代的到来以及因特网的发展，语言辨识越来越显示出其应用价值，国际上也一直进行着卓有成效的研究和开发。

二、说话人识别

说话人识别和指纹识别、虹膜识别等一样，属于生物识别的一种，被认为是最自然的生物特征识别身份鉴定方式，因此又被称为“声纹”识别。生物识别（ Biometric Recognition），也称为生物特征识别、生物测定学、生物认证，是指通过人体显著的生物或行为特征来自动识别所测定人的身份的方法。适合生物识别的特征应该符合以下的几个性质：通用性（每个人都具有）、独特性（每个人都不一样）、恒定性（不随时间而变化）、可收集性（可定量测量）、准确性（准确性通常随量的增加而降低）、高可采用性（人们易于接受）和低欺骗性（不易被欺骗）。语音不仅具有上述的性质，而且与其他的生物测定技术如指纹、虹膜和人脸识别等比较，声纹识别具有很大的优势。语音是个人所固有的特征，人的语音可以非常自然地产生，训练和识别时并不需要特别的输入设备，诸如个人电脑普遍配置的麦克风和到处都有的电话都可以作为输入设备，因此说话人识别系统的价格也较低，上述原因促使语音成为人们愿意接受的一种生物特征。

说话人识别（ Speaker Recognition）按照任务可以分为两个范畴：即说话人辨认（ SpeakerIdentification）和说话人确认（ Speaker erification）。说话人辨认是指通过一段语音从注册的有限说话人集合中分辨出其身份的过程，是“多选一”的问题。说话人辨认系统的性能将随着说话人集合的规模增大而降低。说话人确认是证实某一说话人是否与他所声称的身份一致的过程，系统只需给出接受或拒绝两种选择，是“一对一判别”的问题。因此，说话人确认系统的性能是与说话人集合的规模无关的。另外，与其他生物识别技术类似，若考虑待识别的说话人是否在注册的说话人集合内，则说话人辨认分为开集（ Open-set）辨认和闭集（ Close-set）辨认，即开集辨认比闭集辨认多一个确认过程。显而易见，闭集辨认的结果要好于开集辨认，但开集辨认与实际情况更为接近。

目前的说话人识别方法按照语音的内容可分为与文本相关（ Text-Dependent）的（规定语音内容，即注册和识别时说同样的话）、与文本无关（Text-Independent）的（不规定语音内容，即注册和识别时可以说任意的话）、文本提示（ Text-Prompt）的（从大数据库中提示用户说一小段话，也可以归为与文本相关的）。

说话人识别最初的应用是在法庭上， 1660 年，语音被用于查尔斯一世之死一案罪犯判定的关键证据。自动说话人识别的研究始于 20 世纪 60 年代， Bell 实验室的 S. Pruzansky 提出了基于模式匹配和概率统计方差分析的声纹识别方法，引起信号处理领域许多学者的关注，形成了说话人识别研究的一个高潮。在以后的几十年中，研究人员不断在特征提取、模型匹配、对环境的适应性等方面深入研究，说话人识别技术也从小型的、实验室条件下、受控制的系统向实用化发展。如今，说话人识别技术已逐渐走入实际应用， AT&T、欧洲电信联盟、Motorola 和 Visa 等公司、 ITT 公司、 Keyware 公司、 T-NETIX 公司等相继开展了相关实用化研究。可以预见，说话人识别正逐步进入到实用化的阶段，并进入到人们的生活中去。

三、关键词检测

关键词检测（ KWS, Keyword Spotting or Wordspotting 或 KWR, Keyword Recognition）是一种特殊的语音识别技术，它的目的是在说话人的连续话语中辨认和确定一些由具体应用决定的特定词，而这些话语可以包括许多其它的词和其它各种非语音现象，例如：咳嗽声、呼吸声、咂舌声、音乐声、关门声、背景噪声和传输噪声。

关键词识别的研究始于 70 年代。 1973 年， Bridle 的文章揭开了关键词识别研究的序幕，但那时只是称“给定词”的识别； Christiansen 等的文章中有了“关键词”的叫法，他利用信号的 LPC 表示对连续语音中的关键词进行检测和定位，文章称该方法对 4 个词和 10 个数字取得很好的效果。

但真正的关键词识别研究应该说是在 80 年代。 Myers 等人利用基于 DTW 的局部最小算法对关键词识别和连接词识别进行了研究。美国 ITT（国际电话电报公司）国防通讯部的Higgins 与 Wohlford[4]用模板连接的方法实现了 KWS，并提出了填料（ filler）模板（该模板由词表外词的语音训练而得）的概念。此后 AT&T 的 BELL 实验室 Wilpon 等[5-6]实现了一个基于 HMM 的 5 个电话用语的，可以实用的 KWS，标志着 KWS 研究的崛起。美国 BBN 系统和技术公司的 Rohlicek 等[7]也研究了非特定人 KWS 的连续 HMM 建模问题，同时给出了KWS 系统的性能评价基准。

到 90 年代， MIT 的 Lincoln 实验室， CMU 的计算机科学学院， Dragon 系统公司，以及日本的 Toshiba 公司等，也相继报告了他们的研究成果。国内对关键词识别研究很少，只有清华大学、解放军信息工程学院的语音实验室进行了相关的研究。

关键词检测技术的应用领域相当广泛。早在 70 年代，美国军方和国家安全局即将关键词检测技术同说话人识别相结合共同应用于监测系统[8]。随着语音识别技术的进一步发展和普及， 80 年代中期以后关键词检测技术已延伸到通信领域、计算机语音检索系统、自动化控制方面，并已有实用系统问世，例如： AT＆T 在 92 年推出的利用关键词检测技术代替接线员实现自动转接的智能转接机。又如语音信箱的消息分类，当接收到语音消息时，通过对其关键词的检索与识别，把它们按关键词的类别分类。

备注：以上知识摘录于某语音识别教材。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。