“中文语音朗读测评”指提供一段文本,通过用户对文本的朗读录音,进行多细粒度的评价,目前市面上英文的语音朗读测评比较完善,而中文的语文朗读测评成果还比较少,产品多以短文本为主,本文根据一款“格灵阅读”的中文人工智能分级阅读产品实践进行一些探讨。

“中文语音朗读测评”目前基于合作伙伴的技术门槛和当前国内中文语音评测已出现的应用场景,还存在不少天然的难点。

对情感进行判断,对文本内容语义的理解还比较初级,从而使判定正确标准过于机械和僵硬,目前对初级的普通话考试或外国人的汉语言入门学习的场景适应更好,对朗读场景的适应不够正确,朗读国内的理解为用清楚、响亮、恰当的声音念文章,而中文朗读的“正确”内涵实际更在于文声的正确(七不:不丢、不多、不错、不重读、不倒读、不唱读、不破读)、流利(连贯、适当的速度)、有感情(运用声音的轻重、高低、快慢、停连,恰当读出文章的思想感情)。

目前可以做到不丢漏、错读、唱读、倒读、多读、重读等的判断,流利上可采用在测评时对材料的体裁进行标准的判断,对朗读音节长短与音节之间的松紧进行评判,但对混合型文本或未知内容无法做到语义级别的场面、心情、谈话方式、叙述方式、人物性格等切换,对情感的判断还是存在诸多难点。

对多音字的正确判断,多音字消歧是语音识别技术中音字转换的核心问题,可根据词性进行判断,但目前国内大多数厂商为保证精准度多采用对已知的内容材料通过正确标识进行回传识别的方式来解决多音字的判断。

Sentiment Analysis在中文儿童语音朗读测评中的国内实践_中文语音识别

对于中文的语音朗读测评,目前可通过对“字词”、“句子”、“段落”的用户语音的“流利度、完整度、正确度、声调、无调、声母、韵母、语速、多漏读、情感”等方面进行实时评判。

Sentiment Analysis在中文儿童语音朗读测评中的国内实践_语音识别_02

语音识别的情感计算是个前沿和复杂的技术,需要在语料库基础上运用多种深度学习算法、需要对情感词、程度副词、否定词等进行加权处理,还需要对表情符号、分句进行处理,再利用一些专业技术,如MFCC、HMM等,来让计算机拥有【听觉】。

加入情感类型

如舒缓、沉稳型、轻快、强疾等,可根据类型去调整流利度等标准系数,用于对内容文本体裁内容的判断,如舒缓型可适用于古诗、诗歌,沉稳型可用于大部分现代文、散文。

建立情感字典:

可以对内容进行预处理,通过标点和标记完成分割,完成多个句子的切分,提取句子中的情感字词。在情感词表中寻找情感词,以每个情感词为基准,向前依次寻找程度副词、否定词,并作相应分值计算。对句型进行判断,比如感叹句、反问句等,在分句上做加减权值。


对每条句子进行情感分析,进行打分,将句子分值累加做全部内容的分值计算

建立程度副词词典:

设定权值。

建立情感级别:

比如:

level1=悲伤

level2 = 愤怒

level3 = 淡定

level4 = 平和

level5 = 喜悦

加入 情感波动级别:

level6 = 情感波动很小

level7 = 情感波动较大



语句的情感得分