神经网络分析的软件神经网络打分

转载

mob64ca1414098d 2024-03-11 15:50:35

文章标签 神经网络分析的软件神经网络深度神经网络数据集 文章分类 神经网络人工智能

神经网络分析的软件神经网络打分_数据集

导言

呼叫评分是呼叫中心质量保证的重要组成部分，它能够使呼叫中心代理可以更快、更高效的完成工作，并且避免无意义的日常工作。考虑到呼叫中心的生产力，在研发中提出了一种处理所有来电的算法，并将它们分为可疑和中立，所有被定义为可疑的呼叫都直接转到质量保证团队。

如何训练深度神经网络

使用1,700个音频文件的样本来训练神经网络，以便它可以应对自动呼叫评分，所用的基准数据没有被标记。深度神经网络不知道默认情况下哪些文件是中性的，哪些文件是可疑的。这就是我们要手动标记样本，并将其分为可疑和中立的原因。

在中立文件中，呼叫中心代表：

不要提高他们的声音；
为客户提供他们所需的所有信息；
不要回应客户的挑衅；

在可疑文件代表中最优可能：

使用明确的语言；
提高客户的声音或喊叫声；
进入个人；
拒绝支持和咨询；

当算法完成处理文件时，它将其中的200标记为无效。这些音频文件既不包含中立参数，也不包含可疑信息，这200个电话是：

呼叫中心代理接听电话后，客户立即下电；
客户拨打号码后没有发音；
呼叫中心或客户端的噪音太大；

删除无效文件后，将剩余的1500条记录分为训练样本和测试样本，继续使用这两组数据集训练，然后测试训练好的深度神经网络。

Step 1 ：特征提取

高级特征提取在机器学习中非常重要，因为它直接影响算法的效率。经过检查所有可以找到的来院后，决定选择以下功能：

时间统计

1、Zero-crossing rate：信号从正变为负的速率；

2、Median frame energy：信号值的平方和，由相应的帧长度归一化；

3、Entropy of energy of subframes：突然变化的衡量标准；

4、帧的平均值/中值/标准差；

频谱统计

1、光谱质心

2、光谱传播

3、光谱熵

4、光谱通量

5、光谱衰减

Mel频谱倒谱系数和色度矢量对输入信号长度敏感，可以一次从整个音频文件中提取它们。但通过这样做，我们会随着时间的推移失去功能，我们决定将信号分成窗口。

为了提高功能质量，将信号分解成重叠的块。然后，为每个块提取了一个特征序列。因此，为每个音频文件计算特征矩阵。窗口长度：0.2秒；窗口步：0.1秒。

Step 2 ：在单独的短语中检测语音

解决任务的第一种方法是分别检测和处理流中的每个短语。首先，应用扬声器分类并使用LIUM库对音频中的所有短语进行分区。输入文件质量很差，因此为每一个都应用了输出平滑和自适应阈值处理。

神经网络分析的软件神经网络打分_深度神经网络_02

神经网络分析的软件神经网络打分_深度神经网络_03

处理中断和长时间沉默

在定义了每个短语的时间限制（由客户和呼叫中心代表发音）之后，将它们重叠，并在呼叫着互相交谈时进行检测，以及检测没有人说话的情况。唯一剩下的就是选择合适的阈值，我们最终决定将3秒以上的时间定义为中断，因此，阈值为3秒。

神经网络分析的软件神经网络打分_数据集_04

神经网络分析的软件神经网络打分_神经网络分析的软件_05

问题是每个短语都有不同的长度，因此，从每个短语中提取的特征量也不同。一个LSTM神经网络可以解决这个问题。这种类型的网络不仅可以处理不同长度的输入序列，还可以包含允许保存信息的反馈。这些特征对我们非常重要，因为之前发音的短语包含影响稍后发音的短语的信息。

神经网络分析的软件神经网络打分_神经网络分析的软件_06

然后，训练LSTM神经网络，以便检测每个发音的短语的情绪。

作为训练集，使用了70个音频文件，每个音频文件平均有30个短语（15个客户短语和15个呼叫中心代表短语）。我们的主要目标是对呼叫中心代表发音的短语进行评分，因此没有使用客户端语音来训练分类器。在训练数据集中使用了大约750个短语，在测试集中使用可250个短语。结果，神经网络将语音分类为72%的准确度。

实际上，对LSTM神经网络性能并不满意，我们将尝试另一种方法。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。