神经网络分析的软件 神经网络 打分_数据集




导言


呼叫评分是呼叫中心质量保证的重要组成部分,它能够使呼叫中心代理可以更快、更高效的完成工作,并且避免无意义的日常工作。考虑到呼叫中心的生产力,在研发中提出了一种处理所有来电的算法,并将它们分为可疑和中立,所有被定义为可疑的呼叫都直接转到质量保证团队。



如何训练深度神经网络


使用1,700个音频文件的样本来训练神经网络,以便它可以应对自动呼叫评分,所用的基准数据没有被标记。深度神经网络不知道默认情况下哪些文件是中性的,哪些文件是可疑的。这就是我们要手动标记样本,并将其分为可疑和中立的原因。

在中立文件中,呼叫中心代表:

  • 不要提高他们的声音;
  • 为客户提供他们所需的所有信息;
  • 不要回应客户的挑衅;


在可疑文件代表中最优可能:

  • 使用明确的语言;
  • 提高客户的声音或喊叫声;
  • 进入个人;
  • 拒绝支持和咨询;


当算法完成处理文件时,它将其中的200标记为无效。这些音频文件既不包含中立参数,也不包含可疑信息,这200个电话是:

  • 呼叫中心代理接听电话后,客户立即下电;
  • 客户拨打号码后没有发音;
  • 呼叫中心或客户端的噪音太大;


删除无效文件后,将剩余的1500条记录分为训练样本和测试样本,继续使用这两组数据集训练,然后测试训练好的深度神经网络。


Step 1 :特征提取


高级特征提取在机器学习中非常重要,因为它直接影响算法的效率。经过检查所有可以找到的来院后,决定选择以下功能:


时间统计

    1、Zero-crossing rate:信号从正变为负的速率;

    2、Median frame energy:信号值的平方和,由相应的帧长度归一化;

    3、Entropy of energy of subframes:突然变化的衡量标准;

    4、帧的平均值/中值/标准差;


频谱统计

    1、光谱质心

    2、光谱传播

    3、光谱熵

    4、光谱通量

    5、光谱衰减


Mel频谱倒谱系数和色度矢量对输入信号长度敏感,可以一次从整个音频文件中提取它们。但通过这样做,我们会随着时间的推移失去功能,我们决定将信号分成窗口。

为了提高功能质量,将信号分解成重叠的块。然后,为每个块提取了一个特征序列。因此,为每个音频文件计算特征矩阵。窗口长度:0.2秒;窗口步:0.1秒。

Step 2 :在单独的短语中检测语音


解决任务的第一种方法是分别检测和处理流中的每个短语。首先,应用扬声器分类并使用LIUM库对音频中的所有短语进行分区。输入文件质量很差,因此为每一个都应用了输出平滑和自适应阈值处理。

神经网络分析的软件 神经网络 打分_深度神经网络_02

神经网络分析的软件 神经网络 打分_深度神经网络_03



处理中断和长时间沉默


在定义了每个短语的时间限制(由客户和呼叫中心代表发音)之后,将它们重叠,并在呼叫着互相交谈时进行检测,以及检测没有人说话的情况。唯一剩下的就是选择合适的阈值,我们最终决定将3秒以上的时间定义为中断,因此,阈值为3秒。

神经网络分析的软件 神经网络 打分_数据集_04

神经网络分析的软件 神经网络 打分_神经网络分析的软件_05


问题是每个短语都有不同的长度,因此,从每个短语中提取的特征量也不同。一个LSTM神经网络可以解决这个问题。这种类型的网络不仅可以处理不同长度的输入序列,还可以包含允许保存信息的反馈。这些特征对我们非常重要,因为之前发音的短语包含影响稍后发音的短语的信息。

神经网络分析的软件 神经网络 打分_神经网络分析的软件_06


然后,训练LSTM神经网络,以便检测每个发音的短语的情绪。


作为训练集,使用了70个音频文件,每个音频文件平均有30个短语(15个客户短语和15个呼叫中心代表短语)。我们的主要目标是对呼叫中心代表发音的短语进行评分,因此没有使用客户端语音来训练分类器。在训练数据集中使用了大约750个短语,在测试集中使用可250个短语。结果,神经网络将语音分类为72%的准确度。


实际上,对LSTM神经网络性能并不满意,我们将尝试另一种方法。