深度孪生自注意力网络:小样本条件下的多维时间序列分类

  • 引言
  • 1 相关基础
  • 1.1 孪生神经网络
  • 1.2 自注意力网络
  • 2 深度孪生自注意力网络
  • 2.1 动机
  • 2.2 实现
  • 2.3 验证
  • 3 结论
  • 4 参考


引言

本文解读了一种新的小样本条件下的多维时间序列的不均衡多分类算法,即聚类降采样+深度孪生自注意力网络(重点解读)。从功能上讲,聚类降采样是面向数据不均衡的数据重采样方法,而深度孪生自注意力网络是一种面向小样本条件下的多维时间序列数据的特征学习和分类方法。本文首先回顾了相关基础知识,然后介绍了深度孪生自注意力网络的动机和具体实现,希望对大家有所帮助。

孪生神经网络matlab 孪生神经网络小样本_神经网络

1 相关基础

深度孪生自注意力网络主要建立在两个部分的基础之上:孪生神经网络和自注意力网络。

1.1 孪生神经网络

孪生神经网络作为一种度量学习,在Few-shot learning领域历久而弥新,依然活跃于各大顶会之中。相较于普通的神经网络,孪生神经网络的结构简洁而巧妙,是由两个结构相同且权重共享的神经网络拼接而成。值得注意的是,孪生神经网络以两个样本为输入,可以“指数级”地扩增训练样本的数目,对于小样本问题具有天然的优势。具体的网络结构如下图所示:

孪生神经网络matlab 孪生神经网络小样本_人工智能_02

1.2 自注意力网络

自注意力网络无疑是近年来最成功的深度学习方法之一,并且在多维时间序列分析领域更是大放异彩。自注意力网络最核心的组件是多头自注意力机制,多头自注意力机制的结构如下图所示:

孪生神经网络matlab 孪生神经网络小样本_深度学习_03


多头自注意力机制模块 (图片来自Ashish Vaswani et al, NIPS, 2017)

多头自注意力机制可以将输入数据映射到不同的子空间中,相当于从不同侧面来提取特征,然后再进行融合使得提取的特征蕴含的信息更加丰富。更重要的是,多头自注意力机制还可以同时提取时间序列数据中的长短期依赖,这也是其在多维时间序列分析领域备受重视的主要原因。

2 深度孪生自注意力网络

接下来,本部分针对深度孪生自注意力网络的动机、实现和验证,分别展开了介绍。

2.1 动机

首先,对于航空发动机而言,可能出现的故障类型比较多,而每种故障类型下的故障样本数量又是极其的少。从广义上讲,就是训练集中包含了很多的类别,每个类别中只有少量样本,显然,这属于N-way K-shot问题。在这种情况下进行故障诊断是非常困难的。

其次,航空发动机的性能监控数据属于典型的多维时间序列,并且各个性能参数之间存在复杂的耦合关系。换言之,所提方法需要从监控数据中提取复杂而未知的时序关系,传统的神经网络很难做到这一点。

在上述两点的驱动下,我们能不能将孪生神经网络和自注意力网络有机地结合呢?结合后的效果又会怎么样呢?深度孪生自注意力网络就给出了一种答案。

2.2 实现

深度孪生自注意力网络有机地融合孪生神经网络和自注意力网络各自的优点,具体的网络结构如下所示。并且,具体的步骤如下所示:

孪生神经网络matlab 孪生神经网络小样本_孪生神经网络matlab_04

(1)样本配对 将所有的样本两两配对,对于相同类型样本组成的样本对,其标签设置为1;而对于不同类型样本组成的样本对,其标签设置为0。

(2)特征提取 配对样本流入深度孪生自注意力网络得特征提取模块,将其映射到一个嵌入式空间中得到样本对的嵌入式表示。

(3)损失计算 根据对比损失公式计算样本对的损失函数(对比损失函数中参数通常可以设置为2)。

(4)误差传播 利用Adam(lr=0.0002, beta=(0.5, 0.999))优化深度孪生自注意力网络的权重,直至深度孪生自注意力网络收敛。

2.3 验证

本文选取航空发动机的真实数据验证所提模型的有效性,实验结果表明深度孪生自注意力网络对于小样本条件下的多维时间序列的分类问题独具优势并且深具潜力。

3 结论

由于小样本条件下的多维时间序列的分类问题是无处不在的,深度孪生自注意力网络,或者说这种“孪生架构”+“注意力机制”的思路,或许有着广阔的拓展空间和应用范围。

4 参考

本文解读由刘丹(哈工大)等人发表于Advanced Engineering Informatics的文章《Highly imbalanced fault diagnosis of gas turbines via clustering-based downsampling and deep Siamese self-attention network》。