Siamese Network理解 <转>

转载

mb5ff59200ebb3c 2017-10-26 11:55:00

提起siamese network一般都会引用这两篇文章：

《Learning a similarity metric discriminatively, with application to face verification》和《 Hamming Distance Metric Learning》。

本文主要通过论文《Learning a Similarity Metric Discriminatively, with Application to Face Verification》来理解siamese网络。

介绍

Siamese网络是一种相似性度量方法，当类别数多，但每个类别的样本数量少的情况下可用于类别的识别、分类等。传统的用于区分的分类方法是需要确切的知道每个样本属于哪个类，需要针对每个样本有确切的标签。而且相对来说标签的数量是不会太多的。当类别数量过多，每个类别的样本数量又相对较少的情况下，这些方法就不那么适用了。其实也很好理解，对于整个数据集来说，我们的数据量是有的，但是对于每个类别来说，可以只有几个样本，那么用分类算法去做的话，由于每个类别的样本太少，我们根本训练不出什么好的结果，所以只能去找个新的方法来对这种数据集进行训练，从而提出了siamese网络。siamese网络从数据中去学习一个相似性度量，用这个学习出来的度量去比较和匹配新的未知类别的样本。这个方法能被应用于那些类别数多或者整个训练样本无法用于之前方法训练的分类问题。

主要思想

主要思想是通过一个函数将输入映射到目标空间，在目标空间使用简单的距离（欧式距离等）进行对比相似度。在训练阶段去最小化来自相同类别的一对样本的损失函数值，最大化来自不同类别的一堆样本的损失函数值。给定一组映射函数 Siamese Network理解 <转>_数据集 ,其中参数为W，我们的目的就是去找一组参数W。使得当 Siamese Network理解 <转>_损失函数_02 和 Siamese Network理解 <转>_损失函数_03 属于同一个类别的时候，相似性度量 Siamese Network理解 <转>_数据集_04 是一个较小的值，当 Siamese Network理解 <转>_权值_05 和 Siamese Network理解 <转>_分类网络_06 属于不同的类别的时候，相似性度量 Siamese Network理解 <转>_数据集_07 较大。这个系统是用训练集中的成对样本进行训练。当 Siamese Network理解 <转>_相似性度量_08 和 Siamese Network理解 <转>_分类网络_09 来自相同类别的时候，最小化损失函数 Siamese Network理解 <转>_权值_10 ，当 Siamese Network理解 <转>_分类网络_11 和 Siamese Network理解 <转>_损失函数_12 来自不同类别的时候，最大化 Siamese Network理解 <转>_权值_13 。这里的 Siamese Network理解 <转>_分类网络_14 除了需要可微外不需要任何的前提假设，因为针对成对样本输入，这里两个相同的函数G，拥有一份相同的参数W，即这个结构是对称的，我们将它叫做siamese architecture。

在这篇论文中，作者用这个网络去做面部识别，比较两幅图片是不是同一个人，而且这个网络的一个优势是可以去区分那些新的没有经过训练的类别的样本。

Siamese也算是降维方法的一种。常见的降维方法有PCA、LDA、Kernel-PCA、MDS、LLE、LB、ISOmap、FA等不做具体介绍。

网络结构

Siamese Network理解 <转>_相似性度量_15

上图是论文中的网络结构图，左右两边两个网络是完全相同的网络结构，它们共享相同的权值W，输入数据为一对图片（X1,X2,Y）,其中Y=0表示X1和X2属于同一个人的脸，Y=1则表示不为同一个人。即相同对为（X1,X2,0）,欺骗对为（X1,X2’,1）针对两个不同的输入X1和X2，分别输出低维空间结果为 Siamese Network理解 <转>_相似性度量_16 和 Siamese Network理解 <转>_分类网络_17 ，它们是由 Siamese Network理解 <转>_损失函数_18 和 Siamese Network理解 <转>_权值_19 经过网络映射得到的。然后将得到的这两个输出结果使用能量函数 Siamese Network理解 <转>_数据集_20 进行比较。

Siamese Network理解 <转>_分类网络_21

损失函数定义

我们假设损失函数只和输入和参数有关，那么我们损失函数的形式为：

Siamese Network理解 <转>_数据集_22

其中 Siamese Network理解 <转>_相似性度量_23 是第i个样本，是由一对图片和一个标签组成的，其中LG是只计算相同类别对图片的损失函数，LI是只计算不相同类别对图片的损失函数。P是训练的样本数。通过这样分开设计，可以达到当我们要最小化损失函数的时候，可以减少相同类别对的能量，增加不相同对的能量。很简单直观的方法是实现这个的话，我们只要将LG设计成单调增加，让LI单调递减就可以了，但是我们要保证一个前提就是，不相同的图片对距离肯定要比相同图片对的距离小，那么就是要满足：