ES计算余弦相似度余弦相似度loss

转载

mob64ca1400133b 2024-05-29 07:58:13

文章标签 ES计算余弦相似度损失函数正则化归一化 文章分类 架构后端开发

1. 摘要翻译

本篇文章中，我们提出了一个新颖的损失函数，称之为LMCL，来给出loss函数的一种不同思路。更确切地说，我们用L2范数（欧几里得范数）归一化softmax损失函数的特征和权值向量，消除半径方差的影响，重构为余弦损失函数。基于此，提出了一个余弦边界项来更深地最大化角度空间地决策边界。结果是，通过正则化和余弦决策边界地最大化的优点，成功实现了类内间距的最小化和类之间距离的最大化。我们称自己的模型YMCL为cosFace。

2. 研究现状（前作的不足）

之前有很多基于角度进行训练优化的方法（1，3，5），但它们有一些缺点：

原文的loss函数定义在角度空间上，cos(mθ1) = cos(θ2), 由于余弦函数的非单调性，优化起来有难度。
不同分类的决策边界可能不同，即每个类的聚合程度不同，使得模型的分辨能力下降

3. 新的loss函数

3.1 推导过程

ES计算余弦相似度余弦相似度loss_正则化

注意该函数与第5个loss函数之间的区别

第五个loss中m加在角度上，是做角度域上的变换

而这个公式是在cos域上进行了变换，解决了上述的第一个问题。

3.2 正则化的必要性

原来的函数同时包含欧几里得和余弦两个部分的损失需要优化，对余弦部分的学习会相对弱一些。
Particularly, the adaptive L2-norm of easy samples becomes much larger than hard samples to remedy the inferior performance of cosine metric.
特别的，简单样本的L2范数变得比困难样本大许多，以此弥补余弦空间的不良表现。