pytorch 余弦相似度损失余弦相似度权重

转载

笑傲江湖求败 2023-12-18 21:37:41

文章标签 pytorch 余弦相似度损失相似度计算相似度方差权重 文章分类 PyTorch 人工智能

教材：《推荐系统技术、评估及高效算法》

上一小节：推荐系统学习笔记之三——（基于邻域的）协同过滤算法的公式化、标准化

上一小节我们跳过了用户之间、物品之间相似度计算的方法，在这一小节，我们详细叙述常见常用的集中相似度计算方法以及相似度用户（物品）权重的重要性。

目录： 1、相似度

---（1）、cosine（余弦相似度）

---（2）、Pearson Correlation（皮尔逊相关系数）

---（3）、Adjusted Cosine（改良的余弦相似度）

---（4）、Spearman Rank Correlation（斯皮尔曼等级关联）

2、权重的重要性

相似度

ML/DM领域常常用到距离和相似度的概念，在kmeans等聚类算法中，一般都是使用曼哈顿距离、欧氏距离等距离公式，这里我们要了解的是另一种——相似度。

区分一下距离和相似度，在一个高维空间，两个点之间的距离就是距离。而两个向量是否平行、夹角多少，这就是相似度。

1、cosine（余弦相似度）

我们高中的时候都学过余弦公式：

。

并且知道它的意义：它不在乎两个向量之间的距离，只在乎两个向量之间的角度，角度越小值越大，相似度越高。

在协同过滤中，它被用来计算用户的相似度：

然而在这种情况下存在一个问题，它没有考虑用户u和v的评分均值以及方差之间的差异（也就是我们前一小节的标准化）

于是Pearson Correlation出场了。

2、Pearson Correlation（皮尔逊系数）

基于用户的PC值计算用户u和v之间的相似度，

依然代表用户u的所有评分的平均分：

同样的，物品i和j之间的相似度计算：

3、Adjusted Cosine（改良的余弦相似度）

在一些基于物品的例子中，用户间评分的方差明显要大于物品间评分的方差，而PC（i，j）更关注于物品间的方差，这时候我们使用更关注用户间方差的Adjusted Cosine能够取得更好的效果。

4、Spearman Rank Correlation（斯皮尔曼等级关联）

SRC与PC直接使用评分值来计算不同，它是根据这些评分的排名来进行相似度计算的。

设

为物品i在用户u的所有评分物品中的排名（评分重复的取中间值），以用户相似度为例：

，

公式体现上唯一的区别，就是k代替了r。一般SRC的效果不如PC。

权重的重要性

当用于计算相似度的评分数据比较少的时候，相似度的精准度就会降低，这是显而易见的事情。

所以我们提出权重：当只有少量评分用于计算时，就会降低相似度重要性的权重。

给出公式：

gamma是个超参数，gamma越大，代表要求评分矩阵越宽越稠密。

在文献中发现，一般gamma>=25会显著得提高预测评分的准确性，到50的时候可能得到最好的结果。当然，具体问题需要交叉验证来确定这个最优参数。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：基于参数的机器学习模型什么是参数模型

下一篇：python logging 日志打印出时间 python怎么输出日志

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯