python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python

关注 mob6454cc74c0fc

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python

转载

mob6454cc74c0fc 2023-11-11 16:31:34

文章标签 python 稀疏矩阵乘稀疏矩阵 python 稀疏矩阵乘法相似度分块 sed 文章分类 Python 后端开发

分布式算法设计

1).MapReduce

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python_相似度

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python_相似度_02

在Map和Reduce两个基本算子抽象下，所谓Hadoop和Spark分布式计算框架并没有本质上的区别，仅仅是实现上的差异。阅读了不少分布式算法的实现(仅仅是实现，不涉及原理推导)，大部分思路比较直观，大不了几个阶段的MapReduce就可以实现。这里主要介绍一个曾经困扰我好久且终于柳暗花明的问题，即“大规模稀疏矩阵乘法”。

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python_相似度_03

上图单元格中的数字为归一化处理后的每个用户对每个商品的行为分值，是一个高维的稀疏矩阵(比如有1亿商品，5000万的用户)，假设矩阵为

;

任意两个商品相似度计算，只需将相应的两个商品行向量计算内积即可。假设

为矩阵

的转置矩阵，共有M个用户，N个商品，则所有商品的相似度可以看成N*N的矩阵S，满足:

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python_分块_04

在传统的推荐召回策略(Item-based、User-based等)中，核心就是计算实体对(<商品,商品>或<用户,用户>)间的相似度。目前大多数介绍"Item-based"或"User-based"的博文中，多是统计曾共同出现在同一session内的实体对的相似度或共现频次。这里所谓的session是指用户在一次购物过程共同点击过的商品或共同加入购物车的商品或共同下单的商品。下面举一个简单的例子。

假设，我们已经有用户历史下单数据，在此基础上研发一个简单基于Item-based的推荐系统。

首先，由用户session(用户已购买商品)构建<商品i，商品j>共现矩阵(Co-occurrence Matrix)。

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python_相似度_05

其次，归一化共现矩阵。

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python_相似度_06

最后，根据每个用户的历史行为对未购买的商品做出预测打分，并做出推荐。

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python_sed_07

上述方法在实际生产环境中得到了广泛应用，但也有其局限性。

优点:

1).计算复杂度低。

2).实现简单适于业务早期快速上线。

缺点:

1). 数据稀疏问题加剧。仅仅统计session共现，不能覆盖所有的Pair。

2).表达力有限。常见Pair相似度计算方法有余弦相似度、欧式距离相似度等，显然上述方法不太容易替换相似度计算方法。

上文参考自:

https://www.jianshu.com/p/318bfacb4b5ewww.jianshu.com

所以更通用的策略是计算”全域商品“的两两之间的相似度，即前文提到的

，同时保留与

某一商品最相关的N(超参数)的商品。完整的系统流程可能如下:

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python_python 稀疏矩阵乘稀疏矩阵_08

那

要怎么算呢? 乍一看这个问题挺简单的，不就是矩阵相乘吗? 但如果考虑下

矩阵维度再估算下时空复杂度，就不是那么回事了。首先，单台服务器是否可以装进整个矩阵? 其次，亿* 亿 级别的计算量要计算多久? 既然单机不行就分布式呗。问题的核心是怎么分呢?

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python_相似度_09

这里简单介绍一种在生产环境中已经验证过的方法。如上图，为了实现分布式，先将A矩阵分成K个行分块，

分为

k个列分块，将 对应行列分块分发到同一台机器。先计算 分块内的所有商品的相似度(余弦相似度、欧几里得相似度等)，再 汇总计算商品在所有分块中的所有商品的相似度。

暂时先介绍下思路。更详细请期待<<策略算法工程师之路>>，届时会有更完整的流程及代码，在工程实现上还是有很多的trick的。

python 稀疏矩阵乘稀疏矩阵稀疏矩阵相乘python_python 稀疏矩阵乘稀疏矩阵_10

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：ftp 下载 android ftp 下载不完全

下一篇：mysql实战陈臣pdf下载 mysql数据库实用教程答案

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册