一:协同过滤算法简介

关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时候,都习惯于问跟自己口味差不 多的朋友,这就是协同过滤的核心思想。

协同过滤是在海量数据中挖掘出小部分与你品味类似的用户,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的东西组织成一个排序的目录推荐给你。所以就有如下两个核心问题

(1)如何确定一个用户是否与你有相似的品味?

(2)如何将邻居们的喜好组织成一个排序目录?

协同过滤算法的出现标志着推荐系统的产生,协同过滤算法包括基于用户和基于物品的协同过滤算法。

二:协同过滤算法的核心

要实现协同过滤,需要进行如下几个步骤

1)收集用户偏好

2)找到相似的用户或者物品

3)计算并推荐

三:协同过滤算法的应用方式

1:基于用户的协同过滤算法

基于用户的协同过滤通过不同用户对物品的评分来评测用户之间的相似性,基于用户的相似性做推荐,简单的讲:给用户推荐和他兴趣相投的其他用户喜欢的物品

算法实现流程分析:

(1):计算用户的相似度

计算用户相似度的方法请参考这篇博客:点击阅读 这里我采用的是余弦相似度

下面我拿这个图举例




协同过滤欧式距离 python 基于协同过滤算法_协同过滤


计算用户的相似度,例如A,B为


协同过滤欧式距离 python 基于协同过滤算法_协同过滤欧式距离 python_02


同理


协同过滤欧式距离 python 基于协同过滤算法_协同过滤欧式距离 python_03


但是这样计算的效率是低的,因为我们需要计算每一对用户之间的相似度,事实上,很多用户相互之间并没有对同样的物品产生过行为,所以很多时候当分子为0的时候没有必要再去计算分母,所以这里可以优化:即首先计算出|N(u) 并 N(v)| != 0 的用户对(u,v),然后对这种情况计算分母以得到两个用户的相似度。

针对此优化,需要2步:

(1)建立物品到用户的倒查表T,表示该物品被哪些用户产生过行为;

(2)根据倒查表T,建立用户相似度矩阵W:在T中,对于每一个物品i,设其对应的用户为j,k,在W中,更新相应的元素值,w[j][k]=w[j][k]+1,w[k][j]=w[k][j]+1,以此类推,扫描完倒查表T中的所有物品后,就可以得到最终的用户相似度矩阵W,这里的W是余弦相似度中的分子部分,然后将W除以分母可以得到最终的用户兴趣相似度。


协同过滤欧式距离 python 基于协同过滤算法_协同过滤_04


得到用户的相似度后,便可以进行下一步了

(2):给用户推荐兴趣最相近的k个用户所喜欢的物品

公式如下:

其中,p(u,i)表示用户u对物品i的感兴趣程度,S(u,k)表示和用户u兴趣最接近的K个用户,N(i)表示对物品i有过行为的用户集合,Wuv表示用户u和用户v的兴趣相似度,Rvi表示用户v对物品i的兴趣(这里简化,所有的Rvi都等于1)。


协同过滤欧式距离 python 基于协同过滤算法_相似度_05


2:基于物品的协同过滤算法

基于item的协同过滤通过不同用户对不同item的评分来评测item之间的相似性,基于item的相似性做推荐,简单的讲:给用户推荐和他之前喜欢物品相似的物品

算法流程分析:

同样拿上边的图举例,在这里默认用户对物品的打分均为1


协同过滤欧式距离 python 基于协同过滤算法_相似度_06


(1):构建物品的同现矩阵


协同过滤欧式距离 python 基于协同过滤算法_协同过滤_07


在这里对矩阵做归一化处理就可以得到物品之间的余弦相似度矩阵了其中归一化处理

按照标准定义


协同过滤欧式距离 python 基于协同过滤算法_相似度_08


这里,分母|N(i)|是喜欢物品i的用户数,而分子 N(i) N( j) 是同时喜欢物品i和物品j的用户数。因此,上述公式可以理解为喜欢物品i的用户中有多少比例的用户也喜欢物品j。

进行处理后的结果为:


协同过滤欧式距离 python 基于协同过滤算法_协同过滤欧式距离 python_09


当然为了出现推荐热门的商品,对上述公式的优化为:


协同过滤欧式距离 python 基于协同过滤算法_协同过滤欧式距离 python_10


这个公式惩罚了物品j的权重,因此减轻了热门物品会和很多物品相似的可能性(此种情况下感兴趣的自己推导)。

(2):建立用户对物品的评分矩阵(以A举例,没有评分的物品为0)


协同过滤欧式距离 python 基于协同过滤算法_相似度_11


(3):矩阵计算推荐结果


协同过滤欧式距离 python 基于协同过滤算法_协同过滤_12


这里N(u)是用户喜欢的物品的集合,S(j,K)是和物品j最相似的K个物品的集合,wji是物品j和i的相似度,rui是用户u对物品i的兴趣。(对于隐反馈数据集,如果用户u对物品i有过行为,即可令rui=1。)该公式的含义是,和用户历史上感兴趣的物品越相似的物品,越有可能在用户的推荐列表中获得比较高的排名。

推荐结果=同现矩阵 * 评分矩阵


协同过滤欧式距离 python 基于协同过滤算法_协同过滤_13


从中去掉A已经打过分的物品,a,b,d,则可以看出,A对e的喜欢程度和c一样,和上边计算结果一致,所以就会将两者推荐给A

3:混合推荐

所谓的混合算法,主体思路还是基于用户的协同过滤,只是在计算两个用户的相似度时又嵌套了item-based CF思想。

度量用户i和用户j相似度更好的方法是:

1.用户i参与评分的项目集合为,用户j参与评分的项目集合为,找到它们的并集

2.在集合中用户i未评分的项目是,采用item-based CF方法重新估计用户i对中每个项目的评分。

3.这样用户i和j对的评分就都是非0值了,在此情况下计算他们的相似度。

四:基于用户的协同过滤算法实现

[python] view plain copy#-*-coding:utf-8-*- ''''' Created on 2016年5月2日  @author: Gamer Think ''' from math import sqrt  fp = open("uid_score_bid