推荐系统中的评测指标10个:
这10个并不就是全部的,它的评测指标有很多,比如用户满意度(最重要的指标)、预测准确度、覆盖率、多样性、新颖性、信任度、实时性、健壮性和商业目标。

其中准确率和召回率是在预测准确度里面需要用上的概念,预测准确度可以分成评分预测和TopN推荐。

TopN=准确率(precision)/召回率(recall)

对用户u推荐N个物品(R(u)),令用户u在测试集上喜欢的物品集合为T(u)。

推荐召回系统架构_正例


推荐召回系统架构_正例_02


在理解之前,我们先来借助西瓜书上周老师浅显易懂的话来了解一下它们的定义,当然也掺和了我的一些想法:

召回率(recall):又称查全率, 按查全率字面意思理解,即就是推荐出的项目,即检索出的相关项目占该项目系统中所有与查询关键字相关的项目的比率。简言之,就是检索出的准确项目占所有准确项目的比例,即在所有准确项目(用户感兴趣的内容)中有多少个被检索出来了。

准确率(precision):又称查准率,按查准率字面意思理解,即就是在检索出来的所有项目中有多少项目是用户感兴趣的,检索出来的用户感兴趣的项目占检索出来的所有项目的比例,比如,一个页面进行搜索能显示了10条,其中有7条是用户感兴趣的,该系统的查准率就是70%。

根据上面的概念,准确率指的是在推荐系统推荐的物品总数中真正受到用户喜欢的比率,召回率指的是推荐出的用户感兴趣的物品数占用户喜欢物品数目的比例。

扩展

对于二分类问题,将真实类别与学习器预测类别的组合划分为TP真正例,FP假正例,TN真反例,FN假反例,其中TP为被判定为正样本中正确的样本数量,TN为判定为负样本中正确的样本数量,FN为判定为负样本中错误的样本数量,FP为判定为正样本中错误的样本数量。

推荐召回系统架构_反例_03


这里还加入了F1度量,是因为只看P、R对于某些问题来说不够全面。查准率和查全率是一对矛盾的度量,只能在一些简单任务中才能使得查全率和查准率都高,所以通常会借助P-R曲线,对学习器的预测结果进行排序,排在前面的是学习器认为最可能的正例样本,后面是最不可能是正例的样本,将查准率作为纵轴,查全率作为横轴,就是P-R曲线,其中平衡点BEP就是查全率=查准率的取值,只有当一条曲线完全包住另一条的时候,才可以说包住的那个性能要强,其他不太能断言哪个好哪个不好了。但还是觉得BEP过于简化了,所以有了F1度量。并且对F1度量进行改进则可以用来展示对查准率和查全率重视程度的不同,即加入β,查全率对查准率的相对重要性。

推荐召回系统架构_正例_04