python 协同过滤算法库协同过滤算法源码

转载

架构思维大师 2023-09-26 17:04:28

文章标签 python 协同过滤算法库 mahout 协同过滤源码分析基于项目的协同过滤 文章分类 Python 后端开发

Mahout版本：0.7，hadoop版本：1.0.4，jdk：1.7.0_25 64bit。

本系列介绍介绍mahout中的Itembased Collaborative Filtering算法，这个算法的实现的源码是org.apache.mahout.cf.taste.hadoop.item.RecommenderJob。在mahout官网是这样介绍这个算法的：RecommenderJob是一个完全分布式的基于项目的推荐器。它的输入是一个含有用户喜好数据的.csv文件，数据格式是userID，itemID，value。输出是userIDs和每个用户的推荐项目及项目的评分。下面就按照这样的输入数据，使用《mahout in action》中的list2.1中的数据进行测试（数据在中也可以看到），使用下面的测试代码对RecommenderJob进行测试：

package mahout.fansy.item.test;

import org.apache.mahout.cf.taste.hadoop.item.RecommenderJob;

public class TestRecommenderJob {

	/**
	 * RecommenderJob测试程序
	 * @param args
	 * @throws Exception 
	 */
	public static void main(String[] args) throws Exception {
		String[] arg=new String[]{"-jt","ubuntu:9001","-fs","ubuntu:9000",
				"-i","hdfs://ubuntu:9000/test/input/user_item",
				"-o","hdfs://ubuntu:9000/user/mahout/item/output",
				"-n","3","-b","false","-s","SIMILARITY_EUCLIDEAN_DISTANCE",
				"--maxPrefsPerUser","7","--minPrefsPerUser","2",
				"--maxPrefsPerUserInItemSimilarity","7",
				"--tempDir","hdfs://ubuntu:9000/user/mahout/item/temp"};
		
		RecommenderJob.main(arg);
	}

}

其中的一些参数先做些说明：-n参数就是--numRecommendations参数，这个参数设置后在最终的对每个用户进行推荐的时候就会推荐numRecommendations个项目；-b参数是--booleanData的缩写，这个参数是指原始数据是有用户的评分还是没有，比如原始数据只有用户和项目，这个也是可以的；-s是similarityClassname的缩写，看英文大概意思就是相似度的计算方式，这里选择的是欧氏距离；其他参数在后面的系列分析blog中进行分析。

上面的测试代码跑完后，可以在50030界面查看，一共跑了几个job任务，一般如下：

python 协同过滤算法库协同过滤算法源码_源码分析