1.在elcipse上建立一个java project 项目名:mymahout2.建立libs文件夹,在mahout 0.9的lib文件夹下找到一下java包其中log4j.properties可在hadoop文件夹下找到。把他们放到libs文件夹下。3.把文件夹libs复制到mymahout项目...
原创 2021-09-04 10:52:35
260阅读
mahout的完整运行还是需要hadoop的支持的,不过很多算法只需要能把hadoop的jar包加入到classpath之中就能正常运行。 比如我们在使用LogisticModelParameters的时候,会引用包 Java代码  import org.apache.hadoo
转载 2018-05-09 11:48:00
99阅读
http://www.cnblogs.com/dlts26/archive/2011/08/23/2150230.htmlmahout项目是由多个子项目组成的,各子
转载 2014-03-10 16:44:00
49阅读
2评论
mahout的trainnb调用的是TrainNaiveBayesJob完成训练模型任务。所在包: org.apache.mahout.classifier.naivebayes.training TrainNaiveBayesJob的输入是在tfidf文件上split出来的一部分,用作训练。TrainNaiveBayesJob代码分析,首先加入一些命令行选项,如 LABEL -L
原创 2023-07-24 17:57:23
68阅读
有个参数sequential决定是否本地执行,这里只讲MapReduce执行。源代码如下,12345678910
原创 2023-05-14 10:25:45
89阅读
一系列添加选项的操作:包括minSupport,analyzerName,chunkSize,weight,minDF等等。 Option chunkSizeOpt = obuilder. withLongName ( "chunkSize" ). withArgument ( abuilder.
原创 2023-07-24 17:56:20
57阅读
转自:http://www.cnblogs.com/dlts26/archive/2011/09/13/2174889.html1. Mahout构建的先决条件1) JDK,使用1.6版本。需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量。2) Maven,使用2.0.11版本或以上。在eclipse上安装maven插件—m2eclipse。2.
转载 精选 2013-12-05 00:59:49
625阅读
昨天说到为什么Configuration没有设置conf.set("mapred.job.tracker","hadoop:9000")仍然可以访问hdfs文件系统
转载 2013-08-06 18:42:00
60阅读
前言Mahout框架中cf.taste包实现了推荐算法引擎,它提供了一套完整的推荐算法工具集,同时规范了数据结构,并标准化了程序开发过程。应用推荐算法时,代码也就7-8行,简单地有点像R了。为了使用简单的目标,Mahout推荐引擎必然要做到精巧的程序设计。本文将介绍Mahout推荐引擎的程序设计。目录Mahout推荐引擎概况标准化的程序开发过程数据模型
转载 2022-07-28 16:24:22
148阅读
最近看了关联规则的相关算法,着重看了mahout的具体实现,mahout
原创 2023-03-28 09:52:19
63阅读
如果要先把meanshift算法先跑一遍的话,可以直接使用synthetic_control.data数据来做,把synthetic_control.data下载赋值到一个文本文件中,然后上传到HDFS文件系统上面,使用下面的命令: bin/hadoop fs -put synthetic_control.data testdata;上传完毕后直接在mahout中运行:bin/mahoutorg.apache.mahout.clustering.syntheticcontrol.meanshift.Job 即可在终端中看到运行的情况,但是在最后面该程序把所有的数据结果都显示出来了,导致前面的J
转载 2013-08-22 18:05:00
62阅读
2评论
preface 运行自带的例子来进行测试 第1章 使用kmeans算法实例 (1)http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data点击链接,下载数据集synthetic_control.data。将数据集synthetic_control.data放到MAHOUT_HOME目录下面
原创 2023-07-24 18:06:59
137阅读
首先更正一点,昨天处理数据的时候是有问题的,直接从网页中拷贝的文件的空格是有问题的,直接拷贝然后新建的文件中的空格可能有一个两个、三个的,所以要把两个或者三个的都换为一个,
转载 2013-08-23 18:18:00
75阅读
2评论
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。1. Job 篇接上篇,分析到EigenVerificationJob的run方法:public int run(Path corpusInput, Path eigenInput, Path output, Path tempOut, double maxError, double minEigenValue, ...
转载 2013-10-31 22:24:00
72阅读
2评论
接着上篇,继续分析代码。下面就到了MR的循环了,这里MR应该算是比较好理解的,重点是退出循环的条件设置,即如何判断前后两次中心点误差小于给定阈值。
转载 2013-08-06 18:00:00
63阅读
2评论
整个流程包括数据处理部分和分类算法部分。数据处理部分对语料库进行处理生成算法能执行的标准格式。分类算法部分的实现被分作三个部分:训练器(The Trainer)、数据模型(The Model)、分类器(The Classifier)。数据预处理PrepareTwentyNewsgroups for(dir in categoryDirectorys) BayesFil
原创 2023-06-05 13:02:22
29阅读
window–prefenrences–java–installed JRES–ernal location–D:/jdk/src.zip–okhttps://jingyan.baidu.com/article/0f5fb09904ef056d8334ea23.html...
原创 2022-06-01 12:09:35
145阅读
介绍本文是对学习Eclipse源码的总结 注释This class is not intended to be subclassed.如果你在阅读源码时,发
原创 2022-10-17 16:17:54
163阅读
http://www.cnblogs.com/jerome-rong/archive/2012/05/22/2512947.html
转载 精选 2013-05-21 10:55:34
643阅读
mahout的安装,简单到不能再简单的安装过程
原创 2015-10-22 10:30:24
684阅读
  • 1
  • 2
  • 3
  • 4
  • 5