mahout 使用

最近在做mahout源码调用的时候，发现一个参数：startPhase和endPhase,这两个参数是什么意思呢？比如运行RecommenderJob时，可以看到10个MR任务，所以猜测是否是一个phase代表一个MR？

带着这样的疑问进行了实验：

$Hadoop_HOME/bin/hadoop jar mahout-0.7/core/target/mahout-core-0.7-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input input/intro.csv --output date1129/cf00 --tempDir date1129/cftemp00 --booleanData false --similarityClassname SIMILARITY_COOCCURRENCE --startPhase 0 --endPhase 4

但是，实验结果却还是那样，仍然运行了10个MR，然后就去google了，网上看到这个一个观点：The first MR job is index 0. So setting –startPhase 1 will execute the 2nd
job onwards. Putting in –endPhase 2 would stop after the 3rd job. ，来自http://lucene.472066.n3.nabble.com/RowSimilarity-startphase-and-endphase-parameters-td2119682.html。这个的意思其实就是说MR job 和phase是同一个意思，但是我实验后却证明不是这样；

而且网上这个话题比较少涉及到，没办法只能看源码了。

看 mahout的源码可以看到基本的算法Job都继承来AbstractJob这个类，而AbstractJob这个类里面有一个 shouldRunNextPhase方法，这个方法是和startPhase和endPhase这两个参数有关的，所以如果 RecommenderJob里面有这个方法的话，那么应该就可以说startPhase和endPhase两个参数是有作用的；

我没有继续分析源码了，下面说下我的做法：我在AbstractJob这个类的shouldRunNextPhase里面加入了打印currentPhase和 startPhase,endPhase以及这个方法返回的boolean值，不过这个如果在终端运行（也就是上面提及的在命令行运行）的话，是看不到打印的内容的。同时也可以不打印，而是选择用log，写入log,不过这个要去slave节点机才能看到，比较麻烦，所以就没有使用Log.

如何才能打印出结果呢？使用mvn编译mahout的源代码（修改过的），然后在$MAHOUT_SOUCE/core/targe里面有mahout- core-0.7-job.jar文件，把这个文件拷贝到eclipse，然后直接编写代码调用这个jar文件里面的RecommenderJob类就可以在Console里面看到我们打印的信息了，这样就可以看出来MR Job和phase的区别了。

那么，phase的意义到底是什么呢？其实pahse的含义就是几个MR的一个集合，不定数目的MR job视为一个phase。这个有什么好处呢？比如你运行RecommenderJob时前面的两个phase都运行成功了，但是后面的运行出错，那么是否要继续从第一个phase开始运行呢，其实完全没有必要，可以设置startPhase和endPhase这两个参数，直接跳过前面两个Phase。

那么回到最开始的问题，为什么我设置了那两个参数，但是却没有作用呢？因为RecommenderJob只有四个phase，而我设置0-4超过了最大值3，所以所有的MR job仍照常运行。

mahout 使用的更多相关文章

[Mahout] 完整部署过程
概述 Mahout底层依赖Hadoop,部署Mahout过程中最困难的就是Hadoop的部署本文假设用户本身没有进行Hadoop的部署,记述部署Mahout的过程 ...
Mahout之数据承载
转载自:https://www.douban.com/note/204399134/ 推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化. Pr ...
Mahout推荐算法API详解
转载自:http://blog.fens.me/mahout-recommendation-api/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, ...
从源代码剖析Mahout推荐引擎
转载自:http://blog.fens.me/mahout-recommend-engine/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pi ...
mahout 安装测试
1 下载在http://archive.apache.org/dist/mahout下载相应版本的mahout 版本,获取官网查看http://mahout.apache.org 相关的信息
Hadoop里的数据挖掘应用-Mahout——学习笔记<三>
之前有幸在MOOC学院抽中小象学院hadoop体验课. 这是小象学院hadoop2.X的笔记由于平时对数据挖掘做的比较多,所以优先看Mahout方向视频. Mahout有很好的扩展性与容错性(基于H ...
初学Mahout测试kmeans算法
预备工作: 启动hadoop集群准备数据 Synthetic_control.data数据集下载地址http://archive.ics.uci.edu/ml/databases/synthetic ...
Mahout安装与配置
一.安装mahout 1.下载mahout(mahout-distribution-0.9.tar.gz) http://pan.baidu.com/s/1kUtOMQb 2.解压至指定目录我平时都 ...
Mahout 的安装
Mahout 的安装 Mahout是Hadoop的一种高级应用.运行Mahout需要提前安装好Hadoop,Mahout只在Hadoop集群的NameNode节点上安装一个即可,其他数据节点上不需要安 ...
Mahout源码分析之 -- 文档向量化TF-IDF
fesh个人实践,欢迎经验交流!Blog地址:http://www.cnblogs.com/fesh/p/3775429.html Mahout之SparseVectorsFromSequenceFi ...

随机推荐

拖拽TreeViewItem到OCX控件
由于C#在性能方面,和C++还是有不少的差距,所以在项目中有一块是用C++的OCX控件实现,然后包括在WPF项目中.由于C++,C#属于不同的体系架构,造成了许多问题,特使是拖拽TreeViewIte ...
Entity Framework Core 生成跟踪列-阴影属性
摘自:https://www.cnblogs.com/tdfblog/p/entity-framework-core-generate-tracking-columns.html Ef Core 官方 ...
KMP字符串匹配简单理解
http://www.cnblogs.com/c-cloud/p/3224788.html 字符串匹配,长串长度为m,子串长度为n 则,暴力破解的复杂度为o(m*n) 如果用kmp匹配,则复杂度为o( ...
[SDOI2011]消耗战(虚树+树形动规）
虚树dp 虚树的主要思想: 不遍历没用的的节点以及没用的子树,从而使复杂度降低到$\sum\limits k$(k为询问的节点的总数). 所以怎么办: 只把询问节点和其LCA放入询问的数组中. 1 ...
Shell - 简明Shell入门02 - 变量（Variable）
示例脚本及注释 #!/bin/bash v1=test-variable_123 # 全局变量 v2=12345 v3='This is a test!' # 赋值语句使用单引号或双引号可以包含空格 ...
linux源码安装的步骤
源码安装的过程中多多少少会遇到问题,在此仅简述一下安装的步骤,具体安装的过程中遇到的问题,具体解决. 安装步骤: 1.获取源码 name.gz 2.解包 tar -xvf name.gz (cd到包解 ...
java批量解压文件夹下的所有压缩文件（.rar、.zip、.gz、.tar.gz）
// java批量解压文件夹下的所有压缩文件(.rar..zip..gz..tar.gz) 新建工具类: package com.mobile.utils; import com.github.jun ...
Oracle 获取本周、本月、本季、本年的第一天和最后一天
Oracle 获取本周.本月.本季.本年的第一天和最后一天 --本周 select trunc(sysdate, 'd') + 1 from dual; select trunc(sysdate, ' ...
集成学习算法总结----Boosting和Bagging
1.集成学习概述 1.1 集成学习概述集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高.目前接触较多的集成学习主要有2种:基于Boosting的和基于B ...
c++中double类型控制小数位数
有时,我们需要输出确定小数位数的double,可以先引入如下头文件: #include <iomanip> 然后通过下列方式输出: double zzz = 8.66666; cout & ...

mahout 使用

推荐系统相关

mahout 使用的更多相关文章

随机推荐

热门专题