【甘道夫】基于Mahout0.9+CDH5.2执行分布式ItemCF推荐算法

环境：

hadoop-2.5.0-cdh5.2.0

mahout-0.9-cdh5.2.0

引言

尽管Mahout已经宣布不再继续基于Mapreduce开发，迁移到Spark。可是实际面临的情况是公司集群没有足够的内存支持Spark这仅仅把内存当饭吃的猛兽。再加上项目进度的压力以及开发者的技能现状，所以不得不继续使用Mahout一段时间。

今天记录的是命令行执行ItemCF on Hadoop的过程。

历史

之前读过一些前辈们关于的Mahout ItemCF on Hadoop编程的相关文章。描写叙述的都是怎样基于Mahout编程实现ItemCF on Hadoop。因为没空亲自研究。所以一直遵循前辈们编程实现的做法，比方下面这段在各大博客都频繁出现的代码：

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.util.GenericOptionsParser;

import org.apache.mahout.cf.taste.hadoop.item.RecommenderJob;

public class ItemCFHadoop {

public static void main(String[] args) throws Exception {

JobConf conf = new JobConf(ItemCFHadoop.class);

GenericOptionsParser optionParser = new GenericOptionsParser(conf, args);

String[] remainingArgs = optionParser.getRemainingArgs();

if (remainingArgs.length != 5) {

System.out.println("args length: "+remainingArgs.length);

System.err.println("Usage: hadoop jar <jarname> <package>.ItemCFHadoop <inputpath> <outputpath> <tmppath> <booleanData> <similarityClassname>");

System.exit(2);

}

System.out.println("input : "+remainingArgs[0]);

System.out.println("output : "+remainingArgs[1]);

System.out.println("tempdir : "+remainingArgs[2]);

System.out.println("booleanData : "+remainingArgs[3]);

System.out.println("similarityClassname : "+remainingArgs[4]);

StringBuilder sb = new StringBuilder();

sb.append("--input ").append(remainingArgs[0]);

sb.append(" --output ").append(remainingArgs[1]);

sb.append(" --tempDir ").append(remainingArgs[2]);

sb.append(" --booleanData ").append(remainingArgs[3]);

sb.append(" --similarityClassname ").append(remainingArgs[4]);

conf.setJobName("ItemCFHadoop");

RecommenderJob job = new RecommenderJob();

job.setConf(conf);

job.run(sb.toString().split(" "));

}

以上代码是可运行的，仅仅要在命令行中传入正确的參数就能够顺利完毕ItemCF on Hadoop的任务。

可是，假设按这么个代码逻辑。实际上是在Java中做了命令行的工作。为何不直接通过命令行运行呢？

官网资料

前辈们为我指明了道路，ItemCF on Hadoop的任务是通过org.apache.mahout.cf.taste.hadoop.item.RecommenderJob类实现的。

官网（https://builds.apache.org/job/Mahout-Quality/javadoc/）中对于org.apache.mahout.cf.taste.hadoop.item.RecommenderJob类的说明例如以下：

Runs a completely distributed recommender job as a series of mapreduces.

Preferences in the input file should look like userID, itemID[, preferencevalue]

Preference value is optional to accommodate applications that have no notion of a preference value (that is, the user simply expresses a preference for an item, but no degree of preference).

The preference value is assumed to be parseable as a double. The user IDs and item IDs are parsed as longs.

Command line arguments specific to this class are:

--input(path): Directory containing one or more text files with the preference data

--output(path): output path where recommender output should go

--tempDir (path): Specifies a directory where the job may place temp files (default "temp")

--similarityClassname (classname): Name of vector similarity class to instantiate or a predefined similarity from VectorSimilarityMeasure

--usersFile (path): only compute recommendations for user IDs contained in this file (optional)

--itemsFile (path): only include item IDs from this file in the recommendations (optional)

--filterFile (path): file containing comma-separated userID,itemID pairs. Used to exclude the item from the recommendations for that user (optional)

--numRecommendations (integer): Number of recommendations to compute per user (10)

--booleanData (boolean): Treat input data as having no pref values (false)

--maxPrefsPerUser (integer): Maximum number of preferences considered per user in final recommendation phase (10)

--maxSimilaritiesPerItem (integer): Maximum number of similarities considered per item (100)

--minPrefsPerUser (integer): ignore users with less preferences than this in the similarity computation (1)

--maxPrefsPerUserInItemSimilarity (integer): max number of preferences to consider per user in the item similarity computation phase, users with more preferences will be sampled down
(1000)

--threshold (double): discard item pairs with a similarity value below this

为了方便具备英语阅读能力的同学。上面保留了原文，以下是翻译：

执行一个全然分布式的推荐任务，通过一系列mapreduce任务实现。

输入文件里的偏好数据格式为：userID, itemID[, preferencevalue]。

当中。preferencevalue并非必须的。

userID和itemID将被解析为long类型。preferencevalue将被解析为double类型。

该类能够接收的命令行參数例如以下：

--input(path): 存储用户偏好数据的文件夹。该文件夹下能够包括一个或多个存储用户偏好数据的文本文件；
--output(path): 结算结果的输出文件夹
--tempDir (path): 存储暂时文件的文件夹
--similarityClassname (classname): 向量相似度计算类。可选的相似度算法包含CityBlockSimilarity，CooccurrenceCountSimilarity，CosineSimilarity，CountbasedMeasure。EuclideanDistanceSimilarity，LoglikelihoodSimilarity。PearsonCorrelationSimilarity,
TanimotoCoefficientSimilarity。注意參数中要带上包名。
--usersFile (path): 指定一个包括了一个或多个存储userID的文件路径，仅为该路径下全部文件包括的userID做推荐计算 (该选项可选)
--itemsFile (path): 指定一个包括了一个或多个存储itemID的文件路径，仅为该路径下全部文件包括的itemID做推荐计算 (该选项可选)
--filterFile (path): 指定一个路径，该路径下的文件包括了[userID,itemID]值对，userID和itemID用逗号分隔。计算结果将不会为user推荐[userID,itemID]值对中包括的item (该选项可选)
--numRecommendations (integer): 为每一个用户推荐的item数量，默觉得10
--booleanData (boolean): 假设输入数据不包括偏好数值，则将该參数设置为true，默觉得false
--maxPrefsPerUser (integer): 在最后计算推荐结果的阶段，针对每个user使用的偏好数据的最大数量，默觉得10
--maxSimilaritiesPerItem (integer): 针对每一个item的相似度最大值，默觉得100
--minPrefsPerUser (integer): 在相似度计算中，忽略全部偏好数据量少于该值的用户。默觉得1
--maxPrefsPerUserInItemSimilarity (integer): 在item相似度计算阶段。针对每一个用户考虑的偏好数据最大数量，默觉得1000
--threshold (double): 忽略相似度低于该阀值的item对

命令行运行

用于測试的用户偏好数据【userID, itemID, preferencevalue】：

1,101,2

1,102,5

1,103,1

2,101,1

2,102,3

2,103,2

2,104,6

3,101,1

3,104,1

3,105,1

3,107,2

4,101,2

4,103,2

4,104,5

4,106,3

5,101,3

5,102,5

5,103,6

5,104,8

5,105,1

5,106,1

相关基础环境配置完好后。在命令行运行例如以下命令就可以进行ItemCF on Hadoop推荐计算：

hadoop jar $MAHOUT_HOME/mahout-core-0.9-cdh5.2.0-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /UserPreference --output /CFOutput --tempDir /tmp --similarityClassname org.apache.mahout.math.hadoop.similarity.cooccurrence.measures.LoglikelihoodSimilarity

注：这里仅仅使用了最重要的參数，很多其它的參数使用调优需结合实际项目进行測试。

计算结果【userID [itemID1:score1,itemID2:score2......]】：

1 [104:3.4706533,106:1.7326527,105:1.5989419]

2 [106:3.8991857,105:3.691359]

3 [106:1.0,103:1.0,102:1.0]

4 [105:3.2909648,102:3.2909648]

5 [107:3.2898135]

【甘道夫】基于Mahout0.9+CDH5.2执行分布式ItemCF推荐算法的更多相关文章

【甘道夫】怎样在cdh5.2上执行mahout的itemcf on hadoop
环境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 步骤: 基本思路是,将mahout下的全部jar包都引入hadoop的classpath就可以,所以改动了$ ...
【甘道夫】Win7x64环境下编译Apache Hadoop2.2.0的Eclipse小工具
目标: 编译Apache Hadoop2.2.0在win7x64环境下的Eclipse插件环境: win7x64家庭普通版 eclipse-jee-kepler-SR1-win32-x86_64.z ...
【甘道夫】MapReduce实现矩阵乘法--实现代码
之前写了一篇分析MapReduce实现矩阵乘法算法的文章: [甘道夫]Mapreduce实现矩阵乘法的算法思路为了让大家更直观的了解程序运行,今天编写了实现代码供大家參考. 编程环境: java v ...
【甘道夫】使用HIVE SQL实现推荐系统数据补全
需求在推荐系统场景中,假设基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果非常可能达不到要求的数量. 比方,希望针对每一个item或user推荐20个item,可是通过计算仅仅得到8个 ...
【甘道夫】CDH5.2的Maven依赖
之前一直结合Maven开发Hadoop2.2.0的程序.环境换成CDH5.2后报错,发现是Maven依赖库的问题. 之前一直使用 http://mvnrepository.com/ 查找maven依赖 ...
【甘道夫】HBase（0.96以上版本号）过滤器Filter具体解释及实例代码
说明: 本文參考官方Ref Guide,Developer API和众多博客.并结合实測代码编写.具体总结HBase的Filter功能,并附上每类Filter的对应代码实现. 本文尽量遵从Ref Gu ...
【甘道夫】HBase基本数据操作的详细说明【完整版，精绝】
介绍之前具体写了一篇HBase过滤器的文章.今天把基础的表和数据相关操作补上. 本文档參考最新(截止2014年7月16日)的官方Ref Guide.Developer API编写. 全部代码均基于& ...
【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制
前言 HDFS为管理员提供了针对文件夹的配额控制特性,能够控制名称配额(指定文件夹下的文件&文件夹总数),或者空间配额(占用磁盘空间的上限). 本文探究了HDFS的配额控制特性,记录了各类配额 ...
【甘道夫】HBase连接池 -- HTablePool是Deprecated之后
说明: 近期两天在调研HBase的连接池,有了一些收获,特此记录下来. 本文先将官方文档(http://hbase.apache.org/book.html)9.3.1.1节翻译,方便大家阅读,然后查 ...

随机推荐

自定义 matplotlib 设置
Customizing plots with style sheets import matplotlib as mpl 查看配置文件所在的目录:mpl.get_configdir() 1. 自定义 ...
Vivado 2017.2 SDK 生成FSBL时存在的bug
SDK 2017.1/.2 - ld.exe: cannot find -lrsa When importing a new HDF file into the SDK or after a clea ...
<h2>1. mongodb介绍</h2>
1. mongodb介绍 2. ppt下载地址 http://download.csdn.net/detail/u014285882/7807105 阅读全文本文已收录于下面专栏: mongodb使 ...
一次修复IncrediBuild Coordinator服务的经历
作者:朱金灿来源:http://blog.csdn.net/clever101 早上发现部门的分布式编译服务的服务端崩溃了,原来是IncrediBuild Coordinator服务启动不了.启动该 ...
thinkphp3.2.3 excel导出,下载文件,包含图片
关于导出后出错的问题 https://segmentfault.com/q/1010000005330214 https://blog.csdn.net/ohmygirl/article/detail ...
Linux基本命令(二)
1. 输出重定向命令:> Linux允许将命令执行结果重定向到一个文件,本应显示在终端上的内容保存到指定文件中. 如:ls > test.txt ( test.txt 如果不存在,则创建, ...
Android UI:看看Google官方自定义带旋转动画的ImageView-----RotateImageView怎么写(附图片淡入淡...)
众所周知,想要让ImageView旋转的话,可以用setRotation()让其围绕中心点旋转,但这个旋转是不带动画的,也就是旋转屏幕时图片噌的一下就转过去了,看不到旋转的过程,此UI体验不大好,为此 ...
RandomStringUtils RandomUtils
上一篇是StringUtils 链接http://www.cnblogs.com/tele-share/p/8060129.html 1.RandomStringUtils 1.1模拟实现random ...
【t075】郁闷的记者
Time Limit: 1 second Memory Limit: 128 MB [问题描述] 你是一个体育报社的记者,你接受到一个艰难的任务:有N支足球队参加足球比赛,现在给你一些比赛的结果,需要 ...
.netcore consul实现服务注册与发现-集群完整版
原文:.netcore consul实现服务注册与发现-集群完整版一.Consul的集群介绍 Consul Agent有两种运行模式:Server和Client.这里的Server和Clien ...

【甘道夫】基于Mahout0.9+CDH5.2执行分布式ItemCF推荐算法

【甘道夫】基于Mahout0.9+CDH5.2执行分布式ItemCF推荐算法的更多相关文章

随机推荐

热门专题