【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用

今天调研了并行化频繁模式挖掘算法PFP Growth及其在Mahout下的命令使用，简单记录下试验结果，供以后查阅：

环境：Jdk1.7 + Hadoop2.2.0单机伪集群 + Mahout0.6（0.8和0.9版本号都不包括该算法。Mahout0.6能够和Hadoop2.2.0和平共处有点意外orz）

部分输入数据，输入数据一行代表一个购物篮：

4750,19394,25651,6395,5592

26180,10895,24571,23295,20578,27791,2729,8637

7380,18805,25086,19048,3190,21995,10908,12576

3458,12426,20578

1880,10702,1731,5185,18575,28967

21815,10872,18730

20626,17921,28930,14580,2891,11080

18075,6548,28759,17133

7868,15200,13494

7868,28617,18097,22999,16323,8637,7045,25733

12189,8816,22950,18465,13258,27791,20979

26728

17512,14821,18741

26619,14470,21899,6731

5184

28653,28662,18353,27437,5661,12078,11849,15784,7248,7061,18612,24277,4807,15584,9671,18741,3647,1000

。。

。

运行命令：

mahout fpg -i /workspace/dataguru/hadoopdev/week13/fpg/in/ -o /workspace/dataguru/hadoopdev/week13/fpg/out -method mapreduce -s 3

參数说明：

-i 输入路径，因为执行在hadoop环境中，所以输入路径必须是hdfs路径，实验的输入路径是/workspace/dataguru/hadoopdev/week13/fpg/in/user2items.csv

-o 输出路径，指定hdfs中的输出路径

完整參数说明參见下表：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMDk2NzM4Mg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

命令运行以后的输出文件夹：

casliyang@singlehadoop:~$ hadoop dfs -ls /workspace/dataguru/hadoopdev/week13/fpg/out

DEPRECATED: Use of this script to execute hdfs command is deprecated.

Instead use the hdfs command for it.

Found 4 items

-rw-r--r-- 3 casliyang supergroup 5567 2014-06-17 17:50 /workspace/dataguru/hadoopdev/week13/fpg/out/fList

drwxr-xr-x - casliyang supergroup 0 2014-06-17 17:51 /workspace/dataguru/hadoopdev/week13/fpg/out/fpgrowth

drwxr-xr-x - casliyang supergroup 0 2014-06-17 17:51 /workspace/dataguru/hadoopdev/week13/fpg/out/frequentpatterns

drwxr-xr-x - casliyang supergroup 0 2014-06-17 17:50 /workspace/dataguru/hadoopdev/week13/fpg/out/parallelcounting

挖掘出来的频繁模式在frequentpatterns目录下

casliyang@singlehadoop:~$ hadoop dfs -ls /workspace/dataguru/hadoopdev/week13/fpg/out/frequentpatterns

DEPRECATED: Use of this script to execute hdfs command is deprecated.

Instead use the hdfs command for it.

Found 2 items

-rw-r--r-- 3 casliyang supergroup 0 2014-06-17 17:51 /workspace/dataguru/hadoopdev/week13/fpg/out/frequentpatterns/_SUCCESS

-rw-r--r-- 3 casliyang supergroup 10017 2014-06-17 17:51 /workspace/dataguru/hadoopdev/week13/fpg/out/frequentpatterns/part-r-00000

该文件是序列化文件，不能直接查看，mahout提供了命令能够将其转换为普通文本：

mahout seqdumper -s /workspace/dataguru/hadoopdev/week13/fpg/out/frequentpatterns/part-r-00000 -o /home/casliyang/outpattern

这里要注意。-o指定的输出文件路径必须是linux文件系统。而且目标文件必须提前创建好，否则会报错。

终于输出到/home/casliyang/outpattern的部分结果

Key: 29099: Value: ([29099],18), ([29099, 4479],3)

Key: 29202: Value: ([29202],3)

Key: 29203: Value: ([29203],9), ([14020, 29203],3)

Key: 29224: Value: ([29224],3)

Key: 29547: Value: ([29547],5)

Key: 2963: Value: ([2963],8), ([2963, 21146],3)

Key: 2999: Value: ([2999],3)

Key: 3032: Value: ([3032],4)

Key: 3047: Value: ([3047],4)

Key: 3151: Value: ([3151],7), ([14020, 3151],4)

Key: 3181: Value: ([3181],3)

Key: 3228: Value: ([3228],14)

Key: 3313: Value: ([3313],3)

Key: 3324: Value: ([3324],3)

Key: 3438: Value: ([3438],3)

Key: 3458: Value: ([3458],4)

Key: 3627: Value: ([3627],11), ([3627, 11176],3)

。。。。

。

含义：

Key：itemid

Value：和该item相关的频繁模式及其支持度

有了挖掘出来的频繁模式。就能够进一步用程序依据业务需求做处理了。

Mahout真是个伟大的开源项目。

【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用的更多相关文章

静态频繁子图挖掘算法用于动态网络——gSpan算法研究
摘要随着信息技术的不断发展,人类可以很容易地收集和储存大量的数据,然而,如何在海量的数据中提取对用户有用的信息逐渐地成为巨大挑战.为了应对这种挑战,数据挖掘技术应运而生,成为了最近一段时期数据科学的 ...
频繁模式挖掘 Apriori算法 FP-tree
啤酒尿布组合营销 X=>Y,其中x属于项集I,Y属于项集I,且X.Y的交集等于空集. 2类算法 Apriori算法不断地构造候选集.筛选候选集来挖掘出频繁项集,需要多次扫描原始数据.磁盘I ...
八、频繁模式挖掘Frequent Pattern Mining
频繁模式挖掘(Frequent Pattern Mining): 频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题.建议用户参考维基百科的association r ...
频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
【甘道夫】MapReduce实现矩阵乘法--实现代码
之前写了一篇分析MapReduce实现矩阵乘法算法的文章: [甘道夫]Mapreduce实现矩阵乘法的算法思路为了让大家更直观的了解程序运行,今天编写了实现代码供大家參考. 编程环境: java v ...
频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比（Python实现）
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
【甘道夫】Win7x64环境下编译Apache Hadoop2.2.0的Eclipse小工具
目标: 编译Apache Hadoop2.2.0在win7x64环境下的Eclipse插件环境: win7x64家庭普通版 eclipse-jee-kepler-SR1-win32-x86_64.z ...
频繁模式挖掘apriori算法介绍及Java实现
频繁模式是频繁地出如今数据集中的模式(如项集.子序列或者子结构).比如.频繁地同一时候出如今交易数据集中的商品(如牛奶和面包)的集合是频繁项集. 一些基本概念支持度:support(A=>B) ...
数据挖掘（七）：Apriori算法：频繁模式挖掘
1 算法思想算法使用频繁项集性质的先验知识.Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集.首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项 ...

随机推荐

OpenCV2:总结篇工具方法函数
一.简介 OpenCV提供了一些工具方法函数来辅助完成图像运算二.时间相关 1.getTickCount()和getTickFrequency() double tTime; tTime = (do ...
1-jdk的安装与配置
1- Jvm.jdk.jre之间的关系 JVM:Java虚拟机,保证java程序跨平台.(Java Virtual Machine) JRE: Java运行环境,包含JVM和核心类库.如果只是想运行j ...
第1节 flume：4、离线项目处理的整个架构图；5、flume的基本介绍；
第1节 flume:4.离线项目处理的整个架构图辅助系统工具:flume,azkaban,sqoop. 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心 ...
JSON parse error: Can not construct instance of model.Class: no suitable constructor found
reference:http://blog.csdn.net/qq_33642117/article/details/51909346 当类中没有定义构造函数时,系统会指定给该类加上一个空参数的构造函 ...
new命令的原理
function Person(name, age) { this.name = name; this.age = age } var person = new Person('小明', 18); c ...
【java基础 4】树形结构数据呈现的非递归算法（循环）实现
一.基本概况上一篇博客介绍到用递归实现树结构数据的查找,那么这篇博客,我就结合自己对于树的理解,然后用一种非递归的方式进行树结构数据的处理.首先,改造数据库表设计,加入度的概念: 首先,layer的 ...
FZU2102Solve equation
Problem 2102 Solve equation Accept: 881 Submit: 2065 Time Limit: 1000 mSec Memory Limit : 3276 ...
[luoguP1273] 有线电视网（DP）
传送门 f[i][j]表示节点i选j个用户的最大收益 #include <cstdio> #include <cstring> #include <iostream> ...
POJ 1276 Cash Machine 【DP】
多重背包的模型,但一开始直接将N个物品一个一个拆,拆成01背包竟然T了!!好吧OI过后多久没看过背包问题了,翻出背包九讲看下才发现还有二进制优化一说........就是将n个物品拆成系数:1,2,4, ...
【并查集】F.find the most comfortable road
https://www.bnuoj.com/v3/contest_show.php?cid=9146#problem/F [题意] 给定n个城市和m条带权边,q次查询,问某两个城市之间的所有路径中最大 ...

【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用

【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用的更多相关文章

随机推荐

热门专题