数据挖掘系列（5）使用mahout做海量数据关联规则挖掘

　　上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘，weka方便实用，但不能处理大数据集，因为内存放不下，给它再多的时间也是无用，因此需要进行分布式计算，mahout是一个基于hadoop的分布式数据挖掘开源项目（mahout本来是指一个骑在大象上的人）。掌握了关联规则的基本算法和使用，加上分布式关联规则挖掘后，就可以处理基本的关联规则挖掘工作了，实践中只需要把握业务，理解数据便可游刃有余。

安装mahout

　　骑在大象上的侠士必然需要一头雄纠纠的大象，不过本文不解绍大象hadoop，所以我假定已经安装好了hadoop，关于hadoop的安装，请google。

　　到Apache官网下载mahout8.0

　　解压

tar -zxvf mahout-distribution-0.8.tar.gz

　　移动

sudo mv tar mahout-distribution-0.8 /usr/local/mahout-

　　配置

sudo gedit /etc/profile

　　输入以下内容：

export MAHOUT_HOME=/usr/local/mahout-

export PATH=$MAHOUT_HOME/bin:$PATH

export HADOOP_HOME=/usr/local/hadoop

export PATH=$HADOOP_HOME/bin:$PATH

　　退出用户重新登录，使配置文件生效。输入mahout -version测试是否安装成功。

数据准备

　　到http://fimi.ua.ac.be/data/下载一个购物篮数据retail.dat。

　　上传到hadoop文件系统　　

hadoop fs -mkdir  /user/hadoop/mahoutData #创建目录

hadoop fs -put ~/data/retail.dat /user/hadoop/mahoutData

调用FpGrowth算法

mahout fpg -i /user/hadoop/mahoutData/retail.dat -o patterns -method mapreduce -s  -regex '[\ ]'

　　-i表示input，-o表示-output，-s表示最小支持度，'[\ ]'表示以行内的数据以空格分开。

　　一两分钟后执行完毕，生成的文件被序列化了，直接查看会是乱码，因此需要用mahout还原回来：

 mahout seqdumper -i /user/hadoop/patterns/fpgrowth/part-r- -o ~/data/patterns.txt

　　输出结果：　　

Key: : Value: ([],)

Key: : Value: ([],), ([, ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],), ([, ],), ([, , ],), ([, , ],), ([, , , ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],), ([, ],), ([, ],), ([, , ],), ([, , ],), ([, , ],), ([, , ],), ([, , , ],), ([, , , ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],)

　　这里输出的只是频繁项集，但在此基础上提取关联规则已经不是难事。

　感谢阅读，欢迎回帖交流

转正请注明出处：www.cnblogs.com/fengfenggirl

数据挖掘系列（5）使用mahout做海量数据关联规则挖掘的更多相关文章

数据挖掘系列（4）使用weka做关联规则挖掘
前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利用数据挖掘工具weka进行 ...
数据挖掘系列 (1) 关联规则挖掘基本概念与 Aprior 算法
转自:http://www.cnblogs.com/fengfenggirl/p/associate_apriori.html 数据挖掘系列 (1) 关联规则挖掘基本概念与 Aprior 算法我计划 ...
数据挖掘系列（1）关联规则挖掘基本概念与Aprior算法
整理数据挖掘的基本概念和算法,包括关联规则挖掘.分类.聚类的常用算法,敬请期待.今天讲的是关联规则挖掘的最基本的知识. 关联规则挖掘在电商.零售.大气物理.生物医学已经有了广泛的应用,本篇文章将介绍一 ...
数据挖掘系列（2）--关联规则FpGrowth算法
上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除 ...
大数据挖掘: FPGrowth初识--进行商品关联规则挖掘
@(hadoop)[Spark, MLlib, 数据挖掘, 关联规则, 算法] [TOC] 〇.简介经典的关联规则挖掘算法包括Apriori算法和FP-growth算法.Apriori算法多次扫描交 ...
数据挖掘算法之-关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比较重要的一种.关联规则的概念由Agrawal.Imielinski.Swami 提出,是数据中一种简单但很实用的规则.关联规则模式属于描述型模式,发现关联规则的 ...
数据挖掘算法之关联规则挖掘（一）apriori算法
关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用举个简单的例子如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+... ...
数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）
在各种数据挖掘算法中,关联规则挖掘算是比較重要的一种,尤其是受购物篮分析的影响,关联规则被应用到非常多实际业务中,本文对关联规则挖掘做一个小的总结. 首先,和聚类算法一样,关联规则挖掘属于无监督学习方 ...
游戏AI系列内容咋样才能做个有意思的AI呢
游戏AI系列内容咋样才能做个有意思的AI呢写在前面的话怪物AI怎么才能做的比较有意思.其实这个命题有点大,我作为一个仅仅进入游戏行业两年接触怪物AI还不到一年的程序员来说,来谈这个话题,我想我是 ...

随机推荐

史上最全的MSSQL复习笔记 (转连接)
http://www.cnblogs.com/gameworld/p/4790881.html
Sublime text3中配置Github
一.Git安装到Git的官网上去下载相应环境的Git安装文件. 我的是win10,安装到D:\ProgramFiles\Git,在桌面右键出现下面两个红色框框就可以了. 二.Git配置及生成密钥 ...
Vbox 安装 OS X 10.11
http://bbs.pcbeta.com/viewthread-1635810-1-1.html http://ibiji.org/post/26.html 破解 Vbox 下OS 限制登录 V ...
[瞎JB写] C++多态
似乎只能通过引用或者指针进行动态多态...蛋疼的语法 #include <iostream> #include <vector> #include <memory> ...
22 扩展Python - 《Python 核心编程》
javaScript事件（三）事件对象
一.事件二.事件流以上内容见:javaScript事件(一)事件流三.事件处理程序四.IE事件处理程序以上内容见javaScript事件(二)事件处理程序五.事件对象 1.认识事件对象事 ...
教你一招 - Misc类型插件的妙用（附带插件源码）
熟悉nopcommerce插件的朋友应该知道里面有一种Misc类型的插件,比如Nop.Plugin.Misc.WebServices和 Nop.Plugin.Misc.FacebookShop,继承自 ...
Head First HTML5 Programming 读书笔记
1:HTML5引入了简单化的标记,新的语义和媒体元素,另外要依赖于一组支持web应用的js库. 2:关于js 对象是属性的结合 window对象是全局变量. document对象是window的一个属 ...
swfobject.js视频播放插件
在网页中经常会用到视频播放的功能,下面介绍一下swfobject.js的视频播放应用:html代码结构: <div id="video_content"></di ...
如何使用AutoIT完成单机测试
下面我们来介绍如何使用AutoIT完成单机程序的自动化测试.使用AutoIT完成桌面应用程序的自动化测试,最重要的是找到识别GUI对象的方法,然后调用AutoIT函数来操纵它或读取它的属性值,并与正确 ...

数据挖掘系列（5）使用mahout做海量数据关联规则挖掘

数据挖掘系列（5）使用mahout做海量数据关联规则挖掘的更多相关文章

随机推荐

热门专题