Mahout源码分析：并行化FP-Growth算法

【Mahout源码分析：并行化FP-Growth算法】的更多相关文章

死磕以太坊源码分析之Ethash共识算法

死磕以太坊源码分析之Ethash共识算法代码分支:https://github.com/ethereum/go-ethereum/tree/v1.9.9 引言目前以太坊中有两个共识算法的实现:clique和ethash.而ethash是目前以太坊主网(Homestead版本)的POW共识算法. 目录结构 ethash模块位于以太坊项目目录下的consensus/ethash目录下. algorithm.go 实现了Dagger-Hashimoto算法的所有功能,比如生成cache和datas…

Mahout源码分析：并行化FP-Growth算法

FP-Growth是一种常被用来进行关联分析,挖掘频繁项的算法.与Aprior算法相比,FP-Growth算法采用前缀树的形式来表征数据,减少了扫描事务数据库的次数,通过递归地生成条件FP-tree来挖掘频繁项.参考资料[1]详细分析了这一过程.事实上,面对大数据量时,FP-Growth算法生成的FP-tree非常大,无法放入内存,挖掘到的频繁项也可能有指数多个.本文将分析如何并行化FP-Growth算法以及Mahout中并行化FP-Growth算法的源码. 1. 并行化FP-Growth 并行…

Mahout源码分析之 -- QR矩阵分解

一.算法原理请参考我在大学时写的<QR方法求矩阵全部特征值>,其包含原理.实例及C语言实现:http://www.docin.com/p-114587383.html 二.源码分析这里有一篇文章<使用MapRedece进行QR分解的步骤>可以看看 /** For an <tt>m x n</tt> matrix <tt>A</tt> with <tt>m >= n</tt>, the QR decom…

Mahout源码分析之 -- 文档向量化TF-IDF

fesh个人实践,欢迎经验交流!Blog地址:http://www.cnblogs.com/fesh/p/3775429.html Mahout之SparseVectorsFromSequenceFiles源码分析一.原理 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降. TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文…

mahout源码分析之Decision Forest 三部曲之二BuildForest（1）

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. BuildForest是在mahout-examples-0.7-job.jar包的org\apache\mahout\classifier\df\mapreduce 路径下.直接运行该类,可以看到该类的使用方式: Usage: [--data <path> --dataset <dataset> --selection <m> --no-complete --minspli…

zookeeper源码分析二FASTLEADER选举算法

如何在zookeeper集群中选举出一个leader,zookeeper使用了三种算法,具体使用哪种算法,在配置文件中是可以配置的,对应的配置项是"electionAlg",其中1对应的是LeaderElection算法,2对应的是AuthFastLeaderElection算法,3对应的是FastLeaderElection算法.默认使用FastLeaderElection算法.其他两种算法我没有研究过,就不多说了. 要理解这个算法,最好需要一些paxos算法的理论基础. 1) 数据…

mahout源码分析之DistributedLanczosSolver（五）Job over

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. 1. Job 篇接上篇,分析到EigenVerificationJob的run方法: public int run(Path corpusInput, Path eigenInput, Path output, Path tempOut, double maxError, double minEigenValue, boolean inMemory, Configuration conf) thro…

mahout源码分析之DistributedLanczosSolver（六）完结篇

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. 接上篇,分析完3个Job后得到继续往下:其实就剩下两个函数了: List<Map.Entry<MatrixSlice, EigenStatus>> prunedEigenMeta = pruneEigens(eigenMetaData); saveCleanEigens(new Configuration(), prunedEigenMeta); 看pruneEigens函数: priv…

mahout算法源码分析之Collaborative Filtering with ALS-WR 并行思路

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. mahout算法源码分析之Collaborative Filtering with ALS-WR 这个算法的并行主要就应该是ParallelALSFactorizationJob这里的并行了,下图是这个Job的大部分操作: 这里分析并行就是看每个job任务是否可以出现多个map或者reduce即可. (1)首先分析前面三个itemRatings,对应的输入是原始文件,如果原始文件很大的话,那么这个任务…

mahout算法源码分析之Collaborative Filtering with ALS-WR （四）评价和推荐

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. 首先来总结一下 mahout算法源码分析之Collaborative Filtering with ALS-WR (三),这个写了三篇,基本都是写QR分解,然后矩阵进过处理得到U或者M的过程,但是还是没有讲出个所以然来.mahout官网上说其是根据这篇文献得来的Large-scale Parallel Collaborative Filtering for the Netﬂix Prize,本来我是想…