改用MyAnalyzer的KMeans聚类算法

<strong><span style="font-size:18px;">/***

 * @author YangXin

 * @info 改用MyAnalyzer的KMeans聚类算法

 */

package unitTen;

import java.io.File;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.SequenceFile;

import org.apache.lucene.analysis.Analyzer;

import org.apache.mahout.clustering.Cluster;

import org.apache.mahout.clustering.kmeans.KMeansDriver;

import org.apache.mahout.clustering.kmeans.RandomSeedGenerator;

import org.apache.mahout.common.HadoopUtil;

import org.apache.mahout.common.distance.CosineDistanceMeasure;

import org.apache.mahout.vectorizer.DictionaryVectorizer;

import org.apache.mahout.vectorizer.DocumentProcessor;

import org.apache.mahout.vectorizer.tfidf.TFIDFConverter;

public class NewsKMeansClustering {

	public static void main(String args[]) throws Exception {

	    int minSupport = 5;

	    int minDf = 5;

	    int maxDFPercent = 99;

	    int maxNGramSize = 1;

	    int minLLRValue = 50;

	    int reduceTasks = 1;

	    int chunkSize = 200;

	    int norm = -1;

	    boolean sequentialAccessOutput = true;

	    String inputDir = "reuters-seqfiles";

	    File inputDirFile = new File(inputDir);

	    Configuration conf = new Configuration();

	    FileSystem fs = FileSystem.get(conf);

	    String outputDir = "newsClusters";

	    HadoopUtil.delete(conf, new Path(outputDir));

	    Path tokenizedPath = new Path(outputDir,

	        DocumentProcessor.TOKENIZED_DOCUMENT_OUTPUT_FOLDER);

	    MyAnalyzer analyzer = new MyAnalyzer();

	    DocumentProcessor.tokenizeDocuments(new Path(inputDir), analyzer

	        .getClass().asSubclass(Analyzer.class), tokenizedPath, conf);

	    DictionaryVectorizer.createTermFrequencyVectors(tokenizedPath,

	      new Path(outputDir), conf, minSupport, maxNGramSize, minLLRValue, 2, true, reduceTasks,

	      chunkSize, sequentialAccessOutput, false);

	    TFIDFConverter.processTfIdf(

	      new Path(outputDir , DictionaryVectorizer.DOCUMENT_VECTOR_OUTPUT_FOLDER),

	      new Path(outputDir), conf, chunkSize, minDf,

	      maxDFPercent, norm, true, sequentialAccessOutput, false, reduceTasks);

	    Path vectorsFolder = new Path(outputDir, "tfidf-vectors");

	    Path centroids = new Path(outputDir, "centroids");

	    Path clusterOutput = new Path(outputDir, "clusters");

	    RandomSeedGenerator.buildRandom(conf, vectorsFolder, centroids, 20,

	      new CosineDistanceMeasure());

	    KMeansDriver.run(conf, vectorsFolder, centroids, clusterOutput,

	      new CosineDistanceMeasure(), 0.01, 20, true, false);

	    SequenceFile.Reader reader = new SequenceFile.Reader(fs,

	        new Path(clusterOutput, Cluster.CLUSTERED_POINTS_DIR

	                                + "/part-m-00000"), conf);

	  }

}

</span></strong>

改用MyAnalyzer的KMeans聚类算法的更多相关文章

机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
K-means聚类算法（转）
K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是 ...
K-Means 聚类算法
K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
K-Means 聚类算法原理分析与代码实现
前言在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
Kmeans聚类算法原理与实现
Kmeans聚类算法 1 Kmeans聚类算法的基本原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一.K-means算法的基本思想是:以空间中k个点为中心进行聚类,对 ...
转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
沙湖王 | 用Scipy实现K-means聚类算法
沙湖王 | 用Scipy实现K-means聚类算法用Scipy实现K-means聚类算法
Matlab中K-means聚类算法的使用（K-均值聚类）
K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小. 使用方法:Idx=Kmeans(X,K)[Idx,C]=Kmeans(X,K) [Idx, ...

随机推荐

Map 的两种遍历方法详细说明
//方法一 Set<String> set = map.keySet(); for (String s:set) { System.out.println(s+","+ ...
springdata jpa
(转自:http://www.cnblogs.com/ityouknow/p/5891443.html) 首先了解JPA是什么? JPA(Java Persistence API)是Sun官方提出的J ...
谈谈Python中元类Metaclass(二)：ORM实践
什么是ORM? ORM的英文全称是“Object Relational Mapping”,即对象-关系映射,从字面上直接理解,就是把“关系”给“对象”化. 对应到数据库,我们知道关系数据库(例如Mys ...
做一个APP
前言有点零乱,但是我想写下来慢慢整理,搭建一个好点的工程-模式MVC, 会包括一些第三方库,动画库,第三方库管理关联,自定义常用控件的管理和关联 1.预编译文件的创建在build setting ...
[HNOI2004][bzoj1212] L语言 [Trie+dp]
题面传送门思路无后效性显然,不管某个前缀的理解方式是怎么样的,如果它能被理解,那么前面的决策对于后面的决策而言都是等价的因此这题可以DP DP方程令$dp[i]$表示前缀i是否能被理解那 ...
采花 flower
采花 flower 题目描述萧芸斓是 Z 国的公主,平时的一大爱好是采花. 今天天气晴朗,阳光明媚,公主清晨便去了皇宫中新建的花园采花.花园足够大,容纳了 n 朵花,花有 c 种颜色(用整数 1- ...
/bin , /sbin , /usr/sbin , /usr/local/sbin 的区别
usr 是 UNIX Software Resource 的缩写,也就是 Unix操作系统软件资源所放置的目录. 一 /bin:Essential user command binaries(for ...
Treblecross（uva 10561）
题意:一个 1 × n 的棋盘,有 X 和 :,当棋盘上出现三个连续的X 时游戏结束,两人轮流操作,每次能把一个 : 变成 X,问先手必胜方案数以及先手可以放的位置. /* 对于先手,当有一个'X'时 ...
pat 甲级 1064. Complete Binary Search Tree (30)
1064. Complete Binary Search Tree (30) 时间限制 100 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHE ...
XPath gramma
XPath 使用路径表达式来选取 XML 文档中的节点或节点集.节点是通过沿着路径 (path) 或者步 (steps) 来选取的. XML 实例文档我们将在下面的例子中使用这个 XML 文档. & ...

改用MyAnalyzer的KMeans聚类算法

改用MyAnalyzer的KMeans聚类算法的更多相关文章

随机推荐

热门专题