改用MyAnalyzer的KMeans聚类算法

<strong><span style="font-size:18px;">/***

 * @author YangXin

 * @info 改用MyAnalyzer的KMeans聚类算法

 */

package unitTen;

import java.io.File;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.SequenceFile;

import org.apache.lucene.analysis.Analyzer;

import org.apache.mahout.clustering.Cluster;

import org.apache.mahout.clustering.kmeans.KMeansDriver;

import org.apache.mahout.clustering.kmeans.RandomSeedGenerator;

import org.apache.mahout.common.HadoopUtil;

import org.apache.mahout.common.distance.CosineDistanceMeasure;

import org.apache.mahout.vectorizer.DictionaryVectorizer;

import org.apache.mahout.vectorizer.DocumentProcessor;

import org.apache.mahout.vectorizer.tfidf.TFIDFConverter;

public class NewsKMeansClustering {

	public static void main(String args[]) throws Exception {

	    int minSupport = 5;

	    int minDf = 5;

	    int maxDFPercent = 99;

	    int maxNGramSize = 1;

	    int minLLRValue = 50;

	    int reduceTasks = 1;

	    int chunkSize = 200;

	    int norm = -1;

	    boolean sequentialAccessOutput = true;

	    String inputDir = "reuters-seqfiles";

	    File inputDirFile = new File(inputDir);

	    Configuration conf = new Configuration();

	    FileSystem fs = FileSystem.get(conf);

	    String outputDir = "newsClusters";

	    HadoopUtil.delete(conf, new Path(outputDir));

	    Path tokenizedPath = new Path(outputDir,

	        DocumentProcessor.TOKENIZED_DOCUMENT_OUTPUT_FOLDER);

	    MyAnalyzer analyzer = new MyAnalyzer();

	    DocumentProcessor.tokenizeDocuments(new Path(inputDir), analyzer

	        .getClass().asSubclass(Analyzer.class), tokenizedPath, conf);

	    DictionaryVectorizer.createTermFrequencyVectors(tokenizedPath,

	      new Path(outputDir), conf, minSupport, maxNGramSize, minLLRValue, 2, true, reduceTasks,

	      chunkSize, sequentialAccessOutput, false);

	    TFIDFConverter.processTfIdf(

	      new Path(outputDir , DictionaryVectorizer.DOCUMENT_VECTOR_OUTPUT_FOLDER),

	      new Path(outputDir), conf, chunkSize, minDf,

	      maxDFPercent, norm, true, sequentialAccessOutput, false, reduceTasks);

	    Path vectorsFolder = new Path(outputDir, "tfidf-vectors");

	    Path centroids = new Path(outputDir, "centroids");

	    Path clusterOutput = new Path(outputDir, "clusters");

	    RandomSeedGenerator.buildRandom(conf, vectorsFolder, centroids, 20,

	      new CosineDistanceMeasure());

	    KMeansDriver.run(conf, vectorsFolder, centroids, clusterOutput,

	      new CosineDistanceMeasure(), 0.01, 20, true, false);

	    SequenceFile.Reader reader = new SequenceFile.Reader(fs,

	        new Path(clusterOutput, Cluster.CLUSTERED_POINTS_DIR

	                                + "/part-m-00000"), conf);

	  }

}

</span></strong>

改用MyAnalyzer的KMeans聚类算法的更多相关文章

机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
K-means聚类算法（转）
K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是 ...
K-Means 聚类算法
K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
K-Means 聚类算法原理分析与代码实现
前言在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
Kmeans聚类算法原理与实现
Kmeans聚类算法 1 Kmeans聚类算法的基本原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一.K-means算法的基本思想是:以空间中k个点为中心进行聚类,对 ...
转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
沙湖王 | 用Scipy实现K-means聚类算法
沙湖王 | 用Scipy实现K-means聚类算法用Scipy实现K-means聚类算法
Matlab中K-means聚类算法的使用（K-均值聚类）
K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小. 使用方法:Idx=Kmeans(X,K)[Idx,C]=Kmeans(X,K) [Idx, ...

随机推荐

pandas神坑：如果列有NAN，则默认给数据转换为float类型！给pandas列指定不同的数据类型。
今天碰到一个错误,一个字典取值报keyError, 一查看key, 字符串类型的数字后面多了小数点0, 变成了float的样子了. 发现了pandas一个坑:如果列有NAN,则默认给数据转换为floa ...
草摆动shader
Shader "Custom/Grass" { Properties { _MainTex ("Grass Texture", 2D) = "whit ...
BZOJ3531 [Sdoi2014]旅行【树剖 + 线段树】
题目 S国有N个城市,编号从1到N.城市间用N-1条双向道路连接,满足从一个城市出发可以到达其它所有城市.每个城市信仰不同的宗教,如飞天面条神教.隐形独角兽教.绝地教都是常见的信仰.为了方便,我们用 ...
短文对话的神经反应机 -- Neural Responding Machine for Short-Text Conversation学习笔记
最近学习了一篇ACL会议上的文章,讲的是做一个短文对话的神经反映机, 原文: 会议:ACL(2015) 文章条目: Lifeng Shang, Zhengdong Lu, Hang Li: Ne ...
自定义JavaScript字典类jsdictionary.js
/* Dictionary类:本类实现了字典功能,所有方法.属性都模仿System..Collection.Generic.Dictionary类构造函数: Dictionary() 属性: Com ...
HTML5 录音的踩坑之旅
开篇闲扯前一段时间的一个案子是开发一个有声课件,大致就是通过导入文档.图片等资源后,页面变为类似 PPT 的布局,然后选中一张图片,可以插入音频,有单页编辑和全局编辑两种模式.其中音频的导入方式有两 ...
soc与cpu区别
soc(System on Chip)片上系统cpu只包括运算器和控制器.早期的系统是指在PCB上有cpu和Nand控制器,LCD控制器之类的控制器,构成一个系统. cpu和这些控制器之间用pcb板 ...
知乎上的一些文章---leetcode【笔记1】
张土汪 http://github.com/shawnfan Java{script}代码仔 42 人赞同 [1.19.2017] 更新: 2017年1月17日, 陪我征战多年的 2014 MackB ...
Codeforces 899 A.Splitting in Teams
A. Splitting in Teams time limit per test 1 second memory limit per test 256 megabytes input sta ...
Interview | Why are manhole covers round and not square or rectangular?
Manholes, which interconnect underground sewerage pipes, and serve as a point of entry for cleaning ...

改用MyAnalyzer的KMeans聚类算法

改用MyAnalyzer的KMeans聚类算法的更多相关文章

随机推荐

热门专题