spark mllib k-means算法实现

package iie.udps.example.spark.mllib;

import java.util.regex.Pattern;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.mllib.clustering.KMeans;

import org.apache.spark.mllib.clustering.KMeansModel;

import org.apache.spark.mllib.linalg.Vector;

import org.apache.spark.mllib.linalg.Vectors;

/**

 * Example using MLLib KMeans from Java.

 *

 * spark-submit --class iie.udps.example.spark.mllib.JavaKMeans --master

 * yarn-cluster --num-executors 15 --driver-memory 512m --executor-memory 2g

 * --executor-cores 2 /home/xdf/test2.jar /user/xdf/Example.txt 10 2

 */

public final class JavaKMeans {

	@SuppressWarnings("serial")

	private static class ParsePoint implements Function<String, Vector> {

		private static final Pattern SPACE = Pattern.compile(",");

		@Override

		public Vector call(String line) {

			String[] tok = SPACE.split(line);

			// 统一数据维度为3，此处没有考虑其他异常数据情况

			if (tok.length < 3) {

				tok = SPACE.split(line + ",0");

				for (int i = tok.length; i < 3; i++) {

					tok[i] = "0";

				}

			}

			if (tok.length > 3) {

				tok = SPACE.split("0,0,0");

			}

			double[] point = new double[tok.length];

			for (int i = 0; i < tok.length; ++i) {

				point[i] = Double.parseDouble(tok[i]);

			}

			return Vectors.dense(point);

		}

	}

	public static void main(String[] args) {

		if (args.length < 3) {

			System.err

					.println("Usage: JavaKMeans <input_file> <k> <max_iterations> [<runs>]");

			System.exit(1);

		}

		String inputFile = args[0]; // 要读取的文件

		int k = Integer.parseInt(args[1]); // 聚类个数

		int iterations = Integer.parseInt(args[2]); // 迭代次数

		int runs = 1; // 运行算法次数

		if (args.length >= 4) {

			runs = Integer.parseInt(args[3]);

		}

		SparkConf sparkConf = new SparkConf().setAppName("JavaKMeans");

		// sparkConf.set("spark.default.parallelism", "4");

		// sparkConf.set("spark.akka.frameSize", "1024");

		System.setProperty(

				"dfs.client.block.write.replace-datanode-on-failure.enable",

				"true");

		System.setProperty(

				"dfs.client.block.write.replace-datanode-on-failure.policy",

				"never");

		// sparkConf.set(

		// "dfs.client.block.write.replace-datanode-on-failure.enable",

		// "true");

		// sparkConf.set(

		// "dfs.client.block.write.replace-datanode-on-failure.policy",

		// "never");

		JavaSparkContext sc = new JavaSparkContext(sparkConf);

		// 指定文件分片数

		JavaRDD<String> lines = sc.textFile(inputFile,2400);// ,1264 , 1872,2400

		JavaRDD<Vector> points = lines.map(new ParsePoint());

		KMeansModel model = KMeans.train(points.rdd(), k, iterations, runs,

				KMeans.K_MEANS_PARALLEL());

//		 System.out.println("Vector 98, 345, 90 belongs to clustering :"

//		 + model.predict(Vectors.dense(98, 345, 90)));

//		 System.out.println("Vector 748, 965, 202 belongs to clustering :"

//		 + model.predict(Vectors.dense(748, 965, 202)));

//		 System.out.println("Vector 310, 554, 218 belongs to clustering :"

//		 + model.predict(Vectors.dense(310, 554, 218)));

		System.out.println("Cluster centers:");

		for (Vector center : model.clusterCenters()) {

			System.out.println(" " + center);

		}

		double cost = model.computeCost(points.rdd());

		System.out.println("Cost: " + cost);

		sc.stop();

	}

}

spark mllib k-means算法实现的更多相关文章

Spark MLlib FPGrowth关联规则算法
一.简介 FPGrowth算法是关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息.在算法中使用了一种称为频繁模式树(Frequent ...
Spark MLlib KMeans 聚类算法
一.简介 KMeans 算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把分类样本点分到各个簇.然后按平均法重新计算各个簇的质心,从而确定新的簇心.一直迭代,直到簇心的移动距离小于某个给定的值. ...
Spark MLlib协同过滤算法
算法说明协同过滤(Collaborative Filtering,简称CF,WIKI上的定义是:简单来说是利用某个兴趣相投.拥有共同经验之群体的喜好来推荐感兴趣的资讯给使用者,个人透过合作的机制给予 ...
Spark mllib 随机森林算法的简单应用（附代码）
此前用自己实现的随机森林算法,应用在titanic生还者预测的数据集上.事实上,有很多开源的算法包供我们使用.无论是本地的机器学习算法包sklearn 还是分布式的spark mllib,都是非常不错 ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
十二、spark MLlib的scala示例
简介 spark MLlib官网:http://spark.apache.org/docs/latest/ml-guide.html mllib是spark core之上的算法库,包含了丰富的机器学习 ...
Spark Mllib里如何生成KMeans的训练样本数据、生成线性回归的训练样本数据、生成逻辑回归的训练样本数据和其他数据生成
不多说,直接上干货! 具体,见 Spark Mllib机器学习(算法.源码及实战详解)的第2章 Spark数据操作
Spark Mllib里的向量标签概念、构成（图文详解）
不多说,直接上干货! Labeled point: 向量标签向量标签用于对Spark Mllib中机器学习算法的不同值做标记. 例如分类问题中,可以将不同的数据集分成若干份,以整数0.1.2,... ...
Spark MLlib架构解析（含分类算法、回归算法、聚类算法和协同过滤）
Spark MLlib架构解析 MLlib的底层基础解析 MLlib的算法库分析分类算法回归算法聚类算法协同过滤 MLlib的实用程序分析从架构图可以看出MLlib主要包含三个部分: 底层基 ...

随机推荐

js判断手机系统和微信
//判断手机浏览器 var ua = navigator.userAgent; var ipad = ua.match(/(iPad).*OS\s([\d_]+)/), isIphone = !ipa ...
创建论坛Discuz
下载discuz! mkdir /data/wwwcd /data/wwwwget http://download.comsenz.com/DiscuzX/3.2/Discuz_X3.2_SC_GB ...
ASCII转义字符
转义字符意义 ASCII码值(十进制) \a 响铃(BEL) 007 \b 退格(BS) 008 \f 换页(FF) 012 \n 换行(LF) 010 \r 回车(CR) 013 \t 水平制表( ...
[转]AndroidTolls国内镜像
AndroidDevTools简介 Android Dev Tools官网地址:www.androiddevtools.cn 收集整理Android开发所需的Android SDK.开发中用到的工具. ...
【第53套模拟题】【递推】【RMQ】【二进制】【分块】
题目:(开始自己描述题目了...) 第一题大意: 求1~n的所有排列中逆序对为k个的方案数,输出方案数%10000,n<=1000. 解:这道题一个递推,因为我基本上没怎么自己做过递推,所以推了 ...
CSU1022
题目: blue和AutoGerk是好朋友.他们的相同点是都喜欢研究算法,不同点是AutoGerk已是大牛而blue还是菜鸟.blue经常拿一些自以为很难的问题去问AutoGerk,想难倒他,但是每次 ...
win10 用微软账户登录无法访问共享的问题
百度找了一大堆可以解决的,最终最简单的方式(可能是bug): 测试了一下,Win10用微软账户登录的,连局域网共享时,输入用户名的时候,前面加个乱七八糟的域名就可以访问了: 比如: 用户名: ba ...
linux内核编译
1,进入内核源码树,如果是第一次编译,建议清理以下内核功能选择文件: make mrproper 2,删除前一次编译的残留文件: make clean 3,配置内核功能 make menuconfig ...
[转]Android系统Surface机制的SurfaceFlinger服务简要介绍和学习计划
转自:Android系统Surface机制的SurfaceFlinger服务简要介绍和学习计划前面我们从Android应用程序与SurfaceFlinger服务的关系出发,从侧面简单学习了Surfa ...
[windows驱动]内核态驱动架构
1.windows驱动简介: 1.1 windows组件简介: 1.2 windows驱动类型: windows驱动分为两种基本类型: 用户态驱动在用户态下执行.它们一般提供一套win32应用程序和内 ...

spark mllib k-means算法实现

spark mllib k-means算法实现的更多相关文章

随机推荐

热门专题