Spark实现K-Means算法

K-Means算法是一种基于距离的聚类算法，采用迭代的方法，计算出K个聚类中心，把若干个点聚成K类。

MLlib实现K-Means算法的原理是，运行多个K-Means算法，每个称为run，返回最好的那个聚类的类簇中心。初始的类簇中心，可以是随机的，也可以是KMean||得来的，迭代达到一定的次数，或者所有run都收敛时，算法就结束。

用Spark实现K-Means算法，首先修改pom文件，引入机器学习MLlib包：

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-mllib_2.10</artifactId>

            <version>1.6.0</version>

        </dependency>

代码：

import org.apache.log4j.{Level,Logger}

import org.apache.spark.{SparkContext, SparkConf}

import org.apache.spark.mllib.clustering.KMeans

import org.apache.spark.mllib.linalg.Vectors

object Kmeans {

  def main(args:Array[String]) = {

    // 屏蔽日志

    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    Logger.getLogger("org.apache.jetty.server").setLevel(Level.OFF)

    // 设置运行环境

    val conf = new SparkConf().setAppName("K-Means").setMaster("spark://master:7077")

      .setJars(Seq("E:\\Intellij\\Projects\\SimpleGraphX\\SimpleGraphX.jar"))

    val sc = new SparkContext(conf)

    // 装载数据集

    val data = sc.textFile("hdfs://master:9000/kmeans_data.txt", 1)

    val parsedData = data.map(s => Vectors.dense(s.split(" ").map(_.toDouble)))

    // 将数据集聚类,2个类,20次迭代,形成数据模型

    val numClusters = 2

    val numIterations = 20

    val model = KMeans.train(parsedData, numClusters, numIterations)

    // 数据模型的中心点

    println("Cluster centres:")

    for(c <- model.clusterCenters) {

      println("  " + c.toString)

    }

    // 使用误差平方之和来评估数据模型

    val cost = model.computeCost(parsedData)

    println("Within Set Sum of Squared Errors = " + cost)

    // 使用模型测试单点数据

    println("Vectors 7.3 1.5 10.9 is belong to cluster:" + model.predict(Vectors.dense("7.3 1.5 10.9".split(" ")

      .map(_.toDouble))))

    println("Vectors 4.2 11.2 2.7 is belong to cluster:" + model.predict(Vectors.dense("4.2 11.2 2.7".split(" ")

      .map(_.toDouble))))

    println("Vectors 18.0 4.5 3.8 is belong to cluster:" + model.predict(Vectors.dense("1.0 14.5 73.8".split(" ")

      .map(_.toDouble))))

    // 返回数据集和结果

    val result = data.map {

      line =>

        val linevectore = Vectors.dense(line.split(" ").map(_.toDouble))

        val prediction = model.predict(linevectore)

        line + " " + prediction

    }.collect.foreach(println)

    sc.stop

  }

}

使用textFile()方法装载数据集，获得RDD，再使用KMeans.train()方法根据RDD、K值和迭代次数得到一个KMeans模型。得到KMeans模型以后，可以判断一组数据属于哪一个类。具体方法是用Vectors.dense()方法生成一个Vector，然后用KMeans.predict()方法就可以返回属于哪一个类。

运行结果：

Cluster centres:

  [6.062499999999999,6.7124999999999995,11.5]

  [3.5,12.2,60.0]

Within Set Sum of Squared Errors = 943.2074999999998

Vectors 7.3 1.5 10.9 is belong to cluster:0

Vectors 4.2 11.2 2.7 is belong to cluster:0

Vectors 18.0 4.5 3.8 is belong to cluster:1

0.0 0.0 5.0 0

0.1 10.1 0.1 0

1.2 5.2 13.5 0

9.5 9.0 9.0 0

9.1 9.1 9.1 0

19.2 9.4 29.2 0

5.8 3.0 18.0 0

3.5 12.2 60.0 1

3.6 7.9 8.1 0

Spark实现K-Means算法的更多相关文章

KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
K－means算法
K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? ...
spark Bisecting k-means（二分K均值算法）
Bisecting k-means(二分K均值算法) 二分k均值(bisecting k-means)是一种层次聚类方法,算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二.之后选择能最大程 ...
Spark中常用的算法
Spark中常用的算法: 3.2.1 分类算法分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类.分类在数据挖掘中是一项重要 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...
[Machine-Learning] K临近算法-简单例子
k-临近算法算法步骤 k 临近算法的伪代码,对位置类别属性的数据集中的每个点依次执行以下操作: 计算已知类别数据集中的每个点与当前点之间的距离: 按照距离递增次序排序: 选取与当前点距离最小的k个点 ...
k近邻算法的Java实现
k近邻算法是机器学习算法中最简单的算法之一,工作原理是:存在一个样本数据集合,即训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据和所属分类的对应关系.输入没有标签的新数据之后, ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
聚类算法：K-means 算法(k均值算法)
k-means算法: 第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设 ...

随机推荐

《剑指offer》-斐波那契数列
大家都知道斐波那契数列,现在要求输入一个整数n,请你输出斐波那契数列的第n项. n<=39 这么直接的问fibonacci,显然是迭代计算.递归的问题在于重复计算,而迭代则避免了这一点:递归是自 ...
Promise 基础学习
Promise 是ES6的特性之一,采用的是 Promise/A++ 规范,它抽象了异步处理的模式,是一个在JavaScript中实现异步执行的对象. 按照字面释意 Promise 具有"承 ...
python全栈开发day43-javascript
一.昨日内容回顾 1.绝对定位的盒子居中 left:50%: margin-left:负的盒子宽度的一半 2.固定位置脱离标准文档流作用:返回顶部,广告,滚动监听栏.固定导航栏(body{marg ...
Asp.Net Core2.0获取客户IP地址，及解决发布到Ubuntu服务器获取不到正确IP解决办法
1.获取客户端IP地址实现方法(扩展类) using Microsoft.AspNetCore.Http; using Microsoft.AspNetCore.Mvc.ModelBinding; u ...
php 三元运算符实例详细介绍
三元运算符的功能与“if....else”流程语句一致,它在一行中书写,代码精练.执行效率高.在PHP程序中恰当地使用三元运算符能够让脚本更为简洁.高效.代码的语法如下: ? 1 (expr1)?(e ...
POJ 3414 Pot (输出路径)【BFS】
<题目链接> 题目大意: 有两个容量的空杯子,能够对这两个空杯子进行三种操作: 分别是fill(a),装满a杯子: drop(a),倒空a杯子: pour(a,b),将a杯子中的水倒入b杯 ...
BZOJ.2724.[Violet 6]蒲公英(静态分块)
题目链接区间众数强制在线考虑什么样的数会成为众数如果一个区间S1的众数为x,那么S1与新区间S2的并的众数只会是x或S2中的数所以我们可以分块先预处理f[i][j]表示第i到第j块的众数对 ...
潭州课堂25班：Ph201805201 爬虫基础第四课 Requests (课堂笔记)
优雅到骨子里的Requests 1528811134432 简介上一篇文章介绍了Python的网络请求库urllib和urllib3的使用方法,那么,作为同样是网络请求库的Request ...
数码管应用digital_pile
#include "reg52.h" #include "digital_pile.h" void main(){ //P0 = 0x00; //P2 = 0x ...
apache 中 RewriteCond 介绍
一.Yii2 URL美化修改Apache配置文件之前,需要先在 httpd.conf中搜索一下 rewrite ,查看一下 LoadModule rewrite_module modules/mod ...

Spark实现K-Means算法

Spark实现K-Means算法的更多相关文章

随机推荐

热门专题