【机器学习笔记五】聚类

参考资料：

【1】Spark Mlib 机器学习实践

【2】机器学习

【3】深入浅出K-means算法 http://www.csdn.net/article/2012-07-03/2807073-k-means

一、概念

K-means聚类是在无监督的情况下，将样本数据进行聚类。以2均值聚类的算法为例：

1、在样本中选择两个初始化中心点；

2、计算所有样本到这两个中心点的距离，并以此为基准将样本分为两类；

3、将中心点移到这类样本的新中心点；

4、重复2、3步骤直到满足要求；

K-means也提供一种k维的one-hot编码，即当x属于聚类i时，那么对应的编码向量为1，否则为0

二、距离

K-means的计算依赖样本之间的距离计算，通常有如下几种：

三、Spark Mlib下例子

package kmean

import org.apache.spark.mllib.clustering.KMeans

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.{SparkContext, SparkConf}

/*-

 * kmean聚类

 * Fredric 2017

 */

object kmean {

  def main(args:Array[String]): Unit ={

    val conf = new SparkConf().setMaster("local").setAppName("kmean")

    val sc   = new SparkContext(conf)

    //每一个向量代表特征空间中的一个点

    val v0  = Vectors.dense(1)

    val v1  = Vectors.dense(2)

    val v2  = Vectors.dense(3)

    val v3  = Vectors.dense(4)

    val v4  = Vectors.dense(11)

    val v5  = Vectors.dense(25)

    val v6  = Vectors.dense(31)

    val data = sc.parallelize(Seq(v0, v1, v2, v3, v4, v5, v6))

    //setK表示最后聚类的分组数量是2，分成2组

    val model = new KMeans().setMaxIterations(20).setK(2).run(data)

/*

    输出的两个中心点如下：

    [4.2]

    [28.0]*/

    model.clusterCenters.foreach(println)

  }

}

【机器学习笔记五】聚类 - k均值聚类的更多相关文章

机器学习算法与Python实践之（五）k均值聚类（k-means）
机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学 ...
探索sklearn | K均值聚类
1 K均值聚类 K均值聚类是一种非监督机器学习算法,只需要输入样本的特征 ,而无需标记. K均值聚类首先需要随机初始化K个聚类中心,然后遍历每一个样本,将样本归类到最近的一个聚类中,一个聚类中样本特征 ...
机器学习算法与Python实践之（六）二分k均值聚类
http://blog.csdn.net/zouxy09/article/details/17590137 机器学习算法与Python实践之(六)二分k均值聚类 zouxy09@qq.com http ...
机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
机器学习之路：python k均值聚类 KMeans 手写数字
python3 学习使用api 使用了网上的数据集,我把他下载到了本地可以到我的git中下载数据集: https://github.com/linyi0604/MachineLearning 代码: ...
机器学习之K均值聚类
聚类的核心概念是相似度或距离,有很多相似度或距离的方法,比如欧式距离.马氏距离.相关系数.余弦定理.层次聚类和K均值聚类等 1. K均值聚类思想 K均值聚类的基本思想是,通过迭代的方法寻找K个 ...
100天搞定机器学习|day44 k均值聚类数学推导与python实现
[如何正确使用「K均值聚类」? 1.k均值聚类模型给定样本,每个样本都是m为特征向量,模型目标是将n个样本分到k个不停的类或簇中,每个样本到其所属类的中心的距离最小,每个样本只能属于一个类.用C表示 ...

随机推荐

BackBox错误,无法获得锁...资源暂时不可用...无法锁定管理目录
今天准备给BackBox安装leafpad时,输入 sudo apt install leafpad 后出现了如下的错误提示: E: 无法获得锁 /var/lib/dpkg/lock - open ( ...
PHP异步请求
正常情况下,PHP都是同步请求,脚本右上而下依次执行,必须等上一步请求好了,才能进行下一步操作,这种效率在某些时候是不必要的,如发送邮件等操作,是可以异步处理的. PHP异步也很不少插件,我们使用的是 ...
java 泛型详解（普通泛型、通配符、泛型接口，泛型数组，泛型方法，泛型嵌套）
JDK1.5 令我们期待很久,可是当他发布的时候却更换版本号为5.0.这说明Java已经有大幅度的变化.本文将讲解JDK5.0支持的新功能-----Java的泛型. 1.Java泛型其实Java ...
LaTeX 中图片格式错误情况
Unknown graphics extension: .eps 利用宏包usepackage {graphicx} 是图片和pdflatex一起用时的错误.注:{不是所有的时候,有时候也能通过} 两 ...
java基础学习周计划之3--每周一练
每周一练第一周一．关键代码:1.斐波那契数列指的是这样一个数列 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, ...数列第一项和第二项是1, 从第三项开始, ...
MVC之图片验证码
MVC之图片验证码 controller中的action方法public ActionResult GetValidateCode() { ValidateCode vCode = new Valid ...
Java的LockSupport.park()实现分析（转载）
LockSupport类是Java6(JSR166-JUC)引入的一个类,提供了基本的线程同步原语.LockSupport实际上是调用了Unsafe类里的函数,归结到Unsafe里,只有两个函数: p ...
NavigationView头部设置监听事件
直接写解决方法吧: 1.将XML里的静态引入删除: <android.support.design.widget.NavigationView android:id="@+id/nav ...
selenium IDE工具页面介绍！
selenium IDE工具页面,常用功能点介绍
程序设计语言——实践之路笔记：Beginning
这本书已经看了不下3遍了,计划在6月写完1,3,6,7,8,9章的笔记. 为什么要写笔记呢,我觉得有这么几个必要: 1.一个概念的首次提出与补充会跨越几个章节,整理在一起有助记忆 2.所有书籍的安排都 ...

【机器学习笔记五】聚类 - k均值聚类

【机器学习笔记五】聚类 - k均值聚类的更多相关文章

随机推荐

热门专题