基本原理

Kmeans是无监督学习的代表，没有所谓的Y。主要目的是分类，分类的依据就是样本之间的距离。比如要分为K类。步骤是：

随机选取K个点。
计算每个点到K个质心的距离，分成K个簇。
计算K个簇样本的平均值作新的质心
循环2、3
位置不变，距离完成

距离

Kmeans的基本原理是计算距离。一般有三种距离可选：

欧氏距离

\[d(x,u)=\sqrt{\sum_{i=1}^n(x_i-\mu_i)^2}
\]
曼哈顿距离

\[d(x,u)=\sum_{i=1}^n(|x_i-\mu|)
\]
余弦距离

\[cos\theta=\frac{\sum_{i=1}^n(x_i*\mu)}{\sqrt{\sum_i^n(x_i)^2}*\sqrt{\sum_1^n(\mu)^2}}
\]

inertia

每个簇内到其质心的距离相加，叫inertia。各个簇的inertia相加的和越小，即簇内越相似。（但是k越大inertia越小，追求k越大对应用无益处）

代码

模拟数据：

from sklearn.datasets import make_blobs

import matplotlib.pyplot as plt

X, y = make_blobs(n_samples=500, # 500个样本

                 n_features=2, # 每个样本2个特征

                 centers=4, # 4个中心

                 random_state=1 #控制随机性

                 )

画出图像：

color = ['red', 'pink','orange','gray']

fig, axi1=plt.subplots(1)

for i in range(4):

    axi1.scatter(X[y==i, 0], X[y==i,1],

               marker='o',

               s=8,

               c=color[i]

               )

plt.show()

使用KMeans类建模：

from sklearn.cluster import KMeans

n_clusters=3

cluster = KMeans(n_clusters=n_clusters,random_state=0).fit(X)

也可先用fit, 再用predict，但是可能数据不准确。用于数据量较大时。

此时就可以查看其属性了：质心、inertia.

centroid=cluster.cluster_centers_

centroid # 查看质心

查看inertia:

inertia=cluster.inertia_

inertia

画出所在位置。

color=['red','pink','orange','gray']

fig, axi1=plt.subplots(1)

for i in range(n_clusters):

    axi1.scatter(X[y_pred==i, 0], X[y_pred==i, 1],

               marker='o',

               s=8,

               c=color[i])

axi1.scatter(centroid[:,0],centroid[:,1],marker='x',s=100,c='black')

sklearn KMeans聚类算法（总结）的更多相关文章

转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
一步步教你轻松学K-means聚类算法
一步步教你轻松学K-means聚类算法(白宁超 2018年9月13日09:10:33) 导读:k-均值算法(英文:k-means clustering),属于比较常用的算法之一,文本首先介绍聚类的理 ...
《数据挖掘导论》实验课——实验七、数据挖掘之K-means聚类算法
实验七.数据挖掘之K-means聚类算法一.实验目的 1. 理解K-means聚类算法的基本原理 2. 学会用python实现K-means算法二.实验工具 1. Anaconda 2. skle ...
K-Means 聚类算法
K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
K-Means 聚类算法原理分析与代码实现
前言在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
Kmeans聚类算法原理与实现
Kmeans聚类算法 1 Kmeans聚类算法的基本原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一.K-means算法的基本思想是:以空间中k个点为中心进行聚类,对 ...
机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
沙湖王 | 用Scipy实现K-means聚类算法
沙湖王 | 用Scipy实现K-means聚类算法用Scipy实现K-means聚类算法

随机推荐

（二分查找）LowerBound
在包含size个元素的,从小到大顺序的int数组a里查找比给定整数p小的,下标最大的元素,找不到返回-1 题解: int LowerBound(int a[],int size,int p) { in ...
vue-router 二级路由（父子路由）
使用二级路由会显示父路由下面的子路由且父子路由同时显示因为父子同时显示路由地址在同一级别/ 路由的显示模式有两种(都是为了减少数据库后台请求次数) #hash模式(#是特殊字符,很多场合不 ...
SqlServer 集合运算符
1.集合运算符概述 (1)集合运算符运用与集合之间的运算. (2)多元集合: 指的是来自两个输入查询的集合,可能包含重复项 (3)T-SQL 支持三种集合运算符 union .intersect .e ...
Canvas基本定义
Android中使用图形处理引擎,2D部分是android SDK内部自己提供,3D部分是用Open GL ES 1.0.今天我们主要要了解的是2D相关的大部分2D使用的api都在android.g ...
JAVAEE 和项目开发（第二课：HTTP协议的特点和交互流程）
HTTP 的概念和介绍概念:超文本传输协议(Hyper Text Transfer Protocol) 作用:规范了浏览器和服务器的数据交互特点: 简单快速:客户向服务器请求服务时,只需传送请求方 ...
对于AVL树和红黑树的理解
AVL又称(严格)高度平衡的二叉搜索树,也叫二叉查找树.平衡二叉树.window对进程地址空间的管理用到了AVL树. 红黑树是非严格平衡二叉树,统计性能要好于平衡二叉树.广泛的在C++的STL中,ma ...
吴裕雄--天生自然JAVA SPRING框架开发学习笔记：Spring CGLlB动态代理
JDK 动态代理使用起来非常简单,但是它也有一定的局限性,这是因为 JDK 动态代理必须要实现一个或多个接口,如果不希望实现接口,则可以使用 CGLIB 代理. CGLIB(Code Generati ...
SASS - 语法
SASS – 简介 SASS – 环境搭建 SASS – 使用Sass程序 SASS – 语法 SASS – 变量 SASS- 局部文件(Partial) SASS – 混合(Mixin) SASS ...
Android进阶——多线程系列之Semaphore、CyclicBarrier、CountDownLatch
今天向大家介绍的是多线程开发中的一些辅助类,他们的作用无非就是帮助我们让多个线程按照我们想要的执行顺序来执行.如果我们按照文字来理解Semaphore.CyclicBarrier.CountDownL ...
Mac 用终端（命令行）打开vscode编辑器
1.打开控制面板(⇧⌘P) 2.输入 shell command 在提示里看到 Shell Command: Install ‘code’ command in PATH, 就可以了. 3.使用: c ...

sklearn KMeans聚类算法（总结）

基本原理

距离

inertia

代码

sklearn KMeans聚类算法（总结）的更多相关文章

随机推荐

热门专题