概述

聚类 VS 分类

有监督学习 VS 无监督学习

sklearn中的聚类算法

KMeans

KMeans参数&接口

n_clusters

n_clusters就是KMeans中的K就是告诉模型，要让模型帮助我们分成几类，这个一般是我们必填的一个参数，sklearn中默认为8，通常我们希望这个数是小于8

生成数据

from sklearn.datasets import make_blobs

import matplotlib.pyplot as plt

#自己创建数据集

X, y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1)

fig, ax1 = plt.subplots(1)

ax1.scatter(X[:, 0], X[:, 1]

           ,marker='o' #点的形状

           ,s=8 #点的大小

           )

plt.show()

#如果我们想要看见这个点的分布，怎么办？

color = ["red","pink","orange","gray"]

fig, ax1 = plt.subplots(1)

for i in range(4):

    ax1.scatter(X[y==i, 0], X[y==i, 1]

           ,marker='o' #点的形状

           ,s=8 #点的大小

           ,c=color[i]

           )

plt.show()

from sklearn.cluster import KMeans

cluster = KMeans(n_clusters=n_clusters, random_state=0).fit(X)

y_pred = cluster.labels_

y_pred

pre = cluster.fit_predict(X)

pre == y_pred

我们只先用一部分数据进行fit然后再predict得到的结果和我们用全部数据进行fit的结果是否相同

# 当数据量非常大的时候我们就需要用predict或者fit_predict()

cluster_smallsub = KMeans(n_clusters=n_clusters, random_state=0).fit(X[:200])

y_pred_ = cluster_smallsub.predict(X)

y_pred == y_pred_

当数据量比较小时结果可能不太好，当数据量比较大时效果比较好但是依然不会完全一样

质心

centroid = cluster.cluster_centers_

centroid

inertia

inertia = cluster.inertia_

inertia

返回总距离的平方和

color = ["red", "pink", "orange", "gray"]

fig, ax1 = plt.subplots(1)

for i in range(n_clusters):

    ax1.scatter(X[y_pred == i, 0], X[y_pred == i, 1]

                ,marker='o' #点的形状

                ,s=8 #点的大小

                ,c=color[i] #点的颜色

               )

ax1.scatter(centroid[:,0], centroid[:,1]

            ,marker='x' #点的形状

            ,s=8 #点的大小

            ,c="black" #点的颜色

)

plt.show()

n_clusters = 4

cluster_ = KMeans(n_clusters=n_clusters, random_state=0).fit(X)

inertia_ = cluster_.inertia_

inertia_

结果：908.3855684760614

可以看到我们inertia的结果变小了

我们要inertia最小化的前提是在我们限制一个K的前提下最小化

模型评估指标

轮廓系数

轮廓系数取值再在[-1, 1]越接近1越好

from sklearn.metrics import silhouette_score

from sklearn.metrics import silhouette_samples

silhouette_score(X, cluster_.labels_)

silhouette_samples(X, cluster_.labels_)

silhouette_score返回轮廓系数的均值

silhouette_samples返回每一个样本的轮廓系数

Calinski-Harabaz Index

虽然Calinski-Harabaz Index没有界但是相较于轮廓系数而言，其计算快得多

from sklearn.metrics import calinski_harabaz_score

X

y_pred

calinski_harabaz_score(X, y_pred)

重要参数init & random_state & n_init：初始质心怎么放好?

X

y

plus = KMeans(n_clusters = 10).fit(X)

plus.n_iter_

random = KMeans(n_clusters = 10,init="random",random_state=420).fit(X)

random.n_iter_

重要参数max_iter & tol：让迭代停下来

random = KMeans(n_clusters = 10,init="random",max_iter=10,random_state=420).fit(X)

y_pred_max10 = random.labels_

silhouette_score(X,y_pred_max10)

random = KMeans(n_clusters = 10,init="random",max_iter=20,random_state=420).fit(X)

y_pred_max20 = random.labels_

silhouette_score(X,y_pred_max20)

一般当我们的数据量比较大的时候使用这两个参数可以让模型快一点停下来

重要属性与重要接口

机器学习实战5-KMeans聚类算法的更多相关文章

机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
机器学习——详解经典聚类算法Kmeans
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第12篇文章,我们一起来看下Kmeans聚类算法. 在上一篇文章当中我们讨论了KNN算法,KNN算法非常形象,通过距离公 ...
机器学习实战之K-Means算法
一,引言先说个K-means算法很高大上的用处,来开始新的算法学习.我们都知道每一届的美国总统大选,那叫一个竞争激烈.可以说,谁拿到了各个州尽可能多的选票,谁选举获胜的几率就会非常大.有人会说,这跟 ...
【转】机器学习实战之K-Means算法
一,引言先说个K-means算法很高大上的用处,来开始新的算法学习.我们都知道每一届的美国总统大选,那叫一个竞争激烈.可以说,谁拿到了各个州尽可能多的选票,谁选举获胜的几率就会非常大.有人会说,这跟 ...
转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
一步步教你轻松学K-means聚类算法
一步步教你轻松学K-means聚类算法(白宁超 2018年9月13日09:10:33) 导读:k-均值算法(英文:k-means clustering),属于比较常用的算法之一,文本首先介绍聚类的理 ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
K-Means 聚类算法原理分析与代码实现
前言在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
K-means聚类算法及python代码实现
K-means聚类算法(事先数据并没有类别之分!所有的数据都是一样的) 1.概述 K-means算法是集简单和经典于一身的基于距离的聚类算法采用距离作为相似性的评价指标,即认为两个对象的距离越近,其 ...

随机推荐

【Java】并行执行任务
在实际的应用上,我们平时需要调用第三方的接口,可能会调用多个接口,串行执行的话, 就需要等待所有的接口调用完成之后才获取到结果,那我们有没有并行的方法的呢? 串行执行以下是三个接口,假设他们额的执行 ...
跟着 GPT-4 从0到1学习 Golang 并发机制(三)
目录一.前言二.开聊 2.1 关于 goroutine 泄露问题 2.2 内存模型 2.3 Race Detector 检测数据竞争三.总结一.前言话接上回<跟着 GPT-4 从0到1 ...
智能制造之路—从0开始打造一套轻量级MOM平台
一.概述面对数字化浪潮,MOM需求迈入上升期,数字化从"可选项"变成了企业竞争"必选项".制造行业每个工厂的生产逻辑都不尽相同,流程的梳理.数据统一化都需要调 ...
Java面试题全集(二)
1. ⾸先CopyOnWriteArrayList内部也是⽤过数组来实现的,在向CopyOnWriteArrayList添加元素时,会复制⼀个新的数组,写操作在新数组上进⾏,读操作在原数组上进⾏ 2. ...
如何编写难以维护的React代码？——滥用useEffect
如何编写难以维护的React代码?--滥用useEffect 在许多项目中,我们经常会遇到一些难以维护的React代码.其中一种常见的情况是滥用useEffect钩子,特别是在处理衍生状态时.让我们来 ...
万字长文浅析配置对MySQL服务器的影响
有很多的服务器选项会影响这MySQL服务器的性能,比如内存中临时表的大小.排序缓冲区等.有些针对特定存储引擎(如InnoDB)的选项,也会对查询优化很有用. 调整服务器的配置从某种程度来说是一个影响全 ...
Linux 性能监控与分析相关的软件包
检测系统进程和资源使用情况 -- procps-ng procps-ng是一个用于检测Linux系统进程和资源使用情况的系统工具,它是procps的一个重写版本.它提供了多种用于检测Linux系统中进 ...
Cilium系列-6-从地址伪装从IPtables切换为eBPF
系列文章 Cilium 系列文章前言将 Kubernetes 的 CNI 从其他组件切换为 Cilium, 已经可以有效地提升网络的性能. 但是通过对 Cilium 不同模式的切换/功能的启用, ...
使用 VirtualBox+Vagrant 创建 CentOS7 虚拟机
一.准备工作 1.1 软件下载 VirtualBox:Downloads – Oracle VM VirtualBox Vagrant:Install | Vagrant | HashiCorp De ...
华为云GaussDB(for Influx)单机版上线，企业降本增效利器来了
本文分享自华为云社区<华为云GaussDB(for Influx)单机版上线,企业降本增效利器来了>,作者:GaussDB 数据库 . 1.背景华为云GaussDB(for Influx ...

机器学习实战5-KMeans聚类算法

概述