1. 前言

在机器学习中有几个重要的python学习包。

sklearn：sklearn里面包含了各种机器学习的算法结构
numpy：numpy里面主要是矩阵的运算和数据的处理的内容，和sklearn搭配使用。
matplotlib：matplotlib库是用来绘图的。

2. K-Means参数

n_clusters : 聚类的个数k，default：8.
init : 初始化的方式，default：k-means++
n_init : 运行k-means的次数，最后取效果最好的一次, 默认值: 10
max_iter : 最大迭代次数, default: 300
tol : 收敛的阈值, default: 1e-4
n_jobs : 多线程运算, default=None，None代表一个线程，-1代表启用计算机的全部线程。
algorithm : 有“auto”, “full” or “elkan”三种选择。"full"就是我们传统的K-Means算法， “elkan”是我们讲的elkan K-Means算法。默认的"auto"则会根据数据值是否是稀疏的，来决定如何选择"full"和“elkan”。一般数据是稠密的，那么就是“elkan”，否则就是"full"。一般来说建议直接用默认的"auto"。

3. K-Means使用(1)

from sklearn.cluster import KMeans

import numpy as np

X = np.array([[1, 2], [1, 4], [1, 0],[4, 2], [4, 4], [4, 0]])

kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

kmeans.labels_ #输出原始数据的聚类后的标签值

>>> array([0, 0, 0, 1, 1, 1], dtype=int32)

kmeans.predict([[0, 0], [4, 4]]) #根据已经建模好的数据，对新的数据进行预测

>>> array([0, 1], dtype=int32)

kmeans.cluster_centers_ #输出两个质心的位置。

>>> array([[1., 2.],[4., 2.]])

KMeans在sklearn.cluster的包里面，在sklearn里面都是使用fit函数进行聚类。顺便提一句，在sklearn中基本所有的模型的建模的函数都是fit，预测的函数都是predict。

4. K-Means使用(2)

这个例子有会生成4幅图。

对数据用k=8去聚类。因为数据本身只有3类，所以聚类效果不好。
对数据用k=3去聚类，效果不错。
还是用k=3去聚类，但是改变初始化方式init=random，n_init=1，这样的随机初始化，最后的效果会不好。
最后一张图是数据本身的label，和第二幅相差不大。

具体代码如下：

import numpy as np

import matplotlib.pyplot as plt

from mpl_toolkits.mplot3d import Axes3D #3D的库

from sklearn.cluster import KMeans

from sklearn import datasets

np.random.seed(5) #设置随机数种子

iris = datasets.load_iris()

X = iris.data

y = iris.target

estimators = [('k_means_iris_8', KMeans(n_clusters=8)),#k=8的kmeans

              ('k_means_iris_3', KMeans(n_clusters=3)), #k=3的kmeans

              ('k_means_iris_bad_init', KMeans(n_clusters=3, n_init=1,init='random')) #k=3，随机初始化的kmeans

              ]

fignum = 1

titles = ['8 clusters', '3 clusters', '3 clusters, bad initialization']

for name, est in estimators:

    fig = plt.figure(fignum, figsize=(4, 3))

    ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

    est.fit(X) #fit建立模型

    labels = est.labels_ #获得模型聚类后的label

    ax.scatter(X[:, 3], X[:, 0], X[:, 2],

               c=labels.astype(np.float), edgecolor='k') #绘制X中的第3，0，2个维度的特征

    ax.w_xaxis.set_ticklabels([])

    ax.w_yaxis.set_ticklabels([])

    ax.w_zaxis.set_ticklabels([])

    ax.set_xlabel('Petal width') #设置坐标轴名

    ax.set_ylabel('Sepal length')

    ax.set_zlabel('Petal length')

    ax.set_title(titles[fignum - 1]) #设置图的名字

    ax.dist = 12

    fignum = fignum + 1

# 绘制数据真实标签

fig = plt.figure(fignum, figsize=(4, 3))

ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

for name, label in [('Setosa', 0),

                    ('Versicolour', 1),

                    ('Virginica', 2)]:

    ax.text3D(X[y == label, 3].mean(), #寻找特征的均值点

              X[y == label, 0].mean(),

              X[y == label, 2].mean() + 2, name,

              horizontalalignment='center',

              bbox=dict(alpha=.2, edgecolor='w', facecolor='w'))

y = np.choose(y, [1, 2, 0]).astype(np.float)

ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=y, edgecolor='k')

ax.w_xaxis.set_ticklabels([])

ax.w_yaxis.set_ticklabels([])

ax.w_zaxis.set_ticklabels([])

ax.set_xlabel('Petal width')

ax.set_ylabel('Sepal length')

ax.set_zlabel('Petal length')

ax.set_title('Ground Truth')

ax.dist = 12

fig.show() #绘制整张图

3. sklearn的K-Means的使用的更多相关文章

sklearn的K折交叉验证函数KFold使用
K折交叉验证时使用: KFold(n_split, shuffle, random_state) 参数:n_split:要划分的折数 shuffle: 每次都进行shuffle,测试集中折数的总和就是 ...
SK-learn实现k近邻算法【准确率随k值的变化】-------莺尾花种类预测
代码详解: from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split fr ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
软件——机器学习与Python，聚类，K——means
K-means是一种聚类算法: 这里运用k-means进行31个城市的分类城市的数据保存在city.txt文件中,内容如下: BJ,2959.19,730.79,749.41,513.34,467. ...
快速查找无序数组中的第K大数？
1.题目分析: 查找无序数组中的第K大数,直观感觉便是先排好序再找到下标为K-1的元素,时间复杂度O(NlgN).在此,我们想探索是否存在时间复杂度 < O(NlgN),而且近似等于O(N)的高 ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...
网络费用流-最小k路径覆盖
多校联赛第一场(hdu4862) Jump Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Ot ...
numpy.ones_like(a, dtype=None, order='K', subok=True)返回和原矩阵一样形状的1矩阵
Return an array of ones with the same shape and type as a given array. Parameters: a : array_like Th ...

随机推荐

window 64bit 下react navtive安装
1.安装jdk 去这里安装对应的jdk:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.h ...
为Magento1.5新增会员注册字段(转)
第一步.新建一个模块,在app/etc/modules/目录下新建文件Shuishui_Customer.xml <config> <modules> <Shuishui ...
Android开发网上的一些重要知识点[经验分享]
1. android单实例运行方法我们都知道Android平台没有任务管理器,而内部App维护者一个Activity history stack来实现窗口显示和销毁,对于常规从快捷方式运行来看都是s ...
代码管理（一）git
代码管理工具有很多主要的有两个 git 和 svn svn 衍生出来的软件有 cornerstone smartSVN git 的图形界面工具有 Sourcetree 前几年 s ...
numpy的常用函数
1 算术平均值数学运算样本:[s1, s2, ..., sn] 算术平均值 = (s1 + s2 + ... + sn) / n numpy函数 numpy.mean(样本) -> 算术平均 ...
cucumber java从入门到精通（4）Scenario Outline及数据驱动
cucumber java从入门到精通(4)Scenario Outline及数据驱动到目前为止,我们的TodoList类工作良好,不过离我们的预期--任务清单系统还是有不少差距,究其原因不过如下: ...
[javase学习笔记]-7.2 构造函数与一般函数的差别
这一节我们简单学习一下构造函数与一般函数之间的差别所在. 那么它们有什么差别呢,结合上一节,我们能够总结出下面两点差别: 第一个差别: 构造函数:对象创建时,就会调用与之相应的构造函数,对对象进行初始 ...
FreeSWITCH协议参数之自定义sip header
一.主动发送 1. 加入sip_h_前缀这样FreeSWITCH就能自动加上后面的扩展头. 2. 示例 <action application="set" data=&qu ...
c#asp.net url 传递中文参数要使用 System.Web.HttpUtility.UrlEncode 而不能使用Server.UrlEncode
最近网站里的参数包括中文的例如: http://www.taiba/Tag%b0%ae%c7%e9.html 已开始使用 Server.UrlEncode来做的,但发现,有一些中文在url重写的是说找 ...
[Perforce]password (P4PASSWD) invalid or unset. 的错误解决
前言使用 Perforce , 能够使用Perforce 的Client 端. 有时候在编写一些脚本或代码的时候, 可能或使用到 Perforce的命令的方式. 正常状况下. 使用例如以下命令: p ...

3. sklearn的K-Means的使用

1. K-Means原理解析

2. K-Means的优化

3. sklearn的K-Means的使用

4. K-Means和K-Means++实现

1. 前言

2. K-Means参数

3. K-Means使用(1)

4. K-Means使用(2)

3. sklearn的K-Means的使用的更多相关文章

随机推荐

热门专题