机器学习---kmeans聚类的python实现

"""

Name: study_kmeans.py

Author: KX-Lau

Time: 2020/11/6 16:59

Desc: 实现kmeans聚类

"""

import math

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

from sklearn.cluster import KMeans

# -----------不使用sklearn实现kmeans聚类 -------------

class MyKmeans:

    def __init__(self, k, n=50):

        self.k = k  # 聚类中心数k

        self.n = n  # 迭代次数

    def fit(self, x, centers=None):

        # 1. 随机选择K个点

        if centers is None:

            index = np.random.randint(low=0, high=len(x), size=self.k)  # 随机生成数组, 每个数组元素从low到high的整数, 元素个数为size

            centers = x[index]

        inters = 0

        while inters < self.n:

            # 构造k个点的集合

            points_set = {key: [] for key in range(self.k)}

            # 2. 遍历所有点point, 将point放入最近的聚类中心的集合中

            for point in x:

                nearest_index = np.argmin(np.sum((centers - point) ** 2, axis=1) ** 0.5)

                points_set[nearest_index].append(point)

            # 3. 遍历每一个点集, 计算新的聚类中心

            for i_k in range(self.k):

                centers[i_k] = sum(points_set[i_k]) / len(points_set[i_k])

            inters += 1

        return points_set, centers

"""

iris中文名是鸢尾花卉数据集, 是一类多重变量分析的数据集.

包含150个样本, 分为3类(山鸢尾Setosa, 变色鸢尾Versicolor, 维吉尼亚鸢尾Virginica),

每个类别50个数据, 每个数据包含4个属性(花萼长度, 花萼宽度, 花瓣长度, 花瓣宽度).

"""

iris = datasets.load_iris()

data = iris['data'][:, :2]

print(type(data))

mk = MyKmeans(3)

point_sets, centers = mk.fit(data)

category1 = np.asarray(point_sets[0])

category2 = np.asarray(point_sets[1])

category3 = np.asarray(point_sets[2])

for i, p in enumerate(centers):

    plt.scatter(p[0], p[1], s=200, marker='^', color='yellow', edgecolors='black')

plt.scatter(category1[:, 0], category1[:, 1], color='g')

plt.scatter(category2[:, 0], category2[:, 1], color='r')

plt.scatter(category3[:, 0], category3[:, 1], color='b')

plt.xlim(4, 8)

plt.ylim(1, 5)

plt.title('kmeans with k=3')

plt.show()

# -----------使用sklearn实现kmeans聚类 -------------

init = np.vstack([data[5], data[109], data[121]])       # 指定初始质心

kmeans = KMeans(n_clusters=3, init=init, max_iter=100).fit(data)

labels = kmeans.labels_

cluster_centers = kmeans.cluster_centers_

c1 = data[labels == 0]

c2 = data[labels == 1]

c3 = data[labels == 2]

print('cluster_centers', cluster_centers)

print('init', init)

plt.figure()

for i, p in enumerate(cluster_centers):

    plt.scatter(p[0], p[1], color='yellow', edgecolors='black', s=200, marker='^')

plt.scatter(c1[:, 0], c1[:, 1], color='g')

plt.scatter(c2[:, 0], c2[:, 1], color='r')

plt.scatter(c3[:, 0], c3[:, 1], color='b')

plt.xlim(4, 8)

plt.ylim(1, 5)

plt.title('kmeans using sklearn with k=3')

plt.show()

机器学习---kmeans聚类的python实现的更多相关文章

(转) K-Means聚类的Python实践
本文转自: http://python.jobbole.com/87343/ K-Means聚类的Python实践 2017/02/11 · 实践项目 · K-means, 机器学习分享到:1 原文 ...
Kmeans 聚类及其python实现
主要参考 K-means 聚类算法及 python 代码实现还有 <机器学习实战> 这本书,当然前面那个链接的也是参考这本书,懂原理,会用就行了. 1.概述 K-means ...
K-means聚类的Python实现
生物信息学原理作业第五弹:K-means聚类的实现. 转载请保留出处! K-means聚类的Python实现原理参考:K-means聚类(上) 数据是老师给的,二维,2 * 3800的数据.plot ...
K-means聚类的 Python 实现
K-means聚类的 Python 实现 K-means聚类是一个聚类算法用来将 n 个点分成 k 个集群. 算法有3步: 1.初始化– K 个初始质心会被随机生成 2.分配 – K 集群通过关联到 ...
Python数据科学手册-机器学习: k-means聚类/高斯混合模型
前面学习的无监督学习模型:降维另一种无监督学习模型:聚类算法. 聚类算法直接冲数据的内在性质中学习最优的划分结果或者确定离散标签类型. 最简单最容易理解的聚类算法可能是 k-means聚类算法了. ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
机器学习——KMeans聚类，KMeans原理，参数详解
0.聚类聚类就是对大量的未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,聚类属于无监督的学习方法. 1.内在相似性的度量聚类是根据数据 ...
机器学习-K-means聚类及算法实现（基于R语言）
K-means聚类将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分.产品类别划分等)中. 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离. 算法实现 R语言 ...
机器学习--k-means聚类原理
“物以类聚,人以群分”, 所谓聚类就是将相似的元素分到一"类"(有时也被称为"簇"或"集合"), 簇内元素相似程度高, 簇间元素相似程度低. ...

随机推荐

Kubernetes系列(四) StatefulSet
作者: LemonNan 原文地址: https://juejin.im/post/6870071267438329869 Kubernetes系列(四) StatefulSet Kubernetes ...
2、mysql如何控制用户对数据库的访问
基础理解:通过对用户赋予某些权限就可以控制用户对数据库的访问更深层次的理解:当mysql对用户赋予某些权限时,mysql底层是如何控制用户对数据库的访问用户管理和权限管理 (基础理解) 用户管理 ...
LGP3311题解
为什么我和同学对比了一下,发现我和他的做法差别很大啊对于这种问题,我们把整个字符串分为两个部分:前缀顶着最高位和后缀没有顶着最高位. 我们枚举这个前缀,然后后缀通过 DP 来搞定. 不包含任何一个子 ...
这个好玩又实用的jupyter插件我真的爱了
1 简介最近在逛github的时候偶然发现一款特别的jupyter插件stickyland,通过它我们可以在jupyter中以一种非常特别的交互操作方式,对我们的的代码单元格进行组织和展示,今天的文 ...
Python入门随记（4）
在涉及一些实际问题,会碰到概率论等相关领域的知识,自然少不了矩阵运算,以下是Python中关于矩阵的简单操作: 1.常用库numpy import numpy as np 2.随机生成矩阵 a=np. ...
unicode和unicode编码
unicode编码是什么? 这其实是两个问题,unicode 是什么什么?unicode是怎样编码的? What is Unicode? Unicode provides a unique numbe ...
xilinx SDK在线仿真_烧写提示失败
1.找到工程目录下的Binaries->xxx.elf-[arm/le] . 2.右击该elf,选择Debug As->Debug Configurations... 进入设置界面. 3. ...
程序语言与编程实践4-> 蓝桥杯C/C++备赛记录2 | 第二周学习训练
0323,又是一周星期三,按道理该总结了.这周前几天写题比较多,后面事情多了起来,就没怎么写了.主要方向是洛谷的基本语法熟悉,PTA平台数据结构的一些题目. 0323附上: 题目比较多,所以文章可能有 ...
千兆网数据CRC检验和过滤
项目简述本次项目在计算机将图像数据信息通过千兆网发送给FPGA后,由于接收到的数据可能混乱和无效,需要对数据CRC校验和无效包过滤. 项目原理及框图对iddr_ctrl模块的输入数据和使能信号,分 ...
Java中的list和set有什么区别
list与set方法的区别有:list可以允许重复对象和插入多个null值,而set不允许:list容器是有序的,而set容器是无序的等等 Java中的集合共包含三大类,它们分别是Set(集),Lis ...

机器学习---kmeans聚类的python实现

机器学习---kmeans聚类的python实现的更多相关文章

随机推荐

热门专题