机器学习---kmeans聚类的python实现

"""

Name: study_kmeans.py

Author: KX-Lau

Time: 2020/11/6 16:59

Desc: 实现kmeans聚类

"""

import math

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

from sklearn.cluster import KMeans

# -----------不使用sklearn实现kmeans聚类 -------------

class MyKmeans:

    def __init__(self, k, n=50):

        self.k = k  # 聚类中心数k

        self.n = n  # 迭代次数

    def fit(self, x, centers=None):

        # 1. 随机选择K个点

        if centers is None:

            index = np.random.randint(low=0, high=len(x), size=self.k)  # 随机生成数组, 每个数组元素从low到high的整数, 元素个数为size

            centers = x[index]

        inters = 0

        while inters < self.n:

            # 构造k个点的集合

            points_set = {key: [] for key in range(self.k)}

            # 2. 遍历所有点point, 将point放入最近的聚类中心的集合中

            for point in x:

                nearest_index = np.argmin(np.sum((centers - point) ** 2, axis=1) ** 0.5)

                points_set[nearest_index].append(point)

            # 3. 遍历每一个点集, 计算新的聚类中心

            for i_k in range(self.k):

                centers[i_k] = sum(points_set[i_k]) / len(points_set[i_k])

            inters += 1

        return points_set, centers

"""

iris中文名是鸢尾花卉数据集, 是一类多重变量分析的数据集.

包含150个样本, 分为3类(山鸢尾Setosa, 变色鸢尾Versicolor, 维吉尼亚鸢尾Virginica),

每个类别50个数据, 每个数据包含4个属性(花萼长度, 花萼宽度, 花瓣长度, 花瓣宽度).

"""

iris = datasets.load_iris()

data = iris['data'][:, :2]

print(type(data))

mk = MyKmeans(3)

point_sets, centers = mk.fit(data)

category1 = np.asarray(point_sets[0])

category2 = np.asarray(point_sets[1])

category3 = np.asarray(point_sets[2])

for i, p in enumerate(centers):

    plt.scatter(p[0], p[1], s=200, marker='^', color='yellow', edgecolors='black')

plt.scatter(category1[:, 0], category1[:, 1], color='g')

plt.scatter(category2[:, 0], category2[:, 1], color='r')

plt.scatter(category3[:, 0], category3[:, 1], color='b')

plt.xlim(4, 8)

plt.ylim(1, 5)

plt.title('kmeans with k=3')

plt.show()

# -----------使用sklearn实现kmeans聚类 -------------

init = np.vstack([data[5], data[109], data[121]])       # 指定初始质心

kmeans = KMeans(n_clusters=3, init=init, max_iter=100).fit(data)

labels = kmeans.labels_

cluster_centers = kmeans.cluster_centers_

c1 = data[labels == 0]

c2 = data[labels == 1]

c3 = data[labels == 2]

print('cluster_centers', cluster_centers)

print('init', init)

plt.figure()

for i, p in enumerate(cluster_centers):

    plt.scatter(p[0], p[1], color='yellow', edgecolors='black', s=200, marker='^')

plt.scatter(c1[:, 0], c1[:, 1], color='g')

plt.scatter(c2[:, 0], c2[:, 1], color='r')

plt.scatter(c3[:, 0], c3[:, 1], color='b')

plt.xlim(4, 8)

plt.ylim(1, 5)

plt.title('kmeans using sklearn with k=3')

plt.show()

机器学习---kmeans聚类的python实现的更多相关文章

(转) K-Means聚类的Python实践
本文转自: http://python.jobbole.com/87343/ K-Means聚类的Python实践 2017/02/11 · 实践项目 · K-means, 机器学习分享到:1 原文 ...
Kmeans 聚类及其python实现
主要参考 K-means 聚类算法及 python 代码实现还有 <机器学习实战> 这本书,当然前面那个链接的也是参考这本书,懂原理,会用就行了. 1.概述 K-means ...
K-means聚类的Python实现
生物信息学原理作业第五弹:K-means聚类的实现. 转载请保留出处! K-means聚类的Python实现原理参考:K-means聚类(上) 数据是老师给的,二维,2 * 3800的数据.plot ...
K-means聚类的 Python 实现
K-means聚类的 Python 实现 K-means聚类是一个聚类算法用来将 n 个点分成 k 个集群. 算法有3步: 1.初始化– K 个初始质心会被随机生成 2.分配 – K 集群通过关联到 ...
Python数据科学手册-机器学习: k-means聚类/高斯混合模型
前面学习的无监督学习模型:降维另一种无监督学习模型:聚类算法. 聚类算法直接冲数据的内在性质中学习最优的划分结果或者确定离散标签类型. 最简单最容易理解的聚类算法可能是 k-means聚类算法了. ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
机器学习——KMeans聚类，KMeans原理，参数详解
0.聚类聚类就是对大量的未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,聚类属于无监督的学习方法. 1.内在相似性的度量聚类是根据数据 ...
机器学习-K-means聚类及算法实现（基于R语言）
K-means聚类将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分.产品类别划分等)中. 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离. 算法实现 R语言 ...
机器学习--k-means聚类原理
“物以类聚,人以群分”, 所谓聚类就是将相似的元素分到一"类"(有时也被称为"簇"或"集合"), 簇内元素相似程度高, 簇间元素相似程度低. ...

随机推荐

LGP5992题解
贪心和DP一样,上来先找规律考虑一种特殊情况:菊花图. 很容易发现这是小学数学题,排序后取中点. 来考虑另一种情况:深度为 3 的完全二叉树. 假设这颗完全二叉树的节点编号是按照线段树编号的,给定权 ...
python Apache和php错误日志邮件报警
# qianxiao996精心制作 #博客地址:https://blog.csdn.net/qq_36374896 #!/usr/bin/python #-*- coding: utf-8 -* im ...
Windows10运行Cura源代码，搭建环境教程
参考官方文档 https://github.com/Ultimaker/Cura/wiki/Running-Cura-from-Source-on-Windows#python-3810 注意这些说 ...
Prometheusbu部署使用-1
Prometheus+grafana部署使用主机列表: 192.168.161.130 : Prometheus 192.168.161.128 : node-1 192.168.161.129 : ...
【算法】两个list合并
转载博客地址 http://blog.sina.com.cn/s/blog_5da93c8f0101fdrp.html 有两个ArrayList,分别为list1和list2,分析这两个list后生成 ...
JAVA 用命令提示符执行java找不到或者无法加载主类
使用cmd编译执行java文件时候,报错---找不到或者无法加载主类如下图把红色部分去掉,再次编译执行如下解决问题 ,执行成功!!!!!! 2.当我们在eclipes中执行运行的时候 ggggggg ...
访问修饰符 public,private,protected,以及不写（默认）时的区别？
修饰符当前类同包子类其他包 public √ √ √ √ protecte d √ √ √ × default √ √ × × private √ × × × 类的成员不写访问修饰时默认为 ...
css文本溢出解决方案
1.普通单行截断省略 overflow:hidden; 文字长度超出限定宽度,则隐藏超出的内容) text-overflow:ellipsis;(设置文字在一行显示,不能换行) white-space ...
Serlvet 输出中文
1 response.setHeader("Content-type", "text/html;charset=UTF-8"); 2 response.setC ...
Dubbo 推荐用什么协议？
dubbo://(推荐) rmi:// hessian:// http:// webservice:// thrift:// memcached:// redis:// rest://

机器学习---kmeans聚类的python实现

机器学习---kmeans聚类的python实现的更多相关文章

随机推荐

热门专题