k-means原理和python代码实现

k-means:是无监督的分类算法

k代表要分的类数，即要将数据聚为k类; means是均值，代表着聚类中心的迭代策略.

k-means算法思想:

（1）随机选取k个聚类中心（一般在样本集中选取，也可以自己随机选取）;

（2）计算每个样本与k个聚类中心的距离，并将样本归到距离最小的那个类中;

（3）更新中心，计算属于k类的样本的均值作为新的中心。

（4）反复迭代（2）（3）,直到聚类中心不发生变化，后者中心位置误差在阈值范围内，或者达到一定的迭代次数。

python实现：

k-means简单小样例：

import numpy as np

data = np.random.randint(1,10,(30,2))

#k=4

k=4

#central

np.random.shuffle(data)

cent = data[0:k,:]

#distance

distance = np.zeros((data.shape[0],k))

last_near = np.zeros(data.shape[0])

n=0

while True:

    n = n+1

    print(n)

    for i in range(data.shape[0]):

        for j in range(cent.shape[0]):

            dist = np.sqrt(np.sum((data[i]-cent[j])**2))

            distance[i,j] = dist

    nearst = np.argmin(distance,axis = 1)

    if (last_near == nearst).all():

    #if n<1000:

        break

    #update central

    for ele_cen in range(k):

        cent[ele_cen] = np.mean(data[nearst == ele_cen],axis=0)

    last_near = nearst

print(cent)

下面样例是为了适应yolov3选取anchorbox的度量需求：

import numpy as np

def iou(box, clusters):

    """

    Calculates the Intersection over Union (IoU) between a box and k clusters.

    :param box: tuple or array, shifted to the origin (i. e. width and height)

    :param clusters: numpy array of shape (k, 2) where k is the number of clusters

    :return: numpy array of shape (k, 0) where k is the number of clusters

    """

    x = np.minimum(clusters[:, 0], box[0])

    y = np.minimum(clusters[:, 1], box[1])

    if np.count_nonzero(x == 0) > 0 or np.count_nonzero(y == 0) > 0:

        raise ValueError("Box has no area")

    intersection = x * y

    box_area = box[0] * box[1]

    cluster_area = clusters[:, 0] * clusters[:, 1]

    iou_ = intersection / (box_area + cluster_area - intersection)

    return iou_

def kmeans(boxes, k, dist=np.median):

    """

    Calculates k-means clustering with the Intersection over Union (IoU) metric.

    :param boxes: numpy array of shape (r, 2), where r is the number of rows

    :param k: number of clusters

    :param dist: distance function

    :return: numpy array of shape (k, 2)

    """

    rows = boxes.shape[0]

    distances = np.empty((rows, k)) #初始化距离矩阵，rows代表样本数量，k代表聚类数量，用于存放每个样本对应每个聚类中心的距离

    last_clusters = np.zeros((rows,))#记录上一次样本所属的类型

    np.random.seed()

    # the Forgy method will fail if the whole array contains the same rows

    clusters = boxes[np.random.choice(rows, k, replace=False)]#从样本中随机选取聚类中心

    while True:

        for row in range(rows):

            distances[row] = 1 - iou(boxes[row], clusters) #这里是距离计算公式，这里是为了适应yolov3选取anchorbox的度量需求

        nearest_clusters = np.argmin(distances, axis=1)    #找到距离最小的类

        if (last_clusters == nearest_clusters).all(): #判断是否满足终止条件

            break

        for cluster in range(k):                        #更新聚类中心

            clusters[cluster] = dist(boxes[nearest_clusters == cluster], axis=0) #将某一类的均值更新为聚类中心

        last_clusters = nearest_clusters

    return clusters

希望可以为正在疑惑的你提供一些思路！

k-means原理和python代码实现的更多相关文章

单链表反转的原理和python代码实现
链表是一种基础的数据结构,也是算法学习的重中之重.其中单链表反转是一个经常会被考察到的知识点. 单链表反转是将一个给定顺序的单链表通过算法转为逆序排列,尽管听起来很简单,但要通过算法实现也并不是非常容 ...
woe_iv原理和python代码建模
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
线性插值法的原理和python代码实现
假设我们已知坐标 (x0, y0) 与 (x1, y1),要得到 [x0, x1] 区间内某一位置 x 在直线上的值.根据图中所示,我们得到由于 x 值已知,所以可以从公式得到 y 的值已知 y ...
机器学习之感知器算法原理和Python实现
(1)感知器模型感知器模型包含多个输入节点:X0-Xn,权重矩阵W0-Wn(其中X0和W0代表的偏置因子,一般X0=1,图中X0处应该是Xn)一个输出节点O,激活函数是sign函数. (2)感知器学 ...
对数损失函数(Logarithmic Loss Function)的原理和 Python 实现
原理对数损失, 即对数似然损失(Log-likelihood Loss), 也称逻辑斯谛回归损失(Logistic Loss)或交叉熵损失(cross-entropy Loss), 是在概率估计上定 ...
常见素数筛选方法原理和Python实现
1. 普通筛选(常用于求解单个素数问题) 自然数中,除了1和它本身以外不再有其他因数. import math def func_get_prime(n): func = lambda x: not ...
【集成学习】：Stacking原理以及Python代码实现
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用,尤其是在结构化的机器学习竞赛当中表现非常好.今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理.并在博文的后面附 ...
【LeetCode】1022. Smallest Integer Divisible by K 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法日期题目地址:https://leetcode.c ...
[转] Python 代码性能优化技巧
选择了脚本语言就要忍受其速度,这句话在某种程度上说明了 python 作为脚本的一个不足之处,那就是执行效率和性能不够理想,特别是在 performance 较差的机器上,因此有必要进行一定的代码优化 ...

随机推荐

Delphi中TQuery.Filter用法
今天维护一个老项目是用delphi5 + BDE写的.为了更方便查询数据,就增加一个查询功能.由于数据量查询出来后就比较少,于是就想到Filter like 但 BDE并不支持 Filter = 'n ...
ssh远程连接linux服务器并执行命令
详细方法: SSHClient中的方法参数和参数说明 connect(实现ssh连接和校验) hostname:目标主机地址 port:主机端口 username:校验的用户名 password:登 ...
python每日一练：0000题
**第 0000 题:**将你的 QQ 头像(或者微博头像)右上角加上红色的数字,类似于微信未读信息数量那种提示效果. 类似于图中效果示例代码: from PIL import Image,Imag ...
xmake从入门到精通10：多个子工程目标的依赖配置
xmake是一个基于Lua的轻量级现代化c/c++的项目构建工具,主要特点是:语法简单易上手,提供更加可读的项目维护,实现跨平台行为一致的构建体验. 本文主要详细讲解下,如果在一个项目中维护和生成多个 ...
MySql 性能优化之 Explain
MySQL 之 Explain 输出分析背景前面的文章写过 MySQL 的事务和锁,这篇文章我们来聊聊 MySQL 的 Explain,估计大家在工作或者面试中多多少少都会接触过这个.可能工作中实 ...
node.js中的 compression 中间件
NodeJs——express启用gzip gzip是用于压缩,js.css等文件的压缩具体方法如下: 先安装一个依赖 npm install compression --save 在项目的 app ...
安装Linux系统CentOS6.5
个人机器搭建分布式环境时避免要使用虚拟机来满足分布式环境所需的机器,当然伪分布式除外. 简单记录下虚拟机环境的创建过程,Mac上常用的虚拟机VMware Fusion. 虚拟机资源库中新建虚拟机: 选 ...
Oracle Replace函数的简单使用
REPLACE ( char, search_string [, replace_string]) 如果没有指定replace_string 变量的值,那么当发现search_string 变量的 ...
悼念512汶川大地震遇难同胞——选拔志愿者 HDU 2188 博弈论巴什博奕
悼念512汶川大地震遇难同胞--选拔志愿者 HDU 2188 博弈论巴什博奕题意对于四川同胞遭受的灾难,全国人民纷纷伸出援助之手,几乎每个省市都派出了大量的救援人员,这其中包括抢险救灾的武警部队 ...
Python环境配置：anaconda+pycharm一站式解决
https://www.cnblogs.com/yuxuefeng/p/9235431.html 不错的博文,码一下.

k-means原理和python代码实现

k-means原理和python代码实现的更多相关文章

随机推荐

热门专题