matlab下K-means Cluster 算法实现

一、概念介绍

K-means算法是硬聚类算法，是典型的局域原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最有分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

　　k个初始类聚类中心点的选取对聚类结果具有较大的影响，因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心，初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后，一次迭代运算完成，新的聚类中心被计算出来。如果在一次迭代前后，评价指标J的值没有发生变化，说明算法已经收敛。

二、K-means算法

它是一种迭代的算法：

(1) 、首选随机选择k个点作为k个Cluster的重心；

(2)、计算每个点到各个Cluster重心的距离，将它加入到最近的那个Cluster；

(3)、重新计算每个Cluster的重心；

(4)、重复过程2~3，直到各个Cluster重心在某个精度范围内不变化或者达到最大迭代次数。

别看算法简单，很多复杂算法的实际效果或许都不如它，而且它的局部性较好，容易并行化，对大规模数据集很有意义；算法时间复杂度是：O(nkt)，其中：n是聚类点个数k是Cluster个数，t是迭代次数。

以上资料来源于网络摘抄；

三、matlab下实现K-means Cluster算法，Code如下：

%matlab code

% K-means Cluster

%load data.dat

x_data = 50*rand(1,100);

y_data = 50*rand(1,100);;

% x_data = data(:,1);

% y_data = data(:,2);

data_size = length(x_data);

a = randsample(1:data_size,2);

c1_x = x_data(a(1));

c1_y = y_data(a(1));

c2_x = x_data(a(2));

c2_y = y_data(a(2));

iter = 2;

max_iter = 100;

J_1 = 1;

J_2 = 1;

figure

while J_1>0.1 && J_2>0.1 && iter<max_iter

    c1_xx = 0;

    c1_yy = 0;

    c2_xx = 0;

    c2_yy = 0;

    c1_num = 0;

    c2_num = 0;

    for k=1:data_size

        Distance1 = (x_data(k)-c1_x)^2 + (y_data(k)-c1_y)^2 ;

        Distance2 = (x_data(k)-c2_x)^2 + (y_data(k)-c2_y)^2 ;

        if Distance1 > Distance2

            lable(k) = 1;

            c2_xx = c2_xx+x_data(k);

            c2_yy = c2_yy+y_data(k);

            c2_num = c2_num+1;

        else

            lable(k) = 0;

            c1_xx = c1_xx+x_data(k);

            c1_yy = c1_yy+y_data(k);

            c1_num = c1_num+1;

        end

    end

    c1_xx = c1_xx/c1_num;

    c1_yy = c1_yy/c1_num;

    c2_xx = c2_xx/c2_num;

    c2_yy = c2_yy/c2_num;

    J_1 = (c1_x-c1_xx)^2 + (c1_y-c1_yy)^2 ;

    J_2 = (c2_x-c2_xx)^2 + (c2_y-c2_yy)^2 ;

    c1_x = c1_xx;

    c1_y = c1_yy;

    c2_x = c2_xx;

    c2_y = c2_yy;

    iter = iter+3

    hold on

    plot(c1_x,c1_y,'bp','MarkerSize',iter)

    hold on

    plot(c2_x,c2_y,'mp','MarkerSize',iter)

end

% figure

% plot(c1_x,c1_y,'kp','MarkerSize',iter+2)

% hold on

% plot(c2_x,c2_y,'rp','MarkerSize',iter+2)

for idx = 1:data_size

    if lable(idx) == 1

        hold on

        plot(x_data(idx),y_data(idx),'ro')

    else

        hold on

        plot(x_data(idx),y_data(idx),'ko')

    end

end

最后仿真效果展示如下：

五角星代表聚类中心的变化情况，可见收敛的速度还是很快的。

matlab下K-means Cluster 算法实现的更多相关文章

matlab下kmeans及pam算法对球型数据分类练习
clear all; clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %数据初始化 D ...
matlab下二重积分的蒙特卡洛算法
%%monte_carlo_ff.m %被积函数(二重) function ff=monte_carlo_ff(x,y) ff=x*y^2;%函数定义处 end %%monte_carlo.m %蒙特 ...
[ZZ] 基于Matlab的标记分水岭分割算法
基于Matlab的标记分水岭分割算法 http://blog.sina.com.cn/s/blog_725866260100rz7x.html 1 综述 Separating touching obj ...
k均值聚类算法原理和（TensorFlow）实现
顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也 ...
K Nearest Neighbor 算法
文章出处:http://coolshell.cn/articles/8052.html K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KN ...
k最邻近算法——使用kNN进行手写识别
上篇文章中提到了使用pillow对手写文字进行预处理,本文介绍如何使用kNN算法对文字进行识别. 基本概念 k最邻近算法(k-Nearest Neighbor, KNN),是机器学习分类算法中最简单的 ...
K NEAREST NEIGHBOR 算法(knn)
K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法.其中的K表示最接近自己的K个数据样本.KNN算法和K-M ...
机器学习经典算法具体解释及Python实现--K近邻(KNN)算法
(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值 ...
机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...

随机推荐

opencv视屏流嵌入wxpython框架
前几篇博客分享搭建人脸识别与情绪判断的环境和源码,但是没有UI,界面很难看,一打开就是opencv弹出的一个视屏框.处女座的我看着非常难受,于是决定做一个UI,稍微规矩好看一点,再怎么说,这样的话也算 ...
网络七层OSI模型简介
0. 网络七层OSI模型(Open System Interconnection)总览: 1. 应用层 2. 表示层 :表示层的作用是使通信的应用程序能够解释交换数据的含义.这些服务包括数据压缩 ...
mybatis映射器配置细则
前面三篇博客我们已经多次涉及到映射器的使用了,增删查基本上都用过一遍了,但是之前我们只是介绍了基本用法,实际上mybatis中映射器可以配置的地方还是非常多,今天我们就先来看看映射器还有哪些需要配置的 ...
Dynamics CRM2016 关闭错误报告弹框提示
在之前的版本中错误报告的弹框提示是可以在隐私首选项中设置关闭的,如下图所示但是在2016中这个设置没了有人说在右上角的选项中设置,但那个只能是设置个人的无法修改系统级别的.在系统中找了半天还是没有 ...
详解EBS接口开发之应收INVOICE导入
(一)应收INVOICE常用标准表简介 1.1 常用标准表如下表中列出了与应收INVOICE导入相关的表和说明: 表名说明其他信息 RA_BATCH_SOURCES_ALL AR事务处理来源 ...
iOS网络基础
转载请标明出处: http://blog.csdn.net/xmxkf/article/details/51376048 本文出自:[openXu的博客] 常用类 get请求 post请求 NSURL ...
集合框架之List接口
有序的 collection(也称为序列).此接口的用户可以对列表中每个元素的插入位置进行精确地控制.用户可以根据元素的整数索引(在列表中的位置)访问元素,并搜索列表中的元素. 与 set 不同,列表 ...
学习TensorFlow，保存学习到的网络结构参数并调用
在深度学习中,不管使用那种学习框架,我们会遇到一个很重要的问题,那就是在训练完之后,如何存储学习到的深度网络的参数?在测试时,如何调用这些网络参数?针对这两个问题,本篇博文主要探索TensorFlow ...
mysql数据库连接池使用(一)dbcp方式的配置
Apache的数据库连接池 DBCP的常用配置说明,因为项目中用到了需要对其封装,所以必须先了解怎么配置以及各个配置字段的含义,理解的基础上开发我们自己的数据库连接池.可以参考官网dbcp官网. db ...
springMVC源码分析--国际化LocaleResolver（一）
springMVC给我们提供了国际化支持,简单来说就是设置整个系统的运行语言,然后根据系统的运行语言来展示对应语言的页面,一般我们称之为多语言.springMVC国际化机制就是可以设置整个系统的运行语 ...

matlab下K-means Cluster 算法实现

matlab下K-means Cluster 算法实现的更多相关文章

随机推荐

热门专题