K-means聚类算法原理和C++实现

给定训练集$\{x^{(1)},...,x^{(m)}\}$，想把这些样本分成不同的子集，即聚类，$x^{(i)}\in\mathbb{R^{n}}$，但是这是个无标签数据集，也就是说我们再聚类的时候不能利用标签信息，所以这是一个无监督学习问题。

k-means聚类算法的流程如下：

1. 随机初始化聚类中心$\mu_{1},\mu_{2},...,\mu_{k}\in\mathbb{R}^{n}$

2. a. 对与每一个聚类中心，计算所有样本到该聚类中心的距离，然后选出距离该聚类中心最近的几个样本作为一类；

　　$c^{(i)}:=\arg\min_{j}||x^{(i)}-\mu_{j}||^{2}$

　　这个公式的意思是，某个样本 i 属于哪一类，取决于该样本距离哪一个聚类中心最近，步骤a就是利用这个规则实现。

　 b. 对上面分成的k类，根据类里面的样本，重新估计该类的中心：

　　　$\mu_{j}:=\frac{\sum_{i=1}^{m}1\{c^{(i)}=j\}x^{(j)}}{\sum_{i=1}^{m}1\{c^{(i)}=j\}}$

　　对于新的聚类中心，重复a，这里1{...}是一个真值判断，例如1{3=2}=0,1{3=3}=1.

　 c. 重复a和b直至收敛

但是k-means真的能保证收敛吗？k-means的目的是选出聚类中心和每一类的样本，定义失真函数：

$J(c,\mu)=\sum_{i=1}^{m}||x^{(i)}-\mu_{c^{(i)}}||^{2}$

这个函数衡量的是某个聚类的中心与该类中所有样本距离的平方和，根据上面k-means的算法，可以看出，a 是固定聚类中心，选择该类的样本，b 是样本固定，调整聚类中心，即每次都是固定一个变量，调整另一个变量，所以k-means完全是在针对失真函数 J 坐标上升，这样，J 必然是单调递减，所以J的值必然收敛。在理论上，这种方法可能会使得k-means在一些聚类结果之间产生震荡，即几组不同的 c 和 μ 有着相同的失真函数值，但是这种情况在实际情况中很少出现。

由于失真函数是一个非凸函数，所以坐标上升不能保证该函数全局收敛，即失真函数容易陷入局部收敛。但是大多数情况下，k-means都可以产生不错的结果，如果担心陷入局部收敛，可以多运行几次k-means(采用不同的随机初始聚类中心)，然后从多次结果中选出失真函数最小的聚类结果。

下面是一个简单k-means的C++代码，对{1, 2, 3, 11, 12, 13, 21, 22, 23}这9个样本值聚类：

 #include<iostream>

 #include<cmath>

 #include<vector>

 #include<ctime>

 using namespace std;

 typedef unsigned int uint;

 struct Cluster

 {

     vector<double> centroid;

     vector<uint> samples;

 };

 double cal_distance(vector<double> a, vector<double> b)

 {

     uint da = a.size();

     uint db = b.size();

     if (da != db) cerr << "Dimensions of two vectors must be same!!\n";

     double val = 0.0;

     for (uint i = ; i < da; i++)

     {

         val += pow((a[i] - b[i]), );

     }

     return pow(val, 0.5);

 }

 vector<Cluster> k_means(vector<vector<double> > trainX, uint k, uint maxepoches)

 {

     const uint row_num = trainX.size();

     const uint col_num = trainX[].size();

     /*初始化聚类中心*/

     vector<Cluster> clusters(k);

     uint seed = (uint)time(NULL); 
 33     for (uint i = ; i < k; i++)

     {

         srand(seed);

         int c = rand() % row_num;

         clusters[i].centroid = trainX[c];

         seed = rand();

     }

     /*多次迭代直至收敛，本次试验迭代100次*/

     for (uint it = ; it < maxepoches; it++)

     {

         /*每一次重新计算样本点所属类别之前，清空原来样本点信息*/

         for (uint i = ; i < k; i++)

         {

             clusters[i].samples.clear();

         }

         /*求出每个样本点距应该属于哪一个聚类*/

         for (uint j = ; j < row_num; j++)

         {

             /*都初始化属于第0个聚类*/

             uint c = ;

             double min_distance = cal_distance(trainX[j],clusters[c].centroid);

             for (uint i = ; i < k; i++)

             {

                 double distance = cal_distance(trainX[j], clusters[i].centroid);

                 if (distance < min_distance)

                 {

                     min_distance = distance;

                     c = i;

                 }

             }

             clusters[c].samples.push_back(j);

         }

         /*更新聚类中心*/

         for (uint i = ; i < k; i++)

         {

             vector<double> val(col_num, 0.0);

             for (uint j = ; j < clusters[i].samples.size(); j++)

             {

                 uint sample = clusters[i].samples[j];

                 for (uint d = ; d < col_num; d++)

                 {

                     val[d] += trainX[sample][d];

                     if (j == clusters[i].samples.size() - )

                         clusters[i].centroid[d] = val[d] / clusters[i].samples.size();

                 }

             }

         }

     }

     return clusters;

 }

 int main()

 {

     vector<vector<double> > trainX(,vector<double>(,));

     //对9个数据{1 2 3 11 12 13 21 22 23}聚类

     double data = 1.0;

     for (uint i = ; i < ; i++)

     {

         trainX[i][] = data;

         if ((i+) %  == ) data += ;

         else data++;

     }

     /*k-means聚类*/

     vector<Cluster> clusters_out = k_means(trainX, , );

     /*输出分类结果*/

     for (uint i = ; i < clusters_out.size(); i++)

     {

         cout << "Cluster " << i << " :" << endl; 

         /*子类中心*/

         cout << "\t" << "Centroid: " << "\n\t\t[ ";

         for (uint j = ; j < clusters_out[i].centroid.size(); j++)

         {

             cout << clusters_out[i].centroid[j] << " ";

         }

         cout << "]" << endl;

         /*子类样本点*/

         cout << "\t" << "Samples:\n";

         for (uint k = ; k < clusters_out[i].samples.size(); k++)

         {

             uint c = clusters_out[i].samples[k];

             cout << "\t\t[ ";

             for (uint m = ; m < trainX[].size(); m++)

             {

                 cout << trainX[c][m] << " ";

             }

             cout << "]\n";

         }

     }

     return ;

 }

下面是4次运行结果：

由于数据简单，容易看出第一次和第是三次结果是理想的，而第二次和第四次都是较差出的聚类结果，即上面说的失真函数陷入了局部最优，所以在实践中多次运行，取出较好的聚类结果。

K-means聚类算法原理和C++实现的更多相关文章

k均值聚类算法原理和（TensorFlow）实现
顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也 ...
机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
K均值聚类算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个 ...
基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
K均值聚类算法的MATLAB实现
1.K-均值聚类法的概述之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理.最近因为在学模式识别,又重新接触了这 ...
URL短网址生成算法原理和php实现案例
短网址(Short URL),顾名思义就是在形式上比较短的网址. 短链接的好处:1.内容需要:2.用户友好:3.便于管理为什么要这样做的,原因我想有这样几点:微博限制字数为140字一条,那么如果我们需 ...
机器学习之感知器算法原理和Python实现
(1)感知器模型感知器模型包含多个输入节点:X0-Xn,权重矩阵W0-Wn(其中X0和W0代表的偏置因子,一般X0=1,图中X0处应该是Xn)一个输出节点O,激活函数是sign函数. (2)感知器学 ...
聚类之K均值聚类和EM算法
这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...
BIRCH聚类算法原理
在K-Means聚类算法原理中,我们讲到了K-Means和Mini Batch K-Means的聚类原理.这里我们再来看看另外一种常见的聚类算法BIRCH.BIRCH算法比较适合于数据量大,类别数K也 ...

随机推荐

【总结】 Lucas定理
$Lucas$定理: $C^x_y≡C^{x/p}_{y/p}*C^{x\%p}_{y\%p} ~~(mod~p)$ 证明不会2333 void pre(){ A[0]=A[1]=B[0]=B ...
idea使用docker-maven-plugin插件将项目编译为docker镜像到远程linux服务器原
在使用idea开发时,直接docker-maven-plugin插件,把项目编译成docker镜像,然后通过docker:push推送到linux服务器,非常简单,快捷,也避免了手动打包,然后拷贝wa ...
php语言基础语法与编程工具推荐
php脚本语言,需要在服务器端执行,用浏览器返回HTML结果.在PHP中所有的语法都是如此,用户端是无法修改的,只有浏览权限. 一.php基础语法之输出方法 1.PHP中所有的脚本,可以放在文件中的任 ...
React Native——组件的生命周期
组件生命周期上流程图描述了组件从创建.运行到销毁的整个过程,可以看到如果一个组件在被创建,从开始一直到运行会依次调用getDefaultProps到render这五个函数:在运行过程中,如果有属性和 ...
洛谷P4112 最短不公共子串
题意: 下面,给两个小写字母串A,B,请你计算: (1) A的一个最短的子串,它不是B的子串 (2) A的一个最短的子串,它不是B的子序列 (3) A的一个最短的子序列,它不是B的子串 (4) A的一 ...
A1020. Tree Traversals
Suppose that all the keys in a binary tree are distinct positive integers. Given the postorder and i ...
（转）在Eclipse中创建Maven多模块工程
背景:以前只总结了怎么在命令行下创建maven的多模块项目,在eclipse下怎么创建不是很清楚.最近需要在git的资源库中上传多模块项目,方便后期的维护,所以将网上的资料进行整理. 原文链接:htt ...
函数和常用模块【day04】：函数介绍（一）
本节内容 1.函数介绍 2.函数定义 3.为什么要使用函数一.介绍在我们以往的学习编程的过程当中,碰到的最多的两张编程方式或者说编程方法:面向过程和面向对象.其实不管是哪一种,其实都是编程的方法论 ...
Random类（随机数）
前言:总是忘记怎么用.上网一查,都是些有的没的...... 最简单却最常用的方法:Random.Next方法首先,为Random类实例化一个对象: Random n=new Random(); Ne ...
3、Python-字符串
下标 name = 'abcdef' print(name[0]) print(name[1]) print(name[2]) # a # b # c 切片 # 切片的语法:[起始:结束:步长] na ...

K-means聚类算法原理和C++实现

K-means聚类算法原理和C++实现的更多相关文章

随机推荐

热门专题