数据挖掘十大经典算法[0]-K-Means算法

K-Means算法的输入N,K和一个size为N的向量组vector.输出K个两两互不相交的向量组.其本质是将给定的向量组划分成K个类别,使得同类别的向量相似度比较大,而不同类别的向量之间的相似度较小.
    比如以下这个图,人肉眼能看出有四个点团,但计算机不知道,为了让计算机明白这一点,可以将点的坐标提取到向量组中,而向量之间的相似度定义为点之间的距离的相反数或者倒数.从而将这些点分开.
    实现过程:
    (1)从n个数据对象任意选择k个对象作为初始聚类中心;
    (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分;
    (3)重新计算每个(有变化)聚类的均值(中心对象);
    (4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止,如果条件不满足则回到步骤(2).
    实际应用中的问题:
    事实上,我是一个做ACM的选手,所以我比较感兴趣的是K-Means能否求得一个最优解.对于这样一个问题:从N个点取出K个作为核心,定义两个向量之间的相似度函数f(vector1,vector2),使得所有点与其所对应的核心的相似度之和最大.然而事实让我大失所望,K-Means算法对种子点的选取十分敏感,不同的种子会导致不同的解.

#include<math.h>

#include<stdio.h>

#include<string.h>

#define Convergence (fabs(last-cur)<1e-8)

#define dist(a,b) (sqrt((x[a]-px[b])*(x[a]-px[b])+(y[a]-py[b])*(y[a]-py[b])))

int x[],y[],qx[],qy[],px[],py[],assign[];

int main()

{

 freopen("data.txt","r",stdin);

 FILE *fp=fopen("output.txt","w");

 int N,K,i,j,k;

 double ave=,MIN=1e15;

 scanf("%d%d",&N,&K);

 for (i=;i<=N;i++) scanf("%d%d",&x[i],&y[i]);

 for (int asd=;asd<N;asd++)

 {

 printf("Executing case #%d\n",asd);

 if (asd) printf("Current Average:%.6lf\n",ave/asd);

 printf("Current Minimize:%.6lf\n",MIN);

 printf("----------------------------------------\n");

 fprintf(fp,"Executing case #%d\n",asd);

 if (asd) fprintf(fp,"Current Average:%.6lf\n",ave/asd);

 fprintf(fp,"Current Minimize:%.6lf\n",MIN);

 fprintf(fp,"----------------------------------------\n");

 for (i=;i<=K;i++)

 {

  px[i]=x[(i+asd)%N+];

  py[i]=y[(i+asd)%N+];

 }

 double last=1e15,cur=;

 while (!Convergence)

 {

  printf("%.6lf\n",last);

  last=cur;

  for (i=;i<=N;i++)

  {

   double Min=1e15;

   int v;

   for (j=;j<=K;j++)

   {

    double d=dist(i,j);

    if (d<Min)

    {

     Min=d;

     v=j;

    }

   }

   assign[i]=v;

  }

  for (i=;i<=K;i++)

  {

   int cnt=;

   for (j=;j<=N;j++)

    if (assign[j]==i)

    {

     qx[++cnt]=x[j];

     qy[ cnt ]=y[j];

    }

   double Min=1e15;

   int v;

   for (j=;j<=cnt;j++)

   {

    double tmp=;

    for (k=;k<=cnt;k++)

     tmp+=(sqrt((qx[j]-qx[k])*(qx[j]-qx[k])+(qy[j]-qy[k])*(qy[j]-qy[k])));

    if (tmp<Min)

    {

     Min=tmp;

     v=j;

    }

   }

   px[i]=qx[v];

   py[i]=qy[v];

  }

  cur=;

  for (i=;i<=N;i++) cur+=dist(i,assign[i]);

 }

 ave+=cur;

 MIN=MIN<cur ? MIN:cur;

 }

 printf("Total average:%.6lf\n",ave/N);

 printf("Total MIN:%.6lf\n",MIN);

 fprintf(fp,"Total average:%.6lf\n",ave/N);

 fprintf(fp,"Total MIN:%.6lf\n",MIN);

 return ;

}

运行结果如图所示:

另一个问题是算法的收敛速度,重新算了一下,结果如下图所示:

这个结果让我大吃一惊啊,每次迭代之后更新量都很小,而且最终的值(9259914.963696)跟第一个有意义的值(10352922.175732)相差并不是很多.后来我仔细想了一下,应该是跟输入数据有关,我的数据完全是在一定范围内随机生成的,分布比较均匀,所以即使随便选也可以得到相当不错的效果,这是我生成数据的程序:

program makedata;

var i,N,K:longint;

begin

assign(output,'data.txt');

rewrite(output);

    randomize;

    N:=random();

    K:=random();

    writeln(N,' ',K);

    for i:= to N do

        writeln(random(),' ',random());

close(output);

end.

于是我重新写了makedada程序,想法是先随机生成K个核心,再在其周围生成其他的点:

#include<stdio.h>

#include<time.h>

#include<math.h>

#include<stdlib.h>

int main()

{

 srand(unsigned(time()));

 freopen("data.txt","w",stdout);

 printf("15000 15\n");

 for (int i=;i<=;i++)

 {

  int X=rand()%,Y=rand()%;

  for (int j=;j<=;j++)

  {

   int dx=rand()%,dy=rand()%;

   if (rand()&) dx*=-;

   if (rand()&) dy*=-;

   printf("%d %d\n",X+dx,Y+dy);

  }

 }

 return ;

}

再重新运行一下,得到如下结果:

可以看出,收敛的速度还是可以的,而且最终结果几乎只有最初解得一半.
初除此之外,还有一个重要问题,核心数K是作为输入给定的,而在实际应用中是无法预知的.对此可以用ISODATA算法作为补充.

数据挖掘十大经典算法[0]-K-Means算法的更多相关文章

数据挖掘十大经典算法(5) 最大期望(EM)算法
在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Lat ...
ICDM评选：数据挖掘十大经典算法
原文地址:http://blog.csdn.net/aladdina/article/details/4141177 国际权威的学术组织the IEEE International Conferenc ...
数据挖掘十大经典算法--CART: 分类与回归树
一.决策树的类型在数据挖掘中,决策树主要有两种类型: 分类树的输出是样本的类标. 回归树的输出是一个实数 (比如房子的价格,病人呆在医院的时间等). 术语分类和回归树 (CART) 包括了上述 ...
数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类.眼下研究较多的贝叶斯分类器主要有四种, ...
数据挖掘领域十大经典算法之—C4.5算法（超详细附代码）
https://blog.csdn.net/fuqiuai/article/details/79456971 相关文章: 数据挖掘领域十大经典算法之—K-Means算法(超详细附代码) ...
数据挖掘十大算法--K-均值聚类算法
一.相异度计算在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能 ...
【十大经典数据挖掘算法】k
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 引言 k-means与kNN虽 ...
【十大经典数据挖掘算法】PageRank
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 我特地把PageRank作为[十大经 ...
【十大经典数据挖掘算法】SVM
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART SVM(Support Vector ...

随机推荐

[Effective JavaScript 笔记]第46条：使用数组而不要使用字典来存储有序集合
对象属性无序性 js对象是一个无序属性集合. var obj={}; obj.a=10; obj.b=30; 属性a和属性b并没有谁前谁后之说.for...in循环,先输出哪个属性都有可能.获取和设置 ...
UITextField竖直居中对齐
http://blog.sina.com.cn/s/blog_87533a0801012nv0.html 用xib生成的UITextField文字默认是水平左对齐,垂直居中对齐的,但是用代码生成的UI ...
ios5之后arc的问题
原创: 自从ios5以后, apple官方引进了ARC (automaically reference count 自动索引计数) 这个新特性, 简单的说就是对象设置为nil(空引用)之后, 当自动索 ...
ROS2.9.27架设网吧软路由实战篇之端口映射与回流
转载:http://blog.csdn.net/zm2714/article/details/7924280 上一篇:ROS2.9.27架设网吧软路由实战篇之连通网络,主要讲述了网吧架设软路由ROS2 ...
poj2253 最短路 floyd Frogger
Frogger Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 28825 Accepted: 9359 Descript ...
Java正则表达式的最简单应用
String emailRegex = "^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*$"; Pattern pat = ...
android获取手机信息大全
IMEI号,IESI号,手机型号: private void getInfo() { TelephonyManager mTm = (TelephonyManager) getSystemServic ...
windows下bat批处理实现守护进程
本文转自网络,由于找不到原作者,因而无法知道出处.如果有幸让原作者看到,请联系我加上.先转载至此. 最近几天加班加疯掉了,天天晚上没法睡.开发部的一个核心程序总是会自己宕机,然后需要手工去起,而这个服 ...
iOS7总显示状态栏的解决方法
转载http://blog.csdn.net/langresser_king/article/details/18351021 2014年2月份开始,苹果需求开发者必须使用xcode5开发游戏和应用, ...
iOS 利用Context裁剪图片
下面的代码可以裁剪出圆形的图片, 1,先把不规则图片转成正方形图片 UIGraphicsBeginImageContext(newSize); [image drawInRect:CGRectMake ...

数据挖掘十大经典算法[0]-K-Means算法

数据挖掘十大经典算法[0]-K-Means算法的更多相关文章

随机推荐

热门专题