K-Means算法的输入N,K和一个size为N的向量组vector.输出K个两两互不相交的向量组.其本质是将给定的向量组划分成K个类别,使得同类别的向量相似度比较大,而不同类别的向量之间的相似度较小.
    比如以下这个图,人肉眼能看出有四个点团,但计算机不知道,为了让计算机明白这一点,可以将点的坐标提取到向量组中,而向量之间的相似度定义为点之间的距离的相反数或者倒数.从而将这些点分开.
    实现过程:
    (1)从n个数据对象任意选择k个对象作为初始聚类中心;
    (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分;
    (3)重新计算每个(有变化)聚类的均值(中心对象);
    (4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止,如果条件不满足则回到步骤(2).
    实际应用中的问题:
    事实上,我是一个做ACM的选手,所以我比较感兴趣的是K-Means能否求得一个最优解.对于这样一个问题:从N个点取出K个作为核心,定义两个向量之间的相似度函数f(vector1,vector2),使得所有点与其所对应的核心的相似度之和最大.然而事实让我大失所望,K-Means算法对种子点的选取十分敏感,不同的种子会导致不同的解.

#include<math.h>
#include<stdio.h>
#include<string.h>
#define Convergence (fabs(last-cur)<1e-8)
#define dist(a,b) (sqrt((x[a]-px[b])*(x[a]-px[b])+(y[a]-py[b])*(y[a]-py[b])))
int x[],y[],qx[],qy[],px[],py[],assign[];
int main()
{
freopen("data.txt","r",stdin);
FILE *fp=fopen("output.txt","w");
int N,K,i,j,k;
double ave=,MIN=1e15;
scanf("%d%d",&N,&K);
for (i=;i<=N;i++) scanf("%d%d",&x[i],&y[i]);
for (int asd=;asd<N;asd++)
{
printf("Executing case #%d\n",asd);
if (asd) printf("Current Average:%.6lf\n",ave/asd);
printf("Current Minimize:%.6lf\n",MIN);
printf("----------------------------------------\n");
fprintf(fp,"Executing case #%d\n",asd);
if (asd) fprintf(fp,"Current Average:%.6lf\n",ave/asd);
fprintf(fp,"Current Minimize:%.6lf\n",MIN);
fprintf(fp,"----------------------------------------\n");
for (i=;i<=K;i++)
{
px[i]=x[(i+asd)%N+];
py[i]=y[(i+asd)%N+];
}
double last=1e15,cur=;
while (!Convergence)
{
printf("%.6lf\n",last);
last=cur;
for (i=;i<=N;i++)
{
double Min=1e15;
int v;
for (j=;j<=K;j++)
{
double d=dist(i,j);
if (d<Min)
{
Min=d;
v=j;
}
}
assign[i]=v;
}
for (i=;i<=K;i++)
{
int cnt=;
for (j=;j<=N;j++)
if (assign[j]==i)
{
qx[++cnt]=x[j];
qy[ cnt ]=y[j];
}
double Min=1e15;
int v;
for (j=;j<=cnt;j++)
{
double tmp=;
for (k=;k<=cnt;k++)
tmp+=(sqrt((qx[j]-qx[k])*(qx[j]-qx[k])+(qy[j]-qy[k])*(qy[j]-qy[k])));
if (tmp<Min)
{
Min=tmp;
v=j;
}
}
px[i]=qx[v];
py[i]=qy[v];
}
cur=;
for (i=;i<=N;i++) cur+=dist(i,assign[i]);
}
ave+=cur;
MIN=MIN<cur ? MIN:cur;
}
printf("Total average:%.6lf\n",ave/N);
printf("Total MIN:%.6lf\n",MIN);
fprintf(fp,"Total average:%.6lf\n",ave/N);
fprintf(fp,"Total MIN:%.6lf\n",MIN);
return ;
}

运行结果如图所示:


    另一个问题是算法的收敛速度,重新算了一下,结果如下图所示:


    这个结果让我大吃一惊啊,每次迭代之后更新量都很小,而且最终的值(9259914.963696)跟第一个有意义的值(10352922.175732)相差并不是很多.后来我仔细想了一下,应该是跟输入数据有关,我的数据完全是在一定范围内随机生成的,分布比较均匀,所以即使随便选也可以得到相当不错的效果,这是我生成数据的程序:

program makedata;
var i,N,K:longint;
begin
assign(output,'data.txt');
rewrite(output);
randomize;
N:=random();
K:=random();
writeln(N,' ',K);
for i:= to N do
writeln(random(),' ',random());
close(output);
end.

于是我重新写了makedada程序,想法是先随机生成K个核心,再在其周围生成其他的点:

#include<stdio.h>
#include<time.h>
#include<math.h>
#include<stdlib.h>
int main()
{
srand(unsigned(time()));
freopen("data.txt","w",stdout);
printf("15000 15\n");
for (int i=;i<=;i++)
{
int X=rand()%,Y=rand()%;
for (int j=;j<=;j++)
{
int dx=rand()%,dy=rand()%;
if (rand()&) dx*=-;
if (rand()&) dy*=-;
printf("%d %d\n",X+dx,Y+dy);
}
}
return ;
}

再重新运行一下,得到如下结果:


    可以看出,收敛的速度还是可以的,而且最终结果几乎只有最初解得一半.
    初除此之外,还有一个重要问题,核心数K是作为输入给定的,而在实际应用中是无法预知的.对此可以用ISODATA算法作为补充.

数据挖掘十大经典算法[0]-K-Means算法的更多相关文章

  1. 数据挖掘十大经典算法(5) 最大期望(EM)算法

    在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Lat ...

  2. ICDM评选:数据挖掘十大经典算法

    原文地址:http://blog.csdn.net/aladdina/article/details/4141177 国际权威的学术组织the IEEE International Conferenc ...

  3. 数据挖掘十大经典算法--CART: 分类与回归树

    一.决策树的类型  在数据挖掘中,决策树主要有两种类型: 分类树 的输出是样本的类标. 回归树 的输出是一个实数 (比如房子的价格,病人呆在医院的时间等). 术语分类和回归树 (CART) 包括了上述 ...

  4. 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

    贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类.眼下研究较多的贝叶斯分类器主要有四种, ...

  5. 数据挖掘领域十大经典算法之—C4.5算法(超详细附代码)

    https://blog.csdn.net/fuqiuai/article/details/79456971 相关文章: 数据挖掘领域十大经典算法之—K-Means算法(超详细附代码)        ...

  6. 数据挖掘十大算法--K-均值聚类算法

    一.相异度计算  在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能 ...

  7. 【十大经典数据挖掘算法】k

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 引言 k-means与kNN虽 ...

  8. 【十大经典数据挖掘算法】PageRank

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 我特地把PageRank作为[十大经 ...

  9. 【十大经典数据挖掘算法】SVM

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART SVM(Support Vector ...

随机推荐

  1. NGUI 学习笔记实战——制作商城UI界面

    http://www.cnblogs.com/chongxin/p/3876575.html Unity3D的uGUI听说最近4.6即将推出,但是目前NGUI等UI插件大行其道并且已经非常成熟,所以我 ...

  2. systemd在各个linux发行版的普及

    后面我要说下自己的意见: 原则如果阻碍了进步,那还算个屁,不客气地说,UNIX 原则已经过时了. 移植性问题:我除了 Mac 外不用任何 BSD 系统,当然 Mac 上一般只做开发不做运维(但就算如此 ...

  3. Django之admin界面恢复及添加数据模型

    引自:http://fl0wjacky.github.io/jekyll_demo/2014/07/14/Django-admin.html Django之admin界面恢复及添加数据模型 Djang ...

  4. GPL协议的MySQL数据库

    网络上多数朋友担心甲骨文会对MySQL软件采用收费模式,多数朋友也不清楚MySQL开源到底是什么模式,开源=免费嘛?是很多的疑问?MySQL是遵守双重协议的,一个是GPL授权协议,一个是商用授权协议( ...

  5. Price List

    Price List Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 262144/131072 K (Java/Others)Tota ...

  6. hdu 1160 FatMouse's Speed 解题报告

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1160 题目意思:给出一堆老鼠,假设有 n 只(输入n条信息后Ctrl+Z).每只老鼠有对应的weigh ...

  7. 【python-mysql】在ubuntu下安装python-mysql环境

    1.先安装mysql sudo apt-get install mysql-server apt-get isntall mysql-client sudo apt-get install libmy ...

  8. Light OJ 1199 - Partitioning Game (博弈sg函数)

    D - Partitioning Game Time Limit:4000MS     Memory Limit:32768KB     64bit IO Format:%lld & %llu ...

  9. tar -cvPf new.tar `rpm -ql vsftpd` 建议不要用绝对路径'/'

    tar -cvPf new.tar `rpm -ql vsftpd` 解压这样的压缩包,会在当前用户的家目录下解压:~./xxxx;加参数-C :tar -xvf xxx.tar -C /  ;来指定 ...

  10. Git Server & Git Hook

    http://ju.outofmemory.cn/entry/16893 我喜欢 github,我现在的个人代码全部是托管在上面了,但是一些公司或者某些项目不适合放入github中,你希望能有一个完全 ...