续前篇---数据挖掘之聚类算法k-mediod(PAM)原理及实现

上一篇博文中介绍了聚类算法中的kmeans算法.无可非议kmeans由于其算法简单加之分类效率较高

已经广泛应用于聚类应用中.

然而kmeans并非十全十美的.其对于数据中的噪声和孤立点的聚类带来的误差也是让人头疼的.

于是一种基于Kmeans的改进算法kmediod应运而生.kmediod和Kmeans算法核心思想大同小异,但是最大

的不同是在修正聚类中心的时候,kmediod是计算类簇中除开聚类中心的每点到其他所有点的聚类的最小值

来优化新的聚类中心.正是这一差别使得kmediod弥补了kmeans算法的缺点.kmediod对噪声和孤立点不敏感.

但是事情都具有两面性.这种聚类准确性的提高是牺牲聚类时间来实现的.不难看出.kmediod需要不断的找出每

个点到其他所有点的距离的最小值来修正聚类中心,这大大加大了聚类收敛的时间.所有Kmediod对于大规模数据

聚类就显得力不从心,只能适应较小规模的数值聚类.

接下来我再对kmediod的算法描述一遍:

1.设样本为X{x(1),x(2)........}

2.首先在样本中随机选取k个聚类中心.

3.然后对除开聚类中心外的样本点计算到每个聚类中心的距离.将样本归类到距离样本中心最近的样本点.这便

实现了最初的聚类

4.再对每个类中除类中心的点外的其他样本点计算到其他所有点的距离和的最小值.将该最小值点作为新的聚类

中心便实现了一次聚类优化.

5.重复步骤四,直到两次聚类中心的位置不再变化,这便完成了最终的聚类

注：步骤4正体现了kmeans和kmediod的核心差异

k-mediod的matlab实现代码如下：

 clc;

 clear;

 ClomStatic=[1,2,3,25,26,27,53,54,55];

 len=length(ClomStatic);%求向量ClomStatic的长度

 k=3; %给定的类别数目

 %产生三个随机整数，随机聚类中心

 p=randperm(len);

 Temp=p(1:k);

 Center=zeros(1,k);

 for i=1:k

     Center(i)=ClomStatic(Temp(i));

 end

 %计算除聚类中心外的样本数据到聚类中心的距离,然后进行聚类

 TempDistance=zeros(len,3);

  while 1

     Circulm=1;

     p1=1;

     p2=1;

     p3=1;

     JudgeEqual=zeros(1,k);

     if(Circulm~=1)

         clear Group1 Group2 Group3;

     end

     for i=1:len

         for j=1:3

             TempDistance(i,j)=abs(ClomStatic(i)-Center(j));

         end

         [RowMin RowIndex]=min(TempDistance(i,:));

         if(RowIndex==1)

             Group1(p1)=ClomStatic(i);

             p1=p1+1;

         elseif(RowIndex==2)

             Group2(p2)=ClomStatic(i);

             p2=p2+1;

         elseif(RowIndex==3)

             Group3(p3)=ClomStatic(i);

             p3=p3+1;

         end

     end

         len1=length(Group1);

         len2=length(Group2);

         len3=length(Group3);

         %计算Group1,Group2,Group3的均值

         MeanGroup1=mean(Group1);

         MeanGroup2=mean(Group2);

         MeanGroup3=mean(Group3);

               %分别计算每个类中除开类中心的点到其他所有点的距离和E,E最小时为该类新的聚类中心.

               E=zeros(1,len1-1);

               q1=1;

               for j=1:len1

                   for i=1:len

                     if(Group1(j)~=Center(1)&&i~=j)

                         E(q1)=floor(abs(Group1(j)-ClomStatic(i)));

                         q1=q1+1;

                     end

                   end

               end

               NewCenter(1)=min(E);

              E=zeros(1,len2-1);

               q2=1;

               for j=1:len2

                   for i=1:len

                     if(Group2(j)~=Center(2)&&i~=j)

                         E(q2)=floor(abs(Group2(j)-ClomStatic(i)));

                         q2=q2+1;

                     end

                   end

               end

               NewCenter(2)=min(E);

               E=zeros(1,len3-1);

               q3=1;

               for j=1:len3

                   for i=1:len

                     if(Group3(j)~=Center(3)&&i~=j)

                         E(q3)=floor(abs(Group3(j)-ClomStatic(i)));

                         q3=q3+1;

                     end

                   end

               end

               NewCenter(3)=min(E);

         %判断新的类和旧类的聚类中心是否不同,不同则继续聚类,否则聚类结束

         JudgeEqual=zeros(1,k);

         for i=1:k

             JudgeEqual=(NewCenter==Center);

         end

         S=0;

         for i=1:k

             if(JudgeEqual(i)==1)

                 S=S+1;

             end

         end

         if(S==3)

             break;

         end

         Circulm=Circulm+1;

   end

结果如下：

续前篇---数据挖掘之聚类算法k-mediod(PAM)原理及实现的更多相关文章

第十三篇：K-Means 聚类算法原理分析与代码实现
前言在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
数据挖掘之聚类算法K-Means总结
序由于项目需要,需要对数据进行处理,故而又要滚回来看看paper,做点小功课,这篇文章只是简单的总结一下基础的Kmeans算法思想以及实现: 正文: 1.基础Kmeans算法. Kmeans算法的属 ...
聚类算法:K均值、凝聚层次聚类和DBSCAN
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
常见聚类算法——K均值、凝聚层次聚类和DBSCAN比较
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
【机器学习】聚类算法——K均值算法（k-means）
一.聚类 1.基于划分的聚类:k-means.k-medoids(每个类别找一个样本来代表).Clarans 2.基于层次的聚类:(1)自底向上的凝聚方法,比如Agnes (2)自上而下的分裂方法,比 ...
数据挖掘之聚类算法Ａpriori总结
项目中有时候需要用到对数据进行关联分析,比如分析一个小商店中顾客购买习惯. package com.data.algorithm; import com.google.common.base.Spli ...
数据挖掘十大算法--K-均值聚类算法
一.相异度计算在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能 ...
机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...

随机推荐

haproxy nginx 多路径
nginx 多路径: location / { root /t/deploy/zjdev/deployedApps/zjzc-web-frontEnd/; index index.html index ...
Linux下（主要针对Ubuntu）下桌面分辨率的添加
系统版本: Linux (Ubuntu) 其他桌面发行版应该也行. 相关命令: lspci, cvt, xrandr 在桌面分辨率不正常显示桌面或者没有最佳的分辨率时,需要修改添加适合的桌面分辨率模式 ...
Min Stack 解答
Question Design a stack that supports push, pop, top, and retrieving the minimum element in constant ...
LeeCode(Database)-Employees Earning More Than Their Managers
The Employee table holds all employees including their managers. Every employee has an Id, and there ...
各硬件装置在 Linux 中的文件名（笔记）
各硬件装置在 Linux 中的文件名
国际C语言混乱代码大赛代码赏析(一)【转】
本文转载自:http://blog.csdn.net/ce123_zhouwei/article/details/9073869 国际C语言混乱代码大赛代码赏析(一) 近段时间在看<C专家编程& ...
JVM工作原理和特点(一些二逼的逼神面试官会问的问题)
作为一种阅读的方式了解下jvm的工作原理 ps:(一些二逼的逼神面试官会问的问题) JVM工作原理和特点主要是指操作系统装入JVM是通过jdk中Java.exe来完毕,通过以下4步来完毕JVM环境. ...
Win8 使用VC6.0调试
Win8.1下无法执行vc++6.0的解决方法注意安装过程中最后一步会卡在那里不动,能够直接关闭安装程序,忽略报错. 1 安装完毕后在安装文件夹下找到MSDEV.EXE 而且将 MSDEV.EXE ...
c-version:null]] could not deserialize the servlet-context scoped attribute with name: "MENU_LIST"
<Jul 26, 2013 10:45:02 AM CST> <Error> <HTTP> <BEA-101362> <[ServletConte ...
[jQuery] 自做 jQuery Plugin - Part 1
有時候寫 jQuery 時,常會發現一些簡單的效果可以重複利用.只是每次用 Copy & Paste 大法似乎不是件好事,有沒有什麼方法可以讓我們把這些效果用到其他地方呢? 沒錯,就是用 jQ ...

续前篇---数据挖掘之聚类算法k-mediod(PAM)原理及实现

续前篇---数据挖掘之聚类算法k-mediod(PAM)原理及实现的更多相关文章

随机推荐

热门专题