聚类

聚类任务

背景

在无监督学习(密度估计、异常检测等)中,训练样本的标记信息是未知的(即不人为指定),旨在发现数据之间的内在联系和规律,为进一步的数据分析提供基础。 
此类学习任务中研究最多、应用最广的是聚类。

定义

聚类将数据集中的样本划分为若干个通常是不相交(有的时候会相交)的子集(簇,也叫类),即将样本分类,但是分类后得到的簇的标记是未指定的,这里需要使用者自行定义。

作用

聚类既能作为一个单独过程,用于寻找数据内在的分布结构,可以作为分类等其他学习任务的前驱过程。 
主要概括起来,就是寻找数据内在的规律和联系,进行整合,分类,得到的一些数据集(类)。

性能度量(有效性指标)

类似于监督性学习的性能度量。

聚类理想情况就是,簇内相似度高,簇间相似度低。

聚类的性能度量大致有两类,分为外部指标(具有参考模型)和内部指标(直接考察聚类结果)。

外部指标举例的话,比如给你一群人的特征,一种理想情况就是聚类为男|女。

外部指标

书上根据上面的数据给出了如下四个式子 
 
其中 第一个S 表示C中属于相同簇, D 表示C中不属于相同簇, 第二个S 表示C∗中属于相同簇,D表示C∗中不属于相同簇。 
很明显,只有这四种情况,所有得出 a + b + c + d = m (m - 1) / 2,其中m (m - 1) / 2 为所有数据两两相对的情况数。 
基于上面的四个式子可以导出下面这些常用的聚类性能度量外部指标:

  • Jaccard系数(JC)

    JC=aa+b+c
  • FM指数(FMI) 
    FMI=aa+b⋅aa+c−−−−−−−−−−−√
  • Rand指数(RI) 
    RI=2(a+d)m(m−1)

显然,上述的三个性能度量的结果值均在[0, 1]区间,值越大越好。

内部指标

接着,又能得出下面这四个式子(基于样本之间的距离dist来得出: avg簇内平均,diam簇内最远,min簇间最近,cen簇间中心点间的距离) 
 
基于上面四个式子,我们可以导出下面这些常用的聚类性能度量的内部指标

  • DB指数(DBI)

    DBI=1k∑i=1kmaxj≠i(avg(Ci)+avg(Cj)dcen(ui,uj))

分析可知,上式求得的就是簇之间两两比较,计算出二个簇的平均距离之和除以二个簇之间的中心距离,取最大值,并求和,最后得出的结果代表着簇间相似度,为什么呢? 
这里就要说一下,dist,是一个函数,能够计算二个样本之间的距离,那么,这个得出的距离是什么呢?就是二者的相似性,距离越大,代表相似性越低,差异性越高,那么,cen就代表着二个簇之间的相似性,越小越相似,即上述式子就越大。 
但是为什么是簇间相似度而不是簇内相似度,他计算的是cen簇内中间距离,得出的是二个簇之间的相似度。

  • Dunn指数(DI)

    DI=min1⩽i⩽k{minj≠i(dmin(Ci,Cj)max1⩽l⩽kdiam(Cl))}

类似于DBI的分析,也可以得出DI代表的是簇内相似度,比较的是diam簇内最远。

综上所述,DBI越小越号,DI越大越好(不懂分子那里为什么)。

距离计算

这里主要说的就是上面说的dist函数,若他是一个距离度量,则需满足一些基本性质

  • 非负性(即算出的差异性不能为负数)

    dist(xi,xj)⩽0
  • 同一性(即自己跟自己距离要为0) 
    dist(xi,xj)=0当且仅当xi=xj
  • 对称性(即二点之间距离从这走和从对面走是一样的) 
    dist(xi,xj)=dist(xj,xi)
  • 直递性(三角不等式) 
    dist(xi,xj)⩽dist(xi,xk)+dist(xk,xj)
闵可夫斯基距离(MinkovDM)

预备知识:范数

distmk(xi,xj)=(∑u=1n|xui−xju|p)1p

上面这个式子就是范数||xi−xj||p

当p=2时,计算的就是欧式距离。 
当p=1时,计算的就是曼哈顿距离(街区距离)。

属性分为连续属性(数值属性)和离散属性(列名属性),连续属性一般为有序属性,离散属性一般为无序属性,闵可夫斯基距离可用于有序属性的计算, 如果需要对无序属性进行计算,则需要使用VDM。

VDM(不同值的标量)

 
看到这里,感觉就是在计算二个值(a,b)在不同簇被引用的比例。 
接着,我们就可以使用以下这些小连招- -,处理混合属性的时候 

有的时候,距离度量可能不满足直递性,这样的距离成为非度量距离。

原型聚类(基于原型的聚类)

此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。

原理

先对原型进行初始化,然后对原型进行迭代更新求解,采用不同的原型表示、不同的求解方式,将产生不同的算法。

k均值算法(kmeans)


算法流程 

kmeans(X,k)

idx = kmeans(X,k) 
idx = kmeans(X,k,Name,Value) 
[idx,C] = kmeans(_
[idx,C,sumd] = kmeans(_
[idx,C,sumd,D] = kmeans(_
X :N*P的数据矩阵 
K: 表示将X划分为几类,为整数 
Idx :N*1的向量,存储的是每个点的聚类标号 
C: K*P的矩阵,存储的是K个聚类质心位置 
sumd 1*K的和向量,存储的是类间所有点与该类质心点距离之和 
D N*K的矩阵,存储的是每个点与所有质心的距离 
[…]=Kmeans(…,’Param1’,Val1,’Param2’,Val2,…) 
这其中的参数Param1、Param2等,主要可以设置为如下:

  1. ‘Distance’(距离度量) 
    ‘sqEuclidean’ 欧式距离(默认时,采用此距离方式) 
    ‘cityblock’ 绝度误差和,又称:L1 
    ‘cosine’ 针对向量 
    ‘correlation’ 针对有时序关系的值 
    ‘Hamming’ 只针对二进制数据
  2. ‘Start’(初始质心位置选择方法) 
    ‘sample’ 从X中随机选取K个质心点 
    ‘uniform’ 根据X的分布范围均匀的随机生成K个质心 
    ‘cluster’ 初始聚类阶段随机选择10%的X的子样本(此方法初始使用’sample’方法) 
    matrix 提供一K*P的矩阵,作为初始质心位置集合
  3. ‘Replicates’(聚类重复次数) 
    整数
%第一类数据
mu1=[0 0 0]; %均值
S1=[0.3 0 0;0 0.35 0;0 0 0.3]; %协方差
data1=mvnrnd(mu1,S1,100); %产生高斯分布数据 %%第二类数据
mu2=[1.25 1.25 1.25];
S2=[0.3 0 0;0 0.35 0;0 0 0.3];
data2=mvnrnd(mu2,S2,100); %第三个类数据
mu3=[-1.25 1.25 -1.25];
S3=[0.3 0 0;0 0.35 0;0 0 0.3];
data3=mvnrnd(mu3,S3,100); %显示数据
figure, hold on;
plot3(data1(:,1),data1(:,2),data1(:,3),'b+');
hold on;
plot3(data2(:,1),data2(:,2),data2(:,3),'r+');
plot3(data3(:,1),data3(:,2),data3(:,3),'g+');
grid on; %三类数据合成一个不带标号的数据类
data=[data1;data2;data3]; %这里的data是不带标号的,即没有分好类 k = 3;
[idx, c] = kmeans(data, k); %分成3份 figure, hold on;
for i=1:300
if idx(i) == 1
plot3(data(i,1),data(i,2),data(i,3), 'b+');
elseif idx(i) == 2
plot3(data(i,1),data(i,2),data(i,3), 'r+');
else
plot3(data(i,1),data(i,2),data(i,3), 'g+');
end
end
for i=1:k
plot3(c(i, 1), c(i, 2), c(i, 3), 'ko'); % 画出中心点
end
grid on;
  • 输入: 
  • 输出: 

图中原点就是簇的中心。

附赠一个plot的point style 图 

学习向量量化(LVQ)

与k均值算法类似,LVQ也是基于原型的聚类,但与一般的不同,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。 
这个是用来建立神经网络的- -。

算法描述 

newlvq(P,S1,PC,LR,LF) 建立LVQ向量化神经网络

P为一个Rx2维的网络输入向量取值范围的矩阵[Pmin Pmax]; 
Sl表示隐含层神经元的数目; 
PC表示在第二层的权值中列所属类别的百分比; 
LR表示学习速率,默认值为0.01; 
Lf表示学习函数,默认值为learnlv1。

P = [-3 -2 -2  0  0  0  0 +2 +2 +3; ...
0 +1 -1 +2 +1 -1 -2 +1 -1 0];
Tc = [1 1 1 2 2 2 2 1 1 1];
T = ind2vec(Tc);
net = newlvq(P,4,[.6 .4]);
net = train(net,P,T);
  • 输入: 
  • 输出: 

高斯混合聚类(EM算法)

利用概率模型来表达聚类原型。

这个算法会算法每个样本可能在每个簇的概率。

算法流程 

%第一类数据
mu1=[0 0 0]; %均值
S1=[0.3 0 0;0 0.35 0;0 0 0.3]; %协方差
data1=mvnrnd(mu1,S1,100); %产生高斯分布数据 %%第二类数据
mu2=[1.25 1.25 1.25];
S2=[0.3 0 0;0 0.35 0;0 0 0.3];
data2=mvnrnd(mu2,S2,100); %第三个类数据
mu3=[-1.25 1.25 -1.25];
S3=[0.3 0 0;0 0.35 0;0 0 0.3];
data3=mvnrnd(mu3,S3,100); %显示数据
figure, hold on;
plot3(data1(:,1),data1(:,2),data1(:,3),'b+');
hold on;
plot3(data2(:,1),data2(:,2),data2(:,3),'r+');
plot3(data3(:,1),data3(:,2),data3(:,3),'g+');
grid on; %三类数据合成一个不带标号的数据类
data=[data1;data2;data3]; %这里的data是不带标号的,即没有分好类 k = 3;
[px, model] = gmm(data, k); %分成3份 figure, hold on;
for i=1:300
[m, idx] = max(px(i, :));
if idx == 1
plot3(data(i,1),data(i,2),data(i,3), 'b+');
elseif idx == 2
plot3(data(i,1),data(i,2),data(i,3), 'r+');
else
plot3(data(i,1),data(i,2),data(i,3), 'g+');
end
end
c = model.Miu;
for i=1:k
plot3(c(i, 1), c(i, 2), c(i, 3), 'ko'); % 画出中心点
end
grid on;
  • 输入: 
  • 输出: 

密度聚类(基于密度的聚类)

此类算法假设聚类结构能通过样本分布的紧密程度确定。

原理

从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

DBSCAN


基于上面的条件,这个算法给出了下面几个概念 

算法流程 

层次聚类

层次聚类视图在不同层次对数据集进行划分,从而形成属性的聚类结构。 
数据集的划分可以采用自底向上的聚合策略,也可采用自顶向下的分拆策略。

AGNES

AGNES是采用自底向上聚合策略的层次聚类算法。 
算法流程 

clusterdata(X, cutoff)
X = [gallery('uniformdata',[10 3],12);...
gallery('uniformdata',[10 3],13)+1.2;...
gallery('uniformdata',[10 3],14)+2.5];
subplot(1, 2, 1), plot3(X(:, 1), X(:, 2), X(:, 3), '*');
grid on;
T = clusterdata(X,'maxclust',3);
subplot(1, 2, 2), scatter3(X(:,1),X(:,2),X(:,3),100,T,'filled');
    • 输入: 
    • 输出: 

CODE大全——机器学习的更多相关文章

  1. CODE大全告诉你java是否开始没落了

    CODE大全告诉你java是否开始没落了! 22 岁,对于一个技术人来说可谓正当壮年.但对于一门编程语言来说,情况可能又有不同.各类编程语言横空出世,纷战不休,然而 TIOBE 的语言排行榜上,Jav ...

  2. CODE大全给你推荐几个免费的leapftp 注册码

    leapftp 2.7.6 注册码, Name: Kmos/CiA in 1999 s/n: MOD1-MO2D-M3OD-NOPQ LeapFTP2.7.5 注册名:swzn 注册码:214065- ...

  3. CODE大全浅谈谷歌adsense与PIN码

    我的博客:CODE大全:www.codedq.net:业余草:www.xttblog.com:爱分享:www.ndislwf.com或ifxvn.com. 近期由于校园招聘笔试和面试等诸多忙碌时间,博 ...

  4. CODE大全大量Flash网站收藏

    我的博客:CODE大全:www.codedq.net:业余草:www.xttblog.com:爱分享:www.ndislwf.com或ifxvn.com. http://www.wallop.com在 ...

  5. CODE 大全网站整站源码分享(带数据库)

    CODE 大全是一个偏向于 JavaEE.JavaWeb,WEB 前端,HTML5,数据库,系统运维,编程技术开发的纯个人学习.交流性质的技术博客,一个很不错的网站,现在我免费分享给大家.对 java ...

  6. HTTP错误code大全

    100 - Continue 101 - Switching Protocols Top Success Codes 200 - OK 201 - Created 202 - Accepted 203 ...

  7. 面试总结之人工智能AI(Artificial Intelligence)/ 机器学习(Machine Learning)

    刚面完 AI 岗,这几点分享给你!- AI科技大本营 https://mp.weixin.qq.com/s/05G5HKSkZwhwnmskijToLQ 1.训练决策树时的参数是什么? 2.在决策树的 ...

  8. HyperLedger Fabric 资料网址大全

    BLOCKCHAIN FOR DEVELOPERS 官方网址 i. 这个网址是ibm给的测试网址,注册进去就可以设置4个节点的区块链,而且有智能合约可以测试 区块链和HyperLedger开源技术讲堂 ...

  9. 业余草教你解读Spark源码阅读之HistoryServer

    HistoryServer服务可以让用户通过Spark UI界面,查看历史应用(已经执行完的应用)的执行细节,比如job信息.stage信息.task信息等,该功能是基于spark eventlogs ...

随机推荐

  1. javaCV开发详解之2:推流器实现,推本地摄像头视频到流媒体服务器以及摄像头录制视频功能实现(基于javaCV-FFMPEG、javaCV-openCV)

    javaCV系列文章: javacv开发详解之1:调用本机摄像头视频 javaCV开发详解之2:推流器实现,推本地摄像头视频到流媒体服务器以及摄像头录制视频功能实现(基于javaCV-FFMPEG.j ...

  2. Python之道1-环境搭建与pycharm的配置django安装及MySQL数据库配置

    近期做那个python的开发,今天就来简单的写一下开发路线的安装及配置, 开发路线 Python3.6.1+Pycharm5.0.6+Django1.11+MySQL5.7.18 1-安装Python ...

  3. ionic2新手入门整理,搭建环境,创建demo,打包apk,热更新,优化启动慢等避坑详解

    onic官方文档链接:http://ionicframework.com/docs/ 如果是新的环境会有很多坑,主要是有墙,请仔细阅读每个步骤 文档包含以下内容: l  环境搭建 l  创建demo并 ...

  4. 静态代码块详解(原出处:http://versioneye.iteye.com/blog/1129579)

    一 般情况下,如果有些代码必须在项目启动的时候就执行的时候,需要使用静态代码块,这种代码是主动执行的;需要在项目启动的时候就初始化,在不创建对象的情 况下,其他程序来调用的时候,需要使用静态方法,这种 ...

  5. HashMap如何工作 - Java

    大多数人应该会同意HashMap是现在面试最喜欢问的主题之一.我和同事常常进行讨论,并很有帮助.现在,我继续和大家讨论. 我假设你对HashMap的内部工作原理感兴趣,并且你已经知道了基本的HashM ...

  6. scrapy代理的设置

    scrapy代理的设置 在我的上一篇文章介绍了scrapy下载器中间件的使用,这里的scrapyIP的代理就是用这个原理实现的,重写了下载器中间件的process_request(self,reque ...

  7. scrapy初试

    scrapy初试 创建项目 打开cmd,在终端输入scrapy startproject tutorial,这里将在指定的文件夹下创建一个scrapy工程 其中将会创建以下的文件: scrapy.cf ...

  8. Java基础知识整理(一)

    Java开发环境JDK(Java编辑器.Java运行工具(JRE作用).Java文档生成工具.Java打包工具) 1.Java是严格区分大小写的.2.Java程序中一句连续的字符串不能分开在两行书写, ...

  9. 选课 树形DP+多叉树转二叉树+dfs求解答案

    问题 A: 选课 时间限制: 1 Sec  内存限制: 128 MB 题目描述 大 学里实行学分.每门课程都有一定的学分,学生只要选修了这门课并考核通过就能获得相应的学分.学生最后的学分是他选修的各门 ...

  10. Python入门(2)

    一.    基础语法 1.Print print 是 python 里很基本很常见的一个操作,它的操作对象是一个字符串. 直接在 print 后面加一段文字来输出的话,需要给文字加上双引号或者单引号. ...