作者:Ioannis T. Christou, Member, IEEE

IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 33, NO. 2, FEBRUARY 2011

Index Terms—Clustering, machine learning, constrained optimization, combinatorial algorithms

  

  一遍关于聚类集成的论文,作者提出了一种新方法:EXAMCE,适用于类内部准则(intracluster criteria),例如Minimum-Sum-of-Squares-Clustering (MSSC)。什么意思,就是通过计算类内部的关系、距离等进行类划分的方法,例如MSSC,类间距离不考虑。

  算法的优点:

  1. 关注全局最优解,不是局部最优解(kmeans)
  2. 算法的迭代与扩展都是基于最终结果(应该指当前迭代的最终结果)
  3. 在类标号比较多的时候效果好

算法描述前需要理解两个定义:

Intracluster criterion-based clustering (IC3):

  简单点的描述是,如果一个数据集S,划分成k 个类,分别为C1 C2 ...Ck,使用一个成本函数c(.)来衡量各个类,那么样本的划分最优解便是使成本函数之和最小。

Monotone Clustering Property (MCP)

  

  一个聚类结果Ci,如果其包含的样本越多,那么其成本函数的值将越大。

  论文中选用了两种例子,一个是MSSC,minimum-entropy clustering criterion,

MSSC:

  MSSC 其实描述的是这样一个问题:如果将数据集划分成多个类,那么怎样的划分可以使得类内部样本到内中心的欧式距离之和最小。公式的描述如下:

  第一条公式是目标函数,对于每个类,内中的样本到类中心的距离之和,使和最小;第二条公式是求类中心;第三条表示数据集S 中的样本都有有类标号,第四条表示样本不会有两个或以上的类标号。

  容易知道MSSC 是符合上面的两个定义的,目标函数的第二个累加号其实就是cost function,同时很容知道其满足MCP。

minimum-entropy clustering criterion

  最小信息熵聚类也符合,其目标函数是:

理想情况:

  对于瞒住IC3 及MCP 的聚类,最理想的解决过程如下:

  我们的样本数一共有n 个,那么由这n 个样本组成的子集数目则为2^n -1,我们记这个数为N,使用一个n-by-N 矩阵A,来表示这全部的子集,矩阵A 的一列n-by-1表示一个子集,样本属于这个子集的对应位为1,否则为0,其实就是穷举,那么我们有目标函数:

  这里需要解释的如下:

ci:i-th 子集需要的cost

x:一个N-by-1向量,取值为0,1,表示选取那个子集为最终划分的结果。

k: 最终划分类的个数,其实就是选了多少个子集,x 向量的叠加。

e:单位向量。

  理想情况的问题在于我们需要列出样本集的全部非空子集,这是不现实的,作者提出的方法,便是在知道部分子集的情况下,选出最优划分。

论文方法:

  既然只知道部分子集,那么A 矩阵便被约束为AB,其中有为 n-by-q 矩阵,q为子集个数,x同样表示最优选择。论文的思路:知道了部分子集,那么选取出当前的最优结果x,去掉重复分类的部分Rm_Dup(有可能一个样本属于了两个子集),进行局部查找Local(C),对选出的子集进行部分替换Expand(C),将新的子集添加到AB,计算新的目标函数值,迭代到收敛。

  上面的是论文算法的流程,解释一下:

Rm_Dup:

  我们知道当前迭代步的x 的取值,即选取了哪些子集作为最终划分,那么如果一个样本属于两个或以上的类,求这个样本对于这么多个类中的cost function,然后选取cost 最小的保留这个样本,其他的删除,对于MSSC,即样本离类中心最近,那么久保留,其他的便剔除,这样我们便得到了一个样本划分(结果)记为C'。

Local(C):

  Rm_Dup我们获得了一个样本划分(C'),那么便调用知道初始化的一个局部最优的算法,对于MSSC,用的是kmeans,对于信息熵,作者调用的是另外一篇论文的方法。这样获得的聚类结果记为C''。

Expand(C):

   这一步是局部扩展,前两步获得的子集C'''=C' U C",对每个子集都进行一下操作,设定一个变量γ(论文中为10),一个子集中,离中心最远的γ个样本,从远到近逐步剔除,这样便获得γ个新子集;子集外,离中心最近的γ个样本,逐步加入到子集中,便获得γ个新的子集。作者称这一步对结果的提升有0.5 percent。

  这样将这2γ个子集 与C''' 一同并入AB ,作为新的已知子集。结束循环的条件是没有新的子集加入。

  论文方法的介绍结束。

[论文]Coordination of Cluster Ensembles via Exact Methods的更多相关文章

  1. [论文]CA-Tree: A Hierarchical Structure for Efficient and Scalable Coassociation-Based Cluster Ensembles

    作者:Tsaipei Wang, Member, IEEE 发表:IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART B: CYBERNET ...

  2. [论文]A Link-Based Cluster Ensemble Approach for Categorical Data Clustering

    http://www.cnblogs.com/Azhu/p/4137131.html 这篇论文建议先看了上面这一遍,两篇作者是一样的,方法也一样,这一片论文与上面的不同点在于,使用的数据集是目录数据, ...

  3. [论文]A Link-Based Approach to the Cluster Ensemble Problem

    论文作者:Natthakan Iam-On, Tossapon Boongoen, Simon Garrett, and Chris Price 下次还是在汇报前先写了论文总结,不然有些点汇报时容易忘 ...

  4. Self-paced Clustering Ensemble自步聚类集成论文笔记

    Self-paced Clustering Ensemble自步聚类集成论文笔记 2019-06-23 22:20:40 zpainter 阅读数 174  收藏 更多 分类专栏: 论文   版权声明 ...

  5. zz【清华NLP】图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐

    [清华NLP]图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐 图神经网络研究成为当前深度学习领域的热点.最近,清华大学NLP课题组Jie Zhou, Ganqu Cui, Zhengy ...

  6. Spark: Cluster Computing with Working Sets

    本文是对spark作者早期论文<Spark: Cluster Computing with Working Sets>做的翻译(谷歌翻译),文章比较理论,阅读起来稍微有些吃力,但读完之后总 ...

  7. R--基本统计分析方法(包及函数)

    摘要:目前经典的统计学分析方法主要有回归分析,Logistic回归,决策树,支持向量机,聚类分析,关联分析,主成分分析,对应分析,因子分析等,那么对于这些经典的分析方法在R中的使用主要有那些程序包及函 ...

  8. 当我们在谈论kmeans(3)

        本系列意在长期连载分享,内容上可能也会有所删改: 因此如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题) ...

  9. Machine Learning and Data Mining(机器学习与数据挖掘)

    Problems[show] Classification Clustering Regression Anomaly detection Association rules Reinforcemen ...

随机推荐

  1. 文档对象模型 DOM

    1 DOM概述 1.1 什么是DOM 文档对象模型 Document Object Model 文档对象模型 是表示和操作 HTML和XML文档内容的基础API 文档对象模型,是W3C组织推荐的处理可 ...

  2. wampserver怎么设置外网可访问

    wampserver配置httpd.conf允许外网访问? 在电脑上开启wamp服务后,默认是禁止外部网络访问的,如果您想要同一局域网中的设备能够访问PC上的web项目,则需要对httpd.conf文 ...

  3. Redis之String类型操作

    接口IRedisDaoStr: package com.net.test.redis.base.dao; import java.util.List; import java.util.Map; /* ...

  4. 简单聊聊四层/七层模型到HTTP

    本文内容借鉴这篇博客:https://blog.csdn.net/agzhchren/article/details/79173491 但是这篇博客也是该博主转载的,文章具体出处我没有找到,如果有人知 ...

  5. hihocoder 1097 最小生成树一·Prim算法

    #1097 : 最小生成树一·Prim算法 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 最近,小Hi很喜欢玩的一款游戏模拟城市开放出了新Mod,在这个Mod中,玩家可 ...

  6. opencv使用日记之一:平台搭建Mat类以及图像的读取修改

    平台搭建就摸了一整天时间,真的是...不说了,最后我选择的是 opencv3.0(2015/06/04)  + win7 + vs2012   注意opencv的版本不同导入的库文件是不一样的,所以请 ...

  7. vue时时监听input输入框中 输入内容 写法

    Vue input 监听 使用 v-on:input="change" 实现即可 App.vue <template> <div> <md-field ...

  8. 3 View - Request对象

    1.HttpReqeust对象 服务器接收到http协议的请求后,会根据报文创建HttpRequest对象 视图函数的第一个参数是HttpRequest对象 在django.http模块中定义了Htt ...

  9. Android 本地css引用

    /** 全局web样式 * 以前看不懂,现在仔细,耐心的看看,全懂了,认真的看一遍都懂了 * * * */ // 链接样式文件,代码块高亮的处理 public final static String ...

  10. hive操作语句

    设置属性: //设置本地执行作set hive.exec.mode.local.auto=true; //设置动态分区 set hive.exec.dynamic.partition=true; se ...