论文作者:Natthakan Iam-On, Tossapon Boongoen, Simon Garrett, and Chris Price

下次还是在汇报前先写了论文总结,不然有些点汇报时容易忘了说,以前看的论文看补不补上来吧,有时间再说。

前言:

这篇论文是关于聚类集成的,成熟的聚类集成框架是将多个聚类算法的结果汇聚在一起,然后使用一致性函数得出最终的聚类结果,论文中认为这两步中间的操作属于原数据上的操作,比较粗糙,所以提出了一种算法,对汇总后聚类结果进行进一步处理,然后再使用一致性函数。

Summary:

  • This paper presents a new link-based approach to improve the conventional matrix.
  • Three new link-based algorithms are proposed for the underlying similarity assessment.
  • The final clustering result is generated from the refined matrix using two different consensus functions of feature-based and graph-based partitioning.

conventional matrix 就是前言中提到的汇总结果。

这个算法目的是发现一个样本在一个聚类结果中与不属于的类 之间的关系(similarity)。

提炼后的矩阵称为RA matrix ,在这个矩阵上进行一致性曹组有两种方法,基于feature 和基于图切。

对汇总矩阵的提炼的方法一共有三种。

It aims to refine the ensemble-information matrix using the similarity between clusters in the ensemble under examination.
  ◦Weighted Connected-Triple (WCT)
  ◦Weighted Triple-Quality (WTQ)
  ◦Combined Similarity Measure (CSM)
 
一致性函数有两种:
two new consensus methods are proposed to derive the ultimate clustering result:
  ◦ feature-based partitioning (FBP)
  ◦ bipartite graph partitioning (BGP)
 
 
下面是一些属性讲解,其实看图比较清楚,一共有N 个样本点,聚类集成框架中使用了M 个聚类方法,得到的结果为π,每个聚类结果π的类个数不一样,使用C 表示:
X ={x1 . . . xN} be a set of N data points
Π={Π 1 . . . ΠM} be a cluster ensemble with M base clusterings
Each base clustering returns a set of clusters
 
a 图是样本的两个聚类情况,π1 π2 ,那么可以有3中结果汇众的表达b-d,后面用得上的是d 图,d图这个矩阵就是作者认为的粗糙聚类结果。
N = 5                    样本总数
M = 2                    集成框架中的聚类方法个数
K1 = 3,K2 = 2        每个聚类方法中的聚类个数
 
一个聚类集成问题:
The problem is to find a new partition π* of a data set X that summarizes the information from the cluster ensemble πfinal.
 
This metalevel method involves two major tasks of:
◦1) generating a cluster ensemble
◦2) producing the final partition (normally referred to as a “consensus function”).
 
为了获取不同的聚类结果,大致归纳如下的聚类模型:
Cluster models:
◦Homogeneous ensembles
◦Different-k
  –One of the most successful technique is randomly selecting the number of clusters (k) for each ensemble member
◦Data subspace/subsample
◦Heterogeneous ensembles
◦Mixed heuristics
–  In addition to using one of the aforementioned methods, any combination of them can be applied
 
而一致性函数归纳如下:
}consensus methods :
◦Feature-based approach
  It transforms the problem of cluster ensembles to the clustering of categorical data.
◦Direct approach
◦Pairwise similarity approach
◦Graph-based approach
 
论文的创新点就是在这两部中间加入了一步提炼:
NOVEL LINK-BASED APPROACH:
◦1) generating a cluster ensemble
◦2)creating the refined ensemble-information matrix using a link-based similarity algorithm
◦3) producing the final partition (normally referred to as a “consensus function”).  

计算RA 矩阵公式,在粗糙矩阵下我们可以先知道如下结果,RA 其实就是将d 图中的0,改为 xi 与 C 的相似度,这就是提炼的意思,方法是通关过计算xi属于的类与目标C 的相似度,然后用这个值作为xi 与目标C 的相似度,这就代替了0.
 
 
这个算法计算前需要先计算π1 与 π2 中类之间的相似度,是两个π之间,π内之间的类相似度怎么算就是这个算法解决的问题。
Lz ∈ X denotes the set of data points belonging to cluster Cz ∈ π.
公式如下:
图示:

C11 类有样本: x1 x2   C21 类有样本: x1 x3

<C11,C21> = {x1}/{x1 x2 x3} = 1/3

在上面的基础上,开始讲解这个算法,算法有3中计算一个聚类中 类间的similary:

Weighted Connected-Triple (WCT):
  ◦WCT extends the Connected-Triple method.
  ◦Formally, a triple, Triple =(Vtriple ,Etriple), is a subgraph of G’ containing three vertices VTriple ={vx,vy,vz} ∈V and two edges ETriple ={exz,eyz} ∈E, with exz ∉ E.
  ◦DC ∈[0,1]is a constant decay factor
 
第一条就是 计算xy点关于z 点得到他们之间的similary,xy 是属于一个聚类类结果的类标号,z 是其他聚类结果的类标号。
第二条就是第一条结果的叠加。
第三条就是正规化后加上约束因子,因为RA-matrix 直接知道的结果为1,计算similarity 的应该小一点。
       
图示,这就把RA 矩阵补全了,例如x3 与C11 的项取值,就是Xz 属于的类(C12)与 C11 之间的similarity,即0.9
 
 
}Weighted Triple-Quality (WTQ)
  ◦WTQ is inspired by the initial measure of which evaluates the association between personal home pages.
      
  ◦Note that the method gives high weights to rare features and low weights to features that are common to most of the pages.
 
  Nz ∈V denotes the set of vertices that is directly linked to the vertex vz such that ∨vt ∈Nz; |wzt| > 0.
第一条就是 xy 关于 z 的权重,该式分母其实就是与z 有相关的w 之和。
其他跟上面的一样的。
 
 
Combined Similarity Measure (CSM):
  With the objective of obtaining a robust similarity evaluation, this particular algorithm combines the WCT and WTQ measures previously described.
      将上面两种方法结合成第三种。
 
一致性方法的选择:
Consensus Methods for the RA Matrix:
  ◦Feature-Based Partitioning
    –k-means    (KM)
    –k-medoids (PAM)
–
  ◦Bipartite Graph Partitioning
–    weight  SPEC graph-partitioning
 
 
实验结果就不说了,有兴趣的可以下论文能看。
 
 
 
 
 
 
 

[论文]A Link-Based Approach to the Cluster Ensemble Problem的更多相关文章

  1. [论文]A Link-Based Cluster Ensemble Approach for Categorical Data Clustering

    http://www.cnblogs.com/Azhu/p/4137131.html 这篇论文建议先看了上面这一遍,两篇作者是一样的,方法也一样,这一片论文与上面的不同点在于,使用的数据集是目录数据, ...

  2. 论文解读 - Composition Based Multi Relational Graph Convolutional Networks

    1 简介 随着图卷积神经网络在近年来的不断发展,其对于图结构数据的建模能力愈发强大.然而现阶段的工作大多针对简单无向图或者异质图的表示学习,对图中边存在方向和类型的特殊图----多关系图(Multi- ...

  3. 近年Recsys论文

    2015年~2017年SIGIR,SIGKDD,ICML三大会议的Recsys论文: [转载请注明出处:https://www.cnblogs.com/shenxiaolin/p/8321722.ht ...

  4. 机器人局部避障的动态窗口法(dynamic window approach) (转)

    源:机器人局部避障的动态窗口法(dynamic window approach) 首先在V_m∩V_d的范围内采样速度: allowable_v = generateWindow(robotV, ro ...

  5. 自然语言处理领域重要论文&资源全索引

    自然语言处理(NLP)是人工智能研究中极具挑战的一个分支.随着深度学习等技术的引入,NLP领域正在以前所未有的速度向前发展.但对于初学者来说,这一领域目前有哪些研究和资源是必读的?最近,Kyubyon ...

  6. Self-paced Clustering Ensemble自步聚类集成论文笔记

    Self-paced Clustering Ensemble自步聚类集成论文笔记 2019-06-23 22:20:40 zpainter 阅读数 174  收藏 更多 分类专栏: 论文   版权声明 ...

  7. CVPR 2020论文收藏(转知乎:https://zhuanlan.zhihu.com/p/112337176)

    CVPR 2020 共收录 1470篇文章,根据当前的公布情况,人工智能学社整理了以下约100篇,分享给读者. 代码开源情况:详见每篇注释,当前共15篇开源.(持续更新中,可关注了解). 算法主要领域 ...

  8. SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once

    在之前的文章<解析SparkStreaming和Kafka集成的两种方式>中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Di ...

  9. 论文翻译:2021_MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement

    论文地址:MetricGAN+:用于语音增强的 MetricGAN 的改进版本 论文代码:https://github.com/JasonSWFu/MetricGAN 引用格式:Fu S W, Yu ...

随机推荐

  1. Fight Against Traffic -简单dijkstra算法使用

    题目链接 http://codeforces.com/contest/954/problem/D 题目大意 n m s t 分别为点的个数, 边的个数,以及两个特殊的点 要求s与t间的距离在新增一条边 ...

  2. dynamic routing between captual

    对于人脑 决策树形式 对于CNN 层级与层级间的传递 人在识别物体的时候会进行坐标框架的设置 CNN无法识别,只能通过大量训练 胶囊 :一个神经元集合,有一个活动的向量,来表示物体的各类信息,向量的长 ...

  3. python之格式化

    python有两种方式可以格式化一种是用%s,一种使用format(2.6)进入的,从下面的代码可以看出,效果差不多. name = 'edward' age = 27 print("My ...

  4. linux shell 单双引号区别

    简要总结: 单引号: 可以说是所见即所得:即将单引号内的内容原样输出,或者描述为单引号里面看见的是什么就会输出什么. 双引号: 把双引号内的内容输出出来:如果内容中有命令,变量等,会先把变量,命令解析 ...

  5. Codeforces Round #459 (Div. 2)-A. Eleven

    A. Eleven time limit per test1 second memory limit per test256 megabytes Problem Description Eleven ...

  6. [Poj3133]Manhattan Wiring (插头DP)

    Description 题目大意:给你个N x M(1≤N, M≤9)的矩阵,0表示空地,1表示墙壁,2和3表示两对关键点.现在要求在两对关键点之间建立两条路径,其中两条路径不可相交或者自交(就是重复 ...

  7. [BZOJ3684][拉格朗日反演+多项式求幂]大朋友和多叉树

    题面 Description 我们的大朋友很喜欢计算机科学,而且尤其喜欢多叉树.对于一棵带有正整数点权的有根多叉树,如果它满足这样的性质,我们的大朋友就会将其称作神犇的:点权为\(1\)的结点是叶子结 ...

  8. 笔记-python-standard library-12.1 pickle

    笔记-python-standard library-12.1 pickle 1.      pickle简介 source code: Lib/pickle.py pickle模块实质上是一个实现p ...

  9. 使用Spark Streaming + Kudu + Impala构建一个预测引擎

    随着用户使用天数的增加,不管你的业务是扩大还是缩减了,为什么你的大数据中心架构保持线性增长的趋势?很明显需要一个稳定的基本架构来保障你的业务线.当你的客户处在休眠期,或者你的业务处在淡季,你增加的计算 ...

  10. Redis实现之数据库(一)

    服务器中的数据库 Redis服务器将所有数据库都保存在服务器状态redis.h/redisServer结构体的db数组中,db数组的每个项都是一个redis.h/redisDb结构体,每个redisD ...