Self-paced Clustering Ensemble自步聚类集成论文笔记
0.摘要
- 现有的聚类集成方法大多利用所有的数据来学习一致的聚类结果,没有充分考虑一些困难实例所带来的不利影响。
- 为了解决这个问题,提出Self-Paced Clustering Ensemble(SPCE)方法。逐步将例子从简单到困难的纳入到集成学习中。
- 将实例的难易度评价和集成学习集成在一个框架中
- 联合学习算法获得最终的一致的聚类结果
1.introduction
传统聚类的问题
- 在给定的数据集中,不同的目标函数会有非常不同的结构。
- 没有ground truth
- 比如k-means,高度依赖初始化
clustering ensemble定义
- Clustering ensemble provides an elegant framework for combining multiple weak base clusterings of a data set to generate a consensus clustering.
之前的clustering ensemble方法
- information theoretic based clustering ensemble methods 基于信息论的集成聚类方法
[3] A. Strehl and J. Ghosh, “Cluster ensembles — a knowledge reuse framework for combining multiple partitions,” Journal of Machine Learning Research, vol. 3, no. 3, pp. 583–617, 2003.
[4] A. Topchy, A. K. Jain, and W. F. Punch, “Combining multiple weak clusterings,” in ICDM, 2003, pp. 331–338.
an alignment method to combine multiple k-means clustering results 一种组合多个k均值聚类结果的对齐方法
[5] Z. Zhou and W. Tang, “Clusterer ensemble,” Knowledge Based Systems, vol. 19, no. 1, pp. 77–83, 2006.
extended graph cut method into clustering ensemble 扩展图切割的方法到集成聚类
[8]X. Z. Fern and C. E. Brodley, “Solving cluster ensemble problems by bipartite graph partitioning,” in ICML, 2004, p. 36
spectral clustering based ensemble method 基于谱聚类的集成方法
[9] H. Liu, T. Liu, J. Wu, D. Tao, and Y. Fu, “Spectral ensemble clustering,” in SIGKDD, 2015, pp. 715–724.
[10] Z. Tao, H. Liu, and Y. Fu, “Simultaneous clustering and ensemble.” in AAAI, 2017, pp. 1546–1552.
utilized non-negative matrix factorization (NMF) to learn a consensus clustering result 利用非负矩阵分解来学习一致的聚类结果
[11] T. Li, C. H. Q. Ding, and M. I. Jordan, “Solving consensus and semisupervised clustering problems using nonnegative matrix factorization,” in ICDM, 2007, pp. 577–582.
[12] T. Li and C. H. Q. Ding, “Weighted consensus clustering.” in SDM, 2008, pp. 798–809.
introduced probabilistic graphical model into clustering ensemble 将概率图模型引入集成聚类
[13] H. Wang, H. Shan, and A. Banerjee, “Bayesian cluster ensembles,” in SDM, 2009, pp. 211–222.
[14] D. Huang, J. Lai, and C. Wang, “Ensemble clustering using factor graph,” Pattern Recognition, vol. 50, pp. 131–142, 2016.
- Besides these work which ensemble all base clustering results, some work tried to select some informative and non-redundant base clustering results for ensemble. 除了这些集合所有基本聚类结果的工作之外,还有的工作致力于为集成学习选择一些信息性和非冗余的基本聚类结果。
adaptive clustering ensemble selection method to select the base results 自适应聚类集成选择方法选择基础结果
[15] J. Azimi and X. Fern, “Adaptive cluster ensemble selection,” in Twenty-First International Joint Conference on Artificial Intelligence, 2009.
transferred the clustering selection to feature selection and designed a hybrid strategy to select base results 将聚类选择转移到特征选择并设计混合策略以选择基础结果
[16] Z. Yu, L. Li, Y. Gao, J. You, J. Liu, H. Wong, and G. Han, “Hybrid clustering solution selection strategy,” Pattern Recognition, vol. 47,no. 10, pp. 3362–3375, 2014.
Zhao et al. proposed internal validity indices for clustering ensemble selection 提出内部有效性指标来进行集成聚类选择
[17] X. Zhao, J. Liang, and C. Dang, “Clustering ensemble selection for categorical data based on internal validity indices,” Pattern Recognition, vol. 69, pp. 150–168, 2017.
存在问题
- 使用所有的数据进行聚类集成,可能有些样本很难聚类,甚至有些是异常值,可能会导致聚类性能差。
改进
- 将基础的聚类集成到课程学习(Curriculum Learning)框架中。
- 课程学习关键思想是,在早期,模型相对较弱,需要一些简单的实例进行训练;随着时间的推移,模型的能力越来越强,可以处理越来越多的困难实例;最后,它足够强大,可以处理几乎所有的实例。
- 将权重矩阵学习和一致连接矩阵学习集成在一个目标函数中。
- 将基础的聚类集成到课程学习(Curriculum Learning)框架中。
2.Related Work
2.1聚类集成相关定义
- 给定数据集,对数据集做m次聚类可以得到m个聚类结果 [Math Processing Error]C^i = \{C^1, C^2, …,C^m\}Ci={C1,C2,…,Cm},每一个聚类结果[Math Processing Error]C^iCi包含簇的集合[Math Processing Error]\{\pi_1^i,\pi_2^i,…,\pi_k^i\}{π1i,π2i,…,πki},[Math Processing Error]kk是[Math Processing Error]C^iCi中的簇的数目。
- 根据聚类结果可以得到实例之间的关系,根据[Math Processing Error]C^iCi可以构建连接矩阵[Math Processing Error]S^{(i)} \in R^{n*n}S(i)∈Rn∗n

- 聚类集成的目标就是从[Math Processing Error]S^{(1)},S^{(2)},…,S^{(m)}S(1),S(2),…,S(m)中学习一个一致矩阵[Math Processing Error]SS,最后的聚类结果就可以直接从[Math Processing Error]SS中获得。
2.2Self-paced Learning自步学习
[Math Processing Error]f(\omega_i, \lambda)f(ωi,λ)是自步正则化项,最优的[Math Processing Error]\omega_i^*ωi∗随着[Math Processing Error]\lambdaλ的增加而增加,随着[Math Processing Error]l_ili的增加而减小。也就是说损失越小,越简单,权重越大,越先学习。[Math Processing Error]\lambdaλ随着学习的过程的进行而增加,越来越多的实例被采用。
3.自步聚类集成
目标函数
- (1)S是一致矩阵,我们希望使得它与所有连接矩阵之间的差异性越小越好,既 [Math Processing Error]\sum_{i=1}^m\Vert S-S^{(i)}\Vert_F^2∑i=1m∥S−S(i)∥F2
- (2)但是不能每种结果都是相同的权重,加个权重:[Math Processing Error]\sum_{i=1}^m\alpha_i\Vert S-S^{(i)}\Vert_F^2∑i=1mαi∥S−S(i)∥F2
- (3)[Math Processing Error]\alphaα的取值采用auto-weighted的方法,定义[Math Processing Error]\alpha_i=\frac{1}{\Vert S-S^(i)\Vert_F}αi=∥S−S(i)∥F1,也就是说越相似,权重越大。objective function:

- (4)添加自步学习框架:添加自步函数 [Math Processing Error]f(W, \lambda)=-\lambda\Vert W\Vert_1f(W,λ)=−λ∥W∥1

- (5)Theorem 1 说明如果S的拉普拉斯矩阵的秩为 n-c,就可以直接得到一致矩阵有c个连通分量,也就是c个簇。所以添加约束[Math Processing Error]rank(L)=n-crank(L)=n−c。

- (6)又希望一致矩阵S尽可能的稀疏,这样得到的聚类结果会更加清晰,会占喜出更加清晰的图结构、聚类结构。所以对S添加一个一范约束。[Math Processing Error]\gammaγ是调节S稀疏程度的超参数。

优化
Self-paced Clustering Ensemble自步聚类集成论文笔记的更多相关文章
- 挑子学习笔记:两步聚类算法(TwoStep Cluster Algorithm)——改进的BIRCH算法
转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/twostep_cluster_algorithm.html 两步聚类算法是在SPSS Modeler中使用的 ...
- Using SMOTEBoost(过采样) and RUSBoost(使用聚类+集成学习) to deal with class imbalance
Using SMOTEBoost and RUSBoost to deal with class imbalance from:https://aitopics.org/doc/news:1B9F7A ...
- 【Ensemble methods】组合方法&集成方法
机器学习的算法中,讨论的最多的是某种特定的算法,比如Decision Tree,KNN等,在实际工作以及kaggle竞赛中,Ensemble methods(组合方法)的效果往往是最好的,当然需要消耗 ...
- iOS开发- 三步快速集成社交化分享工具ShareSDK
1.前言 作为现在App里必不可少的用户分享需要,社交化分享显然是我们开发app里较为常用的. 最近因为公司App有社交化分享的需要,就特此研究了会,拿出来与大家分享. 想要集成社交会分享,我们可以使 ...
- iOS- 三步快速集成社交化分享工具ShareSDK
http://www.cnblogs.com/qingche/p/3727559.html 1.前言 作为现在App里必不可少的用户分享需要,社交化分享显然是我们开发app里较为常用的. 最近因为公司 ...
- Hierarchical clustering:利用层次聚类算法来把100张图片自动分成红绿蓝三种色调—Jaosn niu
#!/usr/bin/python # coding:utf-8 from PIL import Image, ImageDraw from HierarchicalClustering import ...
- 机器学习-聚类-k-Means算法笔记
聚类的定义: 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,它是无监督学习. 聚类的基本思想: 给定一个有N个对象的数据集 ...
- Typecho集成ueditor笔记
前言:萝卜青菜各有所爱,因为个人需求所以需要在博客中集成ueditor,并非是我不喜欢md语法 其实本篇的笔记的书写最早也是在本地的md编辑器上完成的 1. 首先下载ueditor编辑器,然后重命名文 ...
- php持续集成环境笔记
记录下php集成环境中若干个工具的安装步骤和过程: 安装pear wget http://pear.php.net/go-pear.phar $ php go-pear.phar 使用:pear in ...
随机推荐
- 洛谷 题解 P2721 【摄像头】
这是我见过最水的蓝题 这不就是拓扑排序板子题吗 题目大意:松鼠砸烂摄像头不被抓住 摄像头一个可以监视到另一个可以看做有向边,用邻接链表储存就好了,我也不知道邻接矩阵到底能不能过保险起见还是用邻接链表. ...
- C语言博客作业--结构体,文件
1.本章学习总结(2分) 1.1 学习内容总结 (1)结构体如何定义.成员如何赋值 结构体的一般形式为: struct 结构体名 { 数据类型 成员名1: 数据 ...
- Evaluation of Sampling and Cross-Validation Tuning Strategies for Regional-Scale Machine Learning Classification
比较了不同抽样方法(随机,分层等比随机,分层不等比随机,人为),不同交叉验证方法(k折,留一法,蒙特卡洛),不同样本范围大小的效果,最后都是用SVM分类 结果是k折验证最好,人为选择样本最差.小范围小 ...
- FormData实现文件上传
我用到FormData传输的使用场景:vant UI组件里面 的图片上传这块,需要调用后台的图片上传接口,使用的是FormData方式上传的 https://www.cnblogs.com/hutuz ...
- Verticles for Web Application
Core Concept: HTTP-Centered EventBus Event, EventLoop, Executor, Handler, HTTPContext, Callback on E ...
- [Web 安全] WASC 和 OWASP两个web安全方面组织机构介绍
copy from : http://blog.sina.com.cn/s/blog_70b7aab9010126mn.html WASC 和 OWASP.这两个组织在呼吁企业加强应用安全意识和指导 ...
- Centos7搭建FTP服务详细过程
Centos7搭建FTP服务详细过程https://blog.csdn.net/sinat_30802291/article/details/81706152
- git - gitHub生成Markdown目录
就是github-markdown-toc.go. github-markdown-toc.go Github地址 如果你有GO语言(又是你)的编译环境,可以尝试自己编译,如果没有,可以直接下载编译好 ...
- debug console不见了
点击左侧这个标志.
- Qt编写图片及视频TCP/UDP网络传输
一.前言 很多年前就做过类似的项目,无非就是将本地的图片上传到服务器,就这么简单,其实用http的post上传比较简单容易,无需自定义协议,直接设置好二进制数据即可,而采用TCP或者UDP通信的话,必 ...