[论文]Clustering-Based Ensembles as an Alternative to Stacking

Clustering-Based Ensembles as an Alternative to Stacking

作者：Anna Jurek, Yaxin Bi, Shengli Wu, and Chris D. Nugent, Member, IEEE

杂志：IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 26, NO. 9, SEPTEMBER 2014

这篇论文是聚类集成问题，聚类框架是传统的框架，按论文的说法有点创新，是将传统的分类集成框架，后半部分用聚类集成代替，最终的框架便是：

前半部分通过多个分类器获得类标号。
后半部分通过将类标号看左样本新的属性，结合旧的属性作聚类集成（kmeans）。DBI 作为衡量指标。
最终样本的划分通过k中心。

　　这样简单的结合其实很多发表论文已经用过，我认为这篇论文主要创新点是后半部分的论述：

为什么结合了分类标号作为新的属性，能够提升准确度。

论文指出以前论文的做法其实属于经验主义，而该论文则通过理论来推论证明。

　　对于监督学习，这个其实便是按传统的分类集成框架，如下：

对于数据集，通过N 个分类器划分，得出了N 列结果。
将N 个分类器的结果，与数据集的属性结合，获得新的属性。
通过信息增益函数计算各个属性的信息熵。
选择最具代表性的属性。
对于提取后的属性，进行kmeans，聚类，通过DBIndex 衡量。
模型训练结束，样本的类标号通过k 中心划分。

　　模型的训练如上，在模型训练后，对于新输入的数据集，便只计算样本原来的属性。

下面是论文的论述：

对于连个确定的集合（validation sets）：

　　V1，V2，其实便是初始数据集通过了N个分类器之后的分类结果，作为样本的新属性C₁ to C_n，与就的属性 F₁ to F_k结合，这里的n k 小写意思是提取过的，P 是样本个数。

　　既然是讨论：为什么结合了分类标号作为新的属性，能够提升准确度。

　　那么便是一个添加了分类结果，一个没有添加，前者便是V1，后者便是V2.

　　问题便是：分别使用者两个确定集合，作kmeans 聚类，然后样本的类标号通过k 中心确定，为什么V1比V2准确率高。

　　分别对V1 V2进行kmeans 聚类，假设例子如下，左图的是V1，有图的是V2，其中的Y* Z* 便是类中心，可以看出V1 聚类成8个，V2聚类成7个：

　　怎么确定一个聚类结果的类标号？　因为这是监督学习，所以是知道样本的类标号的，那么便是一个类中属于哪个类标号多的，这个类标号便是类中心的标号。这句话比较重要，因为后边的论述是以其为基础。

　　当然并不是全部的都考虑，例如上面划分直线附近的点，容易导致overlap，所以引入了如下约束：

　　意思是便是只考虑距离类中心一定距离的样本点，其中d_C、d_F 表示样本X与中心Y* 之间的欧式距离，可以看出是拆开考虑，这两个临界值的取值如下：

　　对于第一条，每个类中心，在其类中的样本点，选出到中心点最大的距离（dc），每个类都有一个这样的距离，最后选择最小的作为θ1。

　　第二条，跟上面的类似的，只是衡量有dc 变成df，同时选择V1 V2 中较小的作为θ2.

　　这样的图示如下：

　　这样加了约束后，影响的是类中心的类标号确定，因为只考虑了约束内的样本点。在知道了类中心的类标号后，考虑分类阶段，对于一个不知道标号的样本X，通过原始属性F1 to Fk，来计算他离得最近的中心，然后用这个中心的类标号作为其标号，假设这个样本X的真实类标号为c_r,通过公式表示便是：

　　其中L₁，表示类的个数，上图中L₁ =8.

　　衡量准确度，便是衡量被预测样本X将要归属的类中心的标号是否与X 的真实类标号一样。通过概率表现如下：

其中：

V1：I II 是为了为了约束的，III约束X 将要被分配到的类中心。

　　这样来看，其实证明上面的概率比下面的概率大，即X最近的聚类中心，通过添加分类标号作为属性的话，更有可能被确认为c_r标号。

　通过一定推导可以得出下面公式，推导过程见论文附录。

　　左边其实是V1 概率，右边是V2 概率。那么假如中间部分>=1，便可以得出左边>=右边。

　　上面这个条件的成立，只需要下面条件成立，推导过程也在附录中。

　　上面这条件的意思是：两个真实标号一样的样本，被分配到同一个分类中的概率，比两个真实标号不同的样本，分配到同一个分类中的概率大。

　　这其实是分类的作用了，论文中附录还证明了对于真实标号数目只有2时候，分类器的准确率达到0.5便可以使上式成立。

　　上面的是分类标号+样本属性 > 样本属性，同时论文还证明分类标号+样本属性 > 分类标号，只需满足一下条件：

　　意思是：两个真实标号一样的样本，比两个真实标号不一样的样本更相似。

[论文]Clustering-Based Ensembles as an Alternative to Stacking的更多相关文章

Science论文"Clustering by fast search and find of density peaks"学习笔记
"Clustering by fast search and find of density peaks"是今年6月份在<Science>期刊上发表的的一篇论文,论文中 ...
PP: Deep clustering based on a mixture of autoencoders
Problem: clustering A clustering network transforms the data into another space and then selects one ...
【论文:麦克风阵列增强】An alternative approach to linearly constrained adaptive beamforming
作者:桂. 时间:2017-06-03 21:46:59 链接:http://www.cnblogs.com/xingshansi/p/6937259.html 原文下载:http://pan.ba ...
Science14年的聚类论文——Clustering by fast search and find of density peaks
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 这是一个比较新的聚类方法(文章中没看见作者对其取名,在这里我姑且称该方法为local density clu ...
论文阅读 SNAPSHOT ENSEMBLES
引入 1. 随机梯度下降的特点随机梯度下降法(Stochastic Gradient Descent)作为深度学习中主流使用的最优化方法, 有以下的优点: 躲避和逃离假的鞍点和局部极小点的能力这篇 ...
Self-paced Clustering Ensemble自步聚类集成论文笔记
Self-paced Clustering Ensemble自步聚类集成论文笔记 2019-06-23 22:20:40 zpainter 阅读数 174 收藏更多分类专栏: 论文版权声明 ...
Memory Networks02 记忆网络经典论文
目录 1 Recurrent Entity Network Introduction 模型构建 Input Encoder Dynamic Memory Output Model 总结 2 hiera ...
MapReduce的核心资料索引 [转]
转自http://prinx.blog.163.com/blog/static/190115275201211128513868/和http://www.cnblogs.com/jie46583173 ...
### Paper about Event Detection
Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...

随机推荐

微信小游戏 demo 飞机大战代码分析（三）(spirit.js, animation.js)
微信小游戏 demo 飞机大战代码分析(三)(spirit.js, animation.js) 微信小游戏 demo 飞机大战代码分析(一)(main.js) 微信小游戏 demo 飞机大战代码 ...
Java泛型和反射
1. 字节码对象的三种获取方式以String为例 Class<? extends String> strCls = "".getClass(); Class<S ...
(转)iOS静态库与动态库的区别
一.什么是库? 库是共享程序代码的方式,一般分为静态库和动态库. 静态库:链接时完整地拷贝至可执行文件中,被多次使用就有多份冗余拷贝. 动态库:链接时不复制,程序运行时由系统动态加载到内存,供程序调用 ...
Codeforces Round #435 (Div. 2) B (二分图) C(构造)
B. Mahmoud and Ehab and the bipartiteness time limit per test 2 seconds memory limit per test 256 me ...
Keepalivaed +Nginx proxy 高可用架构方案与实施过程细节
1.开源产品介绍 1)CMS介绍官方网站http://www.dedecms.com/,是一个网站应用系统构建平台,也是一个强大的网站内容管理系统,既可以用来构建复杂的体系的企业信息门户或者电子商务 ...
Java的内存回收
一.java引用的种类 1.对象在内存中的状态可达状态:当一个对象被创建后,有一个以上的引用变量指向它. 可恢复状态: 不可达状态:当对象的所有关联被切断,且系统调用所有对象的finalize方法依 ...
第三模块面向对象& 网络编程基础实战考核
1.简述构造方法和析构方法. 构造方法(__init__):主要作用是实例化时给实例一些初始化参数,或执行一些其它的初始化工作,总之因为这个__init__只要一实例化, 就会自动执行,不管你在这个方 ...
GBDT算法简述
提升决策树GBDT 梯度提升决策树算法是近年来被提及较多的一个算法,这主要得益于其算法的性能,以及该算法在各类数据挖掘以及机器学习比赛中的卓越表现,有很多人对GBDT算法进行了开源代码的开发,比较火的 ...
Jquery查询分析器
find() 方法获得当前元素集合中每个元素的后代,通过选择器.jQuery 对象或元素来筛选.$(this).find("ul[index=1] div input:radio:check ...
python-day3-之函数
不使用函数的情况下只能遵循面向过程的编程,即,根据业务逻辑从上到下实现功能,往往重复的功能,使得代码出现重复. #最简单的函数调用 #由于python遵循从上到下读入内存的规律,所以函数要放到调用的前 ...

[论文]Clustering-Based Ensembles as an Alternative to Stacking

[论文]Clustering-Based Ensembles as an Alternative to Stacking的更多相关文章

随机推荐

热门专题