Science论文"Clustering by fast search and find of density peaks"学习笔记

"Clustering by fast search and find of density peaks"是今年6月份在《Science》期刊上发表的的一篇论文，论文中提出了一种非常巧妙的聚类算法。经过几天的努力，终于用python实现了文中的算法，下面与大家分享一下自己对算法的理解及实现过程中遇到的问题和解决办法。

首先，该算法是基于这样的假设：类簇中心被具有较低局部密度的邻居点包围，且与具有更高密度的任何点有相对较大的距离。对于每一个数据点 $i$ ，要计算两个量：点的局部密度 $_{\rho_{i}}$ 和该点到具有更高局部密度的点的距离 $_{\delta _{i}}$ ，而这两个值都取决于数据点间的距离 $_{d_{ij}}$ 。

数据点 $i$ 的局部密度 $_{\rho_{i}}$ 定义为式(1)：

$\rho _{i}=\sum_{j}\chi \left ( d_{ij}-d_{c} \right )$

其中，如果 $x< 0$ ，那么 $\chi \left ( x \right )= 1$ ；否则 $\chi \left ( x \right )= 0$ ， $d_{c}$ 是一个截断距离。基本上， $_{\rho_{i}}$ 等于与点 $i$ 的距离小于 $d_{c}$ 的点的个数。算法只对不同点的 $_{\rho_{i}}$ 的相对大小敏感，这意味着对于大数据集，分析结果对于 $d_{c}$ 的选择有很好鲁棒性。

数据点 $i$ 的 $_{\delta _{i}}$ 是点到任何比其密度大的点的距离的最小值式(2)：

$\delta _{i}= min_{j:\rho _{j}> \rho _{i}}\left ( d_{ij} \right )$

对于密度最大的点，我们可以得到 $\delta _{i}=max_{j}\left ( d_{ij} \right )$ 。

图1.中的简单示例展示了算法的核心思想。图1.A展示了二维空间中的28个点。可以发现点1和点10的密度最大，故将其作为类簇中心。图1.B展示了对于每一个点的 $_{\delta _{i}}$ 作为 $_{\rho_{i}}$ 的

图1.算法在二维空间的展示。(A)点的分布数据点按照密度降序排列。(B)(A)中数据的决策图不同的颜色代表不同的类簇。

函数的图示，称其为决策图。点9和点10的 $\rho$ 相似，但 $\delta$ 值却有很大差别：点9属于点1的类簇，其它几个有更高的 $\rho$ 的点距其很近，然而点10的有更高密度的最近邻属于其它的类簇。所以，正如预期的那样，只有具有高 $\delta$ 和相对较高的 $\rho$ 的点才是类簇中心。因为点26、27、28是孤立的，所以有相对较高的 $\delta$ 值和低 $\rho$ 值，它们可以被看作是由单个点做成的类簇，也就是异常点。

类簇中心找到后，剩余的每个点被归属到它的有更高密度的最近邻所属类簇。类簇分配只需一步即可完成，不像其它算法要对目标函数进行迭代优化。

在聚类分析中，定量的衡量分配的可信度是很重要的。在该算法中，首先为每个类簇定义一个边界区域(即分配到该类簇但于其它类簇的点的距离小于 $d_{c}$ 的点的集合)，然后为每个类簇的找到其边界区域中密度最高的点，并以 $\rho _{b}$ 来表示该点的密度。类簇中局部密度值比 $\rho _{b}$ 大的点被看作是类簇的核心部分(即分配到该类簇的可靠性较高)，其他点被看作是类簇的光晕部分(亦可以被看作是噪声)。

图2.合成点分布的结果。(A)绘制的点分布的概率分布。(B和C)分别为4000和1000样本点的点分布。每个点以其颜色表示所属类簇，黑色点属于光晕类簇。(D和E) 相应的决策图，彩色的点表示类簇中心。(F)被归属到错误的类簇的点的比例作为样本维度的函数。误差线表明均值的标准差。

从图2.(F)中可以看到，错分点的比例即使在只有1000个点的小样本中仍保持在1%以下，说明算法有很好的鲁棒性。

为图2.B中数据赋予不同的 $d_{c}$ 值，却得到几乎一样的结果。一般来说，我们可以选择 $d_{c}$ 使得点的平均邻居数大概是数据集中点的总数的1-2%。对于较小的数据集， $_{\rho_{i}}$ 可能会被大的统计误差影响，在这种情况下，需要通过更准确的方法估计密度(例如可以采取文章中提到的指数核的方法)。

从下图中可以看到，该算法对于各种数据级都能达到很好的聚类效果。

算法对于不严重影响 $d_{c}$ 以下的距离，也就是保持等式(1)的密度估计量不变的度量标准的变化有很好的鲁棒性。很明显，等式(2)中的距离将会被这种度量标准的改变所影响，但很容易意识到决策图的结构(尤其是有较大的值 $\delta$ 的点的个数)是一个按密度值排序的结果，并不是距离较远的点的真实距离。

感兴趣的同学可以在这里下载算法的python实现代码。因为现在的实现并不能对所有的数据集都得到良好的效果，所以如果哪位同学有更好的想法，希望能不吝赐教。

Science论文"Clustering by fast search and find of density peaks"学习笔记的更多相关文章

Science14年的聚类论文——Clustering by fast search and find of density peaks
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 这是一个比较新的聚类方法(文章中没看见作者对其取名,在这里我姑且称该方法为local density clu ...
Clustering by fast search and find of density peaks
参考:http://www.52ml.net/16296.html 这个算法的优点就在于,它首先一步就能找到聚类中心,然后划分类别.而其他算法需要反复迭代才能找到中心聚类. 就是不知道代码该怎么写.. ...
处理输入为非对角阵的Clustering by fast search and find of density peak代码
Clustering by fast search and find of density peak. Alex Rodriguez, Alessandro Laio 是发表在Science上的一篇很 ...
一种新型聚类算法(Clustering by fast search and find of density peaksd)
最近在学习论文的时候发现了在science上发表的关于新型的基于密度的聚类算法 Kmean算法有很多不足的地方,比如k值的确定,初始结点选择,而且还不能检测费球面类别的数据分布,对于第二个问题,提出了 ...
Clustering by density peaks and distance
这次介绍的是Alex和Alessandro于2014年发表在的Science上的一篇关于聚类的文章[13],该文章的基本思想很简单,但是其聚类效果却兼具了谱聚类(Spectral Clustering ...
解读论文《Agglomerative clustering of a search engine query log》，以解决搜索推荐相关问题
<Agglomerative clustering of a search engine query log> 论文作者:Doug Beeferman 本文将解读此篇论文,此论文利用搜索日 ...
Clustering and Exploring Search Results using Timeline Constructions (paper2)
作者:Omar Alonso 会议:CIKM 2009 摘要: 截至目前(2009),通过提取文档中内嵌的时间信息来展现和聚类,这方面的工作并不多. 在这篇文章中,我们将提出一个“小插件”增添到现有的 ...
Backup and restore of FAST Search for SharePoint 2010
一个同事问我一个问题: 如果FAST Search for SharePoint 2010被full restore到了一个之前的时间点, 那么当FAST Search重新开始一个增量爬网的时候, 会 ...
NASNet学习笔记—— 核心一：延续NAS论文的核心机制使得能够自动产生网络结构；核心二：采用resnet和Inception重复使用block结构思想；核心三：利用迁移学习将生成的网络迁移到大数据集上提出一个new search space。
from:https://blog.csdn.net/xjz18298268521/article/details/79079008 NASNet总结论文:<Learning Transfer ...

随机推荐

Windows 7旗舰版搭建andriod 4.0开发环境记录
搭建Android环境步骤(仅供参考): 官方搭建步骤: http://developer.android.com/index.html 搭建环境之前需要下载下面几个文件包: 一.安装Java运行环境 ...
15分钟学会git基本的操作命令
http://hao.jobbole.com/try-git/ 假如你现在新创建了一个项目,想把它提交到github上面? 假设你创建好了一个项目,并切换到项目的根目录下面: $ git status ...
c语言数组的初始化
#include "stdio.h" int main() { ][]; a[][]="1,2,3,4,5,6,7,8,9,10,11,12"; ]=a,*p= ...
SqlServer2008 之应用积累
1.断开数据库连接,在原有查询窗口(断开数据库连接的未关闭查询窗口),对现在所连数据库进行操作,结果是对已断开数据库的误操作. 正确操作:重新连接数据库后,应关闭原有查询窗口,新建查询窗口后再执行操作 ...
几个常用myeclipse快捷键
Ctrl + D:直接删除光标所在行 Alt + ↑:向上移动光标所在行 Alt + ↓:向下移动光标所在行 Ctrl + Alt + ↑:直接向上复制光标所在行内容 Ctrl + Alt + ↓:直 ...
Collections.synchronizedMap 详解
众所周知,HashMap 本身非线程安全的,但是当使用 Collections.synchronizedMap(new HashMap()) 进行包装后就返回一个线程安全的Map. 怎么实现的呢?今天 ...
android scrollview主要的问题
项目做多了之后,会发现其实 ScrollView嵌套ListVew或者GridView等很常用,但是你也会发现各种奇怪问题产生.根据个人经验现在列出常见问题以及代码最少最简单的解决方法. 问题一 : ...
Recovery启动流程(3)--recovery.cpp分析
转载请注明来源:cuixiaolei的技术博客这篇文章主要通过分析高通recovery目录下的recovery.cpp源码,对recovery启动流程有一个宏观的了解.MTK和高通的recovery ...
spring mvc 使用Optional
return Optional.ofNullable(brokerRepository.findOne(id)) .map(broker -> new ResponseEntity<> ...
mongoDB 插入数据用java实现
import java.net.UnknownHostException; import com.mongodb.BasicDBObject; import com.mongodb.DB; impor ...

Science论文"Clustering by fast search and find of density peaks"学习笔记

Science论文"Clustering by fast search and find of density peaks"学习笔记的更多相关文章

随机推荐

热门专题