Canopy聚类算法(经典，看图就明白)

聚类算法。

这个算法获得的并不是最终结果，它是为其他算法服务的，比如k-means算法。它能有效地降低k-means算法中计算点之间距离的复杂度。

图中有一个T1,一个T2,我们称之为距离阀值，显然T1>T2，这两个值有什么用呢？我们先确定了一个中心，然后计算其他点到这个中心间的距离，当距离大于T1时，小于T1大于T2时，小于T2时，对这个点的处理都是不一样的。

算法伪代码：

while D is not empty

      select element d from D to initialize canopy c

      remove d from D

      Loop through remaining elements in D

           if distance between d_i and c < T1 : add element to the canopy c

           if distance between d_i and c < T2 : remove element from D

      end

      add canopy c to the list of canopies C

end

D指代一组数据，d_i表示D中的各个数据。

1：给我一组存放在数组里面的数据D

2：给我两个距离阈值T1,T2,且T1>T2

3：随机取D中的一个数据d作为中心，并将d从D中移除

4：计算D中所有点到d的距离distance

5：将所有distance<T1的点都归如到d为中心的canopy1类中（注意哦，小于T2的也是小于T1的，所以也是归入到canopy1中的哦）

6：将所有distance<T2的点，都从D中移除。（这一步很关键的，你回去看上面那个图，就明白了）

7：重复步骤4到6，直到D为空，形成多个canopy类

关键点在于t1，t2：

当与中心的距离大于T1时，这些点就不会被归入到中心所在的这个canopy类中。

然当距离小于T1大于T2时，这些点会被归入到该中心所在的canopy中，但是它们并不会从D中被移除，也就是说，它们将会参与到下一轮的聚类过程中，成为新的canopy类的中心或者成员。亦即，两个Canopy类中有些成员是重叠的。

而当距离小于T2的时候，这些点就会被归入到该中心的canopy类中，而且会从D中被移除，也就是不会参加下一次的聚类过程了。

Canopy聚类算法的更多相关文章

canopy聚类算法的MATLAB程序
canopy聚类算法的MATLAB程序凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. canopy聚类算法简介 Canopy聚类算法是一个将对象分组到 ...
Canopy聚类算法(经典，看图就明白)
只有这个算法思想比较对,其他的都没有一开始的remove: 原网址:http://www.shahuwang.com/?p=1021 Canopy Clustering 这个算法是2000年提出来的 ...
Canopy聚类算法分析
原文链接:http://blog.csdn.net/yclzh0522/article/details/6839643 Canopy聚类算法是可以并行运行的算法,数据并行意味着可以多线程进 ...
转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
Mahout机器学习平台之聚类算法具体剖析（含实例分析）
第一部分: 学习Mahout必需要知道的资料查找技能: 学会查官方帮助文档: 解压用于安装文件(mahout-distribution-0.6.tar.gz),找到例如以下位置.我将该文件解压到win ...
Mahout canopy聚类
Canopy 聚类一.Canopy算法流程 Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p,作为一个C ...
DBSCAN密度聚类算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-M ...
基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
挑子学习笔记：两步聚类算法（TwoStep Cluster Algorithm）——改进的BIRCH算法
转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/twostep_cluster_algorithm.html 两步聚类算法是在SPSS Modeler中使用的 ...

随机推荐

SpringMVC4整合CXF发布WebService
SpringMVC4整合CXF发布WebService版本:SpringMVC 4.1.6,CXF 3.1.0项目管理:apache-maven-3.3.3 pom.xml <project x ...
基于Python实现的四则运算生成程序
Github项目地址:传送门小组成员:黄晓彬(代码实现) 黄钰城(代码审查) 需求: 1. 使用 -n 参数控制生成题目的个数. 2. 使用 -r 参数控制题目中数值(自然数.真分数和真分数分母)的 ...
Flask的消息message机制flash
Flask的消息机制flash message是一个基于session实现的用于保存数据的集合,其特点是:使用一次就删除. 原理就是操作成功 session['操作'] = 'msg' # 设置 s ...
[转载] PHP升级导致系统负载过高问题分析
原文:http://chuansongme.com/n/797172 背景据XX部门兄弟反应, 其在将PHP从5.3.8 升级到5.5.13 时, 开始运行正常, 运行一段时间后, 系统负载变高,达 ...
第九集经验风险最小化（ERM）
实在写不动了,将word文档转换为PDF直接截图了... 版权声明:本文为博主原创文章,未经博主允许不得转载.
PS基础教程[3]如何去除照片上的水印
网络上的照片大部分都有很多的水印,要嘛就是网站的地址,要嘛就是一些煽情的文字,我们看图片想要的可不是这些东西,那么我们怎样去掉图片上的水印呢?本次我们就来分享一下仿制图章工具的使用. 方法 1.打开P ...
3145 code[VS]汉诺塔游戏--递归
3145 汉诺塔游戏题目描述 Description 汉诺塔问题(又称为河内塔问题),是一个大家熟知的问题.在A,B,C三根柱子上,有n个不同大小的圆盘(假设半径分别为1-n吧),一开始他们都叠在我 ...
JsQuick--个人封装的Js库
JsQuick 该库为本人封装的Js库,尚未进行浏览器兼容 /** * 快速框架版本:1.0.0 * 日期:2015.02.26 * 作者:简楚恩 */ /** * 快速获取控件类 */ var $ ...
如何调试Excel VBA代码
Excel VBA出错时给出的错误信息极少,需要充分利用各种工具来进行调试. 1.编译错误常见的编译错误有: 错误的源代码格式,比如if后面缺少then:在编辑器中该行会变成红色. 错误的语法结构, ...
Oracle 13c OEM 安装手册
1 安装准备工作以下包已Redhat 为准,其他版的操作系统以官方手册为准. 1.1 Oracle Management Service 依赖如下包 glibc-comm ...

Canopy聚类算法

Canopy聚类算法(经典，看图就明白)

Canopy聚类算法的更多相关文章

随机推荐

热门专题