数据挖掘算法之聚类分析（二）canopy算法

canopy是聚类算法的一种实现

它是一种快速，简单，但是不太准确的聚类算法

canopy通过两个人为确定的阈值t1，t2来对数据进行计算，可以达到将一堆混乱的数据分类成有一定规则的n个数据堆

由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别，所以它是不太准确的

但是通过canopy计算出来的n个类别可以用在kmeans算法中的k值的确定（因为人为无法准确的确定k值到底要多少才合适，而有kmeans算法本身随机产生的话结果可能不是很精确。有关kmeans算法的解释请看点击打开链接）

canopy算法流程如下：

（1）确定两个阈值t1，t2（确保t1一定大于t2）

（2）从数据集合中随机选出一个数据，计算这个数据到canopy的距离（如果当前没有canopy，则该点直接作为canopy）

（3）如果这个距离小于t1，则给这个数据标上弱标记，将t1加入这个canopy中（同时这个数据可以作为新的canopy来计算其他数据到这个点的距离）

（4）如果这个距离小于t2，则给这个数据标上强标记，并将其中数据集合中删除，此时认为这个数据点距离该canopy已经足够近了，不可能在形成新的canopy

（5）重复2-4的过程，直至数据集合中没有数据

这里的canopy指的是作为要划分数据的中心点，以这个canopy为中心，t2为半径，形成一个小圆。t1为半径，形成一个大圆。在小圆范围内的数据点被认为一定属于这个canopy，不能作为一个新的canopy来划分数据，而小圆范围外，大圆范围内的数据则又可以作为新的canopy来划分数据

划分完之后的数据类似下图

虚线的圈是t2，实线的圈是t1

可以看到canopy算法将可以将一堆杂乱的数据大致的划分为几块

所以canopy算法一般会和kmeans算法配合使用来到达使用者的目的

在使用canopy算法时，阈值t1，t2的确定是十分重要的

t1的值过大，会导致更多的数据会被重复迭代，形成过多的canopy；值过小则导致相反的效果

t2的值过大，会导致一个canopy中的数据太多，反之则过少

这样的情况都会导致运行的结果不准确

数据挖掘算法之聚类分析（二）canopy算法的更多相关文章

Canopy算法聚类
Canopy一般用在Kmeans之前的粗聚类.考虑到Kmeans在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果 K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗 ...
计科1111-1114班第一次实验作业（NPC问题——回溯算法、聚类分析）
实验课安排地点: 科技楼423 时间: 计科3-4班---15周周一上午.周二下午计科1-2班---15周周一下午.周二晚上(晚上时间从18:30-21:10) 请各班学委在实验课前飞信通知大家 ...
(转载)微软数据挖掘算法：Microsoft Naive Bayes 算法（3）
介绍: Microsoft Naive Bayes 算法是一种基于贝叶斯定理的分类算法,可用于探索性和预测性建模. Naïve Bayes 名称中的 Naïve 一词派生自这样一个事实:该算法使用贝叶 ...
mahout中kmeans算法和Canopy算法实现原理
本文讲一下mahout中kmeans算法和Canopy算法实现原理. 一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉.虽然算法较为简单,在实际应用中却可以有不错的效果:其算法原理也决定了 ...
聚类分析K均值算法讲解
聚类分析及K均值算法讲解吴裕雄当今信息大爆炸时代,公司企业.教育科学.医疗卫生.社会民生等领域每天都在产生大量的结构多样的数据.产生数据的方式更是多种多样,如各类的:摄像头.传感器.报表.海量网络 ...
数据挖掘案例:基于 ReliefF和K-means算法的应用
数据挖掘案例:基于 ReliefF和K-means算法的应用数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识.数据挖掘(DataMiriing),指的是从大型数据库 ...
(转载)微软数据挖掘算法：Microsoft 决策树分析算法（1）
微软数据挖掘算法:Microsoft 目录篇介绍: Microsoft 决策树算法是分类和回归算法,用于对离散和连续属性进行预测性建模. 对于离散属性,该算法根据数据集中输入列之间的关系进行预测. ...
第1次实验——NPC问题(回溯算法、聚类分析)
题目:八皇后问题,是一个古老而著名的问题,是回溯算法的典型案例.该问题是国际西洋棋棋手马克斯·贝瑟尔于1848年提出:在8X8格的国际象棋上摆放八个皇后,使其不能互相攻击,即随意两个皇后都不能处于同一 ...
js算法集合（二） javascript实现斐波那契数列（兔子数列）
js算法集合(二) 斐波那契数列 ★ 上一次我跟大家分享一下做水仙花数的算法的思路,并对其扩展到自幂数的算法,这次,我们来对斐波那契数列进行研究,来加深对循环的理解. Javascript实 ...

随机推荐

HDU1028 （整数拆分）
Ignatius and the Princess III Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K ...
xcode／Interface Build（IB）／iPhone模拟器／mac／组合键常用的命令集
1.Xcode常用快捷键: win+N:新建文件 win+shift+N:新建工程 win+O:打开工程或文件 win+S:保存 win+shift+S:另存为 win+Z:撤销一步 win+W:关闭 ...
对象存储 - Swift 原理及 Swift+keystone+dashboard 架构搭建
1. 原理介绍 Swift 架构.原理及功能: http://www.cnblogs.com/sammyliu/p/4955241.html 总结的很详细也很全面,受益匪浅,感谢分享. 2. keys ...
最小生成树Prim算法Kruskal算法
Prim算法采用与Dijkstra.Bellamn-Ford算法一样的“蓝白点”思想:白点代表已经进入最小生成树的点,蓝点代表未进入最小生成树的点. 算法分析 & 思想讲解: Prim算法每次 ...
poj 1192(树形DP)
最优连通子集 Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 2589 Accepted: 1382 Descriptio ...
android studio 设置
1.设置启动不打开最近项目 2.设置字体 3.安装逍游模拟器,并与android studio 进行链接 adb connect 127.0.0.1:21503 4.添加第三方包文件jar.Modu ...
React Native - 2 控件Flexbox
*强烈建议使用Genymotion模拟器,比AVD速度快,功能强大. 1. flexDirection Flexbox是连续布局,它有主轴(primary axis)和交叉轴(cross axis ...
Feign负载均衡(五）
一.Feign定义 Feigin是服务消费者,Feign是一个声明式的伪Http客户端,它使得写Http客户端变得更简单.使用Feign,只需要创建一个接口并注解.它具有可插拔的注解特性,可使用Fei ...
洛谷——P1033 自由落体
P1033 自由落体题目描述在高为 H 的天花板上有 n 个小球,体积不计,位置分别为 0,1,2,…．n-1.在地面上有一个小车(长为 L,高为 K,距原点距离为 S1).已知小球下落距离计算公 ...
[BZOJ 3144] 切糕
Link: BZOJ 3144 传送门 Solution: 发现要把点集分成不连通的两部分,最小割的模型还是很明显的首先我们将原图转化为$R+1$层,从而将点权化为边权关键还是在于建图是怎么保证$ ...

数据挖掘算法之聚类分析（二）canopy算法

数据挖掘算法之聚类分析（二）canopy算法的更多相关文章

随机推荐

热门专题