mahout之canopy算法简单理解

canopy是聚类算法的一种实现

它是一种快速，简单，但是不太准确的聚类算法

canopy通过两个人为确定的阈值t1，t2来对数据进行计算，可以达到将一堆混乱的数据分类成有一定规则的n个数据堆

由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别，所以它是不太准确的

但是通过canopy计算出来的n个类别可以用在kmeans算法中的k值的确定（因为人为无法准确的确定k值到底要多少才合适，而有kmeans算法本身随机产生的话结果可能不是很精确。有关kmeans算法的解释请看点击打开链接）

canopy算法流程如下：

（1）确定两个阈值t1，t2（确保t1一定大于t2）

（2）从数据集合中随机选出一个数据，计算这个数据到canopy的距离（如果当前没有canopy，则该点直接作为canopy）

（3）如果这个距离小于t1，则给这个数据标上弱标记，将t1加入这个canopy中（同时这个数据可以作为新的canopy来计算其他数据到这个点的距离）

（4）如果这个距离小于t2，则给这个数据标上强标记，并将其中数据集合中删除，此时认为这个数据点距离该canopy已经足够近了，不可能在形成新的canopy

（5）重复2-4的过程，直至数据集合中没有数据

这里的canopy指的是作为要划分数据的中心点，以这个canopy为中心，t2为半径，形成一个小圆。t1为半径，形成一个大圆。在小圆范围内的数据点被认为一定属于这个canopy，不能作为一个新的canopy来划分数据，而小圆范围外，大圆范围内的数据则又可以作为新的canopy来划分数据

划分完之后的数据类似下图

虚线的圈是t2，实线的圈是t1

可以看到canopy算法将可以将一堆杂乱的数据大致的划分为几块

所以canopy算法一般会和kmeans算法配合使用来到达使用者的目的

在使用canopy算法时，阈值t1，t2的确定是十分重要的

t1的值过大，会导致更多的数据会被重复迭代，形成过多的canopy；值过小则导致相反的效果

t2的值过大，会导致一个canopy中的数据太多，反之则过少

这样的情况都会导致运行的结果不准确

mahout之canopy算法简单理解的更多相关文章

Mahout之Canopy Clustering深入理解
转自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html Mahout学习——Canopy Clustering 聚类 ...
寻找图的强连通分量：tarjan算法简单理解
1.简介tarjan是一种使用深度优先遍历(DFS)来寻找有向图强连通分量的一种算法. 2.知识准备栈.有向图.强连通分量.DFS. 3.快速理解tarjan算法的运行机制提到DFS,能想到的是通过栈 ...
mahout中kmeans算法和Canopy算法实现原理
本文讲一下mahout中kmeans算法和Canopy算法实现原理. 一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉.虽然算法较为简单,在实际应用中却可以有不错的效果:其算法原理也决定了 ...
Mahout 系列之--canopy 算法
Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p. (3 ...
SDUT OJ 数据结构实验之串一：KMP简单应用 && 浅谈对看毛片算法的理解
数据结构实验之串一:KMP简单应用 Time Limit: 1000 ms Memory Limit: 65536 KiB Submit Statistic Discuss Problem Descr ...
mahout 实现canopy
环境: mahout-0.8 hadoop-1.1.2 ubuntu-12.04 理论这里就不说了,直接上实例: 下面举一个例子. 数据准备: canopy.dat文件,COPY到HDFS上,文件内容 ...
Deep learning：四十九(RNN-RBM简单理解)
前言: 本文主要是bengio的deep learning tutorial教程主页中最后一个sample:rnn-rbm in polyphonic music. 即用RNN-RBM来model复调 ...
Deep learning：四十六(DropConnect简单理解)
和maxout(maxout简单理解)一样,DropConnect也是在ICML2013上发表的,同样也是为了提高Deep Network的泛化能力的,两者都号称是对Dropout(Dropout简单 ...
Canopy算法聚类
Canopy一般用在Kmeans之前的粗聚类.考虑到Kmeans在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果 K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗 ...

随机推荐

redis_NoSql入门概述数据模型简介
以下面的背景去对比关系型数据库和非关系型数据库的差异(一个电商客户.订单.订购.地址模型来对比以下关系型数据库和非关系型数据库) 传统数据库一般设计会使用ER图(1:1/1:N/N:N,主键等) 而N ...
[BZOJ2431][HAOI2009]逆序对数列(DP)
从小到大加数,根据加入的位置转移,裸的背包DP. #include<cstdio> #include<cstring> #include<algorithm> #d ...
HDU 6071 Lazy Running（最短路）
[题目链接] http://acm.hdu.edu.cn/showproblem.php?pid=6071 [题目大意] 给出四个点1,2,3,4,1和2,2和3,3和4,4和1 之间有路相连, 现在 ...
【期望DP】BZOJ3450- Tyvj1952 Easy
---恢复内容开始--- [题目大意] 有n次点击要做,成功了就是o,失败了就是x,分数是按comb计算的,连续a个comb就有a*a分,comb就是极大的连续o.求期望分数. [思路] 比之前的OS ...
[CC-ANUCBC]Cards, bags and coins
[CC-ANUCBC]Cards, bags and coins 题目大意: 给你\(n(n\le10^5)\)个数,\(q(q\le30)\)次询问,问从中选取若干个数使得这些数之和为\(m(m\l ...
（转）基于MapReduce的ItemBase推荐算法的共现矩阵实现（一）
转自:http://zengzhaozheng.blog.51cto.com/8219051/1557054 一.概述这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估,其中涉及 ...
PHP+MySQL中字符集问题分析
Character set顾名思义,就是字符.以及字符对应的编码的集合.例如简体中文字符集gb2312就包括简体中文中的所有规定汉字,以及每个汉字对应的代码. Collation,是指比较字符的规则的 ...
注解@Aspect实现AOP功能
springboot中pom引入jar  <dependency> <groupId>org.springframework.boot ...
【R笔记】R语言函数总结
R语言与数据挖掘:公式:数据:方法 R语言特征对大小写敏感通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母).不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字 ...
某DP题目1
题意: 有n个由左右括号组成的字符串,选择其中若干字符串,使得组成的括号序列合法且长度最长.n <= 1000,n个字符串的长度和 <= 10000. 分析: 其实我一开始做这一题的时候, ...

mahout之canopy算法简单理解

mahout之canopy算法简单理解的更多相关文章

随机推荐

热门专题