西瓜书学习。。。ing

K均值 k-means

给定样本集$ D = {X_1,X_2,...X_n} $,k-means针对聚类所得簇划分$C = {C_1,C_2,...,C_k}$最小化平方误差

目标函数$ E = \sum\limits_{i=1}^{k} \sum\limits_{x \in C_i} |x - \mu_i|_2^2 $

其中$ \mu_i = \frac{1}{|C_i|} \sum_{x \in C_i} x $是簇的均值向量可见式(1.1)在一定程度刻画了簇内样本围绕簇均值的紧密程度，E越小簇内样本相似度越高

实现步骤

参数：K

从D中随机选择K个样本作为初始均值向量

repeat

计算样本中每一个向量与各个初始向量的距离，并依此分类，得到新的K个簇

根据新的K个簇计算新的K个均值向量

until 当前均值向量未更新

输出：簇划分

缺点

学习向量量化LVQ

类似K均值，LVQ也是通过试图找到一组原型向量来刻画聚类结构，不同点在于LVQ假设数据样本带有类别标记，因此在学习过程中利用样本的这些监督信息进行辅助聚类

给定$ D = {(X_1,y_1),(X_1,y_1),...,(X_m,y_m)} $,LVQ目标是学得一组n维原型向量，每个原型向量代表一个聚类簇

Input：D = {(X1,y1),(X2,y2),...,(Xm,ym)},

    原型向量个数q，各个原型向量预设的类别标记{t1,t2,t3,..,tq},

    学习率yita属于(0,1)

初始化一组原型向量（随机）

repeat

    从样本集中选取一个样本并计算与最近的原型向量之间的距离

    if yi == ti then

        原型向量P' = Pi + yita * (xj - Pi)

    else

        原型向量P' = Pi - yita * (xj - Pi)

    更新Pi为P’

until 满足停止条件（最大迭代次数、原型向量更新小or不更新）

Output：原型向量

每轮迭代中，随机选取的训练样本若与最近的原型向量同标记，Pi向此样本靠近，反之远离

密度聚类

假设聚类结构能够通过样本分布的紧密程度确定，密度聚类算法从样本密度的角度来考察样本之间的可连接性，基于可连接样本不断扩展聚类簇以获得最终聚类结果

DBSCAN

基于一组邻域的参数（MinPts,$\epsilon$）来刻画样本分布的紧密程度，给定数据集定义如下概念：

1.$\epsilon$-邻域：包括了样本集中与Xj距离不大于epsilon的样本

2.核心对象：Xj的$\epsilon$-邻域内至少包括Minpts个样本，则Xj为一个核心对象

3.密度直达：Xj位于Xi的$\epsilon$-邻域内则Xj可由Xi密度直达

4.密度可达：存在X1、X2、X3...Xn，X2可有X1密度直达，X3可有X2密度直达......有Xi+1有Xi密度直达，则Xn与X1密度可达

5.密度相连：存在Xk使得Xi、Xj均可由Xk密度可达，称Xi、Xj密度相连

于是DBSCAN将簇定义为：由密度可达得出的最大密度相连样本集合

层次聚类

在不同层次上对数据集进行划分，从而形成树形的聚类结构，可用“自底向上”或“自顶向下”。

AGNES

自底向上局策略的层次聚类算法，先将数据集中的每个样本看作一个初始聚类簇，然后再算法运行的每步中照道距离最近的两个聚类簇进行合并，过程重复直至达到预设的聚类簇的个数。

计算聚类簇之间的距离的方法包括了最小距离（两个簇的最近的样本）（单链接）、最大距离（最远）（全链接）、平均距离（所有样本共同决定）（均链接）等等。

先对仅含一个样本的初始聚类簇和相应的距离矩阵进行初始化，而后不断的合并距离最近的聚类簇，并更新合并得到的聚类簇的距离矩阵，重复直至预设的聚类簇数。

最终可得一个树状图（西瓜书P216 图9.12），每层链接一组聚类簇。

在树状图的特定层次上进行分割，可得到相应的簇划分结果。

缺点：

简单，但遇到合并点选择困难的情况，算法的复杂度为O(n的平方)，不适合大数据集计算

DIANA

DIANA（Divisive Analysis）算法属于分裂的层次聚类，首先将所有的对象初始化到一个簇中，然后根据一些原则（比如最邻近的最大欧式距离），将该簇分类。直到到达用户指定的簇数目或者两个簇之间的距离超过了某个阈值

定义：

1.簇的直径：在一个簇中的任意两个数据点都有一个欧氏距离，这些距离中的最大值是簇的直径

2.平均相异度（平均距离）

Input:包含n个对象的数据库，终止条件簇的数目k

Output:k个簇，达到终止条件规定簇数目

将所有对象整个当成一个初始簇

for ( i=1;i<k;i++) Do Begin

    在所有簇中挑选出具有最大直径的簇

    把这个簇里与其他点平均相异度最大的一个点挑出来放进一个新的簇里

    Repeat

        在簇中剩余的点中找到 和新簇中点的最近距离 <= 和自身簇的最近距离的点

    Until 再也没有会被分出去的点了

分裂成的两个簇，与其他簇一起组成新的簇集合

END

缺点：

已做的分裂操作不能撤销，类之间不能交换对象。如果在某步没有选择好分裂点，可能会导致低质量的聚类结果。大数据集不太适用。

ML_Clustering的更多相关文章

随机推荐

crt证书iis 中引用程序目录提示 System.UnauthorizedAccessException:拒绝访问
在站点根目录添加 Authenticated Users 权限
Forth 编译程序
body, table{font-family: 微软雅黑; font-size: 13.5pt} table{border-collapse: collapse; border: solid gra ...
记-统计svn与git的log日志中的代码行变更
任务要求统计指定时间内,指定git地址与svn地址上的所有人员的代码行变更情况. 解决方案最初为根据数据库中存储的所有git与svn地址来统计所有人员的提交代码行.之后由于库中存储的地址不全,改为 ...
Vue学习Day002
内联处理器的操作除了直接绑定到一个方法,也可以在内联JavaScript语句中调用方法 <div id="example-3"> <button v-on:cl ...
JSWebAPI
DOM是哪种基本的数据结构树 DOM本质,对html进行结构化,让浏览器解析,js可操作 DOM节点操作 DOM结构操作 DOM操作的常用API DOM节点的attr 和 property 的区 ...
Dictionary集合运用
Dictionary基础定义: 从一组键(key)到一组值(value)的映射,每一个添加项都是由一个值及其相关联的键组成: 任何键都必须是唯一的: 键不能为空引用的null(VB中的Nothing) ...
HTML 基于 Python 实现分页功能
前面的话: 1. 网页引用的bootstrap 中的表格,所以需要引入样式类 2. 第一次写文章,不喜勿喷.有不足的地方,可留言我改正,在此先谢过. HTML代码: <!DOCTYPE html ...
oraclesql语句笔记
1. ORA-00947:Not enough values 原因:values没有写足够的值与select()中的字段对应 2.查看一张表中共有多少个字段 select count(*) from ...
python3读取sqlyog配置文件中的MySql密码
这个人有什么目的?: 我多多少少听过一些安全圈的大牛说到类似的思路,大意是可以通过扫描各种程序和服务的配置文件(比如SVN的文件,RSYNC的配置文件等), 从中发现敏感信息,从而找到入侵的突破口.沿 ...
搭建webpack基础配置
搭建webpack基础步骤: 1.去官方网站下载node.js(根据自己电脑的系统类型选择) 2.安装node.js完成后打开cmd命令提示符: 出现版本号证明安装成功 3.cd到工程目录下 npm ...

ML_Clustering