【python】利用scipy进行层次聚类

参考博客：

https://joernhees.de/blog/2015/08/26/scipy-hierarchical-clustering-and-dendrogram-tutorial/

层次聚类理论知识

类从多减少的过程。

1、定义样本间的距离，类与类之间的距离

2、将每个样本当作一类，计算距离最近的两类，合并为新类

3、一点一点做，直到所有成为一类。

基本步骤：

1、数据变换：

中心化：demean

标准化：deStd

极差标准化：deMean / 极差

极差正规化：de min / 极差

对数变换

2、计算样品两两间距离

3、合并距离最小的两类，重新计算类与类之间的距离

4、画谱系聚类图

5、决定分类的个数以及各个类的成员。

类与类之间的距离不同定义：

1、最短距离法：两两之间最短距离

2、最长距离法

3、中间距离法

4、重心法：可能导致合并后下一次距离比前一次要短

5、类平均法：两两之间平方距离的平均值

6、离差平方和法：WARD

性质：

1、单调性：只有中间距离法和重心法不符合。

2、浓缩与扩张：太浓缩的方法不灵敏，太扩张的方法在样本比较多的时候容易失真

类个数的确定：

1、给定临界值、

2、根据散点图判断

3、根据统计量判断：

R2、半偏R2、伪F、伪T

来看代码：

from scipy.cluster.hierarchy import dendrogram, linkage

Z = linkage(X, "single", "correlation")

dendrogram(Z, labels=X.index, color_threshold=0)

plt.show()

首先使用linkage函数生成距离矩阵。

method参数为距离定义：

　　single : 最短距离法

　　complete: 最长距离法

　　average: 类平均法，与通常定义差一个sq, sqrt

　　centroid: 重心法

　　weighted: 中间距离法

　　ward: WARD法

使用fcluster函数确定最终的分组情况：

【python】利用scipy进行层次聚类的更多相关文章

【转】使用scipy进行层次聚类和k-means聚类
scipy cluster库简介 scipy.cluster是scipy下的一个做聚类的package, 共包含了两类聚类方法: 1. 矢量量化(scipy.cluster.vq):支持vector ...
【层次聚类】python scipy实现
层次聚类原理有一个讲得很清楚的博客:博客地址主要用于:没有groundtruth,且不知道要分几类的情况用scipy模块实现聚类参考函数说明: pdist squareform linkag ...
【Python机器学习实战】聚类算法（2）——层次聚类(HAC)和DBSCAN
层次聚类和DBSCAN 前面说到K-means聚类算法,K-Means聚类是一种分散性聚类算法,本节主要是基于数据结构的聚类算法--层次聚类和基于密度的聚类算法--DBSCAN两种算法. 1.层次聚类 ...
Python爬虫技术(从网页获取图片)+HierarchicalClustering层次聚类算法，实现自动从网页获取图片然后根据图片色调自动分类—Jason niu
网上教程太啰嗦,本人最讨厌一大堆没用的废话,直接上,就是干! 网络爬虫?非监督学习? 只有两步,只有两个步骤? Are you kidding me? Are you ok? 来吧,follow me ...
Python机器学习——Agglomerative层次聚类
层次聚类(hierarchical clustering)可在不同层次上对数据集进行划分,形成树状的聚类结构.AggregativeClustering是一种常用的层次聚类算法. 其原理是:最初将 ...
使用Python进行层次聚类
使用 scipy.cluster.hierarchy.linkage进行层次聚类 from scipy.cluster.hierarchy import dendrogram, linkage,fcl ...
python实现一个层次聚类方法
层次聚类(Hierarchical Clustering) 一.概念层次聚类不需要指定聚类的数目,首先它是将数据中的每个实例看作一个类,然后将最相似的两个类合并,该过程迭代计算只到剩下一个类为止,类 ...
吴裕雄 python 机器学习——层次聚类AgglomerativeClustering模型
import numpy as np import matplotlib.pyplot as plt from sklearn import cluster from sklearn.metrics ...
挑子学习笔记：BIRCH层次聚类
转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/6129425.html 本文是“挑子”在学习BIRCH算法过程中的笔记摘录,文中不乏一些个人理解,不当之处望 ...

随机推荐

文本IO 二进制IO
一.文本IO 字符流使用PrintWriter写入文件后,必须调用close(),否则数据不能正确保存在文件中. Scanner的next()读取一个由分隔符分隔的字符串,nextLine()读取 ...
mysql源码编译安装
首先去官网http://dev.mysql.com/downloads/mysql/ 下载mysql源码.我下的是5.7.10 源码选择的是 Generic Linux (Architecture I ...
java多线程（五）
Java 多线程同步锁机制与synchronized 打个比方:一个object就像一个大房子,大门永远打开.房子里有很多房间(也就是方法).这些房间有上锁的(synchronized方法), 和不 ...
webdriver js点击无法点击的元素
原文地址https://blog.csdn.net/galen2016/article/details/56847545 [WebDriver]调用JavaScript 一.WebDriver 提供了 ...
wordpress防止网站被镜像四个方法
第一种:拆分域名链接与镜像站比对,然后用img标签src空值触发onerror来执行js比对,比对失败则跳转回源站.代码如下:(复制粘贴到主题的functions.php最后一个?>之前,代码出 ...
ubuntu16.04（64位）安装 Drcom
一 : 下载DrClient(DrcomAndPPOE) 解压下载地址 https://www.baidu.com/s?wd=DrClient(DrcomAndPPOE)&rsv_spt ...
Tomcat环境变量设置
tomcat环境变量配置 CATALINA_HOME:D:\server\apache-tomcat-8.5.32 //安装目录 CATALINA_BASE:D:\server\ap ...
linux wa%过高，iostat查看io状况
命令总结: 1. top/vmstat 发现 wa%过高,vmstat b >1: 参考文章: 1. 关于Linux系统指令 top 之 %wa 占用高,用`iostat`探个究竟最近测试一项 ...
JS地址自动返填技术
系统设计地址为省市县三级联动,规范是规范了,但是无形中增加了系统操作的时间成本,因此设计地址自动返填技术,只要把地址拷贝到详细地址框中,可以自动返填到省市县三级联动的下拉框中. 还好洒家的大学不是混过 ...
Linux内核分析 05
扒开系统调用的三层皮(下) 一,给MenuOS增加time和time-asm命令把time和time-asm添加到MenuOS里面去作为命令.扩展MenuOS的功能.本周把上周增加的系统调用添加进 ...

【python】利用scipy进行层次聚类

【python】利用scipy进行层次聚类的更多相关文章

随机推荐

热门专题