Python-层次聚类-Hierarchical clustering

层次聚类关键方法
#coding:UTF-8
#Hierarchical clustering 层次聚类
from E_distance import Euclidean_distance

from yezi import yezi

class bicluster:

    def __init__(self, vec, left=None,right=None,distance=0.0,id=None):

        self.left = left

        self.right = right  #每次聚类都是一对数据，left保存其中一个数据，right保存另一个

        self.vec = vec      #保存两个数据聚类后形成新的中心

        self.id = id

        self.distance = distance

def hcluster(blogwords,n) :

    biclusters = [ bicluster(vec = blogwords[i], id = i ) for i in range(len(blogwords)) ]

    distances = {}

    flag = None;

    currentclusted = -1

    while(len(biclusters) > n) : #假设聚成n个类

        min_val = 999999999999; #Python的无穷大应该是inf

        biclusters_len = len(biclusters)

        for i in range(biclusters_len-1) :

            for j in range(i + 1, biclusters_len) :

                if distances.get((biclusters[i].id,biclusters[j].id)) == None:

                    distances[(biclusters[i].id,biclusters[j].id)] = Euclidean_distance(biclusters[i].vec,biclusters[j].vec)

                d = distances[(biclusters[i].id,biclusters[j].id)]

                if d < min_val :

                    min_val = d

                    flag = (i,j)

        bic1,bic2 = flag #解包bic1 = i , bic2 = j

        newvec = [(biclusters[bic1].vec[i] + biclusters[bic2].vec[i])/2 for i in range(len(biclusters[bic1].vec))] #形成新的类中心，平均

        newbic = bicluster(newvec, left=biclusters[bic1], right=biclusters[bic2], distance=min_val, id = currentclusted) #二合一

        currentclusted -= 1

        del biclusters[bic2] #删除聚成一起的两个数据，由于这两个数据要聚成一起

        del biclusters[bic1]

        biclusters.append(newbic)#补回新聚类中心

        clusters = [yezi(biclusters[i]) for i in range(len(biclusters))] #深度优先搜索叶子节点，用于输出显示

    return biclusters,clusters

深度优先显示：
def yezi(clust):

    if clust.left == None and clust.right == None :

        return [clust.id]

    return yezi(clust.left) + yezi(clust.right)

欧氏距离：
#Euclidean_distance

from math import sqrt

def Euclidean_distance(vector1,vector2):

    length = len(vector1)

    TSum = sum([pow((vector1[i] - vector2[i]),2) for i in range(len(vector1))])

    SSum = sqrt(TSum)

    return SSum

层次聚类算法：

给定要聚类的N的对象以及N*N的距离矩阵(或者是相似性矩阵), 层次式聚类方法的基本步骤(参看S.C. Johnson in 1967)如下:

将每个对象归为一类, 共得到N类, 每类仅包含一个对象. 类与类之间的距离就是它们所包含的对象之间的距离.
找到最接近的两个类并合并成一类, 于是总的类数少了一个.
重新计算新的类与所有旧类之间的距离.
重复第2步和第3步, 直到最后合并成一个类为止(此类包含了N个对象).

由于层次聚类计算量巨大，所以通常不用来计算大量的数据，不过可以用层次聚类来选取K-means算法的初始类中心。

例子（不规范，只是用来显示输入和输出的格式）：

参考：http://www.cnblogs.com/coser/archive/2013/04/10/3013044.html

Python-层次聚类-Hierarchical clustering的更多相关文章

层次聚类 Hierarchical Clustering
-------------------------------- 不管是GMM,还是k-means,都面临一个问题,就是k的个数如何选取?比如在bag-of-words模型中,用k-means训练码书 ...
机器学习(6): 层次聚类 hierarchical clustering
假设有N个待聚类的样本,对于层次聚类来说,步骤: 1.(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度: 2.寻找各个类之间最近的两个类, ...
python实现一个层次聚类方法
层次聚类(Hierarchical Clustering) 一.概念层次聚类不需要指定聚类的数目,首先它是将数据中的每个实例看作一个类,然后将最相似的两个类合并,该过程迭代计算只到剩下一个类为止,类 ...
32(1).层次聚类---AGNES
层次聚类hierarchical clustering 试图在不同层次上对数据集进行划分,从而形成树形的聚类结构. 一. AGNES AGglomerative NESting:AGNES是一种常用的 ...
Python机器学习——Agglomerative层次聚类
层次聚类(hierarchical clustering)可在不同层次上对数据集进行划分,形成树状的聚类结构.AggregativeClustering是一种常用的层次聚类算法. 其原理是:最初将 ...
Python爬虫技术(从网页获取图片)+HierarchicalClustering层次聚类算法，实现自动从网页获取图片然后根据图片色调自动分类—Jason niu
网上教程太啰嗦,本人最讨厌一大堆没用的废话,直接上,就是干! 网络爬虫?非监督学习? 只有两步,只有两个步骤? Are you kidding me? Are you ok? 来吧,follow me ...
【Python机器学习实战】聚类算法（2）——层次聚类(HAC)和DBSCAN
层次聚类和DBSCAN 前面说到K-means聚类算法,K-Means聚类是一种分散性聚类算法,本节主要是基于数据结构的聚类算法--层次聚类和基于密度的聚类算法--DBSCAN两种算法. 1.层次聚类 ...
【层次聚类】python scipy实现
层次聚类原理有一个讲得很清楚的博客:博客地址主要用于:没有groundtruth,且不知道要分几类的情况用scipy模块实现聚类参考函数说明: pdist squareform linkag ...
【python】利用scipy进行层次聚类
参考博客: https://joernhees.de/blog/2015/08/26/scipy-hierarchical-clustering-and-dendrogram-tutorial/ 层次 ...

随机推荐

CXF集成Spring实现webservice的发布与请求
CXF集成Spring实现webservice的发布(服务端) 目录结构: 主要代码: package com.cxf.spring.pojo; public class User { int id ...
centos7.2安装phpmyadmin
首先服务器要有web 环境 yum install phpmyadmin 修改/etc/http.conf/conf.d/phpMyadmin.conf 将 #Require ip 127.0.0. ...
Python 练习册
01:将你的 QQ 头像(或者微博头像)右上角加上红色的数字,类似于微信未读信息数量那种提示效果 [图像处理] 类似于图中效果: py 2.7代码: from PIL import Image, Im ...
Sharepoint 杂记
在Sharepoint中复制Settle.html,粘贴后改名为km.html,修改km.html会自动更新km.master,修改好模板后需要在站点发布. 添加List添加WebPart,继承KmW ...
java设计优化--代理模式
代理模式使用代理对象完成用户的请求,屏蔽用户对真实对象的访问. 代理模式的用途很多,比如因为安全原因,需要屏蔽客户端直接访问真实对象:或者在远程调用中,需要使用代理对象处理远程方法中的技术细节:或者为 ...
Android任务和返回栈完全解析，细数那些你所不知道的细节
附:Android task详解出处:http://blog.csdn.net/guolin_blog/article/details/41087993 原文: http://developer. ...
Struts2+Spring+Mybatis+Junit 测试
Struts2+Spring+Mybatis+Junit 测试博客分类: HtmlUnit Junit Spring 测试 Mybatis package com.action.kioskmoni ...
UIScrollView实现图片轮播器及其无限循环效果
图片轮播器: 一.实现效果实现图片的自动轮播二.实现代码 storyboard中布局代码: 1 #import "YYViewController.h" ...
UTF-8有签名和无签名的区别
当有签名的UTF-8编码内容被解析器解析时,解析器直接根据签名即可判断出使用UTF-8编码来进行解析,当无签名时,解析器会根据内容的编码来进行判别.所以,有签名的将更容易被解析器以正确的编码方式进行解 ...
MySoft.Data 2.7.3版本的GitHub托管（ORM升级封装）
MySoft.Data 2.7.3 dotnet ORM 版权这里版权属于老毛:http://www.cnblogs.com/maoyong 说明 MySoft体系中的ORM组件,这里的版本为2.7 ...

Python-层次聚类-Hierarchical clustering

Python-层次聚类-Hierarchical clustering的更多相关文章

随机推荐

热门专题