Python 实现分层聚类算法

'''

1.将所有样本都看作各自一类

2.定义类间距离计算公式

3.选择距离最小的一堆元素合并成一个新的类

4.重新计算各类之间的距离并重复上面的步骤

5.直到所有的原始元素划分成指定数量的类

程序要点：

1.生成测试数据

    sklearn.datasets.make_blobs

2.系统聚类算法

    sklearn.cluster.AgglomerativeClustering

3.必须满足该条件不然会报错(自定义函数中的参数)

    assert 1 <= n_clusters <= 4

4.颜色，红绿蓝黄

r g b y

5. o * v +

    散点图的形状

6.[] 内可以为条件表达式,输出数组中满足条件的数据

    data[predictResult == i]

7.访问 x 轴，y 轴坐标

    subData[:,0] subData[:,1]

8.plt.scatter(x轴,y轴,c,marker,s=40)

    colors = "rgby"

    markers = "o*v+"

    c 颜色 c=colors[i]

    marker 形状 marker=markers[i]

9.生成随机数据并返回样本点及标签

data,labels = make_blobs(n_samples=200,centers=4)

    make_blobs 为 sklearn.datasets.make_blobs 库

    n_samples 为需要的样本数量

    centers 为标签数

'''

import numpy as np

import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs

from sklearn.cluster import AgglomerativeClustering

def AgglomerativeTest(n_clusters):

    assert 1 <= n_clusters <= 4

    predictResult = AgglomerativeClustering(

        n_clusters=n_clusters,

        affinity='euclidean',

        linkage='ward'

    ).fit_predict(data)

    # 定义绘制散点图时使用的颜色和散点符号

    colors = "rgby"

    markers = "o*v+"

    # 依次使用不同的颜色和符号绘制每个类的散点图

    for i in range(n_clusters):

        subData = data[predictResult == i]

        plt.scatter(

            subData[:,0],

            subData[:,1],

            c = colors[i],

            marker = markers[i],

            s = 40

        )

    plt.show()

# 生成随机数据，200个点，4类标签，返回样本及标签

data , labels = make_blobs(n_samples=200,centers=4)

print(data)

AgglomerativeTest(2)

2020-04-10

Python 实现分层聚类算法的更多相关文章

Python实现 K_Means聚类算法
使用 Python实现 K_Means聚类算法: 问题定义 聚类问题是数据挖掘的基本问题,它的本质是将n个数据对象划分为 k个聚类,以便使得所获得的聚类满足以下条件: 同一聚类中的数据对象相似度较高 ...
python实现K聚类算法
参考:<机器学习实战>- Machine Learning in Action 一. 基本思想聚类是一种无监督的学习,它将相似的对象归到同一簇中.它有点像全自动分类.聚类方法几乎可以应 ...
Python实现DBSCAN聚类算法（简单样例测试）
发现高密度的核心样品并从中膨胀团簇. Python代码如下: # -*- coding: utf-8 -*- """ Demo of DBSCAN clustering ...
机器学习：Python实现聚类算法(三)之总结
考虑到学习知识的顺序及效率问题,所以后续的几种聚类方法不再详细讲解原理,也不再写python实现的源代码,只介绍下算法的基本思路,使大家对每种算法有个直观的印象,从而可以更好的理解函数中参数的意义及作 ...
【转】利用python的KMeans和PCA包实现聚类算法
转自:https://www.cnblogs.com/yjd_hycf_space/p/7094005.html 题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚 ...
K-means聚类算法及python代码实现
K-means聚类算法(事先数据并没有类别之分!所有的数据都是一样的) 1.概述 K-means算法是集简单和经典于一身的基于距离的聚类算法采用距离作为相似性的评价指标,即认为两个对象的距离越近,其 ...
利用python的KMeans和PCA包实现聚类算法
题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 . 利用Python的scikit-learn包中的Kmeans算法 ...
python聚类算法实战详细笔记 (python3.6+(win10、Linux))
python聚类算法实战详细笔记 (python3.6+(win10.Linux)) 一.基本概念: 1.计算TF-DIF TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库 ...
（数据科学学习手札09）系统聚类算法Python与R的比较
上一篇笔者以自己编写代码的方式实现了重心法下的系统聚类(又称层次聚类)算法,通过与Scipy和R中各自自带的系统聚类方法进行比较,显然这些权威的快捷方法更为高效,那么本篇就系统地介绍一下Python与 ...

随机推荐

Apache Hudi重磅特性解读之全局索引
1. 摘要 Hudi表允许多种类型操作,包括非常常用的upsert,当然为支持upsert,Hudi依赖索引机制来定位记录在哪些文件中. 当前,Hudi支持分区和非分区的数据集.分区数据集是将一组文件 ...
在react中使用到的好用的插件
1)antd UI组件蚂蚁金服出品的挺好用的还有个移动端的antd-moblie 2) moment 日期处理类库 3)prop-types 第三方库对组件props变量进行类型检测 4)qs ...
PE文件格式详解（五）
0x00 前言前一篇了解了区块虚拟地址和文件地址转换的相关知识,这一篇该把我们所学拿出来用用了.这篇我们将了解更为重要的一个知识点——输入表和输出表的知识. 0x01 输入表首先我们有疑问.这个输 ...
Python GIL（全局解释器锁）
理解并发和并行并行:多个CPU同时执行多个不同的多任务. 就像两个程序(进程),这两个程序是真的在不同的CPU内同时执行多个任务. 并发:CPU切换处理不同的多任务, 还是有两个程序,但只有一个CP ...
04 Django模型层： Django-model进阶
一 QuerySet对象 1.1可切片使用Python 的切片语法来限制查询集记录的数目 .它等同于SQL 的LIMIT 和OFFSET 子句. Entry.objects.all()[:5] # ...
Scala 面向对象（二）：package 包 (一) 入门
1 Scala包的基本介绍和Java一样,Scala中管理项目可以使用包,但Scala中的包的功能更加强大,使用也相对复杂些,下面我们学习Scala包的使用和注意事项. 2 Scala包快速入门使 ...
Redis 相关运维操作
背景 Redis作为目前全球最流行的KV存储,除了使用之外,还需要做好日常的运维工作.关于运维相关的工作,本文从以下方面进行介绍说明(Redis5.0以上): 内存方面客户端连接方面工具方面说明 ...
GitHub 热点速览 Vol.28：有品位程序员的自我修养
作者:HelloGitHub-小鱼干摘要:一个程序员除了技术好,还得品位高,有什么比一个高颜值的 GUI 更能体现你品味的呢?rocketredis 就是一个高颜值.简约的 Redis 管理界面,比 ...
从连接器组件看Tomcat的线程模型——连接器简介
Connector组件介绍 Connector(连接器)组件是Tomcat最核心的两个组件之一,主要的职责是负责接收客户端连接和客户端请求的处理加工.每个Connector都将指定一个端口进行监听,分 ...
javascript : 对象取值练习
let obj = { "qqq":0, "www":0, "eee":0, "rrr":1, "ttt&qu ...

Python 实现分层聚类算法

Python 实现分层聚类算法的更多相关文章

随机推荐

热门专题