Python 实现分层聚类算法

'''

1.将所有样本都看作各自一类

2.定义类间距离计算公式

3.选择距离最小的一堆元素合并成一个新的类

4.重新计算各类之间的距离并重复上面的步骤

5.直到所有的原始元素划分成指定数量的类

程序要点：

1.生成测试数据

    sklearn.datasets.make_blobs

2.系统聚类算法

    sklearn.cluster.AgglomerativeClustering

3.必须满足该条件不然会报错(自定义函数中的参数)

    assert 1 <= n_clusters <= 4

4.颜色，红绿蓝黄

r g b y

5. o * v +

    散点图的形状

6.[] 内可以为条件表达式,输出数组中满足条件的数据

    data[predictResult == i]

7.访问 x 轴，y 轴坐标

    subData[:,0] subData[:,1]

8.plt.scatter(x轴,y轴,c,marker,s=40)

    colors = "rgby"

    markers = "o*v+"

    c 颜色 c=colors[i]

    marker 形状 marker=markers[i]

9.生成随机数据并返回样本点及标签

data,labels = make_blobs(n_samples=200,centers=4)

    make_blobs 为 sklearn.datasets.make_blobs 库

    n_samples 为需要的样本数量

    centers 为标签数

'''

import numpy as np

import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs

from sklearn.cluster import AgglomerativeClustering

def AgglomerativeTest(n_clusters):

    assert 1 <= n_clusters <= 4

    predictResult = AgglomerativeClustering(

        n_clusters=n_clusters,

        affinity='euclidean',

        linkage='ward'

    ).fit_predict(data)

    # 定义绘制散点图时使用的颜色和散点符号

    colors = "rgby"

    markers = "o*v+"

    # 依次使用不同的颜色和符号绘制每个类的散点图

    for i in range(n_clusters):

        subData = data[predictResult == i]

        plt.scatter(

            subData[:,0],

            subData[:,1],

            c = colors[i],

            marker = markers[i],

            s = 40

        )

    plt.show()

# 生成随机数据，200个点，4类标签，返回样本及标签

data , labels = make_blobs(n_samples=200,centers=4)

print(data)

AgglomerativeTest(2)

2020-04-10

Python 实现分层聚类算法的更多相关文章

Python实现 K_Means聚类算法
使用 Python实现 K_Means聚类算法: 问题定义 聚类问题是数据挖掘的基本问题,它的本质是将n个数据对象划分为 k个聚类,以便使得所获得的聚类满足以下条件: 同一聚类中的数据对象相似度较高 ...
python实现K聚类算法
参考:<机器学习实战>- Machine Learning in Action 一. 基本思想聚类是一种无监督的学习,它将相似的对象归到同一簇中.它有点像全自动分类.聚类方法几乎可以应 ...
Python实现DBSCAN聚类算法（简单样例测试）
发现高密度的核心样品并从中膨胀团簇. Python代码如下: # -*- coding: utf-8 -*- """ Demo of DBSCAN clustering ...
机器学习：Python实现聚类算法(三)之总结
考虑到学习知识的顺序及效率问题,所以后续的几种聚类方法不再详细讲解原理,也不再写python实现的源代码,只介绍下算法的基本思路,使大家对每种算法有个直观的印象,从而可以更好的理解函数中参数的意义及作 ...
【转】利用python的KMeans和PCA包实现聚类算法
转自:https://www.cnblogs.com/yjd_hycf_space/p/7094005.html 题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚 ...
K-means聚类算法及python代码实现
K-means聚类算法(事先数据并没有类别之分!所有的数据都是一样的) 1.概述 K-means算法是集简单和经典于一身的基于距离的聚类算法采用距离作为相似性的评价指标,即认为两个对象的距离越近,其 ...
利用python的KMeans和PCA包实现聚类算法
题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 . 利用Python的scikit-learn包中的Kmeans算法 ...
python聚类算法实战详细笔记 (python3.6+(win10、Linux))
python聚类算法实战详细笔记 (python3.6+(win10.Linux)) 一.基本概念: 1.计算TF-DIF TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库 ...
（数据科学学习手札09）系统聚类算法Python与R的比较
上一篇笔者以自己编写代码的方式实现了重心法下的系统聚类(又称层次聚类)算法,通过与Scipy和R中各自自带的系统聚类方法进行比较,显然这些权威的快捷方法更为高效,那么本篇就系统地介绍一下Python与 ...

随机推荐

控制shell终端提示符格式和颜色
字体颜色值 (ASCII) 背景颜色值 (ASCII) 显示颜色 30 40 黑色 31 41 红色 32 42 绿色 33 43 黄色 34 44 蓝色 35 45 紫红色 36 46 青蓝色 37 ...
记一次解密wireshark抓取的冰蝎通信流量
一.关于冰蝎 1.1 简单介绍冰蝎是一款基于Java开发的动态加密通信流量的新型Webshell客户端.老牌 Webshell 管理神器——中国菜刀的攻击流量特征明显,容易被各类安全设备检测,实际场 ...
java学习第四天7/9
一. 今天学习了一些算法: 求最小值,最大值,平均值接着学了几种排序方法 1.冒泡排序 (1)逐一比较数组中响铃的两个元素,如果后面的数字小于前面的数字,就交换先后元素: (2)经过一个轮次的比较, ...
scala 数据结构（十）：折叠、扫描、拉链(合并)、迭代器
1 折叠 fold函数将上一步返回的值作为函数的第一个参数继续传递参与运算,直到list中的所有元素被遍历. 1)可以把reduceLeft看做简化版的foldLeft. 如何理解: def redu ...
shell专题（七）：流程控制（重点）
7.1 if 判断 1．基本语法 if [ 条件判断式 ];then 程序 fi 或者 if [ 条件判断式 ] then 程序 fi 注意事项: (1)[ 条件判断式 ],中括号和条件判断式之间必须 ...
Mysql 实例：mysql语句练习50题（sqlalchmy写法）
为了练习sql语句,在网上找了一些题,自己做了一遍,收益颇多.很多地方换一种思路,有更好的写法,欢迎指正. 题目地址:https://blog.csdn.net/fashion2014/article ...
数据库04 /多表查询、pymysql模块
数据库04 /多表查询.pymysql模块目录数据库04 /多表查询.pymysql模块 1. 笛卡尔积 2. 连表查询 2.1 inner join 内连接 2.2 left join 左连接 ...
[Qt2D绘图]-03坐标系统之坐标变换
大纲: 基本变换介绍和常用API 窗口-视口转换窗口视口让窗口和视口维持相同宽高比来防止变形基本变换默认 ...
IDEA 2020版破解
这期教一下大家如何破解IDEA 最新版破解教程有以前的idea建议卸载哈~安装最新版的版本一:我们首先去idea官网下载最新版下方是idae官网2020最新链接 https://www.jetb ...
antd实战：表单上传，文件列表的过滤与限制。
用表单上传组件最痛苦的地方是: 他的诸多行为与纯上传组件不一样,而表单的文档关于这一块基本上没有提,只能自己试. 比如我想做一个上传前的拦截. beforeUpload: (file, fileLis ...

Python 实现分层聚类算法

Python 实现分层聚类算法的更多相关文章

随机推荐

热门专题