机器学习-kmeans的使用

import numpy as np

import pandas as pd

import matplotlib

from matplotlib import pyplot as plt

%matplotlib inline

matplotlib.rcParams['font.sans-serif'] = ['SimHei']

data = pd.read_csv('./010-data_multivar.csv',header=None)

#拆分数据

dataset_X,dataset_y = data.iloc[:,:-],data.iloc[:,-]

# print(dataset_X.head())

dataset_X = dataset_X.values

dataset_y = dataset_y.values

无标签数据集可视化，将第一列feature作为X，第二列feature作为y

def visual_2D_dataset_dist(dataset):

    '''将二维数据集dataset显示在散点图中'''

    assert dataset.shape[]==,'only support dataset with 2 features'

    plt.figure()

    X=dataset[:,]

    Y=dataset[:,]

    plt.scatter(X,Y,marker='v',c='g',label='dataset')

    X_min,X_max=np.min(X)-,np.max(X)+

    Y_min,Y_max=np.min(Y)-,np.max(Y)+

    plt.title('dataset distribution')

    plt.xlim(X_min,X_max)

    plt.ylim(Y_min,Y_max)

    plt.xlabel('feature_0')

    plt.ylabel('feature_1')

    plt.legend()

visual_2D_dataset_dist(dataset_X)

构造 kmeans

from sklearn.cluster import KMeans

#init

kmeans = KMeans(init='k-means++',n_clusters=4,n_init=5)

kmeans.fit(dataset_X)

将dataset_X聚类效果可视化

def visual_kmeans_effect(k_means,dataset):

    assert dataset.shape[1]==2,'only support dataset with 2 features'

    X=dataset[:,0]

    Y=dataset[:,1]

    X_min,X_max=np.min(X)-1,np.max(X)+1

    Y_min,Y_max=np.min(Y)-1,np.max(Y)+1

    # meshgrid 生成网格点坐标矩阵

    X_values,Y_values=np.meshgrid(np.arange(X_min,X_max,0.01),

                                  np.arange(Y_min,Y_max,0.01))

    # 预测网格点的标记

    predict_labels=k_means.predict(np.c_[X_values.ravel(),Y_values.ravel()])

    predict_labels=predict_labels.reshape(X_values.shape)

    plt.figure()

    plt.imshow(predict_labels,interpolation='nearest',

               extent=(X_values.min(),X_values.max(),

                       Y_values.min(),Y_values.max()),

               cmap=plt.cm.Paired,

               aspect='auto',

               origin='lower')

    # 将数据集绘制到图表中

    plt.scatter(X,Y,marker='v',facecolors='none',edgecolors='k',s=30)

    # 将中心点绘制到图中

    centroids=k_means.cluster_centers_

    plt.scatter(centroids[:,0],centroids[:,1],marker='o',

                s=100,linewidths=2,color='k',zorder=5,facecolors='b')

    plt.title('K-Means effect graph')

    plt.xlim(X_min,X_max)

    plt.ylim(Y_min,Y_max)

    plt.xlabel('feature_0')

    plt.ylabel('feature_1')

    plt.show()

visual_kmeans_effect(kmeans,dataset_X)

# 鸢尾花聚类

from sklearn.datasets import load_iris

datairis = load_iris()

dataset = datairis.data

from sklearn.cluster import KMeans

#init

kmeans = KMeans(init='k-means++',n_clusters=,n_init=)

kmeans.fit(dataset)

print(kmeans.labels_) #去除标签

print(datairis)

机器学习-kmeans的使用的更多相关文章

视觉机器学习------K-means算法
K-means(K均值)是基于数据划分的无监督聚类算法. 一.基本原理聚类算法可以理解为无监督的分类方法,即样本集预先不知所属类别或标签,需要根据样本之间的距离或相似程度自动进行分类.聚 ...
机器学习——KMeans聚类，KMeans原理，参数详解
0.聚类聚类就是对大量的未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,聚类属于无监督的学习方法. 1.内在相似性的度量聚类是根据数据 ...
机器学习——KMeans
导入类库 from sklearn.cluster import KMeans from sklearn.datasets import make_blobs import numpy as np i ...
机器学习--k-means聚类原理
“物以类聚,人以群分”, 所谓聚类就是将相似的元素分到一"类"(有时也被称为"簇"或"集合"), 簇内元素相似程度高, 簇间元素相似程度低. ...
Python之机器学习K-means算法实现
一.前言: 今天在宿舍弄了一个下午的代码,总算还好,把这个东西算是熟悉了,还不算是力竭,只算是知道了怎么回事.今天就给大家分享一下我的代码.代码可以运行,运行的Python环境是Python3.6以上 ...
机器学习K-Means
1.K-Means聚类算法属于无监督学习算法. 2.原理:先随机选择K个质心,根据样本到质心的距离将样本分配到最近的簇中,然后根据簇中的样本更新质心,再次计算距离重新分配簇,直到质心不再发生变化,迭代 ...
09-赵志勇机器学习-k-means
(草稿) k-means: 1. 随机选取n个中心 2. 计算每个点到各个中心的距离 3. 距离小于阈值的归成一类. 4. 计算新类的质心,作为下一次循环的n个中心 5. 直到新类的质心和对应本次循环 ...
机器学习-K-means聚类及算法实现（基于R语言）
K-means聚类将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分.产品类别划分等)中. 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离. 算法实现 R语言 ...
机器学习 - k-means聚类
k-means简介 k-means是无监督学习下的一种聚类算法,简单说就是不需要数据标签,仅靠特征值就可以将数据分为指定的几类.k-means算法的核心就是通过计算每个数据点与k个质心(或重心)之间的 ...

随机推荐

Spire.XLS，生成Excel文件、加载Excel文件
一.组件介绍 Spire.XLS是E-iceblue开发的一套基于企业级的专业Office文档处理的组件之一,全称Spire.Office for .NET.旗下有Spire.Doc,Spire XL ...
MySQL-悲观锁和乐观锁
引言悲观锁和乐观锁指的并不是一种锁,而是一种思想,一种并发控制的方法. 在事务并发执行的情景中,可能存在多个用户同时更新同一条数据的情况,这可能会产生冲突导致丢失更新或者脏读. 丢失更新是指一个事 ...
正则去除字符串中的html标签，但不去除<br>标签
一.去除html标签 filterHTMLTag(msg) { var msg = msg.replace(/<\/?[^>]*>/g, ''); //去除HTML Tag msg ...
判定你的java应用是否正常(是否内存、线程泄漏)的一个简单方法
给大家推荐一个最简单的判定你的java应用是否正常的方法: step1:部署你的应用,让它跑起来: step2:打开jdk下bin目录下的jconsole.exe工具,连接到你的应用——以监测线程和内 ...
CMDB（Configuration Management Database）资产管理系统和运维自动化
一.传统运维方式和自动化运维的区别二.CMDB的介绍三.CMDB的四种方式四.项目的目录架构介绍以及配置文件的升级编写五.比较low的项目架构书写六.可插拔式收集资产七.对收集的服务器信息 ...
golang核心Goroutine和channel
一.Goroutine 1.介绍 goroutine简介 goroutine是go语言中最为NB的设计,也是其魅力所在,goroutine的本质是协程,是实现并行计算的核心.goroutine使用方式 ...
servlet(3)：servlet和filter<url-pattern>配置
一,servlet容器对url的匹配过程: 当一个请求发送到servlet容器的时候,容器先会将请求的url减去tomcat的上下文路径(配置的访问系统的基础路径例如intellij idea配置的 ...
一、Log4Net配置
Core的配置一.创建core包含控制和视图的项目以及Log4Net引用二.创建Log4Net配置文件右击项目->添加文件 Log4Net.config 2 复制以下代码以下配置可做 ...
[洛谷P1842] 奶牛玩杂技
题目类型:贪心+证明,经典题传送门:>Here< 题意:有$N$头奶牛,每个奶牛有一个重量$W[i]$,力量$S[i]$.定义每个奶牛的压扁程度为排在它前面的所有奶牛的总量之 ...
查看macOS下正在使用的zsh
使用dscl . -read /Users/$USER UserShell查看如果你的结果是/bin/zsh,又恰巧用brew安装了zsh的话,那么你可能就白安装了将brew安装的zsh添加到/e ...

机器学习-kmeans的使用

机器学习-kmeans的使用的更多相关文章

随机推荐

热门专题