聚类K-Means和大数据集的Mini Batch K-Means算法

import numpy as np

from sklearn.datasets import make_blobs

from sklearn.cluster import KMeans

from sklearn.metrics import pairwise_distances

import matplotlib.pyplot as plt

import matplotlib as mpl

from cycler import cycler

from .tools import discrete_scatter

from .plot_2d_separator import plot_2d_classification

from .plot_helpers import cm3

def plot_kmeans_algorithm():

    X, y = make_blobs(random_state=1)

    # we don't want cyan in there

    with mpl.rc_context(rc={'axes.prop_cycle': cycler('color', ['#0000aa',

                                                                '#ff2020',

                                                                '#50ff50'])}):

        fig, axes = plt.subplots(3, 3, figsize=(10, 8), subplot_kw={'xticks': (), 'yticks': ()})

        axes = axes.ravel()

        axes[0].set_title("Input data")

        discrete_scatter(X[:, 0], X[:, 1], ax=axes[0], markers=['o'], c='w')

        axes[1].set_title("Initialization")

        init = X[:3, :]

        discrete_scatter(X[:, 0], X[:, 1], ax=axes[1], markers=['o'], c='w')

        discrete_scatter(init[:, 0], init[:, 1], [0, 1, 2], ax=axes[1],

                         markers=['^'], markeredgewidth=2)

        axes[2].set_title("Assign Points (1)")

        km = KMeans(n_clusters=3, init=init, max_iter=1, n_init=1).fit(X)

        centers = km.cluster_centers_

        # need to compute labels by hand. scikit-learn does two e-steps for max_iter=1

        # (and it's totally my fault)

        labels = np.argmin(pairwise_distances(init, X), axis=0)

        discrete_scatter(X[:, 0], X[:, 1], labels, markers=['o'],

                         ax=axes[2])

        discrete_scatter(init[:, 0], init[:, 1], [0, 1, 2],

                         ax=axes[2], markers=['^'], markeredgewidth=2)

        axes[3].set_title("Recompute Centers (1)")

        discrete_scatter(X[:, 0], X[:, 1], labels, markers=['o'],

                         ax=axes[3])

        discrete_scatter(centers[:, 0], centers[:, 1], [0, 1, 2],

                         ax=axes[3], markers=['^'], markeredgewidth=2)

        axes[4].set_title("Reassign Points (2)")

        km = KMeans(n_clusters=3, init=init, max_iter=1, n_init=1).fit(X)

        labels = km.labels_

        discrete_scatter(X[:, 0], X[:, 1], labels, markers=['o'],

                         ax=axes[4])

        discrete_scatter(centers[:, 0], centers[:, 1], [0, 1, 2],

                         ax=axes[4], markers=['^'], markeredgewidth=2)

        km = KMeans(n_clusters=3, init=init, max_iter=2, n_init=1).fit(X)

        axes[5].set_title("Recompute Centers (2)")

        centers = km.cluster_centers_

        discrete_scatter(X[:, 0], X[:, 1], labels, markers=['o'],

                         ax=axes[5])

        discrete_scatter(centers[:, 0], centers[:, 1], [0, 1, 2],

                         ax=axes[5], markers=['^'], markeredgewidth=2)

        axes[6].set_title("Reassign Points (3)")

        labels = km.labels_

        discrete_scatter(X[:, 0], X[:, 1], labels, markers=['o'],

                         ax=axes[6])

        markers = discrete_scatter(centers[:, 0], centers[:, 1], [0, 1, 2],

                                   ax=axes[6], markers=['^'],

                                   markeredgewidth=2)

        axes[7].set_title("Recompute Centers (3)")

        km = KMeans(n_clusters=3, init=init, max_iter=3, n_init=1).fit(X)

        centers = km.cluster_centers_

        discrete_scatter(X[:, 0], X[:, 1], labels, markers=['o'],

                         ax=axes[7])

        discrete_scatter(centers[:, 0], centers[:, 1], [0, 1, 2],

                         ax=axes[7], markers=['^'], markeredgewidth=2)

        axes[8].set_axis_off()

        axes[8].legend(markers, ["Cluster 0", "Cluster 1", "Cluster 2"], loc='best')

def plot_kmeans_boundaries():

    X, y = make_blobs(random_state=1)

    init = X[:3, :]

    km = KMeans(n_clusters=3, init=init, max_iter=2, n_init=1).fit(X)

    discrete_scatter(X[:, 0], X[:, 1], km.labels_, markers=['o'])

    discrete_scatter(km.cluster_centers_[:, 0], km.cluster_centers_[:, 1],

                     [0, 1, 2], markers=['^'], markeredgewidth=2)

    plot_2d_classification(km, X, cm=cm3, alpha=.4)

def plot_kmeans_faces(km, pca, X_pca, X_people, y_people, target_names):

    n_clusters = 10

    image_shape = (87, 65)

    fig, axes = plt.subplots(n_clusters, 11, subplot_kw={'xticks': (), 'yticks': ()},

                             figsize=(10, 15), gridspec_kw={"hspace": .3})

    for cluster in range(n_clusters):

        center = km.cluster_centers_[cluster]

        mask = km.labels_ == cluster

        dists = np.sum((X_pca - center) ** 2, axis=1)

        dists[~mask] = np.inf

        inds = np.argsort(dists)[:5]

        dists[~mask] = -np.inf

        inds = np.r_[inds, np.argsort(dists)[-5:]]

        axes[cluster, 0].imshow(pca.inverse_transform(center).reshape(image_shape), vmin=0, vmax=1)

        for image, label, asdf, ax in zip(X_people[inds], y_people[inds],

                                          km.labels_[inds], axes[cluster, 1:]):

            ax.imshow(image.reshape(image_shape), vmin=0, vmax=1)

            ax.set_title("%s" % (target_names[label].split()[-1]), fontdict={'fontsize': 9})

    # add some boxes to illustrate which are similar and which dissimilar

    rec = plt.Rectangle([-5, -30], 73, 1295, fill=False, lw=2)

    rec = axes[0, 0].add_patch(rec)

    rec.set_clip_on(False)

    axes[0, 0].text(0, -40, "Center")

    rec = plt.Rectangle([-5, -30], 385, 1295, fill=False, lw=2)

    rec = axes[0, 1].add_patch(rec)

    rec.set_clip_on(False)

    axes[0, 1].text(0, -40, "Close to center")

    rec = plt.Rectangle([-5, -30], 385, 1295, fill=False, lw=2)

    rec = axes[0, 6].add_patch(rec)

    rec.set_clip_on(False)

    axes[0, 6].text(0, -40, "Far from center")

过程解析：

在大数据集的情况下还可以使用scikit-learn 提供了MiniBatchKMeans算法，大致思想就是对数据进行抽样，每次不使用所有的数据来计算，这就会导致准确率的损失。

MiniBatchKmeans 继承自Kmeans 因为MiniBathcKmeans 本质上还利用了Kmeans 的思想.从构造方法和文档大致能看到这些参数的含义，了解了这些参数会对使用的时候有很大的帮助。batch_size 是每次选取的用于计算的数据的样本量，默认为100.Mini Batch K-Means算法是K-Means算法的变种，采用小批量的数据子集减小计算时间，同时仍试图优化目标函数，这里所谓的小批量是指每次训练算法时所随机抽取的数据子集，采用这些随机产生的子集进行训练算法，大大减小了计算时间，与其他算法相比，减少了k-均值的收敛时间，小批量k-均值产生的结果，一般只略差于标准算法。

代码只需要修改一行：

clf = MiniBatchKMeans(n_clusters = 3)

聚类K-Means和大数据集的Mini Batch K-Means算法的更多相关文章

转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
数学建模及机器学习算法（一）：聚类-kmeans（Python及MATLAB实现，包括k值选取与聚类效果评估）
一.聚类的概念聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好.我们事先并不知道数据的正确结果(类标),通过聚类算法来发现和挖掘数据本身的结 ...
R处理大数据集
R会把所有的对象读存入虚拟内存中.对我们大多数用户来说,这种设计可以提高与R相互的速度,但是当分析大数据集时,这种设计会降低程序运行速度有时还会产生跟内存相关的错误. 内存限制主要取决于R的build ...
centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署
前言本文是讲如何在centos7(64位) 安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装,需要先将集群服务停掉,然后将不需要的环境变量注释掉即可,如果不注释掉,后面虽然可以 ...
CDH版本大数据集群下搭建Hue（hadoop-2.6.0-cdh5.5.4.gz + hue-3.9.0-cdh5.5.4.tar.gz）（博主推荐）
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168 ...
大数据集群Linux CentOS 7.6 系统调优篇
大数据集群Linux CentOS 7.6 系统调优篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.设置主机hosts文件 1>.修改主机名 [root@node100 ...
使用ansible部署CDH 5.15.1大数据集群
使用ansible离线部署CDH 5.15.1大数据集群作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在此之前,我之前分享过使用shell自定义脚本部署大数据集群,不管是部署CD ...
FineReport层式报表解决大数据集展示问题攻略
本文以填报报表为例,通过分页的方式,来解决大数据集展示的问题. 实现的思想就是通过在SQL里筛选部分数据库数据,以达到浏览器可以合理的展示报表页面.(数据分段,语句我这采用的是MYSQL,如果要用其他 ...
【网站运营】网站被K的原因大总结
对于广大的站长来说网站被K或者是被降权是经常有的事情,不过我基本上还没有看见过Google的K站情况,也就是给网站降个权什么的处罚.如果你是用了很严重的作弊手段的话,那指定会是被Google给K掉的. ...

随机推荐

RCNN,Fast RCNN,Faster RCNN 的前生今世：（4） Fast RCNN 算法详解
继2014年的RCNN之后,Ross Girshick在15年推出Fast RCNN,构思精巧,流程更为紧凑,大幅提升了目标检测的速度.在Github上提供了源码. 同样使用最大规模的网络,Fast ...
nginx 故障转移
当我们的服务器某台出现问题的时候,怎么办.... nginx在反向代理到真实服务器(上游服务器)的时候,如果真实服务器出现了宕机,或延迟卡顿的情况下,直接轮询下一个节点. 其中主要配置如下: ###n ...
ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/usr/local/mysql/mysql.sock' (2)
这种情况一般是mysql被杀掉了. 要重新启动. ps -A | grep -i mysql kill 列出来的进程 service mysql start 我的问题就解决了
繁繁的数字背包DP
繁繁的数字背包DP 问一个数\(n\)有多少种二进制分解方案数 \(n\le 10^5\) 如7有7=4+2+1=4+1+1+1=2+2+2+1=2+2+1+1+1=2+1+1+1+1+1=1+1+ ...
Pro自定义数据源原理
1. 概念 Connector:定义连接到一个数据源的连接信息,用于创建datastore. Datastore:代表一个数据源的实例,用于打开一个或多个tables或feature class. ...
js 中的方法注入(aop)
js 中的方法注入 java中很多框架支持 apo 的注入, js中也可以类似的进行实现主要是通过扩展js中方法的老祖 Function 对象来进行实现. Function.prototype.af ...
Xshell6如何传输文件
Xshell6如何传输文件 /或者直接在本地用notepad nftp插件上传本地文件,直观,更方便上传文件 1.打开xshell6软件,连接服务器. 2.yum安装一款工具.#yum inst ...
Docker镜像使用
当运行容器时,使用的镜像如果在本地中不存在,docker 就会自动从 docker 镜像仓库中下载,默认是从 Docker Hub 公共镜像源下载. 下面我们来学习: 1.管理和使用本地 Docker ...
Git的使用(6) —— 自动填写远端Git用户名密码
1. 问题描述公司项目组用私服的Git远程版本库,每一次推送和拉取服务都需要输入用户名和密码,过于繁琐. 2. 解决方法 Windows系统提供了"管理Windows凭据"的功能 ...
Thingsboard Gateway开发环境
源码下载地址:https://github.com/thingsboard/thingsboard-gateway 国内大神源码地址:https://github.com/guodaxia103/th ...

聚类K-Means和大数据集的Mini Batch K-Means算法

聚类K-Means和大数据集的Mini Batch K-Means算法的更多相关文章

随机推荐

热门专题