机器学习（十四）

参考文献：https://www.jianshu.com/p/5314834f9f8e

# -*- coding: utf-8 -*-

"""

Created on Mon Jun 11 10:52:14 2018

@author: Administrator

"""

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

iris = datasets.load_iris()

X, y = iris.data, iris.target

data = X[:,[1,3]] # 为了便于可视化，只取两个维度

plt.scatter(data[:,0],data[:,1]);

def kmeans(data,k=2):

    def _distance(p1,p2):

        """

        Return Eclud distance between two points.

        p1 = np.array([0,0]), p2 = np.array([1,1]) => 1.414

        """

        tmp = np.sum((p1-p2)**2)

        return np.sqrt(tmp)

    def _rand_center(data,k):

        """Generate k center within the range of data set."""

        n = data.shape[1] # features

        centroids = np.zeros((k,n)) # init with (0,0)....

        for i in range(n):

            dmin, dmax = np.min(data[:,i]), np.max(data[:,i])

            centroids[:,i] = dmin + (dmax - dmin) * np.random.rand(k)

        return centroids

    def _converged(centroids1, centroids2):

        # if centroids not changed, we say 'converged'

         set1 = set([tuple(c) for c in centroids1])

         set2 = set([tuple(c) for c in centroids2])

         return (set1 == set2)

    n = data.shape[0] # number of entries

    centroids = _rand_center(data,k)

    label = np.zeros(n,dtype=np.int) # track the nearest centroid

    assement = np.zeros(n) # for the assement of our model

    converged = False

    while not converged:

        old_centroids = np.copy(centroids)

        for i in range(n):

            # determine the nearest centroid and track it with label

            min_dist, min_index = np.inf, -1

            for j in range(k):

                dist = _distance(data[i],centroids[j])

                if dist < min_dist:

                    min_dist, min_index = dist, j

                    label[i] = j

            assement[i] = _distance(data[i],centroids[label[i]])**2

        # update centroid

        for m in range(k):

            centroids[m] = np.mean(data[label==m],axis=0)

        converged = _converged(old_centroids,centroids)

    return centroids, label, np.sum(assement)

if __name__=="__main__":

    best_assement = np.inf

    best_centroids = None

    best_label = None

    for i in range(2):

        centroids, label, assement = kmeans(data,2)

        if assement < best_assement:

            best_assement = assement

            best_centroids = centroids

            best_label = label

    data0 = data[best_label==0]

    data1 = data[best_label==1]

    fig, (ax1,ax2) = plt.subplots(1,2,figsize=(12,5))

    ax1.scatter(data[:,0],data[:,1],c='c',s=30,marker='o')

    ax2.scatter(data0[:,0],data0[:,1],c='r')

    ax2.scatter(data1[:,0],data1[:,1],c='c')

    ax2.scatter(centroids[:,0],centroids[:,1],c='b',s=120,marker='o')

    plt.show()

机器学习（十四）— kMeans算法的更多相关文章

机器学习中的K-means算法的python实现
<机器学习实战>kMeans算法(K均值聚类算法) 机器学习中有两类的大问题,一个是分类,一个是聚类.分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别的样本进行 ...
Python机器学习笔记：K-Means算法，DBSCAN算法
K-Means算法 K-Means 算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means 算法有大量的变体,本文就从最传统的K-Means算法学起,在其基础上学习 ...
机器学习实战之K-Means算法
一,引言先说个K-means算法很高大上的用处,来开始新的算法学习.我们都知道每一届的美国总统大选,那叫一个竞争激烈.可以说,谁拿到了各个州尽可能多的选票,谁选举获胜的几率就会非常大.有人会说,这跟 ...
【转】机器学习实战之K-Means算法
一,引言先说个K-means算法很高大上的用处,来开始新的算法学习.我们都知道每一届的美国总统大选,那叫一个竞争激烈.可以说,谁拿到了各个州尽可能多的选票,谁选举获胜的几率就会非常大.有人会说,这跟 ...
机器学习--聚类系列--K-means算法
一.聚类聚类分析是非监督学习的很重要的领域.所谓非监督学习,就是数据是没有类别标记的,算法要从对原始数据的探索中提取出一定的规律.而聚类分析就是试图将数据集中的样本划分为若干个不相交的子集,每个子集 ...
GJM : 数据结构 - 轻松看懂机器学习十大常用算法 [转载]
转载请联系原文作者需要获得授权,非法转载原文作者将享受侵权诉讼文/不会停的蜗牛(简书作者)原文链接:http://www.jianshu.com/p/55a67c12d3e9 通过本篇文章可以 ...
轻松看懂机器学习十大常用算法 (Machine Learning Top 10 Commonly Used Algorithms)
原文出处: 不会停的蜗牛通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题. 每个算法都看了 ...
机器学习十大常用算法(CITE 不会停的蜗牛 ) interesting
算法如下: 决策树随机森林算法逻辑回归 SVM 朴素贝叶斯 K最近邻算法 K均值算法 Adaboost 算法神经网络马尔可夫 1. 决策树根据一些 feature 进行分类,每个节点提一个问 ...
猪猪的机器学习笔记（十四）EM算法
EM算法作者:樱花猪摘要: 本文为七月算法(julyedu.com)12月机器学习第十次次课在线笔记.EM算法全称为Expectation Maximization Algorithm,既最大 ...
转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...

随机推荐

IIS 实现一个主机部署多个网站共享80端口
如果一个主机只是建立一个80端口的网站就有点浪费了,通过本文你就可以实现,在一个主机上建立多个80端口的站点,并通过不同的域名进行访问. 打开iis软件:控制面板-->管理工具-->Int ...
iOS开发之 AES+Base64数据混合加密与解密
2016-04-08 09:03 编辑: liubinqww 分类:iOS开发来源:liubinqww 投稿 4 889 "APP的数据安全已经牵动着我们开发者的心,简单的MD5/ ...
昂贵的聘礼 - poj 1062 (Dijkstra+枚举)
Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 39976 Accepted: 11596 Description 年 ...
NIM游戏策略
NIM取子游戏是由两个人面对若干堆硬币(或石子,或..)进行的游戏,游戏由两个人进行,设有k>=1堆硬币,各堆含有n1,n2,n3,n4.....,nk个硬币,游戏的目的就是选取最后剩下的硬币. ...
py.test
只运行某一个用例 pytest test_mod.py::test_func 或者 pytest test_mod.py::TestClass::test_method
关于移动端border 1像素在不同分辨率下边显示粗细不一样的处理
最近开发发现一个很有趣的问题就是我如果给一个元素加上一个像素的 border 在不同的分辨率的情况下显示的不同在高清屏幕(尤其是ios 喽不鄙视国产) 据说在6plus下会变成3px 这个我 ...
billboard因为合批导致出问题的一个想法
由于unity中距离较近的2个billboard物体会动态合批,如果缩放不同,显示就有问题.还得在shader中"DisableBatching"="true" ...
sql server 字符串函数大全
平常会用到一些函数处理字符串,用的不算频繁,所以每次用到的时候就忘记了,这次在网上找了一篇文档,担心突然某一天这篇文章找不到了,然后就把文章的内容复制了一份: /* 1,ASCII返回字符表达式中最左 ...
【BZOJ3743】[Coci2015]Kamp 树形DP
[BZOJ3743][Coci2015]Kamp Description 一颗树n个点,n-1条边,经过每条边都要花费一定的时间,任意两个点都是联通的. 有K个人(分布在K个不同的点)要集中到一个点举 ...
sublime运行Python
1.首先安装Python 我这里安装的是Python的3.7版本. 这里有两种安装方式第一种: 默认路径安装,勾选添加到path复选框(这种情况,sublime可以直接运行Python了) 第二种: ...

机器学习（十四）— kMeans算法

机器学习（十四）— kMeans算法的更多相关文章

随机推荐

热门专题