机器学习之--kmeans聚类简单算法实例

import numpy as np

import sklearn.datasets             #加载原数据

import matplotlib.pyplot as plt

import random

#点到各点距离

def PointToData(point,dataset):

    a = np.multiply(dataset - point,dataset - point)

    # print('a',a)

    distence = np.sqrt(a[:,0]+a[:,1])

    return distence

#选择初始的k个中心簇

def startpoint(k,dataset):

    m, n = np.shape(dataset)

    index1 = random.randint(0,len(dataset) - 1)

    A = []  # 初始的k个中心簇

    A_dit = []  # 初始所有点到中心簇的距离

    A.append(dataset[index1])

    sum_dis = np.zeros((m, 1))

    flag_mat = np.ones((m,1))

    flag_mat[index1] = 0

    for i in range(0, k - 1):

        A_dit.append((PointToData(A[i], dataset)).reshape(-1,1) )

        # print('A_dit[{}]:{}'.format(i,A_dit[i]))

        sum_dis =(sum_dis  + A_dit[i]) * flag_mat

        # print('sum_dis[{}]:{}'.format(i,sum_dis))

        Index = np.argmax(sum_dis)

        flag_mat[Index] = 0

        # print('选的Index：',Index)

        A.append(dataset[Index])

    return A

#加载数据

Data = sklearn.datasets.load_iris()

dataset = Data.data[:,0:2]

# #小数据测试编码

# test = dataset[0:15,:]

# testm,testn = np.shape(test)

# print(test)

#测试k

# k = 4

#初始点测试函数

# Apoint = startpoint(k,test)

# print('Apoint',Apoint)

#距离函数测试

# d = PointToData(test[0,:],test)

# print('d,d+d:',d,d+d)

def classfy(dataset,Apoint):

    m,n = np.shape(dataset)

    dis_li = []

    num = 0

    for point in Apoint:

        distence = PointToData(point,dataset)

        dis_li.append(distence)

        if num == 0:

            dis_li_mat = dis_li[num]

        else:

            dis_li_mat = np.column_stack((dis_li_mat,dis_li[num]))

        num += 1

    result = np.argmin(dis_li_mat,axis=1)

    # print('dis_li:',dis_li)

    # print('dis_li_mat:\n', dis_li_mat)

    # print('classfy:',result)

    return result

# label2 = classfy(test,Apoint)

# print('label2:',label2)

#求分类的新中心

def Center(dataset,label,k):

    i = 0

    newpoint = []

    for index in range(k):

        flag = (label==index)

        # print('flag,i:',flag,i)

        num = sum(flag)

        # print('num:',num,index)

        a = flag.reshape(-1,1) * dataset

        newpoint.append(np.sum(a,axis = 0)/num)

        i += 1

    # print(newpoint)

    return newpoint

# testcenter = center(test,label2,k)

# print('testcenter:',testcenter)

#K-means主体函数

def myK(k,dataset):

    Startpoint = startpoint(k,dataset)

    m,n = np.shape(Startpoint)

    centerpoint = Startpoint

    labelset = classfy(dataset,Startpoint)

    newcenter = Center(dataset,labelset,k)

    # print('外:cecnterpoint', centerpoint)

    # print('外:newcenter', newcenter)

    flag = 0

    for i in range(k):

        for j in range(n):

            if centerpoint[i][j] != newcenter[i][j]:

                flag = 1

    while flag:

        print('循环')

        # print('里:cecnterpoint', centerpoint)

        # print('里:newcenter', newcenter)

        flag = 0

        for i in range(k):

            for j in range(n):

                if centerpoint[i][j] != newcenter[i][j]:

                    flag = 1

        # print('flag:',flag)

        centerpoint = newcenter[:]

        labelset = classfy(dataset,centerpoint)

        newcenter = Center(dataset, labelset, k)

    # print('final_resultlabel:',labelset)

    # print('cenerpoint:', centerpoint)

    return labelset,centerpoint

#测试

k=5

final_label,centerpoint = myK(k,dataset)

print('centerpoint:',centerpoint)

mat_center = np.mat(centerpoint)

#画图

# plt.scatter(test[:,0],test[:,1],40,10*(labelset+1))

plt.scatter(dataset[:, 0], dataset[:, 1],40,10*(final_label+1))

plt.show()

机器学习之--kmeans聚类简单算法实例的更多相关文章

机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
机器学习中K-means聚类算法原理及C语言实现
本人以前主要focus在传统音频的软件开发,接触到的算法主要是音频信号处理相关的,如各种编解码算法和回声消除算法等.最近切到语音识别上,接触到的算法就变成了各种机器学习算法,如GMM等.K-means ...
机器学习-K-means聚类及算法实现（基于R语言）
K-means聚类将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分.产品类别划分等)中. 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离. 算法实现 R语言 ...
菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现
一些概念相关系数:衡量两组数据相关性决定系数:(R2值)大概意思就是这个回归方程能解释百分之多少的真实值. Kmeans聚类大致就是选择K个中心点.不断遍历更新中心点的位置.离哪个中心点近就属于哪 ...
机器学习：K-Means聚类算法
本文来自同步博客. 前面几篇文章介绍了回归或分类的几个算法,它们的共同点是训练数据包含了输出结果,要求算法能够通过训练数据掌握规律,用于预测新输入数据的输出值.因此,回归算法或分类算法被称之为监督学习 ...
【机器学习】K-means聚类算法与EM算法
初始目的将样本分成K个类,其实说白了就是求一个样本例的隐含类别y,然后利用隐含类别将x归类.由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎样评价假定 ...
机器学习： K-means 聚类
今天介绍机器学习里常见的一种无监督聚类算法,K-means.我们先来考虑在一个高维空间的一组数据集,S={x1,x2,...,xN}" role="presentation&quo ...
机器学习之KMeans聚类
零.学习生成测试数据 from sklearn.datasets import make_blobs from matplotlib import pyplot # create test data ...
【Python学习笔记】使用python进行kmeans聚类
使用python进行kmeans聚类假设我们要解决一个这样的问题. 以下是一些同学,大萌是一个学霸,而我们想要找到这些人中的潜在学霸,所以我们要把这些人分为两类--学霸与非学霸. 高数英语 Pyt ...

随机推荐

windows一键部署java项目
windows一键部署java项目因为公司需求,要在windows的环境上做一键部署启动java项目,同时还要支持从安装界面动态修改配置文件的IP地址.就像安装软件一样将jdk,tomcat,mys ...
Linux命令_sed_2
2.替换(将包含"xxx"的行中的"yyy"替换成"zzz") 现有文件“replace_specified_contained_line” ...
Angular记录(9)
文档资料箭头函数--MDN:https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Reference/Functions/Arrow_fun ...
基于IPV6的数据包分析（GNS3）
1.拓扑图 2.配置ipv6地址.使路由器之间可互ping,用ospf配置.(R5为例) 查看路由表试R5 ping 到R4 R4 ping到 R1 3.开始抓包分析 128返回请求(Echo Re ...
P1822 魔法指纹
一道放在分块训练中的分块打表屑题看了神NaCly_Fish的题解学了间隔打表(话说这么屑的东西有什么学的必要吗) 内容大多摘自大佬的题解 1,答案可递推,才适合间隔打表什么叫可递推呢?假设f[n] ...
Fatal error encountered during command execution
MySQL + .net + EF 开发环境,调用一处sql语句报错: Fatal error encountered during command execution[sql] view plain ...
C# - 学习总目录
C# - 基础 C# - 操作符 C# - 值类型和引用类型 C# - 表达式与语句 C# - 数组 C# - 引用类型 C# - 常用类 C# - 常用接口 C# - LINQ 语言集成查询 C# ...
贯穿RobotFramework框架 - 关键字(一) 最全面的疏理
在RF中,关键字是一个非常重要的存在.想做任何事情,都是通过关键字来实现的. 这篇文章对RobotFramework中的关键字做个整理.大概分为以下几点内容: 1.什么是关键字 2.关键字来自哪里.有 ...
python模块------pyinotify
介绍 pyinotify模块用来监测文件系统的变化,依赖于Linux内核的inotify功能,inotify是一个事件驱动的通知器,其通知接口从内核空间到用户空间通过三个系统调用.pyinotify结 ...
论文翻译：BinaryConnect: Training Deep Neural Networks with binary weights during propagations
目录摘要 1.引言 2.BinaryConnect 2.1 +1 or -1 2.2确定性与随机性二值化 2.3 Propagations vs updates 2.4 Clipping 2.5 A ...

机器学习之--kmeans聚类简单算法实例

机器学习之--kmeans聚类简单算法实例的更多相关文章

随机推荐

热门专题