机器学习之--kmeans聚类简单算法实例

import numpy as np

import sklearn.datasets             #加载原数据

import matplotlib.pyplot as plt

import random

#点到各点距离

def PointToData(point,dataset):

    a = np.multiply(dataset - point,dataset - point)

    # print('a',a)

    distence = np.sqrt(a[:,0]+a[:,1])

    return distence

#选择初始的k个中心簇

def startpoint(k,dataset):

    m, n = np.shape(dataset)

    index1 = random.randint(0,len(dataset) - 1)

    A = []  # 初始的k个中心簇

    A_dit = []  # 初始所有点到中心簇的距离

    A.append(dataset[index1])

    sum_dis = np.zeros((m, 1))

    flag_mat = np.ones((m,1))

    flag_mat[index1] = 0

    for i in range(0, k - 1):

        A_dit.append((PointToData(A[i], dataset)).reshape(-1,1) )

        # print('A_dit[{}]:{}'.format(i,A_dit[i]))

        sum_dis =(sum_dis  + A_dit[i]) * flag_mat

        # print('sum_dis[{}]:{}'.format(i,sum_dis))

        Index = np.argmax(sum_dis)

        flag_mat[Index] = 0

        # print('选的Index：',Index)

        A.append(dataset[Index])

    return A

#加载数据

Data = sklearn.datasets.load_iris()

dataset = Data.data[:,0:2]

# #小数据测试编码

# test = dataset[0:15,:]

# testm,testn = np.shape(test)

# print(test)

#测试k

# k = 4

#初始点测试函数

# Apoint = startpoint(k,test)

# print('Apoint',Apoint)

#距离函数测试

# d = PointToData(test[0,:],test)

# print('d,d+d:',d,d+d)

def classfy(dataset,Apoint):

    m,n = np.shape(dataset)

    dis_li = []

    num = 0

    for point in Apoint:

        distence = PointToData(point,dataset)

        dis_li.append(distence)

        if num == 0:

            dis_li_mat = dis_li[num]

        else:

            dis_li_mat = np.column_stack((dis_li_mat,dis_li[num]))

        num += 1

    result = np.argmin(dis_li_mat,axis=1)

    # print('dis_li:',dis_li)

    # print('dis_li_mat:\n', dis_li_mat)

    # print('classfy:',result)

    return result

# label2 = classfy(test,Apoint)

# print('label2:',label2)

#求分类的新中心

def Center(dataset,label,k):

    i = 0

    newpoint = []

    for index in range(k):

        flag = (label==index)

        # print('flag,i:',flag,i)

        num = sum(flag)

        # print('num:',num,index)

        a = flag.reshape(-1,1) * dataset

        newpoint.append(np.sum(a,axis = 0)/num)

        i += 1

    # print(newpoint)

    return newpoint

# testcenter = center(test,label2,k)

# print('testcenter:',testcenter)

#K-means主体函数

def myK(k,dataset):

    Startpoint = startpoint(k,dataset)

    m,n = np.shape(Startpoint)

    centerpoint = Startpoint

    labelset = classfy(dataset,Startpoint)

    newcenter = Center(dataset,labelset,k)

    # print('外:cecnterpoint', centerpoint)

    # print('外:newcenter', newcenter)

    flag = 0

    for i in range(k):

        for j in range(n):

            if centerpoint[i][j] != newcenter[i][j]:

                flag = 1

    while flag:

        print('循环')

        # print('里:cecnterpoint', centerpoint)

        # print('里:newcenter', newcenter)

        flag = 0

        for i in range(k):

            for j in range(n):

                if centerpoint[i][j] != newcenter[i][j]:

                    flag = 1

        # print('flag:',flag)

        centerpoint = newcenter[:]

        labelset = classfy(dataset,centerpoint)

        newcenter = Center(dataset, labelset, k)

    # print('final_resultlabel:',labelset)

    # print('cenerpoint:', centerpoint)

    return labelset,centerpoint

#测试

k=5

final_label,centerpoint = myK(k,dataset)

print('centerpoint:',centerpoint)

mat_center = np.mat(centerpoint)

#画图

# plt.scatter(test[:,0],test[:,1],40,10*(labelset+1))

plt.scatter(dataset[:, 0], dataset[:, 1],40,10*(final_label+1))

plt.show()

机器学习之--kmeans聚类简单算法实例的更多相关文章

机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
机器学习中K-means聚类算法原理及C语言实现
本人以前主要focus在传统音频的软件开发,接触到的算法主要是音频信号处理相关的,如各种编解码算法和回声消除算法等.最近切到语音识别上,接触到的算法就变成了各种机器学习算法,如GMM等.K-means ...
机器学习-K-means聚类及算法实现（基于R语言）
K-means聚类将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分.产品类别划分等)中. 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离. 算法实现 R语言 ...
菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现
一些概念相关系数:衡量两组数据相关性决定系数:(R2值)大概意思就是这个回归方程能解释百分之多少的真实值. Kmeans聚类大致就是选择K个中心点.不断遍历更新中心点的位置.离哪个中心点近就属于哪 ...
机器学习：K-Means聚类算法
本文来自同步博客. 前面几篇文章介绍了回归或分类的几个算法,它们的共同点是训练数据包含了输出结果,要求算法能够通过训练数据掌握规律,用于预测新输入数据的输出值.因此,回归算法或分类算法被称之为监督学习 ...
【机器学习】K-means聚类算法与EM算法
初始目的将样本分成K个类,其实说白了就是求一个样本例的隐含类别y,然后利用隐含类别将x归类.由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎样评价假定 ...
机器学习： K-means 聚类
今天介绍机器学习里常见的一种无监督聚类算法,K-means.我们先来考虑在一个高维空间的一组数据集,S={x1,x2,...,xN}" role="presentation&quo ...
机器学习之KMeans聚类
零.学习生成测试数据 from sklearn.datasets import make_blobs from matplotlib import pyplot # create test data ...
【Python学习笔记】使用python进行kmeans聚类
使用python进行kmeans聚类假设我们要解决一个这样的问题. 以下是一些同学,大萌是一个学霸,而我们想要找到这些人中的潜在学霸,所以我们要把这些人分为两类--学霸与非学霸. 高数英语 Pyt ...

随机推荐

Daily Codeforces 计划训练时录
时间场次过题数目补题数目难易度 2019.4.7 codeforces-1141 ...
JGUI源码：prefixfree 这个库有时候会引起网页一直加载中（10）
如题,大部分情况下正常,但是chrome频繁刷新时,会出现这个问题,控制台没有异常信息.最终放弃使用引用第三方库prefixfree.min.js
[BZOJ 4152][AMPPZ 2014]The Captain
这道题对费用的规定是min(|x1-x2|,|y1-y2|).如果暴力枚举所有的点复杂度O(n²),n <= 200000,显然爆炸.于是我们要考虑加“有效边”,一个显然的事实是对于两个点,如果 ...
SQL数字型注入代码审计
数字型注入 SQL注入攻击,简称注入攻击,是发生于应用程序与数据库层的安全漏洞. 简而言之,是在输入的字符串之中注入sql指定,在设计不良的程序当中忽略了检查,那么这些注入进去的指令就会被数据库服务器 ...
针对缓存在Redis中的聊天消息的持久化方案分析
选型依据数据库的选型主要考虑一下几个方面: 数据库本身是否收费数据库后期维护成本是否支持水平及垂直扩展,及扩展的容易程度业务数据本身特性使用此数据库的开发成本由于此数据库主要用来存储缓存在 ...
springboot springmvc拦截器拦截POST、PUT、DELETE请求参数和响应数据，并记录操作日志
1.操作日志实体类 @Document(collection = "operation_log") @Getter @Setter @ToString public class O ...
Spring rabbitMq 中 correlationId或CorrelationIdString 消费者获取为null的问题
问题在用Spring boot 的 spring-boot-starter-amqp 快速启动 rabbitMq 是遇到了个坑消费者端获取不到:correlationId或Correlatio ...
Git分支实战入门详细图解
现在我们模拟一个简单的分支和合并案例,其中工作流可供真实项目借鉴. (1)在master开展工作 (2)为新的需求创建分支 (3)在新的分支上展开工作这时,你接到一个电话,说项目有一个严重的问题需要 ...
vue项目中遇到的那些事。
前言有好几天没更新文章了.这段实际忙着做了一个vue的项目,从 19 天前开始,到今天刚好 20 天,独立完成. 做vue项目做这个项目一方面能为工作做一些准备,一方面也精进一下技术. 技术栈:vu ...
有关mysql索引
1.首先我们需要明确一下什么是索引以及为什么要使用索引: 索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构.在生产环境中,对于数据库我们最常进行的是查询的操作,而当我们的数据非 ...

机器学习之--kmeans聚类简单算法实例

机器学习之--kmeans聚类简单算法实例的更多相关文章

随机推荐

热门专题