机器学习之--kmeans聚类简单算法实例
import numpy as np
import sklearn.datasets #加载原数据
import matplotlib.pyplot as plt
import random #点到各点距离
def PointToData(point,dataset):
a = np.multiply(dataset - point,dataset - point)
# print('a',a)
distence = np.sqrt(a[:,0]+a[:,1])
return distence #选择初始的k个中心簇
def startpoint(k,dataset):
m, n = np.shape(dataset)
index1 = random.randint(0,len(dataset) - 1)
A = [] # 初始的k个中心簇
A_dit = [] # 初始所有点到中心簇的距离
A.append(dataset[index1])
sum_dis = np.zeros((m, 1))
flag_mat = np.ones((m,1))
flag_mat[index1] = 0
for i in range(0, k - 1):
A_dit.append((PointToData(A[i], dataset)).reshape(-1,1) )
# print('A_dit[{}]:{}'.format(i,A_dit[i]))
sum_dis =(sum_dis + A_dit[i]) * flag_mat
# print('sum_dis[{}]:{}'.format(i,sum_dis))
Index = np.argmax(sum_dis)
flag_mat[Index] = 0
# print('选的Index:',Index)
A.append(dataset[Index])
return A #加载数据
Data = sklearn.datasets.load_iris()
dataset = Data.data[:,0:2] # #小数据测试编码
# test = dataset[0:15,:]
# testm,testn = np.shape(test)
# print(test) #测试k
# k = 4
#初始点测试函数
# Apoint = startpoint(k,test)
# print('Apoint',Apoint)
#距离函数测试
# d = PointToData(test[0,:],test)
# print('d,d+d:',d,d+d) def classfy(dataset,Apoint):
m,n = np.shape(dataset)
dis_li = []
num = 0
for point in Apoint:
distence = PointToData(point,dataset)
dis_li.append(distence)
if num == 0:
dis_li_mat = dis_li[num]
else:
dis_li_mat = np.column_stack((dis_li_mat,dis_li[num]))
num += 1
result = np.argmin(dis_li_mat,axis=1)
# print('dis_li:',dis_li)
# print('dis_li_mat:\n', dis_li_mat)
# print('classfy:',result)
return result
# label2 = classfy(test,Apoint)
# print('label2:',label2) #求分类的新中心
def Center(dataset,label,k):
i = 0
newpoint = []
for index in range(k):
flag = (label==index)
# print('flag,i:',flag,i)
num = sum(flag)
# print('num:',num,index)
a = flag.reshape(-1,1) * dataset
newpoint.append(np.sum(a,axis = 0)/num)
i += 1
# print(newpoint)
return newpoint
# testcenter = center(test,label2,k)
# print('testcenter:',testcenter) #K-means主体函数
def myK(k,dataset):
Startpoint = startpoint(k,dataset)
m,n = np.shape(Startpoint)
centerpoint = Startpoint
labelset = classfy(dataset,Startpoint)
newcenter = Center(dataset,labelset,k)
# print('外:cecnterpoint', centerpoint)
# print('外:newcenter', newcenter)
flag = 0
for i in range(k):
for j in range(n):
if centerpoint[i][j] != newcenter[i][j]:
flag = 1
while flag:
print('循环')
# print('里:cecnterpoint', centerpoint)
# print('里:newcenter', newcenter)
flag = 0
for i in range(k):
for j in range(n):
if centerpoint[i][j] != newcenter[i][j]:
flag = 1
# print('flag:',flag)
centerpoint = newcenter[:]
labelset = classfy(dataset,centerpoint)
newcenter = Center(dataset, labelset, k)
# print('final_resultlabel:',labelset)
# print('cenerpoint:', centerpoint)
return labelset,centerpoint #测试
k=5
final_label,centerpoint = myK(k,dataset)
print('centerpoint:',centerpoint)
mat_center = np.mat(centerpoint) #画图
# plt.scatter(test[:,0],test[:,1],40,10*(labelset+1))
plt.scatter(dataset[:, 0], dataset[:, 1],40,10*(final_label+1))
plt.show()

机器学习之--kmeans聚类简单算法实例的更多相关文章
- 机器学习六--K-means聚类算法
机器学习六--K-means聚类算法 想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
- 机器学习中K-means聚类算法原理及C语言实现
本人以前主要focus在传统音频的软件开发,接触到的算法主要是音频信号处理相关的,如各种编解码算法和回声消除算法等.最近切到语音识别上,接触到的算法就变成了各种机器学习算法,如GMM等.K-means ...
- 机器学习-K-means聚类及算法实现(基于R语言)
K-means聚类 将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分.产品类别划分等)中. 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离. 算法实现 R语言 ...
- 菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现
一些概念 相关系数:衡量两组数据相关性 决定系数:(R2值)大概意思就是这个回归方程能解释百分之多少的真实值. Kmeans聚类大致就是选择K个中心点.不断遍历更新中心点的位置.离哪个中心点近就属于哪 ...
- 机器学习:K-Means聚类算法
本文来自同步博客. 前面几篇文章介绍了回归或分类的几个算法,它们的共同点是训练数据包含了输出结果,要求算法能够通过训练数据掌握规律,用于预测新输入数据的输出值.因此,回归算法或分类算法被称之为监督学习 ...
- 【机器学习】K-means聚类算法与EM算法
初始目的 将样本分成K个类,其实说白了就是求一个样本例的隐含类别y,然后利用隐含类别将x归类.由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎样评价假定 ...
- 机器学习: K-means 聚类
今天介绍机器学习里常见的一种无监督聚类算法,K-means.我们先来考虑在一个高维空间的一组数据集,S={x1,x2,...,xN}" role="presentation&quo ...
- 机器学习之KMeans聚类
零.学习生成测试数据 from sklearn.datasets import make_blobs from matplotlib import pyplot # create test data ...
- 【Python学习笔记】使用python进行kmeans聚类
使用python进行kmeans聚类 假设我们要解决一个这样的问题. 以下是一些同学,大萌是一个学霸,而我们想要找到这些人中的潜在学霸,所以我们要把这些人分为两类--学霸与非学霸. 高数 英语 Pyt ...
随机推荐
- python通过套接字来发送接收消息
案例如下: 1.启动一个服务端套接字服务 2.启动一个客户端套接字服务 3.客户端向服务端发送一个hello,服务端则回复一个word,并打印 参考地址:https://www.cnblogs.com ...
- js重点--this关键字
推荐博客:https://www.cnblogs.com/huaxili/p/5407559.html this是JavaScript的一个关键字,表示的不是对象本身,而是指被调用的上文. 主要用于以 ...
- Nginx 反向代理 负载均衡 虚拟主机
Nginx 反向代理 负载均衡 虚拟主机配置 通过本章你将学会利用Nginx配置多台虚拟主机,清楚代理服务器的作用,区分正向代理和反向代理的区别,搭建使用Nginx反向搭理和负载均衡,了解Nginx常 ...
- CNN 激活函数
CNN: 1\ Siamoid 2\ Relu + Softplus 图片来源: http://ufldl.stanford.edu/tutorial/supervised/MultiLayerNeu ...
- netcore中的缓存介绍
Cache(缓存)是优化web应用的常用方法,缓存存放在服务端的内存中,被所有用户共享.由于Cache存放在服务器的内存中,所以用户获取缓存资源的速度远比从服务器硬盘中获取快,但是从资源占有的角度考虑 ...
- 初次接触scrapy框架
初次接触这个框架,先订个小目标,抓取QQ首页,然后存入记事本. 安装框架(http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html) ...
- 题解 P1496 【火烧赤壁】
蒟蒻的第一篇题解,其实这道题是标准的离散化,模拟可以过,但是就没有训练效果了.我们首先先看数据,n<=20000,数据不多,但是范围大(-10^9<=Ai,Bi<=10^9),这时, ...
- Linux/Window之定时任务脚本编写
Windows(Win 10) compmgmt.msc[Win+R] > 任务计划程序 > 任务计划程序库 > 创建基本任务 Linux(Ubuntu) 定时任务种类 实现linu ...
- 最小生成树(kruskal算法)
首先明确三个概念: 1.最小生成树的特点? 答:假设某个连通网络由n个顶点组成,则其生成树必含n个顶点和n-1条边,而最小生成树的n-1条有个要求:总和最小. 2.并查集的运用? 答:在该问题中,首先 ...
- python整数与IP地址转换
python整数与IP地址转换 [转] 我们有时会将一个整数与IP地址进行互换,用python代码实现很简单将一个整数如2000000,变为一个IP地址的方式 >>> import ...