import numpy as np
import matplotlib.pyplot as plt def build_data():
"""
准备数据
:return:准备好的数据
"""
data_list = []
# 加载数据
with open("./test.txt") as f:
# 将所有的元素读成一个列表
lines = f.readlines()
# 循环对每一行元素进行单独处理
for line in lines:
# print(line)
# 去除line 前后的空白字符
line_obj = line.strip().split('\t')
# print(line_obj)
# print(type(line_obj))
# print("*"*20)
# 把 line_obj 里面的每一个元素 转化为float,追加到一列表中
data_list.append([float(line_obj[0]), float(line_obj[1])]) # 列表嵌套列表的数据 ,每一个列表元素是原来的每一行元素
# print(data_list)
# 将列表嵌套列表转化为二维数组
data_array = np.array(data_list)
# print(data_array)
# 将二维数组 转化为矩阵
data = np.mat(data_array)
# print(data)
# print(type(data))
return data def center_init(data, k):
"""
初始化聚类中心
:param data: 所有的样本数据
:param k: 聚类的类别数目
:return: 聚类中心
"""
# 随机在 data中挑选4行 作为初始化的聚类中心
# 获取data 的列数
columns_num = data.shape[1]
# 获取data 的行数
index_num = data.shape[0]
# 先初始化一个全为0 的中心,然后,后续替换里面的值
center = np.zeros(shape=(k, columns_num))
# 每次初始化一个聚类中心,需要循环初始化k次
for i in range(k):
# 随机在80行里面选一个下标
# np.random.uniform() --->默认生成【0,1) 小数,可以更改最小值与最大值
r = int(np.random.uniform(0, index_num)) center[i, :] = data[r, :] return center def distance(v1, v2):
"""
计算点1 跟点2 的距离
:param v1: 点1
:param v2: 点2
:return: 距离
""" dist = np.sqrt(np.sum(np.power((v1 - v2), 2))) return dist def k_means_owns(data, k):
"""
自实现聚类算法
:param data: 所有的样本数据
:param k: 聚类的类别数目
:return: 聚类中心 、每一个样本属于哪一类别
""" # 获取data 的 行数
index_num = data.shape[0]
columns_num = data.shape[1]
# 1、初始化聚类中心
center = center_init(data, k)
# print(center) # 需要将这个样本属于哪一类,而且距离也要保存起来吧
new_data = np.zeros(shape=(index_num,columns_num))
# 2、计算距离
# 每一个样本 都与每一个聚类中心进行计算距离
# 设置开关
flag = True
while flag:
flag = False # 关闭开关
for i in range(index_num):
min_dist = 10000000000
min_index = -1
# i 代表每一行的样本的下标
for j in range(k):
# 每一个样本需要 与每一个聚类中心进行计算距离
# 样本点data[i,:] 聚类中心center[j,:]
dist = distance(data[i,:],center[j,:]) if dist < min_dist :
min_dist = dist
min_index = j
if new_data[i,1] != min_index:
flag = True # 打开
new_data[i,:] = min_dist,min_index
# 调整聚类中心
for p in range(k):
# p 0 1 2 3
# 找出属于同一类别
p_clustor = data[new_data[:,1] == p,:] # 计算这一类别的中心
# 先找出 这一类的簇第0 列的均值,与第1列的均值分别作为center 的行、列
center[p,:] = p_clustor[:,0].mean(),p_clustor[:,1].mean() return new_data,center def show_res(data,new_data,center):
"""
结果展示
:param data: 原始数据
:param new_data: 主要包含了聚类距离与最终类别的数据
:param center: 最终的聚类中心
:return: None
"""
# 1、创建画布
plt.figure()
# 2、绘图
# 获取原始数据的行数
index_num = data.shape[0] #
colors = ['r','g','pink','y']
# 绘制散点图
# 一个点的绘制,需要给该点进行添加颜色
for i in range(index_num):
plt.scatter(data[i,0],data[i,1],c=colors[int(new_data[i,1])]) # 绘制聚类中心
#
plt.plot(center[:,0],center[:,1],'bx',markersize=12)
# print(center[:,0])
# print(center[:,1])
# 3、展示
plt.show() def main():
"""
主函数
:return:
"""
# 1、构建数据
data = build_data() # 2、进行自实现k-means
# 确定聚类的类别数目
k = 4
new_data, center = k_means_owns(data, k) print(new_data)
print("*" * 80)
print(center) # 3、结果展示
# 进行绘制结果图形展示
show_res(data,new_data,center) if __name__ == '__main__':
main()

  

k-meanas原理自实现的更多相关文章

  1. AI小记-K近邻算法

    K近邻算法和其他机器学习模型比,有个特点:即非参数化的局部模型. 其他机器学习模型一般都是基于训练数据,得出一般性知识,这些知识的表现是一个全局性模型的结构和参数.模型你和好了后,不再依赖训练数据,直 ...

  2. 经典算法之K近邻(回归部分)

    1.算法原理 1.分类和回归 分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化. 一般来说,回归问题通常是用来预测一个值,如预测房价.未来的天气情况等等,例如一个产品的实际价格为500元, ...

  3. 面试题40:最小的 k 个数

    import java.util.Arrays; /** * Created by clearbug on 2018/2/26. * * 面试题40:最小的 k 个数 * * 注意:因为前两天在陌陌面 ...

  4. poj 3680 Intervals(费用流)

    http://poj.org/problem?id=3680 巧妙的构图. 题目:给定N个区间(ai,bi)权值wi,求最大权和且每个点最多覆盖K次. 构图:将区间端点离散化,将第i个点连第i+1个点 ...

  5. R语言进行机器学习方法及实例(一)

    版权声明:本文为博主原创文章,转载请注明出处   机器学习的研究领域是发明计算机算法,把数据转变为智能行为.机器学习和数据挖掘的区别可能是机器学习侧重于执行一个已知的任务,而数据发掘是在大数据中寻找有 ...

  6. 【Network】优化问题——Label Smoothing

    滴:转载引用请注明哦[握爪]https://www.cnblogs.com/zyrb/p/9699168.html 今天来进行讨论深度学习中的一种优化方法Label smoothing Regular ...

  7. GDOI2018滚粗记

    day-50: 高中全体成员去了北京训练,我被虐成傻逼(貌似总分全校倒数第2). day-20: 回广州了,间断式略微考好55555..... day0: 早上起床好像有点晚qwq 然后简单打了个FF ...

  8. 学习笔记 ST算法

    [引子]RMQ (Range Minimum/Maximum Query)问题: 对于长度为n的数列A,回答若干询问RMQ(A,i,j)(i,j<=n),返回数列A中下标在i,j里的最小(大)值 ...

  9. 【BZOJ3622】已经没有什么好害怕的了 容斥+DP

    [BZOJ3622]已经没有什么好害怕的了 Description Input Output Sample Input 4 2 5 35 15 45 40 20 10 30 Sample Output ...

  10. DP——最长上升子序列(LIS)

    DP——最长上升子序列(LIS) 基本定义: 一个序列中最长的单调递增的子序列,字符子序列指的是字符串中不一定连续但先后顺序一致的n个字符,即可以去掉字符串中的部分字符,但不可改变其前后顺序. LIS ...

随机推荐

  1. mybatis复习笔记(1):

    一.简介:什么是MyBatis 1.MyBatis是一款优秀的持久层框架,支持定制化SQL.存储过程以及高级映射.MyBatis避免了几乎所有的JDBC代码和手动设置参数以及获取结果集.MyBatis ...

  2. 使用国外 DNS 造成国内网站访问慢的解决方法

    本文原载于 wzyboy's blog,转载请注明本文地址: https://wzyboy.im/post/874.html ,谢谢合作. 为什么要用国外 DNS 由于众所周知的问题,国内 DNS 服 ...

  3. spl_autoload_register() 函数实现的自动加载

    和Python用module来区分代码块不同,PHP按照命名空间来区分,开始学PHP的时候一心认定了如果想用 use 关键字来导入(Python的习惯说法)一个类或者函数或者其他对象的话,必须先inc ...

  4. layui树形表格支持非异步和异步加载

    layui树形表格支持非异步和异步加载. 仓库地址:https://gitee.com/uniqid/ 使用示例如下: <div class="uui-admin-common-bod ...

  5. POJ 3889 Fractal Streets(逼近模拟)

    $ POJ~3889~Fractal~Streets $(模拟) $ solution: $ 这是一道淳朴的模拟题,最近发现这种题目总是可以用逼近法,就再来练练手吧. 首先对于每个编号我们可以用逼近法 ...

  6. UVa 10054 : The Necklace 【欧拉回路】

    题目链接 题目大意:我的妹妹有一串由各种颜色组成的项链. 项链中两个连续珠子的接头处共享同一个颜色. 如上图, 第一个珠子是green+red, 那么接这个珠子的必须以red开头,如图的red+whi ...

  7. redis学习 --Sorted Set

    一.概述: Sorted Set(有序集合)和Set类型极为相似,它们都是字符串的集合,都不允许重复的成员出现在一个Set中.它们之间的主要差别是Sorted Set中的每一个成员都会有一个分数(sc ...

  8. php in_array()函数 语法

    php in_array()函数 语法 作用:搜索数组中是否存在指定的值.大理石机械构件价格 语法:in_array(search,array,type) 参数: 参数 描述 search 必需.规定 ...

  9. vue中的render函数介绍

    简介:对于不了解slot的用法(参考:大白话vue-slot的用法)又刚接触render函数的同学来说,官网的解释无疑一脸懵逼,这里就整理下个人对render函数的理解 问题: 1.render函数是 ...

  10. 又联考了一场,感觉自己好菜啊,T2推出了公式但是不会逆元QAQ,难受啊!!!不过都确实是一道逆元的好题撒!

    简单的玄学(random) 题目描述: 样例输入: 样例1: 3 2 样例2: 1 3 样例3: 4 3 样例输出: 样例1: 1 8 样例2: 1 1 样例3: 23 128 提示: 时间限制:10 ...