K均值算法总结

这几天在一个项目上需要用到K均值聚类算法，以前都是直接利用百度老师copy一个Kmeans算法代码，这次想自己利用已知的算法思想编写一下，编写才知道，虽然熟悉了算法思想，真正实现时，还是遇到不少bug，这就是小学老师说的"眼高手低"，还是需要亲自动手实现一下，才算真正的掌握思想。

回顾一下Kmeas算法思想，将若干元素聚为k类，使之，每一类内的元素相似度较高，类间的元素相似度较低，达到将若干元素划分的目的，具体如下：

1.初始化质心，初始化质心有多种初始化方法，我熟知的有两种，随机选择k个元素，作为k个初始质心；利用最大最小原则初始化质心。

前者简单，不做解释，重点解释一下后者，"最大最小"

这里，两个元素距离较近，认为是相似的，距离较远，相似度低

1）第一个质心是随机选取的，这里用随机数作为第一个质心

2）第二个质心的选择：选取剩下的元素到第一个质心的相似度的最小值，作为第二个质心（通俗理解是找一个距离第一个质心最远的元素）

3）第三个质心的选择：找一个距离第一个，第二个质心最远的元素（剩下的元素到第一个，第二个质心的相似度=max(sim(元素，第一个质心)，sim(元素，第二个质心))），然后min（max(sim(元素，第一个质心)，sim(元素，第二个质心))），这就是最大最小的具体体现。

4）剩下的质心选择同3）

2.在确定了K个初始质心之后，然后对剩下的n-k个元素，划分到距离最近的质心中，这样每个簇中就多于1个元素

3.更新每一个簇中的质心

4.求每个簇的误差，进而求总误差，如果满足阈值要求，就终止算法，不满足进入5.

5.迭代对每个元素执行2中的划分，质心不再变化，就终止算法，否则就继续更新质心，执行5.

下面是算法代码：

http://yunpan.cn/cyRsyLbzwqekE 提取码 edb0

K均值算法总结的更多相关文章

聚类算法：K-means 算法(k均值算法)
k-means算法: 第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设 ...
一句话总结K均值算法
一句话总结K均值算法核心:把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定. k均值算法是一种无监督的聚类算法.算法将每个样本分配到离它最近的那个类中心所代表的类,而类中心的确 ...
聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用
1.用python实现K均值算法 import numpy as np x = np.random.randint(1,100,20)#产生的20个一到一百的随机整数 y = np.zeros(20) ...
【机器学习】K均值算法（I）
K均值算法是一类非监督学习类,其可以通过观察样本的离散性来对样本进行分类. 例如,在对如下图所示的样本中进行聚类,则执行如下步骤 1:随机选取3个点作为聚类中心. 2:簇分配:遍历所有样本然后依据每个 ...
Bisecting KMeans (二分K均值)算法讲解及实现
算法原理由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响,因此在传统的KMeans算法的基础上进行算法改进,对初始中心点选取比较严格,各中心点的距离较远,这就避免了初始聚类中心会选 ...
KMeans (K均值)算法讲解及实现
算法原理 KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大.该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标 ...
聚类分析K均值算法讲解
聚类分析及K均值算法讲解吴裕雄当今信息大爆炸时代,公司企业.教育科学.医疗卫生.社会民生等领域每天都在产生大量的结构多样的数据.产生数据的方式更是多种多样,如各类的:摄像头.传感器.报表.海量网络 ...
K均值算法
为了便于可视化,样本数据为随机生成的二维样本点. from matplotlib import pyplot as plt import numpy as np import random def k ...
K均值算法-python实现
测试数据展示: #coding:utf-8__author__ = 'similarface''''实现K均值算法算法摘要:-----------------------------输入:所有数据点 ...
spark Bisecting k-means（二分K均值算法）
Bisecting k-means(二分K均值算法) 二分k均值(bisecting k-means)是一种层次聚类方法,算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二.之后选择能最大程 ...

随机推荐

manjao linux下玩转arduino
自从入手arduinon差不多半个月了,在window下几乎没有任何问题,下载,编程,编译,上传,运行.几乎没有任何问题.在linux编译成功,上传时下却总是提示找不到libncurses.so.5无 ...
Bioconda安装与使用
1. Bioconda是一个自动化管理生物信息软件的工具,就像APPstore.360软件管家一样. Bioconda的优点是安装简单,各个软件依赖的环境一同打包且相互隔离,非常适合在服务器中建立自 ...
linux创建和查看用户命令
1.创建一个叫做hadoop的用户,用户的目录是/home/hadoop useradd -d /home/hadoop hadoop 2.输入密码 passwd hadoop 3.删除用户 user ...
Delphi 半透明窗体,窗体以及控件透明度
很简单了现在,适用所有控件和窗体: delphi设置窗口透明 form1.AlphaBlend :=true; //透明form1.AlphaBlendValue :=180; //透明度form1 ...
hdu 1573(中国剩余定理)
X问题 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submiss ...
【原创】SSO-Javascript模拟IE登录，不让IIS弹出登录窗口
解决方案: 用JS模拟IE用户登录,再跳转到对应的系统. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN&q ...
vue element-ui Tabs 标签页实现【更多】功能
element-ui Tabs本身是没有更多功能的,如果在外边添加一个更多按钮,又非常不好看, 而利用API中Tabs Attributes的before-leave勾子方法可以实现这个功能, 简单P ...
10.1综合强化刷题 Day2
a[问题描述]你是能看到第一题的 friends呢. —— hja世界上没有什么比卖的这贵弹丸三还令人绝 ...
Ubuntu 16.04下IntelliJ IDEA菜单显示乱码的问题解决
说明:这个问题一般是Ubuntu安装时默认使用了中文,而IDEA默认是以系统默认字体为主,所以就会出现乱码:要解决这种问题,就是在IDEA启动时强制设置为英文. 解决方式: 在idea.vmoptio ...
word 插入空白偶数页（论文、报告等写作常用）
目前在写大论文的过程中,需要在偶数页中插入一个空白页,但是又不想在下面加上页码,所以采用通常的方式并不妥,所以就用到了这篇博文中内容,采用奇偶页的方式插入空白偶数页,而且偶数页也不会在上面出现任何的字 ...

K均值算法总结

K均值算法总结的更多相关文章

随机推荐

热门专题