菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现

一些概念

相关系数：衡量两组数据相关性

决定系数：（R²值）大概意思就是这个回归方程能解释百分之多少的真实值。

Kmeans聚类大致就是选择K个中心点。不断遍历更新中心点的位置。离哪个中心点近就属于哪一类。中心点的更新取此类的平均点。

优点：速度快，原理简单

缺点：最终结果与初始点选择有段，容易陷入局部最优。并且还要提前知道K值

代码

 import numpy as np

 def kmeans(X,k,maxIt):

     numPoints,numDim= X.shape

     dataSet=np.zeros((numPoints,numDim+1))

     dataSet[:,:-1]=X        #给训练集加一列存放分类信息

     centroids = dataSet[np.random.randint(numPoints,size=k)]

     #centroids = dataSet[0:2,:]

     centroids[:,-1]=range(1,k+1)#中心点最后一列储存K个值，也就是K类

     iterations=0

     oldCentroids=None

     while not SholdStop(oldCentroids,centroids,iterations,maxIt): #当不满足条件是就继续循环

         print("iterations:",iterations)

         print("centroids:", centroids)

         oldCentroids = np.copy(centroids)     #注意与赋值等号的区别

         iterations += 1

         updateLabels(dataSet,centroids) #更新数据集最后一列分类信息

         centroids=getCentroids(dataSet,k)#根据分类信息更新中心点

     return dataSet

 def SholdStop(oldCentroids,centroids,iterations,maxIt):

     if iterations>maxIt:

         return True

     return np.array_equal(oldCentroids,centroids)

 def updateLabels(dataSet,centroids):

     numPoints, numDim = dataSet.shape

     for i in range(0,numPoints):

         dataSet[i,-1]=getLabelFromClosestCentroid(dataSet[i,:-1],centroids)

 def getLabelFromClosestCentroid(dataSetRow,centroids):

     label = centroids[0,-1]

     minDist = np.linalg.norm(dataSetRow-centroids[0,:-1])

     for i in range(1,centroids.shape[0]):

         dist = np.linalg.norm(dataSetRow-centroids[i,:-1])

         if dist<minDist:

             minDist=dist

             label=centroids[i,-1]

     print("minDist",minDist)

     return label

 def getCentroids(dataSet,k):

     result=np.zeros((k,dataSet.shape[1]))

     for i in range(1,k+1):

         oneClister = dataSet[dataSet[:,-1]==i,:-1]

         result[i-1,:-1]=np.mean(oneClister,axis=0)   #每列取平均值

         result[i - 1, -1]=i

     return result

 x1=np.array([1,1])

 x2=np.array([2,1])

 x3=np.array([4,3])

 x4=np.array([5,4])

 testX=np.vstack((x1,x3,x3,x4))  #纵向堆起来组成一个矩阵

 result=kmeans(testX,2,10)

 print("result",result)

这个原理很简单，在实现过程中也没遇到什么问题。

菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现的更多相关文章

菜鸟之路——机器学习之BP神经网络个人理解及Python实现
关键词: 输入层(Input layer).隐藏层(Hidden layer).输出层(Output layer) 理论上如果有足够多的隐藏层和足够大的训练集,神经网络可以模拟出任何方程.隐藏层多的时 ...
菜鸟之路——机器学习之KNN算法个人理解及Python实现
KNN(K Nearest Neighbor) 还是先记几个关键公式距离:一般用Euclidean distance E(x,y)√∑(xi-yi)2 .名字这么高大上,就是初中学的两点间的距离 ...
菜鸟之路——机器学习之SVM分类器学习理解以及Python实现
SVM分类器里面的东西好多呀,碾压前两个.怪不得称之为深度学习出现之前表现最好的算法. 今天学到的也应该只是冰山一角,懂了SVM的一些原理.还得继续深入学习理解呢. 一些关键词: 超平面(hyper ...
机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
机器学习算法-K-means聚类
引文: k均值算法是一种聚类算法.所谓聚类.他是一种无监督学习,将类似的对象归到同一个蔟中.蔟内的对象越类似,聚类的效果越好. 聚类和分类最大的不同在于.分类的目标事先已知.而聚类则不一样. 由于其产 ...
机器学习： K-means 聚类
今天介绍机器学习里常见的一种无监督聚类算法,K-means.我们先来考虑在一个高维空间的一组数据集,S={x1,x2,...,xN}" role="presentation&quo ...
机器学习：K-Means聚类算法
本文来自同步博客. 前面几篇文章介绍了回归或分类的几个算法,它们的共同点是训练数据包含了输出结果,要求算法能够通过训练数据掌握规律,用于预测新输入数据的输出值.因此,回归算法或分类算法被称之为监督学习 ...
机器学习中K-means聚类算法原理及C语言实现
本人以前主要focus在传统音频的软件开发,接触到的算法主要是音频信号处理相关的,如各种编解码算法和回声消除算法等.最近切到语音识别上,接触到的算法就变成了各种机器学习算法,如GMM等.K-means ...
【机器学习】K-means聚类算法与EM算法
初始目的将样本分成K个类,其实说白了就是求一个样本例的隐含类别y,然后利用隐含类别将x归类.由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎样评价假定 ...

随机推荐

Android商城开发系列（十三）—— 首页热卖商品布局实现
热卖商品布局效果如下图: 这个布局跟我们上节做的推荐是一样的,也是用LinearLayout和GridView去实现的,新建一个hot_item.xml,代码如下所示: <?xml versio ...
实战：ADFS3.0单点登录系列-ADFS3.0安装配置
本文为系列第三章,主要讲下ADFS3.0的安装和配置.本文和前面的文章是一个系列,因此有些地方是有前后关联,比如本文中使用的通配符证书就是第二篇讲解的,因此需要连贯的进行阅读. 全文目录如下: 实战: ...
pta 编程题10 Root of AVL Tree
其它pta数据结构编程题请参见:pta 这道题考察平衡二叉查找树的插入. 为了保证二叉查找树的平衡,当一个结点的左右子树的高度差大于1时就要进行调整. 分为以下四种情况: 插入新节点后,以及旋转之后, ...
linux 命令——58 ss(转）
telnet 命令通常用来远程登录.telnet程序是基于TELNET协议的远程登录客户端程序.Telnet协议是TCP/IP协议族中的一员,是 Internet远程登陆服务的标准协议和主要方式.它为 ...
IBM WebSphere MQ安装及配置详解
打开MQ安装程序,选择下一步,默认安装WebSphere MQ, 完成MQ的安装工作,启动WebSphere MQ, 服务器配置,选择新建队列管理器,创建名为 "mq"的队列管理器 ...
Android（java）学习笔记84：SQLiteDatabase的query方法参数
1. SQLiteDatabase的query方法: public Cursor query (boolean distinct, String table, String[] columns, St ...
Objective-C 引用计数原理
http://www.cocoachina.com/ios/20160112/14933.html 引用计数如何存储有些对象如果支持使用 TaggedPointer,苹果会直接将其指针值作为引用计数 ...
VERITAS NETBACKUP运维手册（自制）
ps:本文为目录.详情请点如下目录超链接 1 VERITAS NETBACKUP介绍 1.1 NBU基本概念 1.2 配置存储单元 1.3 配置备份策略(Policy) 1.4 配置NetBackup ...
BZOJ 4128: Matrix
BZOJ 4128: Matrix 标签(空格分隔): OI BZOJ 大步小步矩阵费马小定理 Time Limit: 10 Sec Memory Limit: 128 MB Descriptio ...
SSM框架快速搭建
1. 新建Maven项目 ssm 2. pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xml ...

菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现

菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现的更多相关文章

随机推荐

热门专题