菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现

一些概念

相关系数：衡量两组数据相关性

决定系数：（R²值）大概意思就是这个回归方程能解释百分之多少的真实值。

Kmeans聚类大致就是选择K个中心点。不断遍历更新中心点的位置。离哪个中心点近就属于哪一类。中心点的更新取此类的平均点。

优点：速度快，原理简单

缺点：最终结果与初始点选择有段，容易陷入局部最优。并且还要提前知道K值

代码

 import numpy as np

 def kmeans(X,k,maxIt):

     numPoints,numDim= X.shape

     dataSet=np.zeros((numPoints,numDim+1))

     dataSet[:,:-1]=X        #给训练集加一列存放分类信息

     centroids = dataSet[np.random.randint(numPoints,size=k)]

     #centroids = dataSet[0:2,:]

     centroids[:,-1]=range(1,k+1)#中心点最后一列储存K个值，也就是K类

     iterations=0

     oldCentroids=None

     while not SholdStop(oldCentroids,centroids,iterations,maxIt): #当不满足条件是就继续循环

         print("iterations:",iterations)

         print("centroids:", centroids)

         oldCentroids = np.copy(centroids)     #注意与赋值等号的区别

         iterations += 1

         updateLabels(dataSet,centroids) #更新数据集最后一列分类信息

         centroids=getCentroids(dataSet,k)#根据分类信息更新中心点

     return dataSet

 def SholdStop(oldCentroids,centroids,iterations,maxIt):

     if iterations>maxIt:

         return True

     return np.array_equal(oldCentroids,centroids)

 def updateLabels(dataSet,centroids):

     numPoints, numDim = dataSet.shape

     for i in range(0,numPoints):

         dataSet[i,-1]=getLabelFromClosestCentroid(dataSet[i,:-1],centroids)

 def getLabelFromClosestCentroid(dataSetRow,centroids):

     label = centroids[0,-1]

     minDist = np.linalg.norm(dataSetRow-centroids[0,:-1])

     for i in range(1,centroids.shape[0]):

         dist = np.linalg.norm(dataSetRow-centroids[i,:-1])

         if dist<minDist:

             minDist=dist

             label=centroids[i,-1]

     print("minDist",minDist)

     return label

 def getCentroids(dataSet,k):

     result=np.zeros((k,dataSet.shape[1]))

     for i in range(1,k+1):

         oneClister = dataSet[dataSet[:,-1]==i,:-1]

         result[i-1,:-1]=np.mean(oneClister,axis=0)   #每列取平均值

         result[i - 1, -1]=i

     return result

 x1=np.array([1,1])

 x2=np.array([2,1])

 x3=np.array([4,3])

 x4=np.array([5,4])

 testX=np.vstack((x1,x3,x3,x4))  #纵向堆起来组成一个矩阵

 result=kmeans(testX,2,10)

 print("result",result)

这个原理很简单，在实现过程中也没遇到什么问题。

菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现的更多相关文章

菜鸟之路——机器学习之BP神经网络个人理解及Python实现
关键词: 输入层(Input layer).隐藏层(Hidden layer).输出层(Output layer) 理论上如果有足够多的隐藏层和足够大的训练集,神经网络可以模拟出任何方程.隐藏层多的时 ...
菜鸟之路——机器学习之KNN算法个人理解及Python实现
KNN(K Nearest Neighbor) 还是先记几个关键公式距离:一般用Euclidean distance E(x,y)√∑(xi-yi)2 .名字这么高大上,就是初中学的两点间的距离 ...
菜鸟之路——机器学习之SVM分类器学习理解以及Python实现
SVM分类器里面的东西好多呀,碾压前两个.怪不得称之为深度学习出现之前表现最好的算法. 今天学到的也应该只是冰山一角,懂了SVM的一些原理.还得继续深入学习理解呢. 一些关键词: 超平面(hyper ...
机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
机器学习算法-K-means聚类
引文: k均值算法是一种聚类算法.所谓聚类.他是一种无监督学习,将类似的对象归到同一个蔟中.蔟内的对象越类似,聚类的效果越好. 聚类和分类最大的不同在于.分类的目标事先已知.而聚类则不一样. 由于其产 ...
机器学习： K-means 聚类
今天介绍机器学习里常见的一种无监督聚类算法,K-means.我们先来考虑在一个高维空间的一组数据集,S={x1,x2,...,xN}" role="presentation&quo ...
机器学习：K-Means聚类算法
本文来自同步博客. 前面几篇文章介绍了回归或分类的几个算法,它们的共同点是训练数据包含了输出结果,要求算法能够通过训练数据掌握规律,用于预测新输入数据的输出值.因此,回归算法或分类算法被称之为监督学习 ...
机器学习中K-means聚类算法原理及C语言实现
本人以前主要focus在传统音频的软件开发,接触到的算法主要是音频信号处理相关的,如各种编解码算法和回声消除算法等.最近切到语音识别上,接触到的算法就变成了各种机器学习算法,如GMM等.K-means ...
【机器学习】K-means聚类算法与EM算法
初始目的将样本分成K个类,其实说白了就是求一个样本例的隐含类别y,然后利用隐含类别将x归类.由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎样评价假定 ...

随机推荐

实战：ADFS3.0单点登录系列-ADFS3.0安装配置
本文为系列第三章,主要讲下ADFS3.0的安装和配置.本文和前面的文章是一个系列,因此有些地方是有前后关联,比如本文中使用的通配符证书就是第二篇讲解的,因此需要连贯的进行阅读. 全文目录如下: 实战: ...
The 12th Zhejiang Provincial Collegiate Programming Contest - I Earthstone Keeper浙江省赛
题目:http://acm.zju.edu.cn/onlinejudge/showContestProblem.do?problemId=5501 思路:DFS,用了递归就溢出,所以可能得用非递归的. ...
openstack RuntimeError: Unable to create a new session key. It is likely that the cache
[Mon Apr 15 01:02:31.654247 2019] [:error] [pid 19433:tid 139790082479872] Login successful for user ...
windows剪切板暂存
其实最初是因为在项目中使用了html网页编辑器,通过ie的com组件和javascript通讯完成一些事情,其中有一个功能是插入表格,我们原本使用的range.pasteHTML(HTMLstr);根 ...
C++各大有名科学计算库(转)
在 C++中,库的地位是非常高的.C++之父 Bjarne Stroustrup先生多次表示了设计库来扩充功能要好过设计更多的语法的言论.现实中,C++的库门类繁多,解决的问题也是极其广泛,库从轻量级 ...
闭包 -------JavaScript
本文摘要:http://www.liaoxuefeng.com/ 函数作为返回值高阶函数除了可以接受函数作为参数外,还可以把函数作为结果值返回. 我们来实现一个对Array的求和.通常情况下,求和的 ...
Oracle下如何收集 Systemstate dump
2: dump (不包括lock element) 10: dump 11: dump + global cache of RAC 256: short stack (函数堆栈) 258: 256+2 ...
vue学习之路 - 2.基本操作（上）
基本操作(上) 本章节简介: vue的安装 vue实例创建数据绑定渲染表单数据双向绑定事件处理安装安装方式有三种: 一.vue官网直接下载 http://vuejs.org/js/vue.m ...
STL之deque用法
deque:双端队列底层是一个双向链表. 常用的有队列的尾部入队.首部出队. 普通队列:queuequeue 模板类的定义在<queue>头文件中.与stack 模板类很相似,queue ...
【计数】cf938E. Max History
发现有一种奇怪的方法不能快速预处理? 复习一下常见的凑组合数的套路 You are given an array a of length n. We define fa the following w ...

菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现

菜鸟之路——机器学习之Kmeans聚类个人理解及Python实现的更多相关文章

随机推荐

热门专题