Python3 kmeans 聚类算法

 # -*- coding: utf-8 -*-

 """

 Created on Wed Jan 10 19:18:56 2018

 @author: markli

 """

 import numpy as np;

 '''

 kmeans 算法实现

 算法原理

 1、随机选择k个点作为聚类中心点，进行聚类

 2、求出聚类后的各类的 中心点

 3、由中心点作为新的聚类中心点，再次进行聚类

 4、比较前后两次的聚类中心点是否发生变化，若没有变化则停止，否则重复2,3,4

 '''

 def Kmeans(X,k,maxiter):

     '''

     使用Kmeans均值聚类对数据集Data进行聚类

     X 数据集

     k 聚类中心个数

     maxiter 最大迭代次数

     '''

     m,n = X.shape;

     #向数据集中添加一列，用来存放类别号

     Dataset = np.zeros((m,n+1));

     Dataset[:,:-1] = X;

      #随机选取k 个聚类中心

     randomCenterIndex = np.random.randint(m,size=k);

     center = Dataset[randomCenterIndex];

     center[:,-1] = range(1,k+1);

     #初始聚类

     oldCenter = np.copy(center);

     DataClass(Dataset,center);

     center = getCenter(Dataset,k);

     itertor = 1;

     while not isStop(oldCenter,center,itertor,maxiter):

         oldCenter = np.copy(center);

         DataClass(Dataset,center);

         center = getCenter(Dataset,k);

         itertor = itertor + 1;

     print("数据集聚类结果",Dataset);

     print("聚类中心点",center);

 def DataClass(Dataset,center):

     '''

     对数据集进行聚类或者类标签更新

     Dataset 数据集

     center 聚类中心点 最后一列为聚类中心点的分类号

     '''

     n = Dataset.shape[0];

     k = center.shape[0];

     for i in range(n):

         lable = center[0,-1];

         mindistance = np.linalg.norm(Dataset[i,:-1]-center[0,:-1],ord=2);

         for j in range(1,k):

             distance = np.linalg.norm(Dataset[i,:-1]-center[j,:-1],ord=2);

             if(distance < mindistance):

                 mindistance = distance;

                 lable = center[j,-1];

         Dataset[i,-1] = lable;

 def getCenter(Dataset,k):

     '''

     获得数据集的k个聚类中心,数据集的最后一列是当前的分类号

     Dataset 数据集

     k 聚类中心点个数

     '''

     center = np.ones((k,Dataset.shape[1]));

     for i in range(1,k+1):

         DataSubset = Dataset[Dataset[:,-1] == i,:];

         center[i-1] = np.mean(DataSubset,axis=0);

     return center;

 def isStop(oldCenter,newCenter,itertor,maxiter):

     '''

      判断是否停止

      oldCenter 前一次聚类的聚类中心

      newCenter 新产生的聚类中心

      itertor 当前迭代次数

      maxitor 最大迭代次数

     '''

     if(itertor >= maxiter):

         return True;

     return np.array_equal(oldCenter,newCenter);

 X = np.array([[1,1],[2,1],[4,3],[5,4]]);

 print(X.shape);

 Kmeans(X,2,10);

Python3 kmeans 聚类算法的更多相关文章

K-Means 聚类算法
K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
K-Means 聚类算法原理分析与代码实现
前言在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
Kmeans聚类算法原理与实现
Kmeans聚类算法 1 Kmeans聚类算法的基本原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一.K-means算法的基本思想是:以空间中k个点为中心进行聚类,对 ...
机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
沙湖王 | 用Scipy实现K-means聚类算法
沙湖王 | 用Scipy实现K-means聚类算法用Scipy实现K-means聚类算法
Matlab中K-means聚类算法的使用（K-均值聚类）
K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小. 使用方法:Idx=Kmeans(X,K)[Idx,C]=Kmeans(X,K) [Idx, ...
运用三角不等式加速Kmeans聚类算法
运用三角不等式加速Kmeans聚类算法引言:最近在刷<数据挖掘导论>,第九章, 9.5.1小节有提到,可以用三角不等式,减少不必要的距离计算,从而达到加速聚类算法的目的.这在超大数据量的 ...

随机推荐

Spring中 <context:property-placeholder 的使用与解析 .properties 配置文件的加载
转: Spring中property-placeholder的使用与解析 Spring中property-placeholder的使用与解析我们在基于spring开发应用的时候,一般都会将数据库的配 ...
sort与qsort的区别与联系
sort属于C++范畴,在algorithm头文件中,下面直奔主题,给大家一个清晰明了的认识.qsort有C,和C++两个版本. qsort的compare函数原型 //comp ,也就说,如果the ...
Flink入门训练--以New York City Taxi为例
最近在学Flink,准备用Flink搭建一个实时的推荐系统.找到一个好的网站(也算作是flink创始者的官方网站),上面有关于Flink的上手教程,用来练练手,熟悉熟悉,下文仅仅是我的笔记. 1. 数 ...
node.js原生后台进阶（二）
上一章讲到怎么样用原生node.js来获取GET.POST(urlencoded,formData)的参数,这一次我们更进一步,讲一下以下的点: 1.压缩(zlib) 2.流(stream) 3.路由 ...
webpack插件去除没用到的css
去除没用到的css需要用到purifycss-webpack插件,而这个插件又依赖于purify-css 1.安装 npm i purifycss-webpack purify-css -D 2.加入 ...
使用easyui实现双击列表中某个值直接对其进行修改
var editCell = undefined; $('#dg').datagrid({ url:'DwzServlet', iconCls:'icon icon-list' , queryPara ...
Java SSM框架之MyBatis3（二）MyBatis之Mapper代理的开发方式
Mapper代理的开发规范 1. mapper接口的全限定名要和mapper映射文件的namespace值一致. 2. mapper接口的方法名称要和mapper映射文件的statement的id一致 ...
20155321 2016-2017-2 《Java程序设计》第八周学习总结
20155321 2016-2017-2 <Java程序设计>第八周学习总结教材学习内容总结创建Logger对象 static Logger getLogger(String name ...
ios TextField限制输入两位小数
只需要实现textField的这个代理方法就可以实现 - (BOOL)textField:(UITextField *)textField shouldChangeCharactersInRange: ...
shell 判断路径
判断路径 ];then echo "找到了123" if [ -d /root/Desktop/text ] then echo "找到了text" else ...

Python3 kmeans 聚类算法

Python3 kmeans 聚类算法的更多相关文章

随机推荐

热门专题