Kmeans：利用Kmeans实现对多个点进行自动分类

import numpy as np

def kmeans(X, k, maxIt):

    numPoints, numDim = X.shape

    dataSet = np.zeros((numPoints, numDim + 1))

    dataSet[:, :-1] = X   

    centroids = dataSet[np.random.randint(numPoints, size = k), :] 

    centroids[:, -1] = range(1, k +1)

    iterations = 0

    oldCentroids = None 

    while not shouldStop(oldCentroids, centroids, iterations, maxIt):

        print ("iteration: \n", iterations)

        print ("dataSet: \n", dataSet)

        print ("centroids: \n", centroids)  

        oldCentroids = np.copy(centroids)

        iterations += 1                     

        updateLabels(dataSet, centroids)   

        centroids = getCentroids(dataSet, k)

    return dataSet

def shouldStop(oldCentroids, centroids, iterations, maxIt):

    if iterations > maxIt:

        return True

    return np.array_equal(oldCentroids, centroids)

def updateLabels(dataSet, centroids): 

    numPoints, numDim = dataSet.shape

    for i in range(0, numPoints):

        dataSet[i, -1] = getLabelFromClosestCentroid(dataSet[i, :-1], centroids)  

def getLabelFromClosestCentroid(dataSetRow, centroids):

    label = centroids[0, -1];

    minDist = np.linalg.norm(dataSetRow - centroids[0, :-1])

    for i in range(1 , centroids.shape[0]):

        dist = np.linalg.norm(dataSetRow - centroids[i, :-1])

        if dist < minDist:

            minDist = dist

            label = centroids[i, -1]

    print ("minDist:", minDist)

    return label

def getCentroids(dataSet, k):

    result = np.zeros((k, dataSet.shape[1]))

    for i in range(1, k + 1):

        oneCluster = dataSet[dataSet[:, -1] == i, :-1]  )

        result[i - 1, :-1] = np.mean(oneCluster, axis = 0)

        result[i - 1, -1] = i  

    return result

    x1 = np.array([1, 1])

x2 = np.array([2, 1])

x3 = np.array([4, 3])

x4 = np.array([5, 4])

testX = np.vstack((x1, x2, x3, x4))

result = kmeans(testX, 2, 10)

print ("final result:")

print (result)

Kmeans：利用Kmeans实现对多个点进行自动分类—Jason niu的更多相关文章

利用KMeans聚类进行航空公司客户价值分析
准确的客户分类的结果是企业优化营销资源的重要依据,本文利用了航空公司的部分数据,利用Kmeans聚类方法,对航空公司的客户进行了分类,来识别出不同的客户群体,从来发现有用的客户,从而对不同价值的客户类 ...
K-Means ++ 和 kmeans 区别
Kmeans算法的缺陷聚类中心的个数K 需要事先给定,但在实际中这个 K 值的选定是非常难以估计的,很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适Kmeans需要人为地确定初始聚类中心 ...
4. K-Means和K-Means++实现
1. K-Means原理解析 2. K-Means的优化 3. sklearn的K-Means的使用 4. K-Means和K-Means++实现 1. 前言前面3篇K-Means的博文从原理.优化 ...
Spark2.0机器学习系列之9：聚类(k-means,Bisecting k-means,Streaming k-means）
在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) ...
kmeans与kmeans++的python实现
一.kmeans聚类: 基本方法流程 1.首先随机初始化k个中心点 2.将每个实例分配到与其最近的中心点,开成k个类 3.更新中心点,计算每个类的平均中心点 4.直到中心点不再变化或变化不大或达到迭代 ...
PLS：利用PLS(两个主成分的贡献率就可达100%)提高测试集辛烷值含量预测准确度并《测试集辛烷值含量预测结果对比》—Jason niu
load spectra; temp = randperm(size(NIR, 1)); P_train = NIR(temp(1:50),:); T_train = octane(temp(1:50 ...
PCA：利用PCA(四个主成分的贡献率就才达100%)降维提高测试集辛烷值含量预测准确度并《测试集辛烷值含量预测结果对比》—Jason niu
load spectra; temp = randperm(size(NIR, 1)); P_train = NIR(temp(1:50),:); T_train = octane(temp(1:50 ...
SA：利用SA算法解决TSP(数据是14个虚拟城市的横纵坐标)问题——Jason niu
%SA:利用SA算法解决TSP(数据是14个虚拟城市的横纵坐标)问题——Jason niu X = [16.4700 96.1000 16.4700 94.4400 20.0900 92.5400 2 ...
ACA：利用ACA解决TSP优化最佳路径问题——Jason niu
load citys_data.mat n = size(citys,1); D = zeros(n,n); for i = 1:n for j = 1:n if i ~= j D(i,j) = sq ...

随机推荐

centos7搭建smb服务
1 yum install samba samba-client samba-common -y 安装smb服务 2 cp -a /etc/samba/smb.conf /etc/samba/sm ...
HttpListener通讯成功案例
1.创建WindowsService,如下代码 using System;using System.Net;using System.Net.Sockets;using System.ServiceP ...
Confluence 6 home 修改 Home 目录的位置
当 Confluence 第一次启动的时候,Confluence 将会读取 confluence-init.properties 文件并从这个文件中确定如何去查找 Home 目录. 希望修改 home ...
Confluence 6 与其他应用整合
你可以使用应用链接(Application Links)将 Confluence 与其他应用进行整合.应用链接允许你连接 Confluence 到其他的应用,例如 JIRA 软件或者 JIRA 服务 ...
【Java】「深入理解Java虚拟机」学习笔记（2）- JVM内存区域
一.运行时数据区 JVM在执行Java程序的时候,将其运行时数据区划分为若干不同区域.它们的用途和创建及销毁的时间不同. 1.程序计数器(Program Counter Register) 是一块很小 ...
vue的单选框
jQuery为div添加select和option
简单描述:用jQuery给页面添加select下拉框,直接上图总结:清楚明了^_^
Practical Web Penettation Testing （the first one Mutillidae 大黄蜂）
1.now we looke at this book . I decide to make a brief review the book covers as follows (I straigh ...
bzoj3276磁力两种要求下的最大值：分块or线段树+拓扑
进阶指南上的做法是分块的.. 但是线段树搞起来也挺快,将磁石按照距离排序,建立线段树,结点维护区间质量最小值的下标进行拓扑,每次在可行的范围内在线段树中找到质量最小的下标取出,取出后再将线段树对应的 ...
hdu1811 拓扑排序+并查集缩点
/*给定两个点之间的三种关系 = < >如果是=就将两点放到同一个集合里进行缩点离线处理所有关系,先用并查集将等于关系缩成一个点 */ #include<bits/stdc++.h ...

Kmeans：利用Kmeans实现对多个点进行自动分类—Jason niu

Kmeans：利用Kmeans实现对多个点进行自动分类—Jason niu的更多相关文章

随机推荐

热门专题