python实现K聚类算法

参考：《机器学习实战》- Machine Learning in Action

一、基本思想

聚类是一种无监督的学习，它将相似的对象归到同一簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。之所以称作K-均值，是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。

K-均值算法的工作流程是这样的。首先，随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中，具体来讲，为每个点找距离其最近的质心，并将其分配给该质心所对应的簇。这一步完成后，每个簇的质心更新为该簇所有点的平均值。

伪代码如下：

创建k个点作为起始质心(经常是随机选择)

当任意一个点的簇分配结果发生改变时

    对数据集中的每个数据点

        对每个质心

            计算质心与数据点之间的距离

        将数据点分配到距离其最近的簇

    对每个簇，计算簇中所有点的均值并将均值作为质心

二、代码

# -*- coding:utf8 -*-

from numpy import * 

def loadDataSet(fileName):

	dataMat = []

	fr = open(fileName)

	for line in fr.readlines():

		curLine = line.strip().split('\t')

		fltLine = map(float, curLine)

		dataMat.append(fltLine)

	return dataMat

def distEclud(vecA, vecB):

	return sqrt(sum(power(vecA - vecB, 2)))

# 获得k个随机质心的集合

def randCent(dataSet, k):

	n = shape(dataSet)[1]

	centroids = mat(zeros((k,n)))

	for j in range(n):

		minJ = min(dataSet[:,j])

		rangeJ = float(max(dataSet[:,j]) - minJ)

		centroids[:,j] = minJ + rangeJ * random.rand(k,1)

	return centroids

def kMeans(dataSet, k, distMeans=distEclud, createCent=randCent):

	m = shape(dataSet)[0]

	clusterAssment = mat(zeros((m,2)))

	centroids = createCent(dataSet, k)

	clusterChanged = True

	while clusterChanged:

		clusterChanged = False

		for i in range(m):

			minDist = inf

			minIndex = -1

			for j in range(k):

				distJI = distMeans(centroids[j,:], dataSet[i,:])

				if distJI < minDist:

					minDist = distJI

					minIndex = j

			if clusterAssment[i,0] != minIndex:

				clusterChanged = True

			clusterAssment[i,0] = minIndex, minDist**2

		print centroids

		for cent in range(k):

			ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]

			centroids[cent,:] = mean(ptsInClust, axis=0)

	return centroids, clusterAssment

if __name__ == "__main__":

	pass

python实现K聚类算法的更多相关文章

Python实现 K_Means聚类算法
使用 Python实现 K_Means聚类算法: 问题定义 聚类问题是数据挖掘的基本问题,它的本质是将n个数据对象划分为 k个聚类,以便使得所获得的聚类满足以下条件: 同一聚类中的数据对象相似度较高 ...
机器学习 Python实践-K近邻算法
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...
Python 实现分层聚类算法
''' 1.将所有样本都看作各自一类 2.定义类间距离计算公式 3.选择距离最小的一堆元素合并成一个新的类 4.重新计算各类之间的距离并重复上面的步骤 5.直到所有的原始元素划分成指定数量的类程序要 ...
Python实现DBSCAN聚类算法（简单样例测试）
发现高密度的核心样品并从中膨胀团簇. Python代码如下: # -*- coding: utf-8 -*- """ Demo of DBSCAN clustering ...
用python实现k近邻算法
用python写程序真的好舒服. code: import numpy as np def read_data(filename): '''读取文本数据,格式:特征1 特征2 -- 类别''' f=o ...
python 聚类分析 k均值算法
dataSet = [ #数据集 # 1 [0.697, 0.460], # 2 [0.774, 0.376], # 3 [0.634, 0.264], # 4 [0.608, 0.318], # 5 ...
聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用
1.用python实现K均值算法 import numpy as np x = np.random.randint(1,100,20)#产生的20个一到一百的随机整数 y = np.zeros(20) ...
【机器学习】K均值算法（II）
k聚类算法中如何选择初始化聚类中心所在的位置. 在选择聚类中心时候,如果选择初始化位置不合适,可能不能得出我们想要的局部最优解. 而是会出现一下情况: 为了解决这个问题,我们通常的做法是: 我们选取K ...
Python聚类算法之基本K均值实例详解
Python聚类算法之基本K均值实例详解本文实例讲述了Python聚类算法之基本K均值运算技巧.分享给大家供大家参考,具体如下: 基本K均值 :选择 K 个初始质心,其中 K 是用户指定的参数,即所 ...

随机推荐

Tea HDU - 5881
Tea is good. Tea is life. Tea is everything. The balance of tea is a journey of pursuing balance of ...
jQuery.extend 函数使用详解
JQuery的extend扩展方法: Jquery的扩展方法extend是我们在写插件的过程中常用的方法,该方法有一些重载原型,在此,我们一起去了解了解. 一.Jquery的扩展方 ...
pycharm short-cut
Ctrl + the left mouse button Ctrl + Alt + Left/Right if invalid, system setting
TestLink和RedMine的集成
1. TestLink的安装 1.1. TestLink简介 TestLink是一个php语言开发的开源免费的测试管理工具,包括产品测试需求,测试计划,测试用例的创建和执行, ...
【BZOJ1412】狼和羊的故事（网络流）
[BZOJ1412]狼和羊的故事(网络流) 题面 Description "狼爱上羊啊爱的疯狂,谁让他们真爱了一场:狼爱上羊啊并不荒唐,他们说有爱就有方向．．．．．．" Orez听 ...
iOS逆向工程，（狗神）沙梓社大咖免费技术分享。
序言简介:本文针对于广大iOS开发者,作为一名开发者,仅仅专注于一门语言可能已经不适用现在的市场需求,曾经因高薪和需求量巨大,而火爆一时的移动端开发者(Android,ios),如今的路却是不再那么 ...
python xlsxwriter库生成图表的应用
xlsxwriter可能用过的人并不是很多,不过使用后就会感觉,他的功能让你叹服,除了可以按要求生成你所需要的excel外还可以加上很形象的各种图,比如柱状图.饼图.折线图等. 请看本人生成的: 这 ...
【转】UML的9种图例解析
UML图中类之间的关系:依赖,泛化,关联,聚合,组合,实现类与类图 1) 类(Class)封装了数据和行为,是面向对象的重要组成部分,它是具有相同属性.操作.关系的对象集合的总称. 2) 在系统中, ...
UWP 创建动画的极简方式 — LottieUWP
提到 UWP 中创建动画,第一个想到的大多都是 StoryBoard.因为 UWP 和 WPF 的界面都是基于 XAML 语言的,所以实现 StoryBoard 会非常方便. 来看一个简单的 Stor ...
tp框架的url模式
tp框架url地址可以由以下四种 http://网址/index.php?m=XX&c=XX&a=XX 基本get模式 http://网址/index.php/模块/控制器/操作方 ...

python实现K聚类算法

一、 基本思想

二、 代码

python实现K聚类算法的更多相关文章

随机推荐

热门专题

一、基本思想

二、代码