机器学习实战之K-Means算法

test10.py

#-*- coding：utf-8

import sys

sys.path.append("kMeans.py")

import kMeans

from numpy import *

# datMat = mat(kMeans.loadDataSet('testSet.txt'))

# mindata = min(datMat[:, 0])

# print(mindata)

#

#

# ranCentK = kMeans.randCent(datMat, 2)

# print(ranCentK)

#

# dis = kMeans.distEclud(datMat[0], datMat[1])

# print(dis)

# datMat3 = mat(kMeans.loadDataSet('testSet2.txt'))

# centList, myNewAssments = kMeans.biKmeans(datMat3, 3)

# print(centList)

geoResults = kMeans.geoGrab('1 VA Center', 'Augusta, ME')

print(geoResults)

res = geoResults['ResultSet']['Error']

print(res)

print('over!!!')

kMeans.py

'''

Created on Feb 16, 2011

k Means Clustering for Ch10 of Machine Learning in Action

@author: Peter Harrington

'''

from numpy import *

def loadDataSet(fileName):      #general function to parse tab -delimited floats

    dataMat = []                #assume last column is target value

    fr = open(fileName)

    for line in fr.readlines():

        curLine = line.strip().split('\t')

        fltLine = list(map(float,curLine)) #map all elements to float()

        dataMat.append(fltLine)

    return dataMat

def distEclud(vecA, vecB):

    return sqrt(sum(power(vecA - vecB, 2))) #la.norm(vecA-vecB)

def randCent(dataSet, k):

    n = shape(dataSet)[1]

    centroids = mat(zeros((k,n)))#create centroid mat

    for j in range(n):#create random cluster centers, within bounds of each dimension

        minJ = min(dataSet[:,j])

        rangeJ = float(max(dataSet[:,j]) - minJ)

        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))

    return centroids

def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):

    m = shape(dataSet)[0]

    clusterAssment = mat(zeros((m,2)))#create mat to assign data points

                                      #to a centroid, also holds SE of each point

    centroids = createCent(dataSet, k)

    clusterChanged = True

    while clusterChanged:

        clusterChanged = False

        for i in range(m):#for each data point assign it to the closest centroid

            minDist = inf; minIndex = -1

            for j in range(k):

                distJI = distMeas(centroids[j,:],dataSet[i,:])

                if distJI < minDist:

                    minDist = distJI; minIndex = j

            if clusterAssment[i,0] != minIndex: clusterChanged = True

            clusterAssment[i,:] = minIndex,minDist**2

        print(centroids)

        for cent in range(k):#recalculate centroids

            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster

            centroids[cent,:] = mean(ptsInClust, axis=0) #assign centroid to mean

    return centroids, clusterAssment

def biKmeans(dataSet, k, distMeas=distEclud):

    m = shape(dataSet)[0]

    clusterAssment = mat(zeros((m,2)))

    centroid0 = mean(dataSet, axis=0).tolist()[0]

    centList =[centroid0] #create a list with one centroid

    for j in range(m):#calc initial Error

        clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2

    while (len(centList) < k):

        lowestSSE = inf

        for i in range(len(centList)):

            ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]#get the data points currently in cluster i

            centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)

            sseSplit = sum(splitClustAss[:,1])#compare the SSE to the currrent minimum

            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1])

            print("sseSplit, and notSplit: ",sseSplit,sseNotSplit)

            if (sseSplit + sseNotSplit) < lowestSSE:

                bestCentToSplit = i

                bestNewCents = centroidMat

                bestClustAss = splitClustAss.copy()

                lowestSSE = sseSplit + sseNotSplit

        bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #change 1 to 3,4, or whatever

        bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit

        print('the bestCentToSplit is: ',bestCentToSplit)

        print('the len of bestClustAss is: ', len(bestClustAss))

        centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#replace a centroid with two best centroids

        centList.append(bestNewCents[1,:].tolist()[0])

        clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#reassign new clusters, and SSE

    return mat(centList), clusterAssment

import urllib

import json

def geoGrab(stAddress, city):

    apiStem = 'http://where.yahooapis.com/geocode?'  #create a dict and constants for the goecoder

    params = {}

    params['flags'] = 'J'#JSON return type

    params['appid'] = 'aaa0VN6k'

    params['location'] = '%s %s' % (stAddress, city)

    url_params = urllib.parse.urlencode(params)

    yahooApi = apiStem + url_params      #print url_params

    print(yahooApi)

    c = urllib.request.urlopen(yahooApi)

    return json.loads(c.read())

from time import sleep

def massPlaceFind(fileName):

    fw = open('places.txt', 'w')

    for line in open(fileName).readlines():

        line = line.strip()

        lineArr = line.split('\t')

        retDict = geoGrab(lineArr[1], lineArr[2])

        if retDict['ResultSet']['Error'] == 0:

            lat = float(retDict['ResultSet']['Results'][0]['latitude'])

            lng = float(retDict['ResultSet']['Results'][0]['longitude'])

            print("%s\t%f\t%f" % (lineArr[0], lat, lng))

            fw.write('%s\t%f\t%f\n' % (line, lat, lng))

        else: print("error fetching")

        sleep(1)

    fw.close()

def distSLC(vecA, vecB):#Spherical Law of Cosines

    a = sin(vecA[0,1]*pi/180) * sin(vecB[0,1]*pi/180)

    b = cos(vecA[0,1]*pi/180) * cos(vecB[0,1]*pi/180) * cos(pi * (vecB[0,0]-vecA[0,0]) /180)

    return arccos(a + b)*6371.0 #pi is imported with numpy

import matplotlib

import matplotlib.pyplot as plt

def clusterClubs(numClust=5):

    datList = []

    for line in open('places.txt').readlines():

        lineArr = line.split('\t')

        datList.append([float(lineArr[4]), float(lineArr[3])])

    datMat = mat(datList)

    myCentroids, clustAssing = biKmeans(datMat, numClust, distMeas=distSLC)

    fig = plt.figure()

    rect=[0.1,0.1,0.8,0.8]

    scatterMarkers=['s', 'o', '^', '', 'p', 'd', 'v', 'h', '>', '<']

    axprops = dict(xticks=[], yticks=[])

    ax0=fig.add_axes(rect, label='ax0', **axprops)

    imgP = plt.imread('Portland.png')

    ax0.imshow(imgP)

    ax1=fig.add_axes(rect, label='ax1', frameon=False)

    for i in range(numClust):

        ptsInCurrCluster = datMat[nonzero(clustAssing[:,0].A==i)[0],:]

        markerStyle = scatterMarkers[i % len(scatterMarkers)]

        ax1.scatter(ptsInCurrCluster[:,0].flatten().A[0], ptsInCurrCluster[:,1].flatten().A[0], marker=markerStyle, s=90)

    ax1.scatter(myCentroids[:,0].flatten().A[0], myCentroids[:,1].flatten().A[0], marker='+', s=300)

    plt.show()

机器学习10—K-均值聚类学习笔记的更多相关文章

机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
机器学习之K均值聚类
聚类的核心概念是相似度或距离,有很多相似度或距离的方法,比如欧式距离.马氏距离.相关系数.余弦定理.层次聚类和K均值聚类等 1. K均值聚类思想 K均值聚类的基本思想是,通过迭代的方法寻找K个 ...
100天搞定机器学习|day44 k均值聚类数学推导与python实现
[如何正确使用「K均值聚类」? 1.k均值聚类模型给定样本,每个样本都是m为特征向量,模型目标是将n个样本分到k个不停的类或簇中,每个样本到其所属类的中心的距离最小,每个样本只能属于一个类.用C表示 ...
机器学习2—K近邻算法学习笔记
Python3.6.3下修改代码中def classify0(inX,dataSet,labels,k)函数的classCount.iteritems()为classCount.items(),另外p ...
机器学习算法与Python实践之（六）二分k均值聚类
http://blog.csdn.net/zouxy09/article/details/17590137 机器学习算法与Python实践之(六)二分k均值聚类 zouxy09@qq.com http ...
机器学习之路：python k均值聚类 KMeans 手写数字
python3 学习使用api 使用了网上的数据集,我把他下载到了本地可以到我的git中下载数据集: https://github.com/linyi0604/MachineLearning 代码: ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
探索sklearn | K均值聚类
1 K均值聚类 K均值聚类是一种非监督机器学习算法,只需要输入样本的特征 ,而无需标记. K均值聚类首先需要随机初始化K个聚类中心,然后遍历每一个样本,将样本归类到最近的一个聚类中,一个聚类中样本特征 ...
5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...

随机推荐

[COCI2017-2018 Contest5] Birokracija
题目描述 Mirko has become CEO of a huge corporation. This corporation consists of N people, labeled fro ...
linux命令和工具
环境搭建 lnmp环境搭建命令 uname -a 查看linux版本 lsof -i:80 查看端口被那个程序占用 lsof -p pid号查看引用的文件 netstat -apn|grep 80 ...
在cnBlogs上使用MarsEdit发blog
工欲善其事,必先利其器.既然决定了要经常使用blog,就要给自己一个好环境! 1.Mac下优秀的发博客工具--MarsEdit 网上有许多有用的文章教你如何使用它. 比如 http://fduo.or ...
linux之网络配置相关
ubuntu的网络配置文件在 /etc/network/intrfaces; suse的网络配置在 /etc/sysconfig/network/下面,每个网卡一个配置文件. int ...
java内存缓存，节省内存
缓存的对象这个问题就是我们上面提到的极端情况,在Java中,会对-128到127的Integer对象进行缓存,当创建新的Integer对象时,如果符合这个这个范围,并且已有存在的相同值的对象,则返回 ...
Overview of iOS Crash Reporting Tools: Part 2/2
Thanks for joining me for the second part of this two-part series on crash reporting services! The f ...
DevExpress.XtraTreeList
1. DevExpress.XtraTreeList控件将其简称为tree,tree其实就是一个树表控件,他像树一样包含具有父子关系的若干节点,同时每个节点又是一个带有多个字段的记录 ...
SimpleDateFormat关于时间类的一些常用处理
项目中经常会出现对时间类的一些处理,记录一下: 实例一:/** * 获取当前时间是星期几? * * @param args */ public static void main(String[] ar ...
Android源码解析系列
转载请标明出处:一片枫叶的专栏知乎上看了一篇非常不错的博文:有没有必要阅读Android源码看完之后痛定思过,平时所学往往是知其然然不知其所以然,所以为了更好的深入Android体系,决定学习an ...
~/.bash_profile介绍
mac和linux终端一般用bash来进行解析.当bash在读完了整体环境变量的/etc/profile并借此调用其他配置文件后,接下来则是会读取用户自定义的个人配置文件.bash读取的文件总共有三种 ...

机器学习10—K-均值聚类学习笔记

机器学习实战之K-Means算法

机器学习10—K-均值聚类学习笔记的更多相关文章

随机推荐

热门专题