转：Python K-means代码

#coding: UTF-8

import pearson_distance

from pearson_distance import pearson_distance

from math import sqrt

import random 

def print_matchs(matchs) :

    for i in range(len(matchs)) :

        print i , '---->',

        for item in matchs[i] :

            print item,

        print

    print '-'*20

def kmeans(blogwords, k) :

    min_max_per_word = [ [min([row[i] for row in blogwords]), max([row[i] for row in blogwords])]  for i in range(len(blogwords[0]))]

    # generate k clusters randomly

    clusters = []

    for i in range(k) :

        cluster = []

        for min_, max_ in min_max_per_word :

            cluster.append(random.random() * (max_ - min_) + min_)    #形成初始类中心 利用每列的最大最小值 一列代表一个数据的属性

        clusters.append(cluster)

    lables = []

    matchs = [ [] for i in range(k)]

    lastmatchs = [ [] for i in range(k)] 

    rounds = 100

    while rounds > 0 :

        matchs = [ [] for i in range(k)]

        print 'round \t',rounds

        for i in range(len(blogwords)) : #遍历所有的数据

            bestmatch_cluster = None

            min_distance = 100

            for j in range(k) :  #遍历每一个类标签

                dis = pearson_distance(clusters[j], blogwords[i]) #计算相似度距离

                if dis < min_distance :

                    min_distance = dis

                    bestmatch_cluster = j        #保存距离最近的类中心编号

            matchs[bestmatch_cluster].append(i)  #将数据行编号i 添加到matchs[[],[]...[]]（k个类）的每一个类中

        #print_matchs(matchs)

        #print_matchs(lastmatchs)

        if matchs == lastmatchs : break #如果上次和这次的label没改变 则跳出循环

        lastmatchs = [[ item for item in matchs[i] ] for i in range(k)] #保存的是上次的k-means结果的label

        #move the centroids to the average of their members

        for j in range(k) :

            avg = [0.0 for i in range(len(blogwords[0])) ]

            for m in matchs[j] :

                vec = blogwords[m]

                for i in range(len(blogwords[0])) :

                    avg[i] += vec[i]

            avg = [ item / len(match[j]) for item in avg]  
            clusters[j] = avg #更新新的聚类中心

        rounds -= 1

    return matchs

  ## label指的是：

  ##               1------ [1,3]     ·

  ##               2------ [2,8]     ·

  ##    类编号      3------ [0,6]     ·   数据编号

  ##               4------ [4,7]     ·

  ##               5------ [5,10,11] ·

距离相似度计算：

#pearson distance

from math import sqrt

def pearson_distance(vector1,vector2):

    sum1 = sum(vector1)

    sum2 = sum(vector2)

    sum1Sq = sum([pow(v,2) for v in vector1])

    sum2Sq = sum([pow(v,2) for v in vector2])

    pSum = sum([vector1[i] * vector2[i] for i in range(len(vector1))])

    num = pSum - (sum1 * sum2 / len(vector1))

    den = sqrt((sum1Sq - pow(sum1,2) / len(vector1)) * (sum2Sq - pow(sum2,2)/len(vector1)))

    if den == 0 : return 0.0

    return 1.0 - num/den

***注意：如果修改py文件（例如添加一个函数）必须要Restart shell 才能调用该函数，我们可以修改一下距离函数或者迭代终止条件~~~

***注意：如果要加中文注释，需要在最开头一行加入 #coding: UTF-8

***数据输入格式 [[123, 312, 434, 4325, 345345], [23124, 141241, 434234, 9837489, 34743], [128937, 127, 12381, 424, 8945], [323, 4348, 5040, 8189, 2348], [51249, 42190, 2713, 2319, 4328], [13957, 1871829, 8712847, 34589, 30945], [1234, 45094, 23409, 13495, 348052], [49853, 3847, 4728, 4059, 5389]] 一行代表一个数据，列代表一个数据的一个属性值

转自：http://www.cnblogs.com/coser/archive/2013/04/10/3013044.html

代码并不通用，要抽个时间改改，改的方向有

1-处理空簇数据，即簇中没有数据的情况。

对于出现这种情况，可以使用随机选取任意簇(非空)中最远的点作为当前空簇的中心点；或者在当前具有最大SSE的簇中选择最远距离值作为当前空簇的中心点。这两种做法都是减小了总体的SSE，如果有多个空簇的话，针对每一个空簇执行上面的两种方法之一，重复多次，消除空簇。

2-选择初始质心，可改进的参考资料是层次聚类和k-means++算法

一定要抽时间！！！

转：Python K-means代码的更多相关文章

python 常忘代码查询和autohotkey补括号脚本和一些笔记和面试常见问题
笔试一些注意点: --,23点43 今天做的京东笔试题目: 编程题目一定要先写变量取None的情况.今天就是因为没有写这个边界条件所以程序一直不对.以后要注意!!!!!!!!!!!!!!!!!!!!! ...
机器学习算法的基本知识（使用Python和R代码）
本篇文章是原文的译文,然后自己对其中做了一些修改和添加内容(随机森林和降维算法).文章简洁地介绍了机器学习的主要算法和一些伪代码,对于初学者有很大帮助,是一篇不错的总结文章,后期可以通过文中提到的算法 ...
python的PEP8 代码风格指南
PEP8 代码风格指南这篇文章原文实际上来自于这里:https://www.python.org/dev/peps/pep-0008/ 知识点代码排版字符串引号表达式和语句中的空格注释版本 ...
<转>机器学习系列(9)_机器学习算法一览（附Python和R代码）
转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更 ...
Python 坑爹之代码缩进
建议:统一使用空格!!!!!!!!!不要Tab Python代码缩进这两天python-cn邮件列表有一条thread发展的特别长,题目是<python的代码缩进真是坑爹>(地址), ...
Python第一行代码
Python版本:Python 3.6.1 0x01 命令行交互在交互式环境的提示符>>>下,直接输入代码,按回车,就可以立刻得到代码执行结果.现在,试试输入100+200,看看计 ...
用python处理html代码的转义与还原
用python处理html代码的转义与还原转义 escape: import cgi s = cgi.escape("""& < >" ...
【转】利用Boost.Python将C++代码封装为Python模块
用Boost.Python将C++代码封装为Python模块一. 基础篇借助Boost.Python库可以将C/C++代码方便.快捷地移植到python模块当中,实现对python模块的扩 ...
python爬虫小说代码，可用的
python爬虫小说代码,可用的,以笔趣阁为例子,python3.6以上,可用作者的QQ:342290433,汉唐自远工程师 import requests import refrom lxml i ...
Python实现C代码统计工具(四)
目录 Python实现C代码统计工具(四) 标签: Python 计时持久化声明运行测试环境一. 自定义计时函数 1.1 整个程序计时 1.2 代码片段计时 1.3 单条语句计时二. 性能优 ...

随机推荐

安装win10
1.百度win10,看到的大都是雨林木风,ghost等江湖杂牌非原版系统.百度”msdn,我告诉你“进入微软MSDN下载中心(原来还有这么个好地方,以后就从这里下了),下载链接是ed2k格式的链接(e ...
腾讯云CentOS 安装MediaWiki
参考 : https://www.digitalocean.com/community/tutorials/how-to-install-mediawiki-on-centos-7 //安装好很多次终 ...
MyBatis学习--查询缓存
简介以前在使用Hibernate的时候知道其有一级缓存和二级缓存,限制ORM框架的发展都是互相吸收其他框架的优点,在Hibernate中也有一级缓存和二级缓存,用于减轻数据压力,提高数据库性能. m ...
springMVC自定义注解实现用户行为验证
最近在进行项目开发的时候需要对接口做Session验证 1.自定义一个注解@AuthCheckAnnotation @Documented @Target(ElementType.METHOD) @I ...
Jenkins_多项目构建(二)：使用Maven聚集关系
一.假设有四个Maven项目 1.soa-dub-parent:父项目 1 2 3 4 5 <modules> <module>../soa-dub-f ...
judge remote file exist
# -*- coding:utf-8 -*- import paramiko,os,sys,time print ''' *****判断远端服务器上的某个文件是否存在***** ''' ip = ra ...
.Net Core 1.0.0 RC2安装及示例教程
前几天微软发布了.Net Core1.0.0 RC2 Preview版本,一直都想尝试下跨平台的.Net Core,一直拖到今天,也参考了下园友们的经验,闲时整理了一下安装的步骤,供大家参考. 我们要 ...
管道命令和xargs的区别(经典解释)
一直弄不懂,管道不就是把前一个命令的结果作为参数给下一个命令吗,那在 | 后面加不加xargs有什么区别 NewUserFF 写道: 懒蜗牛Gentoo 写道: 管道是实现"将前面的标准输出 ...
adb错误解决
1.adb是什么?ADB全称Android Debug Bridge, 是android sdk里的一个工具,用这个工具可以直接操作管理android模拟器或者真实的andriod设备. 2.调试安卓 ...
Leetcode 416. Partition Equal Subset Sum
Given a non-empty array containing only positive integers, find if the array can be partitioned into ...

转：Python K-means代码

转：Python K-means代码的更多相关文章

随机推荐

热门专题