knn的python代码

import heapq

import random

class Classifier:

    def __init__(self, bucketPrefix, testBucketNumber, dataFormat, k):

　　　　　　""" 一个分类器将建立与bucketprefix文件
　　　　　　除textbucketnumber文件。数据格式是一个字符串，
　　　　　　描述如何解释数据文件的每一行。

　　　　　　"""

        self.medianAndDeviation = []

        self.k = k

        self.format = dataFormat.strip().split('\t')

        self.data = []

        for i in range(1, 11):

            if i != testBucketNumber:

                filename = "%s-%02i" % (bucketPrefix, i)

                f = open(filename)

                lines = f.readlines()

                f.close()

                for line in lines[1:]:

                    fields = line.strip().split('\t')

                    ignore = []

                    vector = []

                    for i in range(len(fields)):

                        if self.format[i] == 'num':

                            vector.append(float(fields[i]))

                        elif self.format[i] == 'comment':

                            ignore.append(fields[i])

                        elif self.format[i] == 'class':

                            classification = fields[i]

                    self.data.append((classification, vector, ignore))

        self.rawData = list(self.data)

        self.vlen = len(self.data[0][1])

        for i in range(self.vlen):

            self.normalizeColumn(i)

    def getMedian(self, alist):

        """返回列表"""

        if alist == []:

            return []

        blist = sorted(alist)

        length = len(alist)

        if length % 2 == 1:

            return blist[int(((length + 1) / 2) -  1)]

        else:

            v1 = blist[int(length / 2)]

            v2 =blist[(int(length / 2) - 1)]

            return (v1 + v2) / 2.0

    def getAbsoluteStandardDeviation(self, alist, median):

        """取绝对标准偏差"""

        sum = 0

        for item in alist:

            sum += abs(item - median)

        return sum / len(alist)

    def normalizeColumn(self, columnNumber):

       """给出一列数，规范self.data列"""

       # 先提取值列表

       col = [v[1][columnNumber] for v in self.data]

       median = self.getMedian(col)

       asd = self.getAbsoluteStandardDeviation(col, median)

       #print("Median: %f   ASD = %f" % (median, asd))

       self.medianAndDeviation.append((median, asd))

       for v in self.data:

           v[1][columnNumber] = (v[1][columnNumber] - median) / asd

    def normalizeVector(self, v):

        """We have stored the median and asd for each column.

        We now use them to normalize vector v"""

        vector = list(v)

        for i in range(len(vector)):

            (median, asd) = self.medianAndDeviation[i]

            vector[i] = (vector[i] - median) / asd

        return vector

    def testBucket(self, bucketPrefix, bucketNumber):

        """评估分类bucketPrefix-bucketNumber"""

        filename = "%s-%02i" % (bucketPrefix, bucketNumber)

        f = open(filename)

        lines = f.readlines()

        totals = {}

        f.close()

        for line in lines:

            data = line.strip().split('\t')

            vector = []

            classInColumn = -1

            for i in range(len(self.format)):

                  if self.format[i] == 'num':

                      vector.append(float(data[i]))

                  elif self.format[i] == 'class':

                      classInColumn = i

            theRealClass = data[classInColumn]

            classifiedAs = self.classify(vector)

            totals.setdefault(theRealClass, {})

            totals[theRealClass].setdefault(classifiedAs, 0)

            totals[theRealClass][classifiedAs] += 1

        return totals

    def manhattan(self, vector1, vector2):

        """计算曼哈顿距离"""

        return sum(map(lambda v1, v2: abs(v1 - v2), vector1, vector2))

    def knn(self, itemVector):

        """使用K近邻预测itemVector类"""

        neighbors = heapq.nsmallest(self.k,[(self.manhattan(itemVector, item[1]), item)

                     for item in self.data])

        results = {}

        for neighbor in neighbors:

            theClass = neighbor[1][0]

            results.setdefault(theClass, 0)

            results[theClass] += 1

        resultList = sorted([(i[1], i[0]) for i in results.items()], reverse=True)

        maxVotes = resultList[0][0]

        possibleAnswers = [i[1] for i in resultList if i[0] == maxVotes]

        answer = random.choice(possibleAnswers)

        return( answer)

    def classify(self, itemVector):

        """返回类"""

        return(self.knn(self.normalizeVector(itemVector)))                             

def tenfold(bucketPrefix, dataFormat, k):

    results = {}

    for i in range(1, 11):

        c = Classifier(bucketPrefix, i, dataFormat, k)

        t = c.testBucket(bucketPrefix, i)

        for (key, value) in t.items():

            results.setdefault(key, {})

            for (ckey, cvalue) in value.items():

                results[key].setdefault(ckey, 0)

                results[key][ckey] += cvalue

    categories = list(results.keys())

    categories.sort()

    print(   "\n       Classified as: ")

    header =    "        "

    subheader = "      +"

    for category in categories:

        header += "% 2s   " % category

        subheader += "-----+"

    print (header)

    print (subheader)

    total = 0.0

    correct = 0.0

    for category in categories:

        row = " %s    |" % category

        for c2 in categories:

            if c2 in results[category]:

                count = results[category][c2]

            else:

                count = 0

            row += " %3i |" % count

            total += count

            if c2 == category:

                correct += count

        print(row)

    print(subheader)

    print("\n%5.3f percent correct" %((correct * 100) / total))

    print("total of %i instances" % total)

print("SMALL DATA SET")

tenfold("pimaSmall/pimaSmall",

        "num	num	num	num	num	num	num	num	class", 1)

print("\n\nLARGE DATA SET")

tenfold("pima/pima",

        "num	num	num	num	num	num	num	num	class", 1)

knn的python代码的更多相关文章

KNN算法原理（python代码实现）
kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性 ...
手写算法-python代码实现KNN
原理解析 KNN-全称K-Nearest Neighbor,最近邻算法,可以做分类任务,也可以做回归任务,KNN是一种简单的机器学习方法,它没有传统意义上训练和学习过程,实现流程如下: 1.在训练数据 ...
可爱的豆子——使用Beans思想让Python代码更易维护
title: 可爱的豆子--使用Beans思想让Python代码更易维护 toc: false comments: true date: 2016-06-19 21:43:33 tags: [Pyth ...
if __name__== "__main__" 的意思(作用)python代码复用
if __name__== "__main__" 的意思(作用)python代码复用转自:大步's Blog http://www.dabu.info/if-__-name__ ...
Python 代码风格
1 原则在开始讨论Python社区所采用的具体标准或是由其他人推荐的建议之前,考虑一些总体原则非常重要. 请记住可读性标准的目标是提升可读性.这些规则存在的目的就是为了帮助人读写代码,而不是相反. ...
一行python代码实现树结构
树结构是一种抽象数据类型,在计算机科学领域有着非常广泛的应用.一颗树可以简单的表示为根, 左子树, 右子树. 而左子树和右子树又可以有自己的子树.这似乎是一种比较复杂的数据结构,那么真的能像我们在标题 ...
[Dynamic Language] 用Sphinx自动生成python代码注释文档
用Sphinx自动生成python代码注释文档 pip install -U sphinx 安装好了之后,对Python代码的文档,一般使用sphinx-apidoc来自动生成:查看帮助mac-abe ...
上传自己的Python代码到PyPI
一.需要准备的事情 1.当然是自己的Python代码包了: 2.注册PyPI的一个账号. 二.详细介绍 1.代码包的结构: application \application __init__.py m ...
如何在batch脚本中嵌入python代码
老板叫我帮他测一个命令在windows下消耗的时间,因为没有装windows那个啥工具包,没有timeit那个命令,于是想自己写一个,原理很简单: REM timeit.bat echo %TIME% ...

随机推荐

Outlook中在Exchange服务器无法保存邮件副本
最近帮同事设置Outlook2007,结果她直接登录公司网页Exchange,发现存在Exchange上的邮件副本全没了,原以为是Outlook邮箱账号设置里”保存服务器项副本“没打勾,后来才发现账号 ...
cocos2dx内存管理机制
参考以下两篇文章 http://blog.csdn.net/ring0hx/article/details/7946397 http://blog.csdn.net/whuancai/article/ ...
CentOS 6.5系统安装编译安装MySQL 5.6详细过程
点评:CentOS 6.5下通过yum安装的MySQL是5.1版的,比较老,那我们就通过源代码安装高版本的MySQL5.6.14.一:卸载旧版本使用下面的命令检查是否安装有MySQL Server r ...
visualvm 和jdk 对应版本下载地址列表
http://visualvm.java.net/releases.html VisualVM Corresponding Java VisualVM VisualVM 1.3.7Released: ...
redhat 连接mysql数据库Can't get hostname for your address
redhat 连接mysql数据库Can't get hostname for your address Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQ ...
Python——内置函数（待完善）
内置函数(68个),分为六大类思维导图: 1. 迭代器/生成器相关(3个) (1)range for i in range(10): #0-9 print(i) for i in range(1,1 ...
<转--大话session>
大话Session 原文地址:http://www.cnblogs.com/shoru/archive/2010/02/19/1669395.html 结语到这里,读者应该对session有了更多的 ...
javascript中不存在块级作用域,所以要小心使用在块级作用域中的函数声明所带来的作用域混乱.
在javascript中函数的作用域是一个非常重要的概念. javascript中是没有块级作用域,但是有函数作用域的概念. 我们在开发的过程中,经常会遇到这样的问题, 某个函数我暂时不需要,不想声明 ...
Centos命令行窗口显示一大串前缀，777;notify;Command completed;的解决方法
How to remove the return code from the terminal prompt In addition to the PS1 environment variable, ...
好记性不如烂笔头-linux学习笔记6keepalived实现主备操作
Keepalived的作用是检测服务器的状态,如果有一台web服务器宕机,或工作出现故障,Keepalived将检测到,并将有故障的服务器从系统中剔除,同时使用其他服务器代替该服务器的工作,当服务器工 ...

knn的python代码

knn的python代码的更多相关文章

随机推荐

热门专题