knn的python代码

import heapq

import random

class Classifier:

    def __init__(self, bucketPrefix, testBucketNumber, dataFormat, k):

　　　　　　""" 一个分类器将建立与bucketprefix文件
　　　　　　除textbucketnumber文件。数据格式是一个字符串，
　　　　　　描述如何解释数据文件的每一行。

　　　　　　"""

        self.medianAndDeviation = []

        self.k = k

        self.format = dataFormat.strip().split('\t')

        self.data = []

        for i in range(1, 11):

            if i != testBucketNumber:

                filename = "%s-%02i" % (bucketPrefix, i)

                f = open(filename)

                lines = f.readlines()

                f.close()

                for line in lines[1:]:

                    fields = line.strip().split('\t')

                    ignore = []

                    vector = []

                    for i in range(len(fields)):

                        if self.format[i] == 'num':

                            vector.append(float(fields[i]))

                        elif self.format[i] == 'comment':

                            ignore.append(fields[i])

                        elif self.format[i] == 'class':

                            classification = fields[i]

                    self.data.append((classification, vector, ignore))

        self.rawData = list(self.data)

        self.vlen = len(self.data[0][1])

        for i in range(self.vlen):

            self.normalizeColumn(i)

    def getMedian(self, alist):

        """返回列表"""

        if alist == []:

            return []

        blist = sorted(alist)

        length = len(alist)

        if length % 2 == 1:

            return blist[int(((length + 1) / 2) -  1)]

        else:

            v1 = blist[int(length / 2)]

            v2 =blist[(int(length / 2) - 1)]

            return (v1 + v2) / 2.0

    def getAbsoluteStandardDeviation(self, alist, median):

        """取绝对标准偏差"""

        sum = 0

        for item in alist:

            sum += abs(item - median)

        return sum / len(alist)

    def normalizeColumn(self, columnNumber):

       """给出一列数，规范self.data列"""

       # 先提取值列表

       col = [v[1][columnNumber] for v in self.data]

       median = self.getMedian(col)

       asd = self.getAbsoluteStandardDeviation(col, median)

       #print("Median: %f   ASD = %f" % (median, asd))

       self.medianAndDeviation.append((median, asd))

       for v in self.data:

           v[1][columnNumber] = (v[1][columnNumber] - median) / asd

    def normalizeVector(self, v):

        """We have stored the median and asd for each column.

        We now use them to normalize vector v"""

        vector = list(v)

        for i in range(len(vector)):

            (median, asd) = self.medianAndDeviation[i]

            vector[i] = (vector[i] - median) / asd

        return vector

    def testBucket(self, bucketPrefix, bucketNumber):

        """评估分类bucketPrefix-bucketNumber"""

        filename = "%s-%02i" % (bucketPrefix, bucketNumber)

        f = open(filename)

        lines = f.readlines()

        totals = {}

        f.close()

        for line in lines:

            data = line.strip().split('\t')

            vector = []

            classInColumn = -1

            for i in range(len(self.format)):

                  if self.format[i] == 'num':

                      vector.append(float(data[i]))

                  elif self.format[i] == 'class':

                      classInColumn = i

            theRealClass = data[classInColumn]

            classifiedAs = self.classify(vector)

            totals.setdefault(theRealClass, {})

            totals[theRealClass].setdefault(classifiedAs, 0)

            totals[theRealClass][classifiedAs] += 1

        return totals

    def manhattan(self, vector1, vector2):

        """计算曼哈顿距离"""

        return sum(map(lambda v1, v2: abs(v1 - v2), vector1, vector2))

    def knn(self, itemVector):

        """使用K近邻预测itemVector类"""

        neighbors = heapq.nsmallest(self.k,[(self.manhattan(itemVector, item[1]), item)

                     for item in self.data])

        results = {}

        for neighbor in neighbors:

            theClass = neighbor[1][0]

            results.setdefault(theClass, 0)

            results[theClass] += 1

        resultList = sorted([(i[1], i[0]) for i in results.items()], reverse=True)

        maxVotes = resultList[0][0]

        possibleAnswers = [i[1] for i in resultList if i[0] == maxVotes]

        answer = random.choice(possibleAnswers)

        return( answer)

    def classify(self, itemVector):

        """返回类"""

        return(self.knn(self.normalizeVector(itemVector)))                             

def tenfold(bucketPrefix, dataFormat, k):

    results = {}

    for i in range(1, 11):

        c = Classifier(bucketPrefix, i, dataFormat, k)

        t = c.testBucket(bucketPrefix, i)

        for (key, value) in t.items():

            results.setdefault(key, {})

            for (ckey, cvalue) in value.items():

                results[key].setdefault(ckey, 0)

                results[key][ckey] += cvalue

    categories = list(results.keys())

    categories.sort()

    print(   "\n       Classified as: ")

    header =    "        "

    subheader = "      +"

    for category in categories:

        header += "% 2s   " % category

        subheader += "-----+"

    print (header)

    print (subheader)

    total = 0.0

    correct = 0.0

    for category in categories:

        row = " %s    |" % category

        for c2 in categories:

            if c2 in results[category]:

                count = results[category][c2]

            else:

                count = 0

            row += " %3i |" % count

            total += count

            if c2 == category:

                correct += count

        print(row)

    print(subheader)

    print("\n%5.3f percent correct" %((correct * 100) / total))

    print("total of %i instances" % total)

print("SMALL DATA SET")

tenfold("pimaSmall/pimaSmall",

        "num	num	num	num	num	num	num	num	class", 1)

print("\n\nLARGE DATA SET")

tenfold("pima/pima",

        "num	num	num	num	num	num	num	num	class", 1)

knn的python代码的更多相关文章

KNN算法原理（python代码实现）
kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性 ...
手写算法-python代码实现KNN
原理解析 KNN-全称K-Nearest Neighbor,最近邻算法,可以做分类任务,也可以做回归任务,KNN是一种简单的机器学习方法,它没有传统意义上训练和学习过程,实现流程如下: 1.在训练数据 ...
可爱的豆子——使用Beans思想让Python代码更易维护
title: 可爱的豆子--使用Beans思想让Python代码更易维护 toc: false comments: true date: 2016-06-19 21:43:33 tags: [Pyth ...
if __name__== "__main__" 的意思(作用)python代码复用
if __name__== "__main__" 的意思(作用)python代码复用转自:大步's Blog http://www.dabu.info/if-__-name__ ...
Python 代码风格
1 原则在开始讨论Python社区所采用的具体标准或是由其他人推荐的建议之前,考虑一些总体原则非常重要. 请记住可读性标准的目标是提升可读性.这些规则存在的目的就是为了帮助人读写代码,而不是相反. ...
一行python代码实现树结构
树结构是一种抽象数据类型,在计算机科学领域有着非常广泛的应用.一颗树可以简单的表示为根, 左子树, 右子树. 而左子树和右子树又可以有自己的子树.这似乎是一种比较复杂的数据结构,那么真的能像我们在标题 ...
[Dynamic Language] 用Sphinx自动生成python代码注释文档
用Sphinx自动生成python代码注释文档 pip install -U sphinx 安装好了之后,对Python代码的文档,一般使用sphinx-apidoc来自动生成:查看帮助mac-abe ...
上传自己的Python代码到PyPI
一.需要准备的事情 1.当然是自己的Python代码包了: 2.注册PyPI的一个账号. 二.详细介绍 1.代码包的结构: application \application __init__.py m ...
如何在batch脚本中嵌入python代码
老板叫我帮他测一个命令在windows下消耗的时间,因为没有装windows那个啥工具包,没有timeit那个命令,于是想自己写一个,原理很简单: REM timeit.bat echo %TIME% ...

随机推荐

DB2经常使用命令
1.打开命令行窗体 #db2cmd 2.打开控制中心 # db2cmd db2cc 3.打开命令编辑器 db2cmd db2ce =====操作数据库命令===== 4.启动数据库实例 #db2s ...
Django 思维导图
python 可视化词云图
文本挖掘及可视化知识链接我的代码: # -*- coding: utf-8 -*- from pandas import read_csv import numpy as np from sklea ...
寒武纪-1005 Travel(树形DP)
一.题目链接 http://aiiage.hustoj.com/problem.php?id=1005 二.题面 PDF:http://aiiage.hustoj.com/upload/file/20 ...
iOS - Properties 入门
iOS中,类的属性property可以有若干个修饰词,对应不同的属性行为. @property (readonly) NSString *readonly; // 只读,不可修改 @property ...
ES6系列_14之promise对象的简单使用
1.产生原因在前端开发中,最常见的的就是"回调",我相信很多人对于这个"回调"可谓是印象深刻呢.究其原因是因为层层回调会造成所谓的“回调地狱 (callbac ...
ES6系列_2之新的声明方式
在ES5中我们在声明时只有一种方法,就是使用var来进行声明,ES6对声明的进行了扩展,现在可以有三种声明方式. (1)var:它是variable的简写,可以理解成变量的意思. (2)let:它在英 ...
TCP/IP协议 socket
TCP/IP四层协议 TCP/IP概念 tcp/ip协议是主机接入互联网以及接入互联网的两台主机通信的标准. 数据帧概念数据帧 |-- 包头 | |--源地址 | |--目标地址 | |--数据类型 ...
C++Builder 代码编辑器回车自动补充括弧
两大问题括弧和折叠一.括弧 XE7,回车,自动补充括弧} 好用,有时候不准确,代码量多,不知道什么原因就引起错误,总是多一个括弧,一回车就加一个括弧,都不敢回车写代码了,怎么关闭此选项? 找到了, ...
0 1 1 2 3 5 8 13 21 34 求第N个, 用js实现
function fibo(n) { var f = []; for (var c = 0; c < n; ++c) { console.log(f.join("")) f. ...

knn的python代码

knn的python代码的更多相关文章

随机推荐

热门专题