机器学习算法之:KNN

基于实例的学习方法中，最近邻法和局部加权回归法用于逼近实值或离散目标函数，基于案例的推理已经被应用到很多任务中，比如，在咨询台上存储和复用过去的经验；根据以前的法律案件进行推理；通过复用以前求解的问题的相关部分来解决复杂的调度问题。
      基于实例方法的一个不足是，分类新实例的开销可能很大。这是因为几乎所有的计算都发生在分类时，而不是在第一次遇到训练样例时。所以，如何有效地索引训练样例，以减少查询时所需计算是一个重要的实践问题。此类方法的第二个不足是（尤其对于最近邻法），当从存储器中检索相似的训练样例时，它们一般考虑实例的所有属性。如果目标概念仅依赖于很多属性中的几个时，那么真正最“相似”的实例之间很可能相距甚远。
      基于实例的学习方法中最基本的是k-近邻算法。这个算法假定所有的实例对应于n维欧氏空间Ân中的点。一个实例的最近邻是根据标准欧氏距离定义的。更精确地讲，把任意的实例x表示为下面的特征向量：
                               <a1(x)，a2(x)，an(x)>
                   其中ar(x)表示实例x的第r个属性值。那么两个实例xi和xj间的距离定义为d(xi, xj)，其中：

使用Python实现过程：

# -* -coding: UTF-8 -* -

import numpy

import operator

class  kNN(object):

    def __init__(self,filename):

        self.filename = filename

    def file_to_matrix(self):

        "the last column is label"

        fp = open(self.filename)

        rows = len(fp.readlines())

        result = numpy.zeros((rows,3))

        labels = []

        fp = open(self.filename)

        index = 0

        for line in fp.readlines():

            fromline = line.strip()

            linesplit = fromline.split('\t')

            result[index,:] = linesplit[0:3]

            labels.append(linesplit[-1])

            index += 1

        return result,labels

    def data_standard(self,dataset):

        '''data standardization

         using  (oldvalue - minvalue)/(maxvalue - minvalue)

         the dataset is a matrix ,result is matrix too

        '''

        minvales = dataset.min(0)

        maxvales = dataset.max(0)

        ranges = maxvales - minvales

        m = dataset.shape[0]

        nordataset = dataset - numpy.tile(minvales, (m,1))

        nordataset = nordataset/numpy.tile(ranges, (m,1))

        return nordataset, minvales , ranges

    def knn_classify(self,inputX,dataset,labels,k=3):

        '''

            calculation the distance,using ((a1 - b1)^2 + (a2 - b2)^2 + ... + (an - bn)^2)^0.5

        result:

             labels of the kth minimum distance

        '''

        rows = dataset.shape[0]

        diffmat = numpy.tile(inputX, (rows , 1)) -dataset

        square_dist =  diffmat ** 2

        "when axis=1 ,then rows sum;when axis=0 ,then cloumns sum;"

        sum_square_dist = square_dist.sum(axis=1)  

        distance = sum_square_dist ** 0.5

        "sorted distance , keep the position"

        sorted_distance = distance.argsort()

        labelcount = {}

        for row in range(k):

            votelabel = labels[sorted_distance[row]]

            labelcount[votelabel] =  labelcount.get(votelabel,0) + 1

        sortedlabels = sorted(labelcount.iteritems() , key=operator.itemgetter(1), reverse=True) 

        return sortedlabels

if __name__ == '__main__':

    testKNN = kNN('.\\datingTestSet.txt')

    dataset, labels = testKNN.file_to_matrix()

    nordataset, minvales , ranges=testKNN.data_standard(dataset) 

    fp = open('.\\datingTestSet.txt')

    rows = len(fp.readlines())

    errorcount = 0 

    fp = open('.\\datingTestSet.txt')

    for i,line in enumerate(fp.readlines()):

        fromline = line.strip().split('\t')

        label = fromline[-1]

        inputX = numpy.zeros((1,3))

        inputX[:] = fromline[0:3]

        sortedlabels = testKNN.knn_classify((inputX - minvales) / ranges,nordataset,labels,3)

        if sortedlabels[0][0] == label :

            #print 'the ' + str(i) + ' is right \n'

            pass

        else:

            print 'the %d record is error' %i

            errorcount += 1

    print  'error count: %d' %errorcount

    print  'error ration: %f' %(float(errorcount) / rows)

距离加权最近邻算法

对k-近邻算法的一个显而易见的改进是对k个近邻的贡献加权，根据它们相对查询点x_q的距离，将较大的权值赋给较近的近邻。例如，在表8-1逼近离散目标函数的算法中，我们可以根据每个近邻与x_q的距离平方的倒数加权这个近邻的“选举权”。方法是通过用下式的公式来实现：

其中：

为了处理查询点x_q恰好匹配某个训练样例x_i，从而导致分母为0的情况，我们令这种情况下的等于f(x_i)。如果有多个这样的训练样例，我们使用它们中占多数的分类。

我们也可以用类似的方式对实值目标函数进行距离加权，只要用下式替换公式：

其中w_i的定义与公式（8.3）中相同。注意公式（8.4）中的分母是一个常量，它将不同权值的贡献归一化（例如，它保证如果对所有的训练样例x_i，f(x_i)=c，那么 ----->c）。

注意以上k-近邻算法的所有变体都只考虑k个近邻以分类查询点。如果使用按距离加权，那么允许所有的训练样例影响x_q的分类事实上没有坏处，因为非常远的实例对的影响很小。考虑所有样例的惟一不足是会使分类运行得更慢。如果分类一个新的查询实例时考虑所有的训练样例，我们称此为全局（global）法。如果仅考虑最靠近的训练样例，我们称此为局部（local）法。当公式（8.4）的法则被应用为全局法时，它被称为Shepard法（Shepard 1968）。

机器学习算法之:KNN的更多相关文章

scikit-learn中的机器学习算法封装——kNN
接前面 https://www.cnblogs.com/Liuyt-61/p/11738399.html 回过头来看这张图,什么是机器学习?就是将训练数据集喂给机器学习算法,在上面kNN算法中就是将特 ...
机器学习算法之——KNN、Kmeans
一.Kmeans算法 kmeans算法又名k均值算法.其算法思想大致为:先从样本集中随机选取 kk 个样本作为簇中心,并计算所有样本与这 kk 个“簇中心”的距离,对于每一个样本,将其划分到与其距离最 ...
机器学习算法·KNN
机器学习算法应用·KNN算法一.问题描述验证码目前在互联网上非常常见,从学校的教务系统到12306购票系统,充当着防火墙的功能.但是随着OCR技术的发展,验证码暴露出的安全问题越来越严峻.目前对验 ...
机器学习十大算法之KNN（K最近邻，k-NearestNeighbor)算法
机器学习十大算法之KNN算法前段时间一直在搞tkinter,机器学习荒废了一阵子.如今想重新写一个,发现遇到不少问题,不过最终还是解决了.希望与大家共同进步. 闲话少说,进入正题. KNN算法也称最 ...
机器学习十大算法之 kNN（一）
机器学习十大算法之 kNN(一) 最近在学习机器学习领域的十大经典算法,先从kNN开始吧. 简介 kNN是一种有监督学习方法,它的思想很简单,对于一个未分类的样本来说,通过距离它最近的k个" ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...
机器学习实战之 KNN算法
现在机器学习这么火,小编也忍不住想学习一把.注意,小编是零基础哦. 所以,第一步,推荐买一本机器学习的书,我选的是Peter harrigton 的<机器学习实战>.这本书是基于pyt ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
机器学习：K-近邻算法（KNN）
机器学习:K-近邻算法(KNN) 一.KNN算法概述 KNN作为一种有监督分类算法,是最简单的机器学习算法之一,顾名思义,其算法主体思想就是根据距离相近的邻居类别,来判定自己的所属类别.算法的前提是需 ...

随机推荐

PHP编译选项
PHP安装 ./configure --prefix=/usr/local/php --with-config-file-path=/usr/local/php/etc --with-mysql=/u ...
着手打造你的随身系统---将linux装进移动硬盘
将Ubuntu等linux系统安装到移动硬盘--操作系统随身携带前言刚刚接触ubuntu,听说可以将linux系统安装到移动硬盘上,所以最近一周都在尝试将ubuntu安装到新买的移动 ...
用VS2010进行CMAKE的时候“LINK : fatal error LNK1123: 转换到 COFF 期间失败: 文件无效或损坏”
由于要编译LTP,LTP在MINGW下又不能编译,所以忍痛安装了VS2010+CMAKE. 由于VS在本科时候虐我千百遍,所以一直心存阴影... 转入正题,当cmake的时候, 它提示 “LINK : ...
js instanceof （2）
instanceof运算符可以用来判断某个构造函数的prototype属性是否存在另外一个要检测对象的原型链上.实例一:普遍用法 A instanceof B :检测B.prototype是否存在于参 ...
Unity3D学习笔记——Android重力感应控制小球
一:准备资源两张贴图:地图和小球贴图. 二:导入资源在Assets下建立resources文件夹,然后将贴图导入. 三:建立场景游戏对象 1.建立灯光: 2.创建一个相机,配置默认. 3.建立一个 ...
WPF命令绑定自定义命令
WPF的命令系统是wpf中新增加的内容,在以往的winfom中并没有.为什么要增加命令这一块内容.在winform里面的没有命令只使用事件的话也可以实现程序员希望实现的功能.这个问题在很多文章中都提到 ...
Rightscale & Amazon
原先一直以为Rightscale是Amazno旗下的一个产品,今天才知道是Amazon partner - -||,实在汗颜. Rightscale也是一个很强大的公司,提供跨云解决方案...(呃,原 ...
linux下jmeter使用帮助
1.linux下jmeter使用方法例:jmeter -n -t test1.jmx -l logfile1.jtl -H 192.168.1.1 -P 8080 -h 帮助 -> 打印出有用 ...
html5 上传头像示例及其注意事项
转自[B5教程网]:http://www.bcty365.com/content-142-5244-1.html 这次分享一个简易的上传头像示例,其大致流程为: 一.将选择的图片转为base64字符串 ...
新手之使用git
本篇博客针对不会Git的小童鞋,大神们可以绕过,错误之处谢谢指正: 关于GitHub的强大此处不在说明,知道GitHub也有一段时间了,但是一直苦于不会使用. 本篇文章介绍的是如何将工程代码托管到上面 ...

机器学习算法之:KNN

机器学习算法之:KNN的更多相关文章

随机推荐

热门专题