[机器学习]-K近邻-最简单的入门实战例子

本篇文章分为两个部分，前一部分主要简单介绍K近邻，后一部分是一个例子

第一部分--K近邻简介

　　从字面意思就可以容易看出，所谓的K近邻，就是找到某个样本距离（这里的距离可以是欧式距离，曼哈顿距离，切比雪夫距离等）最近的K个数据，根据最近的K个邻居属于什么分类，来判断这个样本属于什么分类。　

　　简单说一下优缺点：

　　　　优点：简单，适合于多分类问题(multi-modal,对象具有多个类别标签)， kNN比SVM的表现要好。

　　　　缺点：I:计算量大　　 II.如果某个分类占绝对优势，分类的效果很差，比如，印度阿三主要是黑人，如果你随便找个人，

　　　　　　　使用K近邻判断这个人是不是黑人，这个人周围可能都是黑人，所以不适合这种类型的数据集。

第二部分--实战例子

　　数据集：iris数据集，这是个什么样的数据集呢？

　　　　通过3种鸢尾属植物的花的四个属性（萼片长度(sepal length)、萼片宽度sepalwidth)、花瓣长度(petal length)和花瓣宽度(petal width)）来判断属于哪一种鸢尾属植物，这三种鸢尾属植物分别是setosa、versic010r和virginica。

　　数据集地址：iris数据集将数据复制到txt文件中。

　　代码：

import csv

import random

import math

import operator

#装载数据集

def loadDataset(filename, split, trainingSet = [], testSet = []):

    with open(filename, 'rt') as csvfile:

        lines = csv.reader(csvfile)

        dataset = list(lines)

        for x in range(len(dataset)-1):

            for y in range(4):

                # print(type(dataset[x][y]))

                dataset[x][y] = float(dataset[x][y])

            if random.random() < split:

                trainingSet.append(dataset[x])

            else:

                testSet.append(dataset[x])

#计算样本之间的欧式距离

def euclideanDistance(instance1, instance2, length):

    distance = 0

    for x in range(length):

        distance += pow((instance1[x]-instance2[x]), 2)

    return math.sqrt(distance)

#找到相邻的k个样本

def getNeighbors(trainingSet, testInstance, k):

    distances = []

    length = len(testInstance)-1

    for x in range(len(trainingSet)):

        #testinstance

        dist = euclideanDistance(testInstance, trainingSet[x], length)

        distances.append((trainingSet[x], dist))

    """

        operator模块提供的itemgetter函数用于获取对象的哪些维的数据，参数为一些序号

    """

    #distances是一个list里面放的tuple，tuple第二个元素是距离，这里就是根据距离排序，默认升序

    distances.sort(key=operator.itemgetter(1))

    neighbors = []

    for x in range(k):

        neighbors.append(distances[x][0])

    return neighbors

#找到k个样本中出现最多的分类，并返回

def getResponse(neighbors):

    classVotes = {}

    for x in range(len(neighbors)):

        response = neighbors[x][-1]

        if response in classVotes:

            classVotes[response] += 1

        else:

            classVotes[response] = 1

    """

        注意，python3中字典的iteritems()方法已经取消，只有item()

    """

    # sortedVotes = sorted(classVotes.iteritems(), key=operator.itemgetter(1), reverse=True)

    """

        sort 与 sorted 区别：

        sort 是应用在 list 上的方法，sorted 可以对所有可迭代的对象进行排序操作。

        list 的 sort 方法返回的是对已经存在的列表进行操作，而内建函数 sorted 方法返回的是一个新的 list，而不是在原来的基础上进行的操作。

        reverse -- 排序规则，reverse = True 降序 ， reverse = False 升序（默认）

    """

    """

        print(classVotes)

        输出格式为：{'Iris-versicolor': 1, 'Iris-virginica': 2}

    """

    """

        print(classVotes.items())

        输出格式为：dict_items([('Iris-versicolor', 1), ('Iris-virginica', 2)])

    """

    sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)

    """

        print(sortedVotes)

        输出格式为：[('Iris-virginica', 3)]

    """

    return sortedVotes[0][0]

#得到最后全部测试样本的预测准确率

def getAccuracy(testSet, predictions):

    correct = 0

    for x in range(len(testSet)):

        if testSet[x][-1] == predictions[x]:

            correct += 1

    return (correct/float(len(testSet)))*100.0

#主函数

def main():

    #prepare data

    trainingSet = []

    testSet = []

    split = 0.67  #0.67相当于2/3，就是说2/3是训练集，1/3是测试集，整个iris数据集中有150个数据

    loadDataset(r'../data/DTree/irisdata.txt', split, trainingSet, testSet)

    # print(trainingSet)

    print ('训练集样本数: ' + repr(len(trainingSet)))

    print ('测试集样本数: ' + repr(len(testSet)))

    #generate predictions

    predictions = []

    k = 3

    for x in range(len(testSet)):

        # trainingsettrainingSet[x]

        neighbors = getNeighbors(trainingSet, testSet[x], k)

        result = getResponse(neighbors)

        predictions.append(result)

        if result == testSet[x][-1]:

            correct = True

        else:

            correct = False

        print ('预测结果：' + repr(result) + ', 实际值=' + repr(testSet[x][-1]) + ',  是否预测正确=' + repr(correct))

    accuracy = getAccuracy(testSet, predictions)

    #整个测试集预测准确率

    print('准确率: ' + repr(accuracy) + '%')

if __name__ == '__main__':

    main()

输出结果为：

训练集样本数: 109

测试集样本数: 41

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-setosa', 实际值='Iris-setosa',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-versicolor',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-versicolor', 实际值='Iris-virginica',  是否预测正确=False

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

预测结果：'Iris-virginica', 实际值='Iris-virginica',  是否预测正确=True

准确率: 97.5609756097561%

[机器学习]-K近邻-最简单的入门实战例子的更多相关文章

Python3入门机器学习 - k近邻算法
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代 ...
[机器学习] k近邻算法
算是机器学习中最简单的算法了,顾名思义是看k个近邻的类别,测试点的类别判断为k近邻里某一类点最多的,少数服从多数,要点摘录: 1. 关键参数:k值 && 距离计算方式 &&am ...
机器学习--K近邻（KNN）算法的原理及优缺点
一.KNN算法原理 K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法. 它的基本思想是: 在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对 ...
机器学习-K近邻(KNN)算法详解
一.KNN算法描述 KNN(K Near Neighbor):找到k个最近的邻居,即每个样本都可以用它最接近的这k个邻居中所占数量最多的类别来代表.KNN算法属于有监督学习方式的分类算法,所谓K近 ...
机器学习—K近邻
一.算法原理还是图片格式~ 二.sklearn实现 import pandas as pd import numpy as np import matplotlib.pyplot as plt im ...
机器学习 Python实践-K近邻算法
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...
机器学习（1）——K近邻算法
KNN的函数写法 import numpy as np from math import sqrt from collections import Counter def KNN_classify(k ...
每日一个机器学习算法——k近邻分类
K近邻很简单. 简而言之,对于未知类的样本,按照某种计算距离找出它在训练集中的k个最近邻,如果k个近邻中多数样本属于哪个类别,就将它判决为那一个类别. 由于采用k投票机制,所以能够减小噪声的影响. 由 ...
1.K近邻算法
(一)K近邻算法基础 K近邻(KNN)算法优点思想极度简单应用数学知识少(近乎为0) 效果好可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程图解K近邻算法上图是以 ...

随机推荐

TensorFlow Activation Function 1
部分转自:https://blog.csdn.net/caicaiatnbu/article/details/72745156 激活函数(Activation Function)运行时激活神经网络中某 ...
windows下安装redis并设置自启动
一.下载windows版本的Redis 去官网找了很久,发现原来在官网上可以下载的windows版本的,现在官网以及没有下载地址,只能在github上下载,官网只提供linux版本的下载官网下载地址 ...
jenkins 构建触发器 Poll SCM 和 Build periodically区别
Poll SCM:定时检查源码变更(根据SCM软件的版本号),如果有更新就checkout最新code下来,然后执行构建动作.我的配置如下: */5 * * * * (每5分钟检查一次源码变化) Bu ...
(未解决)记录一次登录&jmeter，留下的一地鸡毛
一般的登录校验过程是这样的:客户端发起请求,拿到服务器给的“令牌”,再次发起请求,服务器验证“令牌”是否正确,从而返回给客户端是登录成功还是登录失败.然后我按照这个流程,用jmeter去模拟了登录过程 ...
linux系统分析工具之Blktrace
Blktrace简介: blktrace是一个针对Linux内核中块设备I/O层的跟踪工具,用来收集磁盘IO信息中当IO进行到块设备层(block层,所以叫blk trace)时的详细信息(如IO请求 ...
Fiddler设置代理后，iphone手机无法访问网络的全面解决办法
好久不抓手机包,都有些忘记了,电脑上软件都在,原本是Fiddler4,现在已自动升级到V5. 入主题吧,首先Fiddler设置好代理,然后手机安装证书好了,设置手机代理,结果iphone无法访问网络, ...
python3爬虫-下载网易云音乐，评论
# -*- coding: utf-8 -*- ''' 16位随机字符的字符串参数一获取歌曲下载地址 "{"ids":"[1361348080]" ...
Ubuntu 16.04 下简单安装使用golang之备忘
刚开始学习Go语言,这里记录下我在Ubuntu 16.04下安装使用golang的过程,方便以后查询. 一.安装 1.添加源如果使用默认的源安装golang的话,版本太低,只到1.6 ...
基于Verilog的奇数偶数小数分频器设计
今天呢,由泡泡鱼工作室发布的微信公共号“硬件为王”(微信号:king_hardware)正式上线啦,关注有惊喜哦.在这个普天同庆的美好日子里,小编脑洞大开,决定写一首诗赞美一下我们背后伟大的团队,虽然 ...
POJ 1235 Machine Schedule 【二分图】
这道题考察对最小点覆盖的理解. 做法: 对于一个作业,它需要A的a模式和B的b模式,那么可以从a模式向b模式连一条边:可以感性的理解为每一条边就是一个作业,需要求得有多少个模式可以覆盖所有的边,也就是 ...

[机器学习]-K近邻-最简单的入门实战例子

[机器学习]-K近邻-最简单的入门实战例子的更多相关文章

随机推荐

热门专题