001 KNN分类最邻近算法

1.文件
5.0,3.5,1.6,0.6,apple
5.1,3.8,1.9,0.4,apple
4.8,3.0,1.4,0.3,apple
5.1,3.8,1.6,0.2,apple
4.6,3.2,1.4,0.2,apple
5.3,3.7,1.5,0.2,apple
5.0,3.3,1.4,0.2,apple
7.0,3.2,4.7,1.4,orange
6.4,3.2,4.5,1.5,orange
6.9,3.1,4.9,1.5,orange
5.5,2.3,4.0,1.3,orange
6.5,2.8,4.6,1.5,orange
5.7,2.8,4.5,1.3,orange
6.3,3.3,4.7,1.6,orange
7.3,2.9,6.3,1.8,banana
6.7,2.5,5.8,1.8,banana
7.2,3.6,6.1,2.5,banana
6.5,3.2,5.1,2.0,banana
6.4,2.7,5.3,1.9,banana
6.8,3.0,5.5,2.1,banana
5.7,2.5,5.0,2.0,banana
5.8,2.8,5.1,2.4,banana

2 代码

# -*- coding: UTF-8 -*-

import math

import csv

import random

import operator

'''

@author:hunter

@time:2017.03.31

'''

class KNearestNeighbor(object):

    def __init__(self):

        pass

    def loadDataset(self,filename, split, trainingSet, testSet):  # 加载数据集  split以某个值为界限分类train和test

        with open(filename, 'r') as csvfile:

            lines = csv.reader(csvfile)   #读取所有的行

            dataset = list(lines)     #转化成列表

            for x in range(len(dataset)-1):

                for y in range(4):

                    dataset[x][y] = float(dataset[x][y])

                if random.random() < split:   # 将所有数据加载到train和test中 生成0和1的随机浮点数

                    trainingSet.append(dataset[x])

                else:

                    testSet.append(dataset[x])

    def calculateDistance(self,testdata, traindata, length):   # 计算距离

        distance = 0     # length表示维度 数据共有几维

        for x in range(length):

            distance += pow((testdata[x]-traindata[x]), 2)

        return math.sqrt(distance)

    def getNeighbors(self,trainingSet, testInstance, k):  # 返回最近的k个边距

        distances = []

        length = len(testInstance)-1

        for x in range(len(trainingSet)):   #对训练集的每一个数计算其到测试集的实际距离

            dist = self.calculateDistance(testInstance, trainingSet[x], length)

            print('训练集:{}-距离:{}'.format(trainingSet[x], dist))

            distances.append((trainingSet[x], dist))

        distances.sort(key=operator.itemgetter(1))   # 把距离从小到大排列

        neighbors = []

        for x in range(k):   #排序完成后取前k个距离

            neighbors.append(distances[x][0])

            print(neighbors)

            return neighbors

    def getResponse(self,neighbors):  # 根据少数服从多数，决定归类到哪一类

        classVotes = {}

        for x in range(len(neighbors)):

            response = neighbors[x][-1]  # 统计每一个分类的多少

            if response in classVotes:

                classVotes[response] += 1

            else:

                classVotes[response] = 1   # 初始值为1

        print(classVotes.items())

        sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True) #reverse按降序的方式排列

        return sortedVotes[0][0]

    def getAccuracy(self,testSet, predictions):  # 准确率计算

        correct = 0

        for x in range(len(testSet)):

            if testSet[x][-1] == predictions[x]:   #predictions是预测的和testset实际的比对

                correct += 1

        print('共有{}个预测正确，共有{}个测试数据'.format(correct,len(testSet)))

        return (correct/float(len(testSet)))*100.0

    def Run(self):

        trainingSet = []

        testSet = []

        split = 0.75

        self.loadDataset(r'testdata.txt', split, trainingSet, testSet)   #数据划分

        print('Train set: ' + str(len(trainingSet)))

        print('Test set: ' + str(len(testSet)))

        #generate predictions

        predictions = []

        k = 3    # 取最近的3个数据

        # correct = []

        for x in range(len(testSet)):    # 对所有的测试集进行测试

            neighbors = self.getNeighbors(trainingSet, testSet[x], k)   #找到3个最近的邻居

            result = self.getResponse(neighbors)    # 找这3个邻居归类到哪一类

            predictions.append(result)

            # print('predictions: ' + repr(predictions))        返回一个它在python中的描述

            # print('>predicted=' + repr(result) + ', actual=' + repr(testSet[x][-1]))

        # print(correct)

        accuracy = self.getAccuracy(testSet,predictions)

        print('Accuracy: ' + repr(accuracy) + '%')

if __name__ == '__main__':

    a = KNearestNeighbor()

    a.Run()

001 KNN分类最邻近算法的更多相关文章

Python实现kNN（k邻近算法）
Python实现kNN(k邻近算法) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>op ...
在Ignite中使用k-最近邻(k-NN)分类算法
在本系列前面的文章中,简单介绍了一下Ignite的线性回归算法,下面会尝试另一个机器学习算法,即k-最近邻(k-NN)分类.该算法基于对象k个最近邻中最常见的类来对对象进行分类,可用于确定类成员的关系 ...
[机器学习] ——KNN K-最邻近算法
KNN分类算法,是理论上比较成熟的方法,也是最简单的机器学习算法之一. 该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别 ...
knn分类算法学习
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...
最邻近算法（KNN）识别数字验证码
应用场景对于简单的数字型验证码的自动识别.前期已经完成的工作是通过切割将验证码图片切割成一个一个的单个数字的图片,并按照对应的数字表征类别进行分类(即哪些图片表示数字7,哪些表示8),将各种数字 ...
ML之监督学习算法之分类算法一 ———— k-近邻算法（最邻近算法）
一.概述最近邻规则分类(K-Nearest Neighbor)KNN算法由Cover 和Hart在1968年提出了最初的邻近算法, 这是一个分类(classification)算法输入基于实例的 ...
k最邻近算法——使用kNN进行手写识别
上篇文章中提到了使用pillow对手写文字进行预处理,本文介绍如何使用kNN算法对文字进行识别. 基本概念 k最邻近算法(k-Nearest Neighbor, KNN),是机器学习分类算法中最简单的 ...
机器学习---K最近邻(k-Nearest Neighbour，KNN)分类算法
K最近邻(k-Nearest Neighbour,KNN)分类算法 1.K最近邻(k-Nearest Neighbour,KNN) K最近邻(k-Nearest Neighbour,KNN)分类算法, ...

随机推荐

java------------break；
总结: package com.mmm; public class Pnal { public static void main(String[] args) { int i = 0; while ( ...
java代码-----------逻辑运算符、 &&逻辑与 ||或
总结: && :两者均满足.是true ||: 两者中有一个满足就为true,不然就是false package com.sads; public class shou { publi ...
安装windows 2003 server
最近去给客户安装windows 2003 server,想想也是技术,就写出来了,我这个实在虚拟机安装的,安装这个系统主要是为了安装limesurvey问卷系统第一步:安装,选择Enter 第二步: ...
【BZOJ】1007: [HNOI2008]水平可见直线（凸包）
题目传送门:QWQ 分析在下面维护一个凸壳好久没写博客了...... 代码 #include <bits/stdc++.h> using namespace std; ; ,INF= ...
Oracle数据库学习笔记（一）
Oracle的体系结构大体上分为两部分:Instance(实例)和Database(数据库). Instance(实例) :在Oracle Instance中主要包含了SGA以及一些进程(例如:P ...
0007-一套完整的CRUD_DEMO
好久没写了,一直在忙别的东西,但是想想,还是把之前的补充完整好了.给大家一个参考,也为自己留个备份. 首先写一个Html作为内容载体,主要结构如下 <div ui-view="navb ...
react.js的了解
React很大的特点就是“轻”,再加上VDOM这个很好的idea让React非常非常快(在上面那个测试里面0.3s左右就载入完毕).另外React和Angular一个很大的不同就是React采用的是o ...
GRE and VXLAN with Open vSwitch
因为在OpenStack的Neutron中比较常用,所以参考别人的博客试了下OVS的一些隧道封装功能(GRE,VXLAN). 实验:实现两个host的Network namespace之间的通信,NS ...
如何利用R包qqman画曼哈顿图？
如何利用R包qqman画曼哈顿图? 2017-07-10 lili 生信人众多周知,R语言提供了各种各样的包,方便实现我们的目的,下面给大家介绍一个可以便捷的画曼哈顿图的包:qqman instal ...
PHP代码覆盖率
一安装php环境二统计php代码覆盖率 1 需要安装xdebug 安装步骤: http://www.jb51.net/article/116419.htm 测试环境 LNMP 军哥一键包1.3 ...

001 KNN分类 最邻近算法