关于KNN的python3实现

　　关于KNN，有幸看到这篇文章，写的很好，这里就不在赘述。直接贴上代码了，有小的改动。（原来是python2版本的，这里改为python3的，主要就是print）

　　环境：win7 32bit + spyder + anaconda3.5

　　一、初阶

# -*- coding: utf-8 -*-

"""

Created on Sun Nov  6 16:09:00 2016

@author: Administrator

"""

#Input:

#	newInput:待测的数据点(1xM)

#	dataSet:已知的数据(NxM)

#	labels:已知数据的标签(1xM)

#	k:选取的最邻近数据点的个数

#

#Output:

#	待测数据点的分类标签

#	

from numpy import *

# creat a dataset which contain 4 samples with 2 class

def createDataSet():

	# creat a matrix: each row as a sample

	group = array([[1.0, 0.9], [1.0, 1.0], [0.1, 0.2], [0.0, 0.1]])

	labels = ['A', 'A', 'B', 'B']

	return group, labels

#classify using KNN

def KNNClassify(newInput, dataSet, labels, k):

	numSamples = dataSet.shape[0]  # row number

	# step1:calculate Euclidean distance

	# tile(A, reps):Constract an array by repeating A reps times

	diff = tile(newInput, (numSamples, 1)) - dataSet

	squreDiff = diff**2

	squreDist = sum(squreDiff, axis=1)  # sum if performed by row

	distance = squreDist ** 0.5

	#step2:sort the distance

	# argsort() returns the indices that would sort an array in a ascending order

	sortedDistIndices = argsort(distance)

	classCount = {}

	for i in range(k):

		# choose the min k distance

		voteLabel = labels[sortedDistIndices[i]]

		#step4:count the times labels occur

		# when the key voteLabel is not in dictionary classCount,

		# get() will return 0

		classCount[voteLabel] = classCount.get(voteLabel, 0) + 1

	#step5:the max vote class will return

	maxCount = 0

	for k, v in classCount.items():

		if v > maxCount:

			maxCount = v

			maxIndex = k

	return maxIndex

# test

dataSet, labels = createDataSet()

testX = array([1.2, 1.0])

k = 3

outputLabel = KNNClassify(testX, dataSet, labels, 3)

print("Your input is:", testX, "and classified to class: ", outputLabel)

testX = array([0.1, 0.3])

k = 3

outputLabel = KNNClassify(testX, dataSet, labels, 3)

print("Your input is:", testX, "and classified to class: ", outputLabel)

　　运行结果：

　　二、进阶

　　用到的手写识别数据库资料在这里下载。关于资料的介绍在上面的博文也已经介绍的很清楚了。

# -*- coding: utf-8 -*-

"""

Created on Sun Nov  6 16:09:00 2016

@author: Administrator

"""

#Input:

#	newInput:待测的数据点(1xM)

#	dataSet:已知的数据(NxM)

#	labels:已知数据的标签(1xM)

#	k:选取的最邻近数据点的个数

#

#Output:

#	待测数据点的分类标签

#	

from numpy import *

#classify using KNN

def KNNClassify(newInput, dataSet, labels, k):

	numSamples = dataSet.shape[0]  # row number

	# step1:calculate Euclidean distance

	# tile(A, reps):Constract an array by repeating A reps times

	diff = tile(newInput, (numSamples, 1)) - dataSet

	squreDiff = diff**2

	squreDist = sum(squreDiff, axis=1)  # sum if performed by row

	distance = squreDist ** 0.5

	#step2:sort the distance

	# argsort() returns the indices that would sort an array in a ascending order

	sortedDistIndices = argsort(distance)

	classCount = {}

	for i in range(k):

		# choose the min k distance

		voteLabel = labels[sortedDistIndices[i]]

		#step4:count the times labels occur

		# when the key voteLabel is not in dictionary classCount,

		# get() will return 0

		classCount[voteLabel] = classCount.get(voteLabel, 0) + 1

	#step5:the max vote class will return

	maxCount = 0

	for k, v in classCount.items():

		if v > maxCount:

			maxCount = v

			maxIndex = k

	return maxIndex

# convert image to vector

def  img2vector(filename):

    rows = 32

    cols = 32

    imgVector = zeros((1, rows * cols))

    fileIn = open(filename)

    for row in range(rows):

        lineStr = fileIn.readline()

        for col in range(cols):

            imgVector[0, row * 32 + col] = int(lineStr[col])  

    return imgVector

# load dataSet

def loadDataSet():

    ## step 1: Getting training set

    print("---Getting training set...")

    dataSetDir = 'F:\\Techonolgoy\\算法学习\\KNN\\进阶\\'

    trainingFileList = os.listdir(dataSetDir + 'trainingDigits') # load the training set

    numSamples = len(trainingFileList)  

    train_x = zeros((numSamples, 1024))

    train_y = []

    for i in range(numSamples):

        filename = trainingFileList[i]  

        # get train_x

        train_x[i, :] = img2vector(dataSetDir + 'trainingDigits/%s' % filename)   

        # get label from file name such as "1_18.txt"

        label = int(filename.split('_')[0]) # return 1

        train_y.append(label)  

    ## step 2: Getting testing set

    print("---Getting testing set...")

    testingFileList = os.listdir(dataSetDir + 'testDigits') # load the testing set

    numSamples = len(testingFileList)

    test_x = zeros((numSamples, 1024))

    test_y = []

    for i in range(numSamples):

        filename = testingFileList[i]  

        # get train_x

        test_x[i, :] = img2vector(dataSetDir + 'testDigits/%s' % filename)   

        # get label from file name such as "1_18.txt"

        label = int(filename.split('_')[0]) # return 1

        test_y.append(label)  

    return train_x, train_y, test_x, test_y  

# test hand writing class

def testHandWritingClass():

    ## step 1: load data

    print("step 1: load data...")

    train_x, train_y, test_x, test_y = loadDataSet()  

    ## step 2: training...

    print("step 2: training...")

    pass  

    ## step 3: testing

    print("step 3: testing...")

    numTestSamples = test_x.shape[0]

    matchCount = 0

    for i in range(numTestSamples):

        predict = KNNClassify(test_x[i], train_x, train_y, 3)

        if predict == test_y[i]:

            matchCount += 1

    accuracy = float(matchCount) / numTestSamples  

    ## step 4: show the result

    print("step 4: show the result...")

    print('The classify accuracy is: %.2f%%' % (accuracy * 100)) 

testHandWritingClass()

　　运行结果：

关于KNN的python3实现的更多相关文章

Python3实现机器学习经典算法（一）KNN
一.KNN概述 K-(最)近邻算法KNN(k-Nearest Neighbor)是数据挖掘分类技术中最简单的方法之一.它具有精度高.对异常值不敏感的优点,适合用来处理离散的数值型数据,但是它具有非常 ...
Python3 k-邻近算法（KNN）
# -*- coding: utf-8 -*- """ Created on Fri Dec 29 13:13:44 2017 @author: markli " ...
机器学习实战python3 K近邻（KNN）算法实现
台大机器技法跟基石都看完了,但是没有编程一直,现在打算结合周志华的<机器学习>,撸一遍机器学习实战, 原书是python2 的,但是本人感觉python3更好用一些,所以打算用python ...
Python3实现机器学习经典算法（二）KNN实现简单OCR
一.前言 1.ocr概述 OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然 ...
kNN.py源码及注释（python3.x）
import numpy as npimport operatorfrom os import listdirdef CerateDataSet(): group = np.array( ...
KNN识别图像上的数字及python实现
领导让我每天手工录入BI系统中的数据并判断数据是否存在异常,若有异常点,则检测是系统问题还是业务问题.为了解放双手,我决定写个程序完成每天录入管理驾驶舱数据的任务.首先用按键精灵录了一套脚本把系统中的 ...
机器学习实战笔记(Python实现)-01-K近邻算法(KNN)
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
第2章KNN算法笔记_函数classify0
<机器学习实战>知识点笔记目录 K-近邻算法(KNN)思想: 1,计算未知样本与所有已知样本的距离 2,按照距离递增排序,选前K个样本(K<20) 3,针对K个样本统计各个分类的出现 ...
机器学习--kNN算法识别手写字母
本文主要是用kNN算法对字母图片进行特征提取,分类识别.内容如下: kNN算法及相关Python模块介绍对字母图片进行特征提取 kNN算法实现 kNN算法分析一.kNN算法介绍 K近邻(kNN,k ...

随机推荐

在li元素中放入img图片时li的高度问题
在li元素中放入img图片时li的高度会比img图片的高度多出几个像素,解决这个问题只需要将img元素的css设置成vertical-align: middle;就可以解决.
LA 5135 井下矿工
题目链接:http://vjudge.net/contest/141787#problem/B 白书P318 题目大意:有N个矿井 ,由一些隧道连接起来,现在要修建尽量少的安全通道,使得无论哪里发生事 ...
[问题2014S08] 解答
[问题2014S08] 解答 (此解答由徐昊宸同学和鹿彭同学提供) 设 \(P_1(\lambda),P_2(\lambda),Q_1(\lambda),Q_2(\lambda)\) 为可逆 \(\l ...
Install Google Pinyin on Ubuntu 14.04
Install Google Pinyin on Ubuntu 14.04 I've been spending more and more time on Ubuntu and I'm not us ...
java实现LIS算法，出操队形问题
假设有序列:2,1,3,5,求一个最长上升子序列就是2,3,5或者1,3,5,长度都为3. LIS算法的思想是: 设存在序列a. ① 如果只有一个元素,那么最长上升子序列的长度为1: ② 如果有两个元 ...
（原创）LAMP搭建之一：图解如何安装并检查LAMP
LAMP搭建之一:图解如何安装并检查LAMP 第一步:安装Linux(RedHat5) 第二步:rpm -qa httpd(查看apache是否安装) rpm -qa php(查看php是否安装) r ...
Head First 设计模式--2 观察者模式解耦
观察者模式定义了对象之间一对多的依赖,这样依赖,当一个对象改变状态时,它的所有依赖者都会收到通知并自动更新. 假如有这么一个项目,监控每天的天气状况WeatherData(温度,湿度,气压).有布告板 ...
Python内置的字符串处理函数整理
Python内置的字符串处理函数整理作者: 字体:[增加减小] 类型:转载时间:2013-01-29我要评论 Python内置的字符串处理函数整理,收集常用的Python 内置的各种字符串处理 ...
C#虚方法
若一个实例方法声明前带有virtual关键字,那么这个方法就是虚方法.虚方法与非虚方法的最大不同是,虚方法的实现可以由派生类所取代,这种取代是通过方法的重写实现的(以后再讲)虚方法的特点:虚方法前不允 ...
Selenium WebDriver中一些鼠标和键盘事件的使用
转自:http://www.ithov.com/linux/133271.shtml 在使用 Selenium WebDriver 做自动化测试的时候,会经常模拟鼠标和键盘的一些行为.比如使用鼠标单击 ...

关于KNN的python3实现

关于KNN的python3实现的更多相关文章

随机推荐

热门专题