KNN Python实现

KNN Python实现

'''

k近邻（kNN）算法的工作机制比较简单，根据某种距离测度找出距离给定待测样本距离最小的k个训练样本，根据k个训练样本进行预测。

分类问题：k个点中出现频率最高的类别作为待测样本的类别

回归问题：通常以k个训练样本的平均值作为待测样本的预测值

kNN模型三要素：距离测度、k值的选择、分类或回归决策方式

'''

import numpy as np

class KNNClassfier(object):

    def __init__(self, k=5, distance='euc'):

        self.k = k

        self.distance = distance

        self.x = None

        self.y = None

    def fit(self,X, Y):

        '''

        X : array-like [n_samples,shape]

        Y : array-like [n_samples,1]

        '''

        self.x = X

        self.y = Y

    def predict(self,X_test):

        '''

        X_test : array-like [n_samples,shape]

        Y_test : array-like [n_samples,1]

        output : array-like [n_samples,1]

        '''

        output = np.zeros((X_test.shape[0],1))

        for i in range(X_test.shape[0]):

            dis = []

            for j in range(self.x.shape[0]):

                if self.distance == 'euc': # 欧式距离

                    dis.append(np.linalg.norm(X_test[i]-self.x[j,:]))

            labels = []

            index=sorted(range(len(dis)), key=dis.__getitem__)

            for j in range(self.k):

                labels.append(self.y[index[j]])

            counts = []

            for label in labels:

                counts.append(labels.count(label))

            output[i] = labels[np.argmax(counts)]

        return output

    def score(self,x,y):

        pred = self.predict(x)

        err = 0.0

        for i in range(x.shape[0]):

            if pred[i]!=y[i]:

                err = err+1

        return 1-float(err/x.shape[0])

if __name__ == '__main__':

    from sklearn import datasets

    iris = datasets.load_iris()

    x = iris.data

    y = iris.target

    # x = np.array([[0.5,0.4],[0.1,0.2],[0.7,0.8],[0.2,0.1],[0.4,0.6],[0.9,0.9],[1,1]]).reshape(-1,2)

    # y = np.array([0,1,0,1,0,1,1]).reshape(-1,1)

    clf = KNNClassfier(k=3)

    clf.fit(x,y)

    print('myknn score:',clf.score(x,y))

    from sklearn.neighbors import KNeighborsClassifier

    clf_sklearn = KNeighborsClassifier(n_neighbors=3)

    clf_sklearn.fit(x,y)

    print('sklearn score:',clf_sklearn.score(x,y))

手写数字识别

from sklearn import datasets

from KNN import KNNClassfier

import matplotlib.pyplot as plt

import numpy as  np

import time

digits = datasets.load_digits()

x = digits.data

y = digits.target

myknn_start_time = time.time()

clf = KNNClassfier(k=5)

clf.fit(x,y)

print('myknn score:',clf.score(x,y))

myknn_end_time = time.time()

from sklearn.neighbors import KNeighborsClassifier

sklearnknn_start_time = time.time()

clf_sklearn = KNeighborsClassifier(n_neighbors=5)

clf_sklearn.fit(x,y)

print('sklearn score:',clf_sklearn.score(x,y))

sklearnknn_end_time = time.time()

print('myknn uses time:',myknn_end_time-myknn_start_time)

print('sklearn uses time:',sklearnknn_end_time-sklearnknn_start_time)

可以看出处理较大数据集时，本人编写的kNN时间开销非常大，原因在于每次查找k个近邻点时都将扫描整个数据集，计算量很大，因此
k近邻（kNN）的实现还需要考虑如何最快的查找出k个近邻点，为了减少距离计算次数，可通过构造kd树，减少对大部分点的搜索、计算，kd树的构造可参考《统计学习方法》-李航

KNN Python实现的更多相关文章

《机器学习实战》之一：knn(python代码)
数据标称型和数值型算法归一化处理:防止数值较大的特征对距离产生较大影响计算欧式距离:测试样本与训练集排序:选取前k个距离,统计频数(出现次数)最多的类别 def classify0(inX, ...
KNN python实践
本文实现了一个KNN算法,准备用作词频统计改进版本之中,这篇博文是从我另一个刚开的博客中copy过来的. KNN算法是一个简单的分类算法,它的动机特别简单:与一个样本点距离近的其他样本点绝大部分属于什 ...
Python机器学习基础教程
介绍本系列教程基本就是搬运<Python机器学习基础教程>里面的实例. Github仓库使用 jupyternote book 是一个很好的快速构建代码的选择,本系列教程都能在我的Gi ...
facenet
facenet dl face recognition 一.运行facenet 验证lfw数据集效果: python2.7 src/validate_on_lfw.py ~/dataset/lfw ...
sklearn中的数据预处理----good!! 标准化归一化在何时使用
RESCALING attribute data to values to scale the range in [0, 1] or [−1, 1] is useful for the optimiz ...
机器学习实战笔记(Python实现)-01-K近邻算法(KNN)
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
基于Bayes和KNN的newsgroup 18828文本分类器的Python实现
向@yangliuy大牛学习NLP,这篇博客是数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)的Python实现.入门为主,没有太多自己的东西. 1. ...
KNN算法——python实现
二.Python实现对于机器学习而已,Python需要额外安装三件宝,分别是Numpy,scipy和Matplotlib.前两者用于数值计算,后者用于画图.安装很简单,直接到各自的官网下载回来安装即 ...
Python KNN算法
机器学习新手,接触的是<机器学习实战>这本书,感觉书中描述简单易懂,但对于python语言不熟悉的我,也有很大的空间.今天学习的是k-近邻算法. 1. 简述机器学习在日常生活中,人们很难 ...

随机推荐

Linux下查看tomcat版本
进入到tomcat的bin目录下,再执行./version.sh tomcat版本:7.0
Linux查看和修改时间、日期
1.查看时间.日期 # date Fri Jan 11 14:04:10 CST 2019 2.修改时间语法:date -s "时:分:秒" # date -s "17 ...
SpringBoot整合StringData JPA
目录 SpringBoot整合StringData JPA application.yml User.class UserRepository.java UserController SpringBo ...
SoapUI 请求 https 报 javax.net.ssl.SSLHandshakeException: Received fatal alert: handshake_failure
在 E:\ProgramFiles\SmartBear\SoapUI-Pro-5.1.2\bin\SoapUI-Pro-5.1.2.vmoptions 中添加一行代码,代码如下: -Dsoapui.h ...
go 0000
1,函数不能比较函数默认都是值传递, 除了 map 值, slice (切片) channel (管道) interface 默认以这4个默认引用传递两个 defer ...
hml页面转化成图片
<!DOCTYPE html><html><head><meta charset="utf-8"><meta name=&qu ...
JMETER之socket接口性能测试
公司的**产品经过换代升级,终于要上线了,纯java编码,包括POS(PC/安卓平板)版.WEB版.微信版,各终端通过 Webservice服务共享数据资源,因此Webservice各接口的性能测试就 ...
VUE 引入阿里图标库
本身项目是VUE, Element-UI项目, 所以内置Element-UI图标库地址如下, https://element.eleme.cn/#/zh-CN/component/icon 使用时: ...
Python 学习笔记03篇
看着直播,想着未赶完的工作真的很想学好一门编程语言
Suse linux enterprise 11安装时更改磁盘模式为gpt的方法
在进行鸟哥linux基础篇学习时,在"第3.2.2 选择安装模式与开机 -inst.gpt"中,鸟哥用到的CentOS 7需要用指令修改磁盘模式为gpt. 先用键盘选择Instal ...

KNN Python实现

KNN Python实现的更多相关文章

随机推荐

热门专题