KNN python实践

本文实现了一个KNN算法，准备用作词频统计改进版本之中，这篇博文是从我另一个刚开的博客中copy过来的。

　　KNN算法是一个简单的分类算法，它的动机特别简单：与一个样本点距离近的其他样本点绝大部分属于什么类别，这个样本就属于什么类别，算法的主要步骤如下：

1.计算新样本点与已知类别数据集中样本点的距离。

2.取前K个距离最近的（最相似的）点。

3.统计这K个点所在类别出现的频率。

4.选择出现频率最高的点作为新样本点的类别。

　　KNN算法的优点在于一般精度高，对于异常的噪音数据不敏感。KNN一个明显的问题是当属于某个类别c的数据点在已知类别数据集中大量存在时，一个待预测的样本点的前K个最近的点总是存在很多类别c的点，解决这个问题的方法是计算类别的频率时，按照距离进行加权，使得离得近的点比离的远一些点更能影响类别频率排序的结果。

　　KNN算法中K值的选定非常影响最后的结果，通常可以使用交叉检验来选取合适的k。下面是仿照sikit-learn的KNeighborsClassifier的调用方式写的KNN：

class KNN_Classifier:

    def __init__(self, k):

        self.k = k

        self.train_data = None

        self.train_labels = None

    def fit(self, train_data, train_labels):

        self.train_data = normalize(train_data)

        self.train_labels = train_labels

    def predict(self, test_data):

        if (self.train_data is None) | (self.train_labels is None):

            print 'fit train data first!'

        pre_labels = []

        train_data_size = len(self.train_labels)

        #  for every data point in test set

        for x in normalize(test_data):

            #  calculate distance

            sq_diff_mat = (np.tile(x, (train_data_size, 1)) - self.train_data) ** 2

            distances = np.sum(sq_diff_mat, axis=1) ** .5

            #  get lowest k distances

            sorted_dis_indices = distances.argsort()[0: self.k]

            #  count the times class occur

            class_counts = {}

            for idx in sorted_dis_indices:

                label = labels[idx]

                class_counts[label] = class_counts.get(label, 0) + 1

            #  sort class_count dict

            sorted_class = sorted(class_counts.items(), key=lambda d: d[1], reverse=True)

            #  add max voted class to pre_labels

            pre_labels.append(sorted_class[0][0])

        return pre_labels

测试代码如下所示

    #  load data

    data, labels = load_dating_data()

    #  split data into train set and test set

    split_pos = int(len(labels) * 0.9)

    train_data = normalize(data[0: split_pos])

    train_labels = labels[0: split_pos]

    test_data = normalize(data[split_pos: len(labels)])

    test_labels = labels[split_pos: len(labels)]

    #  init classifier

    classifier = KNN_Classifier(50)

    #  fit classifier

    classifier.fit(train_data, train_labels)

    #  predict the class of test data and count error points

    error_num = (test_labels != classifier.predict(test_data)).sum()

    #  calculate error rate and print

    print 'error rate is %f' % (error_num * 1.0 / len(test_labels))

　　这里使用machine learning in action中的提供的dating data，将90%的数据用作训练数据集，10%的数据用作测试集，选取k=50算法得到的错误率为0.08。

　　下面我们来看一下如何使用scikit-learn提供的KNN实现。

scikit-learn中主要提供了2种KNN，KNeighborsClassifier和RadiusNeighborsClassifier。前者使用指定的前K个近邻来预测新样本点的类别，后者则是根据一个指定的半径，使用半径内所有的点来预测。创建一个KNN分类器时有这些重要的参数：

n_neighbors/radius: 使用近邻的个数K或半径

algorithm: 实现KNN的具体算法，如kd树等

metric: 距离的计算方法，默认为'minkowski'表示minkowski距离

p: minkowski距离中的参数p，p=1表示manhattan distance(l1范数)，p=2表示euclidean_distance (l2范数)

　　这里只列出了几个常用的参数，具体的可以参考链接。使用的方法和上面的测试代码类似，只需要将classifier替换成scikit-learn的实现就可以了。

KNN python实践的更多相关文章

机器学习算法与Python实践之（二）支持向量机（SVM）初级
机器学习算法与Python实践之(二)支持向量机(SVM)初级机器学习算法与Python实践之(二)支持向量机(SVM)初级 zouxy09@qq.com http://blog.csdn.net/ ...
Python实践：开篇
一.概述 Python实践是应用Python解决实际问题的案例集合,这些案例中的Python应用通常功能各异.大小不一. 该系列文章是本人应用Python的实践总结,会不定期更新. 二.目录 Py ...
Python实践之（七）逻辑回归（Logistic Regression）
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) zouxy09@qq.com http://blog.csdn.net/zouxy09 机器学习算法与Pyth ...
机器学习算法与Python实践之（四）支持向量机（SVM）实现
机器学习算法与Python实践之(四)支持向量机(SVM)实现机器学习算法与Python实践之(四)支持向量机(SVM)实现 zouxy09@qq.com http://blog.csdn.net/ ...
机器学习算法与Python实践之（三）支持向量机（SVM）进阶
机器学习算法与Python实践之(三)支持向量机(SVM)进阶机器学习算法与Python实践之(三)支持向量机(SVM)进阶 zouxy09@qq.com http://blog.csdn.net/ ...
MapReduce 原理与 Python 实践
MapReduce 原理与 Python 实践 1. MapReduce 原理以下是个人在MongoDB和Redis实际应用中总结的Map-Reduce的理解 Hadoop 的 MapReduce ...
机器学习算法与Python实践之（五）k均值聚类（k-means）
机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学 ...
KNN Python实现
KNN Python实现 ''' k近邻(kNN)算法的工作机制比较简单,根据某种距离测度找出距离给定待测样本距离最小的k个训练样本,根据k个训练样本进行预测. 分类问题:k个点中出现频率最高的类别作 ...
(转) K-Means聚类的Python实践
本文转自: http://python.jobbole.com/87343/ K-Means聚类的Python实践 2017/02/11 · 实践项目 · K-means, 机器学习分享到:1 原文 ...

随机推荐

Centos 6.5配置rsync+inotify实现文件实时同步
1.安装rsync(两台机器执行相同的步骤)yum install gcc yum install rsyncd xinetd -y因为rsync是由xinetd启动的,所以需要修改一个配置vim / ...
Git-本地项目和远程项目关联
此处记录将本地项目与码云仓库关联步骤 1. 本地 Git 配置配置一下一些基本的信息 $ git config--global user.name "Your Name" $ g ...
B-Tree外存数据结构 _（外存储器—磁盘）第一部分
1.外存储器—磁盘计算机存储设备一般分为两种:内存储器(main memory)和外存储器(external memory).内存存取速度快,但容量小,价格昂贵,而且不能长期保存数据(在不通电情况下 ...
【Codeforces 1105E】Helping Hiasat
Codeforces 1105 E 题意:给你m个事件,每个事件可能是以下两种之一: $1$,代表此时可以更改用户名 $2$ $s$,代表$s$来查看是否用户名与其名字相符一共有\( ...
Android学习之基础知识五—创建自定义控件
下面是控件和布局的继承关系: 从上面我们看到: 1.所有控件都是直接或间接继承View,所有的布局都是直接或间接继承ViewGroup 2.View是Android中最基本的UI组件,各种组件其实就是 ...
NDK toolchain对应ABI
有些时候,解决一些问题,我们需要多一些耐心. 从今天起,正式开始SkylineGlobe移动端Android版本的二次开发. Application.mk修改为NDK_TOOLCHAIN := arm ...
android 权限动态申请
名字其实有点让人感觉高大上"权限动态申请",其实也没有什么, 以前做Android程序的时候,比如需要打开摄像头那么需要在然后就可以了, 但是Android6.0之后呢,有些权 ...
源码篇：Python 实战案例----银行系统
import time import random import pickle import os class Card(object): def __init__(self, cardId, car ...
ADO.NET分享
看到<c#从入门到精通(第三版)>书中对ado.net里几种方法打的比方,很有意思就发一下. 1)这张图中,把数据比作水,储存了大量数据. 2)Connection对象好像进水龙头,插在水 ...
SQL Server如何查看当前数据库连接的SPID
使用SQL Server系统变量@@SPID即可: SELECT @@SPID

KNN python实践

KNN python实践的更多相关文章

随机推荐

热门专题