机器学习之K近邻算法（KNN）

标签： python 算法 KNN 机械学习

苛求真理的欲望让我想要了解算法的本质，于是我开始了机械学习的算法之旅

from numpy import *

import operator

from collections import Counter

#KNN需要测试集，训练集，标签和k值

#测试集：你需要测试的数据

#训练集：给定的标准数据

#标签：每个标准数据的类别

#k值 ：测试集和训练集相比较下前K个最相识的训练集的值

# 用KNN算法找出测试集的类别

#1，求出已知类别训练集中的点与当前点之间的距离

#2，对所求距离以此递增排序

#3，选取与当前点距离最小的k个点

#4，确定前k个点所在类别的出现频率

#5，返回前k个点出现频率最高的类别作为当前点的预测分类

def kNNClassify(testSet, trainSet, labels, k=3):

    rows = trainSet.shape[0] #shape[0]得到训练集的行数

    #求距离

    distSet = tile(testSet, (rows, 1)) - trainSet #得到距离矩阵

    distance = sum(distSet ** 2 , axis = 1) ** 0.5 # 求出距离

    #排序

    #得到排序后数据原位置的下标，排序后位置是不变的

    #从而使得排序后的结果和trainSet的标签一一对应

    #然后就可以通过排序结果反向得到标签值

    sortedDistIndices = argsort(distance) 

    #选取k个最小值

    classCount = Counter()# 保存类别

    #记录k值内相同标签出现的次数

    [classCount.update([labels[sortedDistIndices[i]]]) for i in xrange(k)]

    ## 得到出现次数最多的标签类别

    return sorted(classCount.iteritems(), key=lambda d:d[1], reverse = True )[0][0]

if __name__ == '__main__':

    #然后我们在命令行中测试

    trainSet = array([

            [1.0, 0.9],

            [1.0, 1.0],

            [0.1, 0.2],

            [0.0, 0.1]])

    labels = ['A', 'A', 'B','B'] # 4个标签,2种类别

    testSet = array([1.2, 1.0])  

    label = kNNClassify(testSet, trainSet, labels, k=3)

    print "输入:", testSet, "分类: ", label  

    testSet = array([0.1, 0.3])

    label = kNNClassify(testSet, trainSet, labels, k=3)

    print "输入:", testSet, "分类: ", label

输入: [ 1.2  1. ] 分类:  A

输入: [ 0.1  0.3] 分类:  B

机器学习之K近邻算法（KNN）的更多相关文章

k近邻算法(KNN)
k近邻算法(KNN) 定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. from sklearn.model_selection ...
【机器学习】k近邻算法（kNN）
一.写在前面本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...
机器学习(四) 分类算法--K近邻算法 KNN (上)
一.K近邻算法基础 KNN------- K近邻算法--------K-Nearest Neighbors 思想极度简单应用数学知识少 (近乎为零) 效果好(缺点?) 可以解释机器学习算法使用过程中 ...
机器学习(四) 机器学习(四) 分类算法--K近邻算法 KNN (下)
六.网格搜索与 K 邻近算法中更多的超参数七.数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度八.scikit-learn 中的 Scaler preprocess ...
一看就懂的K近邻算法(KNN)，K-D树，并实现手写数字识别！
1. 什么是KNN 1.1 KNN的通俗解释何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1 ...
机器学习中 K近邻法(knn)与k-means的区别
简介 K近邻法(knn)是一种基本的分类与回归方法.k-means是一种简单而有效的聚类方法.虽然两者用途不同.解决的问题不同,但是在算法上有很多相似性,于是将二者放在一起,这样能够更好地对比二者的异 ...
《机器学习实战》---第二章 k近邻算法 kNN
下面的代码是在python3中运行, # -*- coding: utf-8 -*- """ Created on Tue Jul 3 17:29:27 2018 @au ...
机器学习之K近邻算法
K 近邻 (K-nearest neighbor, KNN) 算法直接作用于带标记的样本,属于有监督的算法.它的核心思想基本上就是近朱者赤,近墨者黑. 它与其他分类算法最大的不同是,它是一种&quo ...
k近邻算法(knn)的c语言实现
最近在看knn算法,顺便敲敲代码. knn属于数据挖掘的分类算法.基本思想是在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别.俗话叫,"随大流&q ...

随机推荐

ZooKeeper笔记--集群安装配置【转】
ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization).命名服务(Naming S ...
如何在项目中使用gtest1.6
问题 gtest1.6版本的README里说该版本不支持make install,其意思就是说你没法通过make命令把gtest安装到/usr/local/lib之类的目录,所以你也没办法通过下面的命 ...
mysql安装图解 mysql图文安装教程(详细说明)-[转]
很多朋友刚开始接触mysql数据库服务器,下面是网友整理的一篇mysql的安装教程,步骤明细也有详细的说明. MySQL5.0版本的安装图解教程是给新手学习的,当前mysql5.0.96是最新的稳定版 ...
智能卡 APTU命令
一条命令APDU含有一个头标和一个本体.本体可有不同长度,或者在相关数据字段为空时,整个可以不存在. 头标由四个数据元组成,它们是类CLA(ClAss)字节,命令INS(INStructic,n)字 ...
基于Redis的消息订阅/发布
在工业生产设计中,我们往往需要实现一个基于消息订阅的模式,用来对非定时的的消息进行监听订阅. 这种设计模式在总线设计模式中得到体现.微软以前的WCF中实现了服务总线 ServiceBus的设计模式. ...
Powershell 设置数值格式 1
设置数值格式 1 6 6月, 2013 在 Powershell tagged 字符串 / 数字 / 文本 / 日期 / 格式化 by Mooser Lee 格式化操作符 -f 可以将数值插入到字符 ...
什么时候该使用NoSQL存储数据库？
原文地址:http://www.jdon.com/39240 文章总结以下几点:1.频繁写,很少读统计数据,比如点击率,应该使用基于内存的in-memory的key/value存储数据库如Redis, ...
符号表实现（Symbol Table Implementations）
符号表的实现有很多方式,下面介绍其中的几种. 乱序(未排序)数组实现这种情况,不需要改变数组,操作就在这个数组上执行.在最坏的情况下插入,搜索,删除时间复杂度为O(n). 有序(已排序)数组实现这 ...
c语言结构体数组定义的三种方式
struct dangdang { ]; ]; ]; int num; int bugnum; ]; ]; double RMB; int dangdang;//成员名可以和类名同名 }ddd[];/ ...
tomcat动态映射路径
写了一个工具类,将上传文件功能保存文件的目录移到webapps目录外面,通过动态生成xml映射文件到tomcat\conf\Catalina\localhost目录下从而实现目录映射.可以被http直 ...

机器学习之K近邻算法（KNN）

机器学习之K近邻算法（KNN）

机器学习之K近邻算法（KNN）的更多相关文章

随机推荐

热门专题