KNN简介

KNN(k-NearestNeighbor)算法的思想总结一下:就是在数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:

1.计算测试数据与各个训练数据之间的距离,选用欧式距离,计算每个点到数据集(训练集)的所有距离,

distance=((x1-x2)**2+(y1-y2)**2)**0.5

2.按照距离的递增关系进行排序,使用argsort(distances.argsort())函数,返回数据集从小到大排列的数据下表,
3.选取距离最小的K个点,与输入k值有关,使用for函数遍历k
4.确定前K个点所在类别的出现频率,class_count[label]=class_count.get(label,0)+1

5.返回前K个点中出现频率最高的类别作为测试数据的预测分类,sorted_class=sorted(class_count.items(),key=operator.itemgetter(1),reverse=True),sorted_class[0][0]。

代码如下:我们把收入工资和年龄作为数据集,进行判别某个年龄和对应收入,有没有资格谈恋爱!

 #!/usr/bin/python
# -*- coding:<utf-8> - import numpy as np
import operator def createDateset():
group=np.array([[5000,25],[2200,32],[7000,32],[26000,29],[20000,35]])
labels=('没有资格谈恋爱','有资格谈恋爱','没有资格谈恋爱','有资格谈恋爱','有资格谈恋爱')
return group,labels def classfy(input,dataSet,labels,k): datasize=dataSet.shape[0] #计算数组集的行数,numpy中shape[0]返回数组的行数,shape[1]返回列数
diffdata=np.tile(input,(datasize,1))-dataSet#np.tile(input,(datasize,1)),对测试数据进行横向复制,使其拥有与其数据集一样的维度
squrdata=diffdata**2#计算相减后的平方,欧式距离,distance=((x1-x2)**2+(y1-y2)**2)**0.5
sum_squr_data=squrdata.sum(axis=1)
distances=sum_squr_data**0#.欧式距离:distance=((x1-x2)**2+(y1-y2)**2)**0.5
print('测试的数据距离数据集的距离分别是:',distances) sorted_distance=distances.argsort()
print('距离从小到大的下标为:',sorted_distance) class_count={}
for i in range (k):
label=labels[sorted_distance[i]]
class_count[label]=class_count.get(label,0)+1#a[b]=a.get(b,0)+1,对字典a赋值,当在字典a中找到
#key为b的键值的时候,取1,找不到的时候取0并加1,即等号坐标为key,右边为value
print('class_count:',class_count)
sorted_class=sorted(class_count.items(),key=operator.itemgetter(1),reverse=True)##key=operator.itemgetter(1)根据字典的值进行排序
#key=operator.itemgetter(0)根据字典的键进行排序
print('sorted_class:',sorted_class)
return sorted_class[0][0] if __name__ == '__main__':
group,labels=createDateset()
test=(6000,36)
test_class=classfy(test,group,labels,5)
print(test_class)
#运行结果如下:
测试的数据距离数据集的距离分别是: [1 1 1 1 1]
距离从小到大的下标为: [0 1 2 3 4]
class_count: {'没有资格谈恋爱': 1}
class_count: {'没有资格谈恋爱': 1, '有资格谈恋爱': 1}
class_count: {'没有资格谈恋爱': 2, '有资格谈恋爱': 1}
class_count: {'没有资格谈恋爱': 2, '有资格谈恋爱': 2}
class_count: {'没有资格谈恋爱': 2, '有资格谈恋爱': 3}
sorted_class: [('有资格谈恋爱', 3), ('没有资格谈恋爱', 2)]
有资格谈恋爱 Process finished with exit code 0

KNN算法的优点:

1.KNN理论简单,容易实现,简单,有效。

2、KNN是一种在线技术,新数据可以直接加入数据集而不必进行重新训练

KNN算法缺点:

1.KNN算法是懒散学习方法(lazy learning,基本上不学习),一些积极学习的算法要快很多。

2.对于样本容量大的数据集计算量比较大。

3.样本不平衡时,预测偏差比较大。如:某一类的样本比较少,而其它类样本比较多。

4.KNN每一次分类都会重新进行一次全局运算。

5.k值大小的选择。

机器学习算法(KNN)的更多相关文章

  1. Python机器学习算法 — KNN分类

    KNN简介 K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.KNN分类算法属于监督学习. 最简单最初级的分类器是将全部的训练 ...

  2. 机器学习算法-K-NN的学习 /ML 算法 (K-NEAREST NEIGHBORS ALGORITHM TUTORIAL)

    1为什么我们需要KNN 现在为止,我们都知道机器学习模型可以做出预测通过学习以往可以获得的数据. 因为KNN基于特征相似性,所以我们可以使用KNN分类器做分类. 2KNN是什么? KNN K-近邻,是 ...

  3. 机器学习算法·KNN

    机器学习算法应用·KNN算法 一.问题描述 验证码目前在互联网上非常常见,从学校的教务系统到12306购票系统,充当着防火墙的功能.但是随着OCR技术的发展,验证码暴露出的安全问题越来越严峻.目前对验 ...

  4. 机器学习算法——kNN

    顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法,kNN便是其中一个. kNN算法的思想是:在训练集中选取与输入数据最近的k个邻居,统计k个邻居中出现次数最多的类别,以此作 ...

  5. 机器学习算法——kNN(k-近邻算法)

    算法概述 通过测量不同特征值之间的距离进行 [分类] 优点:精度高.对异常值不敏感.无数据输入假定. 缺点:计算复杂度高.空间复杂度高. 适用数据范围: 数值型 和 标称型 . 算法流程 数据 样本数 ...

  6. 机器学习算法K-NN的一个使用实例:预测一个人是否患有糖尿病 (KNN-Predict whether a person will have diabetes or not )

    学习中...不断更新. 在糖尿病人的数据库中有几列是不能为0的 比如葡萄糖 胰岛素 身体指数和皮肤厚度.所以在数据预处理阶段需要对这些列的数据进行替换. remeber we did 12 minus ...

  7. 【机器学习】kNN

    机器学习算法--kNN 目录 机器学习算法--kNN 1. 算法原理 2. 算法实现 2.1 kd-tree构造 2.2 kd-tree查询 2.3 kNN算法实现 3. 算法测试 Ref 1. 算法 ...

  8. JavaScript机器学习之KNN算法

    译者按: 机器学习原来很简单啊,不妨动手试试! 原文: Machine Learning with JavaScript : Part 2 译者: Fundebug 为了保证可读性,本文采用意译而非直 ...

  9. 机器学习:k-NN算法(也叫k近邻算法)

    一.kNN算法基础 # kNN:k-Nearest Neighboors # 多用于解决分裂问题 1)特点: 是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集 ...

随机推荐

  1. salt-api安装与配置

    一,安装部分[root@LCB-U-syng01 ~]#wget https://pypi.python.org/packages/source/p/pip/pip-1.5.6.tar.gz#md5= ...

  2. WebService 的CXF框架 WS独立服务之HelloWorld

    WebService:不同系统不同语言的数据交互, CXF主要分为两种服务方式: 1 )JAX-WS:传输数据, xml格式,基于SOAP协议(规范:规定了xml传递数据的编码规范) ; 2 )JAX ...

  3. mysql数据表的字段操作

    CREATE TABLE `users` ( `id` int(11) NOT NULL AUTO_INCREMENT, `username` varchar(255) DEFAULT NULL, ` ...

  4. PAT A1097 Deduplication on a Linked List (25 分)——链表

    Given a singly linked list L with integer keys, you are supposed to remove the nodes with duplicated ...

  5. Linux加密、安全版块、root密码破解

    当一个入侵者进入了你的系统并且种植了木马,通常会想办法来隐蔽这个木马(除了木马自身的一些隐蔽特性外,他会尽量给你检查系统的过程设置障碍),通常入侵者会修改一些文件,比如管理员通常用ps -aux来查看 ...

  6. AI 朴素贝叶斯分类

    1.条件概率 P(A|B)表示在事件B已经发生的条件下,事件A发生的概率.计算公式:P(A|B)=P(AB)/P(B). 2.相互独立事件 对于相互独立事件A和B,它们发生的概率互不影响,P(AB)= ...

  7. ASP.NET Log4net 记录日志

    1.安装方式一(官网下载) 2.安装方式二(NuGet安装log4net) 3.使用步骤 4.自定义属性:UserIP UserName ActionsClick Message 概述:Log4net ...

  8. Luogu3350 ZJOI2016 旅行者 最短路、分治

    传送门 题意:给出一个$N \times M$的网格图,边有边权,$Q$组询问,每组询问$(x_1,y_1)$到$(x_2,y_2)$的最短路.$N \times M \leq 2 \times 10 ...

  9. BZOJ4237 JOISC2014 稻草人 CDQ分治、单调栈

    传送门 题意:给出平面上$N$个点,求满足以下两个条件的矩形:①左下角与右上角各有一个点:②矩形内部没有点.$N \leq 2 \times 10^5$,所有数字大于等于$0$,保证坐标两两不同 最开 ...

  10. UVA1265 Tour Belt Kruskal重构树、倍增、树上差分

    题目传送门 题意:定义$Tour \, Belt$为某张图上的一个满足以下条件的点集:①点集中至少有$2$个点②任意两点互相连通③图上两个端点都在这个点集中的边的权值的最小值严格大于图上只有一个端点在 ...