K-近邻（KNN）算法

1，KNN算法对未知类别属性的数据集中的每个点依次执行以下操作：

计算已知类别数据集中的点与当前点之间的距离;
按照距离递增排序;
选取与当前点距离最小的k个点;
确定前k个点所在类别的出现频率;
返回前k个点出现频率最高的类别作为当前点的预测分类;

2，代码：

from numpy import *

import operator

def createDataSet():

    group = array([[1.0, 1.1], [1.0, 1.0], [, ], [, 0.1]])

    labels = ['A', 'A', 'B', 'B']

    return group, labels

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[]    //计算行数，shape[1]时计算列数

    diffMat = tile(inX, (dataSetSize, )) - dataSet  //俩点之间的距离，坐标相减 tail(a,(b,c)) b为控制行数，c为控制列数

    sqDiffMat = diffMat ** 2   //平方

    sqDistances = sqDiffMat.sum(axis=)   //axis=1为列相加，0时为行相加

    distances = sqDistances ** 0.5   //开根号

    sortedDistIndicies = distances.argsort()  //将元素按从小到大的顺序返回下标

    classCount = {}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel, ) + 1   //get(k,v)方法，有就返回k,没有就返回v

    sortedClassCount = sorted(classCount.iteritems(),

                              key=operator.itemgetter(), reverse=True)  //定义函数key获取classcount索引为1的序列，即取classcount序列的每个元素第2个值排序

    return sortedClassCount[][]  //调用索引为0可得出分类类别

3，sort函数：

sorted函数包括四个参数即:
sorted（iterable,cmp,key,reverse）
1.iterable表示可迭代对象，包括list,str,tuple,dict,file,以及自定义
2.cmp表示自定的比较函数
3.key对比的关键词
4.reverse表示排列次序，true为降序排列，false为升序排列
在给出的knn算法中应用如下:
sortedclasscount=sorted(classcount.iteritems(),key=operator.itemgetter(1),reverse=ture)
因为之前的代码我们得到了一个字典classcount，其包括了标签与计数，即classcount=['a':5,'b':3]
由于classcount是字典，参见sorted第一个参数的定义，所以通过iteritems函数，转化为可迭代的对象。cmp这里没有定义，不解释。
key定义为对比用的关键词，即排序的参照，knn算法是选择k中出现频率最高的那一个分类，所以对应classcount索引为1的数字，则通过key=operator.itemgetter(1)，定义函数key获取classcount索引为1的序列。
reverse=ture表示降序排列
这样即通过sorted函数将字典classcount按照计数器次数从大到小排列出来了，只要调用索引为0即可得出分类类别

K-近邻（KNN）算法的更多相关文章

机器学习经典算法具体解释及Python实现--K近邻(KNN)算法
(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值 ...
机器学习-K近邻(KNN)算法详解
一.KNN算法描述 KNN(K Near Neighbor):找到k个最近的邻居,即每个样本都可以用它最接近的这k个邻居中所占数量最多的类别来代表.KNN算法属于有监督学习方式的分类算法,所谓K近 ...
TensorFlow实现knn（k近邻）算法
首先先介绍一下knn的基本原理: KNN是通过计算不同特征值之间的距离进行分类. 整体的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于 ...
k近邻(KNN)复习总结
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 6.适用场合内容: 1.算法概述 K近邻算法是一种基本分类和回归方法:分类时,根据其K个最近邻的训练实例的类 ...
K近邻分类算法实现 in Python
K近邻(KNN):分类算法 * KNN是non-parametric分类器(不做分布形式的假设,直接从数据估计概率密度),是memory-based learning. * KNN不适用于高维数据(c ...
查看neighbors大小对K近邻分类算法预测准确度和泛化能力的影响
代码: # -*- coding: utf-8 -*- """ Created on Thu Jul 12 09:36:49 2018 @author: zhen &qu ...
k近邻 KNN
KNN是通过测量对象的不同特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20 ...
理解KNN算法中的k值-knn算法中的k到底指的是什么？
2019-11-09 20:11:26为方便自己收藏学习,转载博文from:https://blog.csdn.net/llhwx/article/details/102652798 knn算法是指对 ...
1.K近邻算法
(一)K近邻算法基础 K近邻(KNN)算法优点思想极度简单应用数学知识少(近乎为0) 效果好可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程图解K近邻算法上图是以 ...
【转载】K-NN算法学习总结
声明:作者:会心一击出处:http://www.cnblogs.com/lijingchn/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接, ...

随机推荐

Spark Streaming - DStream
1 Overview Spark Streaming is an extension of the core Spark API that enables scalable, high-through ...
catalan卡塔兰数
令h(0)=1,h(1)=1,卡塔兰数数满足递归式:h(n)= h(0)*h(n-1) + h(1)*h(n-2) + ... + h(n-1)h(0) (其中n>=2),这是n阶递推关系;还可 ...
lintcode-141-x的平方根
141-x的平方根实现 int sqrt(int x) 函数,计算并返回 x 的平方根. 样例 sqrt(3) = 1 sqrt(4) = 2 sqrt(5) = 2 sqrt(10) = 3 挑战 ...
【alpha】Scrum站立会议第2次....10.17
小组名称:nice! 小组成员:李权于淼杨柳刘芳芳项目内容:约跑app 1.任务进度成员已完成今日完成李权数据库设计消息发送代码实现于淼注册.登录界面,以及登录界面后台代码.发 ...
Spring编程式事务管理及声明式事务管理
本文将深入讲解 Spring 简单而强大的事务管理功能,包括编程式事务和声明式事务.通过对本教程的学习,您将能够理解 Spring 事务管理的本质,并灵活运用之. Spring 事务属性分析事务管理 ...
RT-thread内核之定时器管理
一.前言 rt-thread采用软件定时器线程模式或硬件定时器中断模式来实现系统定时器管理.而rt-thread操作系统在默认情况下是采用的硬件定时器中断模式的方式,用户可以通过宏定义RT_USING ...
select、poll、epoll模型对比
select.poll.epoll模型对比先说Select: 1.Socket数量限制:该模式可操作的Socket数由FD_SETSIZE决定,内核默认32*32=1024. ...
[洛谷P3975][TJOI2015]弦论
题目大意:求一个字符串的第$k$大字串,$t$表示长得一样位置不同的字串是否算多个题解:$SAM$,先求出每个位置可以到达多少个字串($Right$数组),然后在转移图上$DP$,若$t=1$,初始 ...
POJ2142：The Balance——题解
http://poj.org/problem?id=2142 题目大意:有一天平和两种数量无限的砝码(重为a和b),天平左右都可以放砝码,称质量为c的物品,要求:放置的砝码数量尽量少:当砝码数量相同时 ...
LOJ2351：[JOI2017/2018决赛]毒蛇越狱——题解
https://loj.ac/problem/2351 参考:https://www.cnblogs.com/ivorysi/p/9144676.html 但是参考博客讲解太吓人了,我们换一种通俗易懂 ...

K-近邻（KNN）算法

K-近邻（KNN）算法的更多相关文章

随机推荐

热门专题