大数据算法：kNN算法

\一、kNN算法概述

　　kNN是k-Nearest Neighbour的缩写，这是一种非常简单且易于理解的分类算法。回想我们从小到大在认知事物的过程当中，我们是如何判断一种事物是属于哪种类别的?通常的一种思路就是，分析当前这个事物与我们之前所知道的类别特征进行比对，找出最接近的一类，然后就可以把这个东西归属于这一个类别。kNN算法大致就是这么一个思路，直接通过测量不同特征值之间的距离来达到分类的目的。

　　kNN中的k是指在分类过程中，我们选择样本数据中前k个最相似的数据，以出现次数最多的分类，作为新数据的分类。这里的k通常是不大于20的正整数，k取3或者5的情况比较常见。

　　二、kNN算法的原理

　　首先是训练模型。对kNN而言，在编码过程中训练模型实际上就是记录训练集的所有数据，所以我们常说kNN没有训练模型这一过程。

　　接着是测试模型。测试过程有以下几个步骤：

　　1. 依次计算测试集数据与训练集各个数据之间的距离;

　　2. 对计算处理的距离进行递增排序;

　　3. 选择距离最小的k个数据;

　　4. 选择这k个数据中出现频率最高的类别作为测试数据的预测分类。

　　最后是评价模型。根据测试结果计算模型预测分类的准确率。

　　整个过程看上去非常简单、直观、明了。需要说明的是，文中一直提到的距离这个概念，指的是闵可夫斯基距离(Minkowski distance)，对应数学上的Lp范数。

　　当p=1时，为曼哈顿距离(Manhattan distance)，也称L1距离;

　　当p=2时，为欧式距离(Euclidean distance)，也称L2距离;

　　当p=∞时，为切比雪夫距离(distance)。

　　在我们使用kNN算法时，常用L1距离和L2距离，且以L2距离使用更多。

　　三、算法评价

　　优点：kNN是最简单、最有效的分类器;精度高;对异常值(边缘值)不敏感。

　　缺点：需要记录所有训练集的数据，空间复杂度高;需要进行大量的计算，计算复杂度高;无法提取出数据内涵的结构信息。

　　注意点：由于计算距离时使用的是离散型数据，所以kNN算法常用于特征值为数值型和标称型的数据。如果数据特征值为连续值，则需要根据实际情况，对特征值进行离散采样或者采用其他算法模型。

大数据算法：kNN算法的更多相关文章

大数据的常用算法（分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘）
在大数据时代,数据挖掘是最关键的工作.大数据的挖掘是从海量.不完全的.有噪声的.模糊的.随机的大型数据库中发现隐含在其中有价值的.潜在有用的信息和知识的过程,也是一种决策支持过程.其主要基于人工智能, ...
【ArchSummit干货分享】个推大数据金融风控算法实践
作者:个推高级数据工程师晓骏众所周知,金融是数据化程度最高的行业之一,也是人工智能和大数据技术重要的应用领域.随着大数据收集.存储.分析和模型技术日益成熟,大数据技术逐渐应用到金融风控的各个环节. ...
数据挖掘之分类算法---knn算法(有matlab例子)
knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法.注意,不是聚类算法.所以这种分类算法必然包括了训练过程. 然而和一般性的分类算法不同,knn算法是一种懒 ...
数据挖掘之分类算法---knn算法(有matlab样例)
knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法. 注意,不是聚类算法.所以这样的分类算法必定包含了训练过程. 然而和一般性的分类算法不同,knn算法是一种 ...
二. 大数据常用的算法和数据结构 <<大数据日知录>> 读书笔记
基本上是hash实用的各种举例布隆过滤器 Bloom Filter 常用来检测某个原色是否是巨量数据集合中的成员,优势是节省空间,不会有漏判(已经存在的数据肯定能够查找到),缺点是有误判(不存在的数 ...
《大数据日知录》读书笔记-ch3大数据常用的算法与数据结构
布隆过滤器(bloom filter,BF): 二进制向量数据结构,时空效率很好,尤其是空间效率极高.作用:检测某个元素在某个巨量集合中存在. 构造: 查询: 不会发生漏判(false negativ ...
大数据 --> 一致性Hash算法
一致性Hash算法一致性Hash算法(Consistent Hash)
机器学习笔记--KNN算法1
前言 Hello ,everyone. 我是小花.大四毕业,留在学校有点事情,就在这里和大家吹吹我们的狐朋狗友算法---KNN算法,为什么叫狐朋狗友算法呢,在这里我先卖个关子,且听我慢慢道来. 一 K ...
机器学习实战（笔记）------------KNN算法
1.KNN算法 KNN算法即K-临近算法,采用测量不同特征值之间的距离的方法进行分类. 以二维情况举例: 假设一条样本含有两个特征.将这两种特征进行数值化,我们就可以假设这两种特种分别 ...
机器学习【三】k-近邻(kNN)算法
一.kNN算法概述 kNN算法是用来分类的,其依据测量不同特征值之间的距离,其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类(这k个样本数据和目标数据最为相似).其精度高,对异常值不敏 ...

随机推荐

Python-OpenCV基本操作cv2
1.图片加载.显示和保存 import cv2 # 生成图片 img = cv2.imread("1.jpg") # 生成灰色图片 imgGrey = cv2.imread(&qu ...
Prometheus监控学习笔记之Prometheus监控简介
0x00 Prometheus容器监控解决方案 Prometheus(普罗米修斯)是一个开源系统监控和警报工具,最初是在SoundCloud建立的.它是一个独立的开放源码项目,并且独立于任何公司.不同 ...
使用Excel批量给数据添加单引号和逗号
表格制作过程如下: A2表格暂时为空,模板建立完成以后,用来放置原始数据: 在B2表格内输入公式: ="'"&A2&"'"&" ...
安装搭建Python2.* 和3.* 环境详细步骤
Python是跨平台的,它可以运行在Windows.Mac和各种Linux/Unix系统上. 安装Python 首先进入Python官方网站,将Python下载下来. win7安装python 在官网 ...
QT笔记之内存管理
转载:https://blog.csdn.net/myjqc/article/details/8569196 (链接错误解决办法) 我们都知道在C++中,new和delete是成对出现的,那么在QT中 ...
PreparedStatement与Statement区别
就这牛客网的一道题,进行分析PreparedStatement与Statement的区别. 题目: 关于PreparedStatement与Statement描述错误的是() A 一般而言,Prepa ...
Bootstrap3基础 nav 便签页(横版、竖版)
内容参数 OS Windows 10 x64 browser Firefox 65.0.2 framework Bootstrap 3.3.7 editor ...
Android灯光系统通知灯【转】
本文转载自:https://blog.csdn.net/danwuxie/article/details/82193880 一.通知灯应用程序的编写 1.首先实现一个按钮功能 <LinearLa ...
ssm项目部署到服务器过程
ssm项目部署到服务器过程特别篇由于准备春招,所以希望各位看客方便的话,能去github上面帮我Star一下项目 https://github.com/Draymonders/Campus-Sho ...
比赛总结——牛客网 NOIP赛前集训营提高组模拟第一场
第一场打的很惨淡啊 t1二分+前缀最小值没想出来,20分的暴力也挂了,只有10分 t2数位dp,调了半天,结果因为忘了判0的特殊情况WA了一个点,亏死 t3emmmm.. 不会 imone说是DSU ...

大数据算法：kNN算法

大数据算法：kNN算法的更多相关文章

随机推荐

热门专题