KNN-K近邻算法(1)

Zz_moi 2024-09-08 13:41:24 原文

KNN(K-nearest neighbors)

思想简单
数学所需知识少（近零）
效果好
可解释机器学习算法使用过程中的很多细节问题
更完整的刻画机器学习应用的流程
天然可解决多分类问题
可解决回归问题

K近邻本质：如果两个样本足够相似，那么它们就有可能属于同一类别。

e.g. 绿色的点是新加入的点，取其最近的k（3）个点作为小团体来投票，票数高的获胜（蓝比红-3：0）,所以绿点应该也是蓝点

计算距离：

最常见 -> 欧拉距离，求a, b两点的距离（二维，三维，多维）：

->

理解小笔记：(（a样本第一个维度特征-b样本第一个维度特征）² + （a样本第二个维度特征-b样本第二个维度特征）² + ... ) 再开根

近乎可以说，KNN算法是机器学习中唯一一个不需要训练过程的算法。输入用例可直接送给训练数据集。

KNN可以被认为是没有模型的算法
为和其他算法统一，可认为其训练数据集本身就是模型

使用KNN解决回归问题

绿点的值即可设为离它最近的三个点的（加权）平均值

KNN缺点

最大缺点：效率低下。

如果训练集有m个样本，n个特征，则预测每一个新的数据，都需要计算它与每一个点之间的距离(共m个点)，每计算一个点的距离就需要O(n)的时间复杂度。

每预测一个，共需要O(m*n)的时间复杂度。

优化，使用树的结构：KD-Tree， Ball-Tree

缺点2：高度数据相关

尽管所有的机器学习算法都是根据给定的数据集来学习，都是高度数据相关的。但KNN相对而言对outlier更加敏感。例如加入使用k=3，当预测点旁有两个错误数据就足以导致预测结果的错误。

缺点3：预测结果不具有可解释性

往往实际应用中我们只知道结果是什么是不够的，我们需要知道为什么是这样的结果从而得到某种规律可以进行推广。

缺点4：维数灾难

随维度的增加，“看似相近”的两个点之间的距离越来越大

解决方法：降维

超参数

指在算法运行前需要决定的参数。

与之相对的模型参数指：算法过程中学习的参数。

KNN算法中没有模型参数，其中K是典型的超参数。

寻找好的超参数：

领域知识
经验数值
实验搜索：尝试测试几组不同的超参数，找到最好的配对

KNN中的其他超参数？ -> 距离权重

权重一般取距离的倒数。

考虑距离权重的另一个好处：可解决平票问题

不考虑距离时，红蓝紫平票，模型会随机选一个颜色作为输出结果。但很明显这是不合理的（滑稽脸）。而加入距离权重后，则小红获胜（合情合理有理有据）。

更多的距离定义

之前说到的距离都是欧拉距离。还有一种常见的距离叫曼哈顿距离。

定义为：两点在每个维度上距离的和。如上图例子中黑色两点的曼哈顿距离即它两在x方向上的差值加上y方向上的差值。所有彩线的曼哈顿距离都相同（其中绿线即欧拉距离）

推广一下可发现：

-> 曼哈顿距离

-> 欧拉距离

-> 明可夫斯基距离Minkowski distance

当p=1时，明可是曼哈顿距离，p=2时，变身成曼哈顿距离，p=其他数，其他距离的表示方式。

【系统提示】叮咚！又获得一个新的超参数，p

由sklearn中叫metric的超参数控制，默认为明可夫斯基距离

向量空间余弦相似度 Cosine Similarity
调整余弦相似度 Adjusted Cosine Similarity
皮尔森相关系数 Pearson Correlation Coefficient
Jaccard相似系数 Jaccard Coefficient

KNN-K近邻算法(1)的更多相关文章

基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
第四十六篇入门机器学习——kNN - k近邻算法（k-Nearest Neighbors）
No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...
KNN K~近邻算法笔记
K~近邻算法是最简单的机器学习算法.工作原理就是:将新数据的每一个特征与样本集中数据相应的特征进行比較.然后算法提取样本集中特征最相似的数据的分类标签.一般来说.仅仅提取样本数据集中前K个最相似的数据 ...
KNN (K近邻算法) - 识别手写数字
KNN项目实战——手写数字识别 1. 介绍 k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法.它的工作原理是:存在一个 ...
kNN(k近邻)算法代码实现
目标:预测未知数据(或测试数据)X的分类y 批量kNN算法 1.输入一个待预测的X(一维或多维)给训练数据集,计算出训练集X_train中的每一个样本与其的距离 2.找到前k个距离该数据最近的样本-- ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
k近邻算法(KNN)
k近邻算法(KNN) 定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. from sklearn.model_selection ...
1. K近邻算法（KNN）
1. K近邻算法(KNN) 2. KNN和KdTree算法实现 1. 前言 K近邻法(k-nearest neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用, ...
机器学习：k-NN算法（也叫k近邻算法）
一.kNN算法基础 # kNN:k-Nearest Neighboors # 多用于解决分裂问题 1)特点: 是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集 ...

随机推荐

设置webbrowser浏览器内核
var hklm = Microsoft.Win32.Registry.LocalMachine; var lmRun64 = hklm.OpenSubKey(@"SO ...
开源一个Mac漂亮的小工具 PPRows for Mac, 在Mac上优雅的计算你写了多少行代码
开源一个Mac漂亮的小工具 PPRows for Mac, 在Mac上优雅的计算你写了多少行代码. 开源地址: https://github.com/jkpang/PPRows
IntentFilter的相关问题解析
IntentFilter是配合Intent而生的,你有目标行动或者结果,那么那些行动和结果就会有他完成的特定要求,这些要求就是IntentFilter,可以理解为Intent和IntentFilter ...
sql语句中截取字符串
今天在开发过程中因为要用到合并单元格,在程序里实现了以后,查出来的数据太长,都把格式撑大了,后来想想可以在sql语句查询的时候就截取,就去网上找了一下,挺好用,就转了过来: 合并单元格: /// &l ...
简单探讨弹性布局flex
css 弹性布局: 盒子模型: box-sizing属性1.content-box 正常的普通的盒子模型用padding和border会使盒子变大:(向外扩张)2.border-box 盒子模型,pa ...
glm 矩阵乘法得反过来写
C#斐波那契数列递归算法
public static int Foo(int i) { if (i < 3) { return 1; ...
Swift 关键字 inout - 让值类型以引用方式传递
两种参数传递方式值类型传递的是参数的一个副本,这样在调用参数的过程中不会影响原始数据. 引用类型把参数本身引用(内存地址)传递过去,在调用的过程会影响原始数据. 在 Swift 众多数据类型中, ...
js 脚本语言
字符串转换为数字 parseInt(string) .parseFloat().Number() 参考博客:https://zhidao.baidu.com/question/629898532158 ...
bzoj3994: [SDOI2015]约数个数和（反演+结论？！）
这题做的历程堪称惊心动魄刚刚学了莫比乌斯反演的我高高兴兴的和cbx一起反演式子期间有突破,有停滞,有否定然后苟蒻的我背着cbx偷偷打开了题解看到了我...... 去你的有个性质啊(当然还是自 ...