1. 算法原理：

K-邻近算法的原理很简单，就是用你的“邻居”来推断出你的类别。用于离散型数据分析处理。

例子1：如下图有ABCD四个用于参考的样本点，都已知晓自己的坐标位置，这时E来了，不清楚自己的位置，就分别计算出于ABCD个点的距离，发现和A最近，就认为与A的位置相同（既“类别“”相同）。

例子2：看到好多教程用过的一个例子，如下图所示。根据样本出现的不同类别的镜头数量判断未知电影的属于什么类别，也是算出与各个样本的距离，然后做出判别。

专业定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
来源：KNN算法最早是由Cover和Hart提出的一种分类算法

2. 距离计算，K值说明

根据原理和定义，有两个陌生的词。

（1）距离计算公式

两个样本的距离可以通过如下公式计算，又叫欧式距离。相似的样本，特征之间的值应该都是相近的。
比如说，a(a1,a2,a3),b(b1,b2,b3)

（2）K的取值

所谓K值就是设置一个比较上限，就比如上面的例子2中，总共6个样本，如果K=1，即只参考距离最小的那个样本，这个样本为爱情片就预测成爱情片，如果K=3，就参考距离最低的三个值，发现100%都是爱情片，如果K=5，则发现爱情片占比60%，如果K=6，各占比50%，没法给结果了。所以K值不一定如例子1一样只为1，也可设成其他数用于给最终结果投票。

注：

如果K值取很小则容易受异常点影响，如果K值取很大则容易受样本k值数量（类别）波动。所以就有调参的过程了，选取一个合适的k值。

3. K-邻近算法的数据要求

需要进行标准化，若不标准，数值大的特征将决定性的影响最终结果，标准化后，各个特征的权重比例均衡了。

4. K-邻近算法的优缺点

优点：简单，易于实现，无需估计参数，无需训练，结果固定，无迭代过程。

缺点：因为每次都要跟所有样本进行计算，计算量大，内存消耗大，且必须指定K值，K值选定不当则分类精度不能保证。

使用场景：小数据场景，因为缺点较多，大部分时候都不用。

5. 实例训练

# coding=utf-8

from sklearn.neighbors import KNeighborsClassifier

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

import pandas as pd

def knncls():

    """

    K-邻近预测用户签到位置

    :return: None

    """

    # 读取数据 数据来源：https://www.kaggle.com/c/facebook-v-predicting-check-ins/data

    data = pd.read_csv("./train.csv")

    # print(data.head(10))

    # 处理数据

    # 1、缩小数据，查询数据筛选

    data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y > 7.5")

    # 2、处理时间

    time_value = pd.to_datetime(data["time"], unit="s")

    # print(time_value)

    # 构造特征

    time_value = pd.DatetimeIndex(time_value)

    data["day"] = time_value.day

    data["hour"] = time_value.hour

    data["weekday"] = time_value.weekday

    # 把时间戳特征删除

    data = data.drop(['time'], axis=1)

    # print(data)

    # 把签到数量少于n个目标位置删除

    place_count = data.groupby('place_id').count()

    # print(place_count)

    tf = place_count[place_count.row_id > 3].reset_index()

    # print(tf)

    data = data[data['place_id'].isin(tf.place_id)]

    data = data.drop(['row_id'], axis=1)

    # print(data)

    # 取出数据当中的特征值和目标值

    y = data['place_id']

    x = data.drop(['place_id'], axis=1)

    # 进行数据的分割训练集和测试集

    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

    # 特征工程（标准化）

    std = StandardScaler()

    # 对测试集和训练集的特征值标准化

    x_train = std.fit_transform(x_train)

    x_test = std.transform(x_test)

    # 进行算法流程

    knn = KNeighborsClassifier(n_neighbors=5)

    knn.fit(x_train, y_train)

    # 得出预测结果

    y_predict = knn.predict(x_test)

    print("预测的目标签到位置为：", y_predict)

    print("预测的准确率：", knn.score(x_test, y_test))

if __name__ == '__main__':

    knncls()

以上内容仅供相互学习，是作者根据学习教程做的笔记。

算法总结1：K-邻近算法的更多相关文章

机器学习算法及代码实现–K邻近算法
机器学习算法及代码实现–K邻近算法 1.K邻近算法将标注好类别的训练样本映射到X(选取的特征数)维的坐标系之中,同样将测试样本映射到X维的坐标系之中,选取距离该测试样本欧氏距离(两点间距离公式)最近 ...
《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...
Python实现kNN（k邻近算法）
Python实现kNN(k邻近算法) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>op ...
监督学习——K邻近算法及数字识别实践
1. KNN 算法 K-近邻(k-Nearest Neighbor,KNN)是分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似( ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...
<机器学习实战>读书笔记--k邻近算法KNN
k邻近算法的伪代码: 对未知类别属性的数据集中的每个点一次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离: (2)按照距离递增次序排列 (3)选取与当前点距离最小的k个点 (4)确定 ...
[机器学习实战] k邻近算法
1. k邻近算法原理: 存在一个样本数据集,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对 ...
kaggle赛题Digit Recognizer：利用TensorFlow搭建神经网络（附上K邻近算法模型预测）
一.前言 kaggle上有传统的手写数字识别mnist的赛题,通过分类算法,将图片数据进行识别.mnist数据集里面,包含了42000张手写数字0到9的图片,每张图片为28*28=784的像素,所以整 ...
2 kNN-K-Nearest Neighbors algorithm k邻近算法（二）
2.3 示例:手写识别系统 2.3 .1 准备数据:将图像转换为测试向量训练样本:trainingDigits 2000个例子,每个数字大约200个样本测试数据:testDigits 大约900个 ...
机器学习：k-NN算法（也叫k近邻算法）
一.kNN算法基础 # kNN:k-Nearest Neighboors # 多用于解决分裂问题 1)特点: 是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集 ...

随机推荐

python yield的终极解释
(译)Python关键字yield的解释(stackoverflow): http://stackoverflow.com/questions/231767/the-python-yield-keyw ...
#运算符、不同的指针类型、数组和指针、指针运算、堆、栈、静态区、只读区、下标VS指针
#运算符:用于在预编译期将宏参数转换为字符串 #define CONVERS(x) #x //注:没用双引号包括. 不同类型的指针占用的内存空间大小相同. 局部变量定义: a[5]; 打印a[ ...
PAT 1115 Counting Nodes in a BST[构建BST]
1115 Counting Nodes in a BST(30 分) A Binary Search Tree (BST) is recursively defined as a binary tre ...
sqlserver 2005/2008 导入超大sql文件
SQLCMD -E -dmaster -ic:\Scripts\create_db.sql 安装了Microsoft® SQL Server® 2008 R2 Native Client可用
C#中获取音频文件时长
1.在项目中添加引入:COM组件的Microsoft Shell Controls And Automation 2.在引用中找到Shell32,点击右键,在属性中将“嵌入互操作类型”的值改为“fal ...
SQL Server 创建游标（cursor）
游标的定义: 游标则是处理结果集的一种机制,它可以定位到结果集中的某一行,也可以移动游标定位到你所需要的行中进行操作数据.与 select 语句的不同是,select 语句面向的是结果集,游标面向的是 ...
[笔记] Ubuntu 18.04安装Docker CE及nvidia-docker2流程
Docker的好处之一,就是在Container里面可以随意瞎搞,不用担心弄崩Host的环境. 而nvidia-docker2的好处是NVidia帮你配好了Host和Container之间的CUDA相 ...
NGUI混合FingerGesture《卷一》统一坐标
问题背景使用FingerGesture 获取触碰点2D坐标, 将该2D坐标赋值给NGUI元素,发现位置出现偏差. 排查思路 1:NGUI的 (0,0,0)默认位置是在屏幕正中心.而FingerGes ...
JMS--消息头
一个消息对象分为三部分:消息头(Headers),属性(Properties)和消息体(Payload).对于StreamMessage和MapMessage,消息本身就有特定的结构,而对于TextM ...
c++之旅:函数模板
函数模板函数模板主要是泛型在函数的中的应用,通过泛型可以让函数处理各种各样的数据类型简单的列子 #include <iostream> using namespace std; tem ...

算法总结1：K-邻近算法