0x00 概述

K近邻算法是机器学习中非常重要的分类算法。可利用K近邻基于不同的特征提取方式来检测异常操作，比如使用K近邻检测Rootkit，使用K近邻检测webshell等。

0x01 原理

距离接近的事物具有相同属性的可能性要大于距离相对较远的。这是K邻近的核心思想。

K邻近 K-Nearest Neighbor,KNN 算法,KNN指K个最近的邻居，可认为每个样本都能用与它最相近的K个邻居来代表。

算法核心思想

一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并且具有这个类别里样本的特性。

使用场合

类域交叉或重叠较多的待分样本集

KNN算法中细分3个小算法

Brute Force
K-D Tree
Ball Tree

0x02 代码详解

0x02.1 Ball Tree 演示

设置初始数据集这里自己定义了一个小的数据集

>>> X = np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]])
调用Scikit-Learn的KNN算法,设置邻居数为2，进行训练

>>> from sklearn.neighbors import NearestNeighbors  # 从调用sklearn库中的neighbors模块调用KNN

>>> import numpy as np                       # 调用numpy库

>>> X = np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]]) # 设置训练的数据集

>>> nbrs=NearestNeighbors(n_neighbors=2,algorithm='ball_tree').fit(X) # 设置邻居数，设置训练的算法。

>>> distances,indices=nbrs.kneighbors(X)   # 开始训练，返回结果

>>> print(indices)

>>> print(distances)

有些不理解，查找官方文档

URL-》https://scikit-learn.org/dev/modules/generated/sklearn.neighbors.NearestNeighbors.html?highlight=#sklearn.neighbors.NearestNeighbors

注意是先返回了距离，然后返回了下标，一开始有点懵，为什么自己在和自己比？？而不是哪数据集和某个点比

后面仔细看看就明白了

运行结果

直接看不好看懂，但是实际上根据邻居数和官方文档可以这么理解。

邻居数就是一个点周围离它最近的点。

针对一个点 [-1,-1] 与它对应的下标 [0 1] 表示第1个样本和第2个样本距离对应 [0,1] 表示第一个点与第一个点之间的距离，第一个点与第二个点之间的距离。

其余点都是这种规律。

加入一行代码，直接抽象表示每个点的2个邻居

>>> nbrs.kneighbors_graph(X).toarray()

可以看到用1去模拟实现了不同点的邻居。

0x02.2 KNN下的监督学习

from sklearn.neighbors import KNeighborsClassifier

x=[[0],[1],[2],[3]]

y=[0,0,1,1]

neigh=KNeighborsClassifier(n_neighbors=3)

neigh.fit(x,y)

print(neigh.predict([[1.1]]))

print(neigh.predict_proba([[0.9]]))

代码审计 - 从sklear的分类算法里选择KNeighborsClassifier

然后设置邻居数通过.fit函数对数据集进行拟合

neigh.predict 去预测 [1.1] 会被分成什么类

正常运行结果
修改了数据进行标签预测后

可以看出总共只有2个标签一个是0 一个是1 然后根据你输入的数据进行分类，通过neigh.predict_proba 输出被分在不同标签中的概率。

机器学习算法之K近邻算法的更多相关文章

机器学习随笔01 - k近邻算法
算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
02机器学习实战之K近邻算法
第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
机器学习 Python实践-K近邻算法
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...
《机器学习实战》-k近邻算法
目录 K-近邻算法 k-近邻算法概述解析和导入数据使用 Python 导入数据实施 kNN 分类算法测试分类器使用 k-近邻算法改进约会网站的配对效果收集数据准备数据:使用 Python ...
机器学习：1.K近邻算法
1.简单案例:预测男女,根据身高,体重,鞋码 import numpy as np import matplotlib import sklearn from skleran.neighbors im ...
《机器学习实战》——K近邻算法
三要素:距离度量.k值选择.分类决策原理: (1) 输入点A,输入已知分类的数据集data (2) 求A与数据集中每个点的距离,归一化,并排序,选择距离最近的前K个点 (3) K个点进行投票,票数最 ...

随机推荐

Redis——急速安装并设置自启（CentOS）
现状对于开发人员来说,部署服务器环境并不是一个高频操作.所以就导致绝大部分开发人员不会花太多时间去学习记忆,而是直接百度(有一些同学可能连链接都懒得收藏).所以到了部署环境的时候就头疼,甚至是抗拒. ...
12- Jmeter逻辑控制器
正则表达式 -1代表所有 1代表第一个 0表示随机逻辑控制器仅一次控制器转换控制器(广义并发,构造混合场景) 引入函数助手并发: 广义并发的并发: 还可以添加两个线程组: 一个线程组访问首页 ...
Windows驱动派遣函数的学习
//派遣处理例程的介绍: //IPR简介: //IRP全称(I/O Request Package),即输入输出请求包.他是windows驱动的重要概念,用户模式下所有对驱动程序的I/O请求,全部由操 ...
hdu4179 限制最短路
题意: 这个题目估计读懂题意就ok了,关键是题意蛋疼,像我这样的英语渣渣活着可真难啊,题意大体是这样,给你n个点m条无向边,给你起点和终点,让你求从起点到终点的最短路径,其中有一些限制: ...
Android Hook框架adbi的分析(1)---注入工具hijack
本文博客地址:http://blog.csdn.net/qq1084283172/article/details/74055505 一.Android Hook框架adbi的基本介绍 adbi是And ...
Windows 签名伪造工具的使用,Python,签名
#!/usr/bin/env python3 # LICENSE: BSD-3 # Copyright: Josh Pitts @midnite_runr import sys import stru ...
metasploit console 命令解释
折腾几天,总算是在虚拟机中安装好了4.2版本的metasploit,能够成功打开console,这里将metasploit console的指令用中文翻一下: 原文及翻译: back Move bac ...
40 图｜我用 Mac M1 玩转 Spring Cloud
我的开源 Spring Cloud 项目 PassJava 一直可以在 Windows 上正常运行,最近不是换 Mac M1 了么,想把这个项目在 M1 上跑起来,毕竟我的那台 Windows 用起来 ...
(Py练习)输入某年某月判断天数
# 输入某年某月,判断这一天是这一年的第几天 year = int(input("year:\n")) month = int(input("month:\n" ...
Python内置函数(Built-in Function)
直接查看编码以及示例: 1 """ 2 内置函数 Built-in Function 3 """ 4 5 # abs() 取绝对值 6 pr ...

机器学习算法之K近邻算法