机器学习算法——kNN（k-近邻算法）

算法概述

通过测量不同特征值之间的距离进行 [分类]

优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高。
适用数据范围: 数值型 和 标称型 。

算法流程

数据
- 样本数据（多维多行数据 + 标签）
- 预测数据（多维一行数据）

比较预测数据与样本数据的距离
- 欧氏距离
  
  $\operatorname{dist}(X, Y)=\sqrt{\sum_{i=1}^{{n}\left(x_{i}-y_{i}\right)}{2}}$
将样本数据按照距离从小到大排序
选取前 k 个样本数据，取出现次数最多的样本标签作为预测数据的分类标签

代码示例

import collections

import numpy as np

def culEuDistance(x1, x2):

    """

    计算欧氏距离

    """

    return ((x1 - x2)**2).sum()**0.5

def knn(X, dataSet, labels, k):

    """

    比较预测数据与历史数据集的欧氏距离，选距离最小的k个历史数据中最多的分类。

    :param X:           需要预测的数据特征

    :param dataSet:     历史数据的数据特征

    :param labels:      与dataSet对应的标签

    :param k:           前k个

    :return:            label标签

    """

    if isinstance(dataSet, list):

        dataSet = np.array(dataSet)

    rowNum = dataSet.shape[0]

    X = np.tile(X,(rowNum,1))

    distances = np.empty(rowNum)

    for row in range(rowNum):

        distances[row] = culEuDistance(X[row], dataSet[row])

    sortedIdx = distances.argsort()

    candidates = []

    for i in range(k):

        candidates.append(labels[sortedIdx[i]])

    return collections.Counter(candidates).most_common(1)[0][0]

if __name__ == "__main__":

    # print(culEuDistance(np.array([3,4]), np.array([2,1])))

    X = [101,20]

    dataSet = [[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]]

    labels = ['爱情片','爱情片','爱情片','动作片','动作片','动作片']

    print(knn(X,dataSet,labels,k=3))

    # 动作片

机器学习算法——kNN（k-近邻算法）的更多相关文章

机器学习随笔01 - k近邻算法
算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. ...
第四十六篇入门机器学习——kNN - k近邻算法（k-Nearest Neighbors）
No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
02机器学习实战之K近邻算法
第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k ...
机器学习算法之K近邻算法
0x00 概述 K近邻算法是机器学习中非常重要的分类算法.可利用K近邻基于不同的特征提取方式来检测异常操作,比如使用K近邻检测Rootkit,使用K近邻检测webshell等. 0x01 原理 ...
KNN K~近邻算法笔记
K~近邻算法是最简单的机器学习算法.工作原理就是:将新数据的每一个特征与样本集中数据相应的特征进行比較.然后算法提取样本集中特征最相似的数据的分类标签.一般来说.仅仅提取样本数据集中前K个最相似的数据 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
机器学习 Python实践-K近邻算法
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...

随机推荐

SpringSecurity中的Authentication信息与登录流程
目录 Authentication 登录流程一.与认证相关的UsernamePasswordAuthenticationFilter 获取用户名和密码构造UsernamePasswordAuthe ...
npm 报错 cb.apply is not a function
解决方法1 目录C:\Users(your username)\AppData\Roaming 有个npm文件夹删除如果没有 npm cache文件cmd下运行 npm clean cache —f ...
odoo10中的邮件提醒
odoo10中邮件提醒配置如下: 1.配置出向邮件服务器打开开发者模式,设置-->技术-->email-->出向邮件服务器设置如下: 如果配置成功,点击’测试连接‘,会出现如下弹 ...
JS语法_集合
数组方法 forEach // no-log Array.prototype.forEach_ = function (cb) { let len = this.length for (let i = ...
超详细！盘点Python中字符串的常用操作
在Python中字符串的表达方式有四种一对单引号一对双引号一对三个单引号一对三个双引号 a = 'abc' b= "abc" c = '''abc''' d = " ...
【源码讲解】Spring事务是如何应用到你的业务场景中的？
初衷日常开发中经常用到@Transaction注解,那你知道它是怎么应用到你的业务代码中的吗?本篇文章将从以下两个方面阐述Spring事务实现原理: 解析并加载事务配置:本质上是解析xml文件将标签 ...
Django循环创造div后，对各个div操作后触发事件，传递数据（Django九）
前面我用for循环创建了div,每个div中有各自的数据以及同样的布局效果图如下:部分代码如下: 现在,我希望在点击每个div里的发表按钮时,能在js里获取{{problem.pro_id}}以及{ ...
vue父子组件状态同步的最佳方式续章(v-model篇)
大家好!我是木瓜太香!一名前端工程师,之前写过一篇<vue父子组件状态同步的最佳方式>,这篇文章描述了大多数情况下的父子组件同步的最佳方式,也是被开源中国官方推荐了,在这里表示感谢! 这次 ...
离线安装Superset 0.37
上文提到了Superset 0.37的在线安装方式,只需要更新pip,然后pip install就可以了.但是在生产环境中,特别是内网环境中,很多时候是没有外网的,这时候就需要采取离线安装的方式. 本 ...
JVM直接内存(Direct Memory)
直接内存 1.直接内存不是虚拟机运行时数据区的一部分,也不是<Java虚拟机规范>中定义的内存区域. 2.直接内存是Java堆外的.直接向系统申请的内存区间. 3.简单理解: java p ...

机器学习算法——kNN（k-近邻算法）

算法概述

算法流程

代码示例

机器学习算法——kNN（k-近邻算法）的更多相关文章

随机推荐

热门专题