KNN最近邻算法原理

　　KNN英文全称K-nearst neighbor，中文名称为K近邻算法，它是由Cover和Hart在1968年提出来的　

　　KNN算法原理：

　　　　　　　　1. 计算已知类别数据集中的点与当前点之间的距离；

　　　　　　　　2. 按照距离递增次序排序；

　　　　　　　　3. 选择与当前距离最小的k个点；

　　　　　　　　4. 确定前k个点所在类别的出现概率

　　　　　　　　5. 返回前k个点出现频率最高的类别作为当前点的预测分类

　　如果数据集中序号1-12为已知的电影分类，分为喜剧片、动作片、爱情片三个种类，使用的特征值分别为搞笑镜头、打斗镜头、拥抱镜头的数量。那么来了一部新电影《唐人街探案》，它属于上述3个电影分类中的哪个类型？

代码实现如下

import pandas as pd

import numpy as np

def distance(v1, v2):

    """

    距离计算

    :param v1:点1

    :param v2: 点2

    :return: 距离

    """

    dist = np.sqrt(np.sum(np.power((v1 - v2), )))

    return dist

# 加载数据

data = pd.read_excel("./电影分类数据.xlsx")

print("data:\n", data)

print("*" * )

# 获取训练集

train = data.iloc[:, :]

print("train:\n", train)

# 获取训练集的特征值   与目标值

train_x = train.iloc[:, :-]

train_y = train.iloc[:, -]

# 获取测试集

print("*" * )

test = data.columns[-:]

print("test:\n", test)

# 进行计算距离

# 循环计算训练集每一个样本与测试集的距离

for i in range(train.shape[]):

    # 计算距离

    dist = distance(train_x.iloc[i,:],test[:])

    train.loc[i,'dist'] = dist

print(train)

#  对距离按照升序进行排序

train.sort_values(by='dist',inplace=True)

print("*" * )

print("排序后的train:\n",train)

# 确定K 值 k值不同结果不同

k =

res = train.loc[:,'电影类型'][:k].mode()[]

print("*" * )

print(res)

knn原理及借助电影分类实现knn算法的更多相关文章

机器学习实战1-1 KNN电影分类遇到的问题
为什么电脑排版效果和手机排版效果不一样~ 目前只学习了python的基础语法,有些东西理解的不透彻,希望能一边看<机器学习实战>,一边加深对python的理解,所以写的内容很浅显,也许还会 ...
K近邻法(KNN)原理小结
K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用.比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出 ...
kNN(K-Nearest Neighbor)最近的分类规则
KNN最近的规则,主要的应用领域是未知的鉴定,这一推断未知的哪一类,这样做是为了推断.基于欧几里得定理,已知推断未知什么样的特点和最亲密的事情特性: K最近的邻居(k-Nearest Neighbor ...
机器学习之KNN原理与代码实现
KNN原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/9670187.html 1. KNN原理 K ...
数学建模：2.监督学习--分类分析- KNN最邻近分类算法
1.分类分析分类(Classification)指的是从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类的分析方法. 分类问题的应用场景:分 ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
【数据挖掘】分类之kNN（转载）
[数据挖掘]分类之kNN 1.算法简介 kNN的思想很简单:计算待分类的数据点与训练集所有样本点,取距离最近的k个样本:统计这k个样本的类别数量:根据多数表决方案,取数量最多的那一类作为待测样本的类别 ...
KNN(k-nearest neighbor的缩写)又叫最近邻算法
KNN(k-nearest neighbor的缩写)又叫最近邻算法机器学习笔记--KNN算法1 前言 Hello ,everyone. 我是小花.大四毕业,留在学校有点事情,就在这里和大家吹吹我们的 ...
Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理
Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理 1.1. 最开始的垃圾邮件判断方法,使用contain包含判断,只能一个关键词,而且100%概率判断1 1.2. 元件部件串联定律1 1.3. 垃 ...

随机推荐

ASE Backend Alpha Sprint Review
[Backend] Alpha Review展示博客团队成员介绍:仅限于Alpha阶段有贡献的成员. 典型场景描述:描述并说明你们认为的产品面向的典型场景. 团队管理与协作:包括但不限于团队内部如何 ...
06.Linux-RedHat系统本地yum源配置
RedHat系统 1.挂载镜像光盘[root@localhost ~]# mount /dev/sr0 /media/cdrom/ 2.创建本地yum源仓库[root@localhost ~]# cd ...
NLP 自然语言处理之综述
(1) NLP 介绍 NLP 是什么? NLP (Natural Language Processing) 自然语言处理,是计算机科学.人工智能和语言学的交叉学科,目的是让计算机处理或"理解 ...
python面向对象---用函数实现面向对象原理
类的定义:一个抽象的概念,保存一些共有的属性和特征 #对象:对象代表具体事物的特征功能,是类的实例 #面向对象程序设计通过函数实现面向对象设计 def dog(name,type,gender): ...
python基础--3 列表
#list类#li是list类的一个对象li=[11,22,33,22,44] #参数#在原来值最后进行整个作为元素追加 # li.append((11,22,33))#对列表本身进行操作,appen ...
将两个列表合并为字典_其中一个列表为Key_一个列表为Value
#定义两个列表 list1 = range(0,10) list2 = range(10,20) #合并为字典,调用dict(zip()) dict_name = dict(zip(list1,lis ...
[NOI1999]生日蛋糕（搜索）
[NOI1999]生日蛋糕题目背景 7月17日是Mr.W的生日,ACM-THU为此要制作一个体积为Nπ的M层生日蛋糕,每层都是一个圆柱体. 设从下往上数第i(1<=i<=M)层蛋糕是半 ...
$mona$要成为高端玩家
$mona$要成为高端玩家! 好在撑过了联赛,接下来要向高端玩家冲击啦! 新时期当然要有新的学习规划啦! 最近的更新(有什么就在这里说啦) 随便更更. $FFT$刷着打算先看看生成函数. 感觉 ...
LinkedList与ArrayList的区别（内部实现）
ArrayList的内部实现是基于内部数组Object[],所以从概念上讲,它更像数组: LinkedList的内部实现是基于一组连接的记录,所以,它更像一个链表结构,所以,它们在性能上有很大的差别. ...
Java中的Overload和Override有什么区别
Overload和Override的区别 1.Overload 定义 Overload是重载的意思.它是指我们可以定义一些名称相同的方法,通过定义不同的输入参数来区分这些方法,然后在调用时,虚拟机就会 ...

knn原理及借助电影分类实现knn算法

KNN最近邻算法原理

knn原理及借助电影分类实现knn算法的更多相关文章

随机推荐

热门专题