分类算法——k最近邻算法（Python实现）（文末附工程源代码）

赵半仙并不会算命 2024-10-16 17:23:47 原文

kNN算法原理

k最近邻（k-Nearest Neighbor）算法是比较简单的机器学习算法。它采用测量不同特征值之间的距离方法进行分类，思想很简单：如果一个样本在特征空间中的k个最近邻（最相似）的样本中大多数属于某一个类别，则该样本也属于这个类别。

kNN算法的步骤

第一阶段：确定k值（指最近的邻居的个数），一般是一个奇数

第二阶段：确定距离度量公式。文本分类一般使用夹角余弦，得出待分类数据点和所有已知类别的样本点，从中选择距离最近的k个样本：

第三阶段：统计这k个样本点钟各个类别的数量

kNN算法的Python实现

第一阶段：可以利用NBayes中的初始化Nbayes_lib.py，点击这里查看

第二阶段：实现夹角余弦的距离公式

from numpy import *
import operator
from Nbayes_pre import
*

k=3
#夹角余弦距离公式
def cosdist(vector1,vector2):
return dot(vector1,vector2)/(linalg.norm(vector1)*linalg.norm(vector2))

第三阶段:kNN实现分类器

#kNN分类器

#测试集 testdata，训练集 trainSet，类别标签 listClasses，k k个邻居数

def classify(testdata,trainSet,listClasses,k):

    dataSetSize=trainSet.shape[0]#返回样本集的行数

    distances=array(zeros(dataSetSize))

    for indx in xrange(dataSetSize):

        distances[indx]=cosdist(testdata,trainSet[indx])

    #根据生成的夹角余弦从大到小排序，结果为索引号

    sortedDistIndicies=argsort(-distances)

    classCount={}

    #获取角度最小的前k项作为参考项

    for i in range(k):

        votelIlabel=listClasses[sortedDistIndicies[i]]#按排序顺序返回样本集对应的类别标签

        classCount[votelIlabel]=classCount.get(votelIlabel,0)+1#为字典classCount按value重新排序

    #对分类字典classCount按value重新排序

    #sorted(data.iteritems(),key=operator.itemgetter(1),reverse=True)

    #该句是按字典值排序的固定用法

    #classCount.iteritems():字典迭代器

    #key：排序参数；operator.itemgetter(1):多级排序

    sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reversed=True)

    return sortedClassCount[0][0]#返回序最高的一项

#评估分类结果

dataSet,listClasses=loadDataSet()

nb=NBayes()

nb.train_set(dataSet,listClasses)

#使用之前贝叶斯分类阶段的数据集及生成的TF向量进行分类

print (classify(nb.tf[3],nb.tf,listClasses,k))

工程源代码

分类算法——k最近邻算法（Python实现）（文末附工程源代码）的更多相关文章

K最近邻算法项目实战
这里我们用酒的分类来进行实战练习下面来代码 1.把酒的数据集载入到项目中 from sklearn.datasets import load_wine #从sklearn的datasets模块载入数 ...
【算法】K最近邻算法（K-NEAREST NEIGHBOURS，KNN）
K最近邻算法(k-nearest neighbours,KNN) 算法对一个元素进行分类查看它k个最近的邻居在这些邻居中,哪个种类多,这个元素有更大概率是这个种类使用使用KNN来做两项基本工 ...
《算法图解》——第十章 K最近邻算法
第十章 K最近邻算法 1 K最近邻(k-nearest neighbours,KNN)——水果分类 2 创建推荐系统利用相似的用户相距较近,但如何确定两位用户的相似程度呢? ①特征抽取对水果 ...
12、K最近邻算法（KNN算法）
一.如何创建推荐系统? 找到与用户相似的其他用户,然后把其他用户喜欢的东西推荐给用户.这就是K最近邻算法的分类作用. 二.抽取特征推荐系统最重要的工作是:将用户的特征抽取出来并转化为度量的数字,然后 ...
[笔记]《算法图解》第十章 K最近邻算法
K最近邻算法简称KNN,计算与周边邻居的距离的算法,用于创建分类系统.机器学习等. 算法思路:首先特征化(量化) 然后在象限中选取目标点,然后通过目标点与其n个邻居的比较,得出目标的特征. 余弦相似 ...
PCB 加投率计算实现基本原理--K最近邻算法（KNN）
PCB行业中,客户订购5000pcs,在投料时不会直接投5000pcs,因为实际在生产过程不可避免的造成PCB报废, 所以在生产前需计划多投一定比例的板板, 例:订单量是5000pcs,加投3%,那 ...
机器学习【一】K最近邻算法
K最近邻算法 KNN 基本原理离哪个类近,就属于该类 [例如:与下方新元素距离最近的三个点中,2个深色,所以新元素分类为深色] K的含义就是最近邻的个数.在sklearn中,KNN的K值是通过n ...
机器学习-K最近邻算法
一.介绍二.编程练习一(K最近邻算法在单分类任务的应用): import numpy as np #导入科学计算包import matplotlib.pyplot as plt #导入画图工具fr ...
图说十大数据挖掘算法(一)K最近邻算法
如果你之前没有学习过K最近邻算法,那今天几张图,让你明白什么是K最近邻算法. 先来一张图,请分辨它是什么水果很多同学不假思索,直接回答:“菠萝”!!! 仔细看看同学们,这是菠萝么?那再看下边这这张图 ...

随机推荐

关于ionic开发的一些总结（项目启动设置，app图标名称更改）
1.更改包名称一般项目刚生成时,ionic会根据项目名称自动给你生成一个包名.要修改包名的话,在根目录的config配置文件中,<widget id="x.x.x"换成自己 ...
Java内部类之匿名内部类
我们都知道Java中可以使用内部类,将一个类的定义放在另一个类的定义的内部,这就是内部类,但是匿名内部类往往使我们摸不着头脑,因为它并没有特定的名称,那么该如何使用它呢? 定义一个匿名内部类 pu ...
Java变量&&简单程序流程&&循环
变量:强类型局部变量: 1.先赋值,后使用 2.作用范围:从定义开始,到所在代码块结束 3.重合范围内不允许重复命名数据类型(8中基本类型) byte 1B -128~127 short 2B -3 ...
DLL 导出变量
声明为导出变量时,同样有两种方法: 第一种是用__declspec进行导出声明 #ifndef _DLL_SAMPLE_H #define _DLL_SAMPLE_H // 如果定义了C++编译器 ...
[Hadoop] - Mapreduce自定义Counter
在Hadoop的MR程序开发中,经常需要统计一些map/reduce的运行状态信息,这个时候我们可以通过自定义Counter来实现,这个实现的方式是不是通过配置信息完成的,而是通过代码运行时检查完成的 ...
浅谈PHP的CI框架(一)
作为前端开发人员,掌握一门后端语言是必不可少的,PHP的CI框架是一个快速开发框架,基于MVC,比较接近原生PHP,在原有的PHP代码上封装了许多类,易上手,容易扩展,适用于小项目,并且CI的文档及案 ...
Thread类常用方法
Thread类构造方法: 1.Thread(): 2.Thread(String name): 3.Thread(Runable r): 4.Thread(Runable r, String name ...
WebSite---前台系统图片验证码心得
背景: 因为移动端APP和Msite手机注册发送短信验证码没有添加图片验证码功能.公司的短信接口被恶意刷取.所以我们就觉得在移动端添加一个图片验证码功能.分享一下大体实现方式思路.PS demo是自己 ...
前端面试题总结：HTML5，JS，CSS3，兼容性。
1. 请写出至少20个HTML5标签 <article><aside> <audio><video> <canvas><datalis ...
Phpcms 详情页显示所属栏目的同级栏目
Phpcms详情页是不显示所属栏目的同级栏目的,如果按下面的方式 {loop subcat($parentid) $v} <li{if $v[catid]==$catid} class=&quo ...