<机器学习实战>读书笔记--k邻近算法KNN

k邻近算法的伪代码：

　　对未知类别属性的数据集中的每个点一次执行以下操作：

　　(1)计算已知类别数据集中的点与当前点之间的距离；

　　(2)按照距离递增次序排列

　　(3)选取与当前点距离最小的k个点

　　(4)确定前k个点所在类别的出现频率

　　(5)返回前k个点出现频率最好的类别作为当前点的预测分类

python函数实现

'''

Created on Sep 16, 2010

kNN: k Nearest Neighbors

Input:      inX: vector to compare to existing dataset (1xN)

            dataSet: size m data set of known vectors (NxM)

            labels: data set labels (1xM vector)

            k: number of neighbors to use for comparison (should be an odd number)

Output:     the most popular class label

@author: pbharrin

'''

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]      //输入的训练样本集dataSet的列数

    diffMat = tile(inX, (dataSetSize,1)) - dataSet //先对inX进行向量化处理，使之格式与dataSet一致，然后相减

    sqDiffMat = diffMat**2  //向量对应值差的平方

    sqDistances = sqDiffMat.sum(axis=1)//列的平方和的汇总

    distances = sqDistances**0.5 //开平方求距离

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1  //选择距离最小的k个点

    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) //排序

    return sortedClassCount[0][0]

<机器学习实战>读书笔记--k邻近算法KNN的更多相关文章

机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
机器学习实战 - 读书笔记(13) - 利用PCA来简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...
机器学习实战读书笔记(二)k-近邻算法
knn算法: 1.优点:精度高.对异常值不敏感.无数据输入假定 2.缺点:计算复杂度高.空间复杂度高. 3.适用数据范围:数值型和标称型. 一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训 ...
【转载】机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...
机器学习实战 - 读书笔记(06) – SVM支持向量机
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第6章:SVM 支持向量机. 支持向量机不是很好被理解,主要是因为里面涉及到了许多数学知 ...
机器学习实战 - 读书笔记(14) - 利用SVD简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第14章 - 利用SVD简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 基 ...

随机推荐

css transition & animation
transition 支持:IE10+ img{ transition: 1s 1s height ease; } transition-property: 属性transition-duration ...
nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署(实用)
原文地址: http://www.cnblogs.com/i80386/p/3540389.html 参考网站:http://blog.csdn.net/weijonathan/article/det ...
Jenkins pipeline中使用内置全局变量
在pipeline中不像在windows batch command中直接%WORKSPACE%这样需要写成这样: echo env.WORKSPACE
.Net Core IFormFile 始终为空的问题
之前获取上传文件都是使用Request.Form.Files获取,直到这次改成定义形参 IFormFile时才遇到这个问题. // POST api/values [HttpPost] public ...
WP8.1StoreApp(WP8.1RT)---发送邮件和短信
在WP7/8中,发送短信是利用了EmailComposeTask和SmsComposeTask来实现的. 在WP8.1 Store App中,原来的方式已经失效,采用了新的方法:ChatMessage ...
如何将JPG格式的图片转化为带地理坐标的TIFF格式
最近有个项目需要用到开源软件GeoServer,数据源是一张高分辨率的2.5维图片,格式是jpg的,由于GeoServer不支持jpg格式的发布,因此考虑到要进行格式转换,将其转换成tiff格式. 1 ...
Unity下的开发框架--适应web和微端游戏异步资源请求的框架
一. 内容简介: 1. 框架对Web与微端游戏特性的支持: Web和微端游戏最重要的特性是,资源是持续从服务器上即时下载下来的.而保证体验流畅的关键就是保证资源下载分散到持续的体验过程中,并保 ...
java—不同的用户登录以后可以看到不同的菜单(后台可以实现对用户菜单的管理) 1 （55）
实现不同的用户登录以后可以看到不同的菜单.(后台可以实现对用户菜单的管理.) 第一步:分析数据结构 1:用户表表名:users 列名类型说明 id Varchar(32) 主键 n ...
java -io字符流FileWrite操作演示
FileWriter字符输出流演示: /* * FiileWriter 字符流的操作 * FileWriter 的构造方法可传递 File类型还可以传递String类型 * * 方法 : * wr ...
by python3-XSStrike 测试XSS
一.概述: XSStrike是一个Cross Site Scripting检测套件,配备四个手写解析器,一个智能有效载荷生成器,一个强大的模糊引擎和一个非常快速的爬虫. XSStrike不是像其他工具 ...

<机器学习实战>读书笔记--k邻近算法KNN

<机器学习实战>读书笔记--k邻近算法KNN的更多相关文章

随机推荐

热门专题