Python学习之k-近邻算法

1. K-近邻算法

 # coding=utf-8

 from numpy import *

 import operator

 def createDataSet():

     group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

     labels = ['A','A','B','B']

     return group,labels

 def classify(inX,dataSet,labels,k):

     dataSetSize = dataSet.shape[0]

     diffMat = tile(inX,(dataSetSize,1))-dataSet

     sqDiffMat = diffMat**2

     sqDistances = sqDiffMat.sum(axis=1)

     distances = sqDistances**0.5

     # 返回值所在的索引

     sortedDistIndices = distances.argsort()

     classCount={}

     for i in range(k):

         # 根据索引获取其对应的类别标签

         voteIlabel = labels[sortedDistIndices[i]]

         classCount[voteIlabel] = classCount.get(voteIlabel,0)+1

     print classCount

     sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)

     return sortedClassCount[0][0]

 def main():

     (group,labels)=createDataSet()

     print classify([0.8,1.5],group,labels,3)

 if __name__=="__main__":

     main()

k-近邻算法的整体流程为：

　　(1) 计算已知类别数据集中的点与当前点之间的距离；
　　(2) 按照距离递增次序排序；
　　(3) 选取与当前点距离最小的k个点；
　　(4) 确定前k个点所在类别的出现频率；
　　(5) 返回前k个点出现频率最高的类别作为当前点的预测分类

　　classify() 函数有 4 个输人参数 : 用于分类的输入向量inX，输入的训练样本集dataSet,标签向量labels,最后的参数k表示用于选择最近邻近的数目,其中输入向量的元素数目和矩阵dataSet的行数相同,首先计算向量和矩阵向量元素之间的距离，然后按照从小到大的顺序对结果进行排序，确定前 k 个距离最小元素所在的主要分类（输入参数k总正整数）；最后，将classCount字典分解为元组列表，然后使用程序第二行导入运算符模块的itemgetter方法 ,按照classCount字典的第二个元素的次序对元组进行排序。此处的排序为逆序，即按照从最大到最小次序排序，最后返回发生频率最高的元素标签，即就是输入向量所属分类。

　　最近正在看《机器学习实战》,顺便汇总一下其中的小例子，书籍很好，推荐大家阅读！

Python学习之k-近邻算法的更多相关文章

用Python从零开始实现K近邻算法
KNN算法的定义: KNN通过测量不同样本的特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.K通 ...
R语言学习笔记—K近邻算法
K近邻算法(KNN)是指一个样本如果在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性.即每个样本都可以用它最接近的k个邻居来代表.KNN算法适 ...
02-16 k近邻算法
目录 k近邻算法一.k近邻算法学习目标二.k近邻算法引入三.k近邻算法详解 3.1 k近邻算法三要素 3.1.1 k值的选择 3.1.2 最近邻算法 3.1.3 距离度量的方式 3.1.4 分类 ...
机器学习实战 - python3 学习笔记（一） - k近邻算法
一. 使用k近邻算法改进约会网站的配对效果 k-近邻算法的一般流程: 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据.一般来讲,数据放在txt文本文件中,按照一定的格式进 ...
python 机器学习（二）分类算法-k近邻算法
一.什么是K近邻算法? 定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 来源: KNN算法最早是由Cover和Hart提 ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
数据挖掘算法（一）--K近邻算法（KNN）
数据挖掘算法学习笔记汇总数据挖掘算法(一)–K近邻算法 (KNN) 数据挖掘算法(二)–决策树数据挖掘算法(三)–logistic回归算法简介 KNN算法的训练样本是多维特征空间向量,其中每个训 ...
02机器学习实战之K近邻算法
第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k ...
2.在约会网站上使用k近邻算法
在约会网站上使用k近邻算法思路步骤: 1. 收集数据:提供文本文件.2. 准备数据:使用Python解析文本文件.3. 分析数据:使用Matplotlib画二维扩散图.4. 训练算法:此步骤不适用于 ...
GridSearchCV网格搜索得到最佳超参数, 在K近邻算法中的应用
最近在学习机器学习中的K近邻算法, KNeighborsClassifier 看似简单实则里面有很多的参数配置, 这些参数直接影响到预测的准确率. 很自然的问题就是如何找到最优参数配置? 这就需要用到 ...

随机推荐

fail-fast和fail-safe
一:快速失败(fail—fast) 在用迭代器遍历一个集合对象时,如果遍历过程中对集合对象的内容进行了修改(增加.删除.修改),则会抛出Concurrent Modification Exceptio ...
[转]eclipse导入V7包出现错误解决办法
android下v4 v7 v21等包是android系统的扩展支持包,就想windows的系统补丁一个道理. android的扩展包主要是用来兼容低版本的,比如android3.0以后出现 ...
【Spring boot】第一个项目 Springboot + mysql + hibernate
今天公司要做一个小项目,好久没碰项目了(刷题好累...),听说spring boot很火,决定试一试.暂时就从mysql里面读数据好了,使用hiberante. 1.获取jar包. 从http://s ...
s:debug标签的错误ConcurrentModificationException
搭建SSH的时候页面上加入<s:debug>标签后台出现严重: Servlet.service() for servlet jsp threw exception java.util.C ...
position属性absolute（绝对定位），relatve(相对定位)
position:absolute这个是绝对定位:是相对于浏览器的定位. position:relative这个是相对定位:是居于上一个流体而言
.net 高级写法总结
1.处理HTTP非正常的请求参数: [1] 获取相应的流转为string [2] request 的只读属性设置为可编辑,类似form [3] 转换为json对象 [4] 重设只读属性 //判断请求类 ...
android之存储篇_SQLite数据库入门
SQLite最大的特点是你可以把各种类型的数据保存到任何字段中,而不用关心字段声明的数据类型是什么. 例如:可以在Integer类型的字段中存放字符串,或者在布尔型字段中存放浮点数,或者在字符型字段中 ...
Intellij Idea14 jstl标签的引入
习惯了eclipse和myeclipse开发的我们总是依赖于系统的插件,而当我想当然的以为IntelliJ IDEA 的jstl 的使用应该和myeclispe一样,当时使用起来却到处碰壁,完全找不到 ...
am335x i2c分析
/***************************************************************************** * am335x i2c分析 * i2c驱 ...
windows下定时任务设置
Linux 系统可以通过crontab -e 设置定时任务,Windows系统没有crontab命令,但是Windows系统有跟crontab命令比较接近的命令: schtasks 命令. # 设置定 ...

Python学习之k-近邻算法

Python学习之k-近邻算法的更多相关文章

随机推荐

热门专题