[Machine-Learning] K临近算法-简单例子

k-临近算法

算法步骤

k 临近算法的伪代码，对位置类别属性的数据集中的每个点依次执行以下操作：

计算已知类别数据集中的每个点与当前点之间的距离；
按照距离递增次序排序；
选取与当前点距离最小的k个点；
确定前k个点所在类别的出现频率；
返回前k个点出现频率最高的类别作为当前点的预测分类。

Python 代码为 kNN.py 的 classify0方法。

def classify0(inX, dataSet, label, k):

    '''

    kNN 算法实现函数

    输入参数解释如下

    inX: 输入数据

    dataSet: 已有的数据集, array 类型

    labels: 已有数据集的已知标签, list 类型

    k: k临近算法中的k值(通常， k < 20)

    '''

    dataSetSize = dataSet.shape[0] # 获取数据集中的数据条数

    diffMat = np.tile(inX, (dataSetSize, 1) ) - dataSet # 获取差值

    sqDiffMat = diffMat ** 2 # 矩阵中的每个元素 ^2

    sqDistances = sqDiffMat.sum(axis = 1) # 对每行进行求和

    distances = sqDistances ** (0.5) # 开平方，得到真正的距离

    sortedDistIndicies = distance.argsort() # 得到脚标的排序，排在越前面，距离越近

    classCount = {}

    for i in range(k):

        # 选择距离最小的k个点进行投票

        voteIlabel = labels[sortedDisIndicies[i]] # 得到label

        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

        # get 的第二个参数 default -- 如果指定键的值不存在时，返回该默认值值。

        pass

    # 下面进行最后排序

    sortedClassCount = sorted(classCount.iteritems(),

                              key = operator.itemgetter(1),

                              reverse = True) # 结果为列表

    return sortedClassCount[0][0]

    pass

另：算法中的几个方法的例子

因为算法中用到了numpy中的一些方法，这些方法以前没接触过，放一些截图在这里可以直观的理解这些方法：

np.shape

返回 array 的“形状”，长宽：

np.tile

把数据进行某种“平铺”操作。

**运算符

array 中每个元素 ^2

sum 方法

对array 可以使用 sum 方法进行求和操作，但是sum 方法可以有参数：

axis = 1 代表了对每行分别进行求和

sorted 方法

测试

代码为： kNN.py

python kNN.py

可以看到输出，这里使用[0,0] 作为输入数据，输出结果应该是B。

虽然这个代码实际意义不大，但是可以作为学习kNN入门的一个不错的示例。

[Machine-Learning] K临近算法-简单例子的更多相关文章

机器学习（Machine Learning）算法总结-K临近算法
一.算法详解 1.什么是K临近算法 Cover 和 Hart在1968年提出了最初的临近算法属于分类(classification)算法邻近算法,或者说K最近邻(kNN,k-NearestNeig ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
秒懂机器学习---k临近算法（KNN）
秒懂机器学习---k临近算法(KNN) 一.总结一句话总结: 弄懂原理,然后要运行实例,然后多解决问题,然后想出优化,分析优缺点,才算真的懂 1.KNN(K-Nearest Neighbor)算法的 ...
K临近算法
K临近算法原理 K临近算法(K-Nearest Neighbor, KNN)是最简单的监督学习分类算法之一.(有之一吗?) 对于一个应用样本点,K临近算法寻找距它最近的k个训练样本点即K个Neares ...
[Machine Learning] 机器学习常见算法分类汇总
声明:本篇博文根据http://www.ctocio.com/hotnews/15919.html整理,原作者张萌,尊重原创. 机器学习无疑是当前数据分析领域的一个热点内容.很多人在平时的工作中都或多 ...
机器学习-- 入门demo1 k临近算法
1.k-近邻法简介 k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法. 它的工作原理是:存在一个样本数据集合,也称作为 ...
Machine Learning：PageRank算法
1. PageRank算法概述 PageRank,即网页排名,又称网页级别.Google左側排名或佩奇排名. 在谷歌主导互联网搜索之前, 多数搜索引擎採用的排序方法, 是以被搜索词语在 ...
Machine Learning系列--EM算法理解与推导
EM算法,全称Expectation Maximization Algorithm,译作最大期望化算法或期望最大算法,是机器学习十大算法之一,吴军博士在<数学之美>书中称其为“上帝视角”算 ...
k-近邻算法简单例子
from numpy import * import operator def create_data_set(): # 训练集与标签 group = array([[1.0, 1.1], [1.0, ...

随机推荐

xcode8升级后问题总汇
一.注释快捷键无法使用 command + / 快捷键无法使用,在终端执行以下命令,然后重启Xcode即可. 1 sudo /usr/libexec/xpccachectl 二.注释快捷键 Xco ...
Scipy - Python library - Math tool - Begin
Introduction Scientific Computing Tools for Python. Seen in Scipy.org. Environment Linux, CentOS 7 w ...
理解AX InventTrans的几种状态
接触AX一段时间后,发现InventTrans表非常重要.它可以说是物流模块的核心,开发BI报表的话必须依赖此报表. 先来看官方释义: InventTrans表包含了库存交易的信息.当销售/采购订 ...
用jsonp格式的数据进行ajax post请求变成get
因为 dataType 是 jsonp 而不是 json jsonp不支持POST跨域,所以会自动转成GET而关于jsonp为什么不支持post请求,百度到的答案是jsonp为动态的script,没有 ...
GPS部标平台的架构设计(四)-百度地图设计
部标GPS软件平台之百度地图设计地图是客户端中不可缺少的一个模块,很多人在设计和画图时候,喜欢加上地图引擎这样高大上的字眼,显得自己的平台有内涵,说白了就是用第三方的SDK来开发,早期的GPS监控 ...
计蒜客A
联想公司最近要设计一个体现公司文化的 logo.联想的设计师想出了一个方案:先画了一个顶点 O,接着画出以顶点 O 为公共顶点的.夹角为 θ的两条线段 l1 和 l2 其中 l1作为圆 C1的 ...
freemarker 数据做加减计算
controller的部分: @Controller@RequestMapping("/ContactsFrameIndex")public class ContactsFrame ...
【C# 基础应用】我的第一个App，不容易——随机生成小人网站，asp.net core
Index page Welcome page 生成很多不同的小人哦~我是如何实现这么stupid but interesting的程序呢?我用了ASP.NET Core 画小人的话,用了一个很stu ...
getchar的利用
/*以每行一个单词的形式打印其输入 */ getchar putchar函数,是逐个打印和输入(逐个循环打印) #include <stdio.h> int main() { int ...
Windows Phone 五、配置存储
基本存储形式本地设置:ApplicationData.Current.LocalSettings 漫游设置:ApplicationData.Current.RoamingSettings 支持的数据 ...