Machine Learning-KNN

思路：如果一个样本在特征空间中的k个最相近的样本中大多数属于某个类别，则该样本也属于该类别；

这段话中涉及到KNN的三要素：K、距离度量、决策规则

K：KNN的算法的结果很大程度取决于K值的选择；

If it's too small, the we gain efficiency but become susceptible to noise and outlier data points.

If it's too large, the we are at risk of over-smoothing our classification results and increasing bias.

距离度量：

欧式距离：

\[d(x,y)=\sqrt{\sum_{k=1}^{n}(x_k-y_k)^2}
\]

曼哈顿距离：

\[d(x,y)=\sqrt{\sum_{k=1}^{n}|x_k-y_k|}
\]

决策规则：
- 空间中距离越近的点属于一类的可能性就越大；
- 使用前K个样本中多数类别；

算法过程描述：

计算测试样本与训练数据之间的距离；
得到距离按照递增关系排序；
选取距离最小的K个样本；
确定选择的K个样本中类别出现的频率；
选择出现频率最大的类别作为测试样本的类别；

KNN算法的优缺点：

优点：

精度高，对异常值不敏感、无数据输入假定；
简单有效，易理解；

缺点：

计算复杂度高、空间复杂度高；
无法给出任何数据的基础结构信息；

训练简单，测试难；

k-NN更适合低维特征空间，而不适合图片，图片是高维特征空间；

不能进行学习，也就说如果犯错误了，不能变得更聪明；

仅仅依赖于n维空间的distance做分类

KNN算法实现（Python）:

默认：已经获取到训练数据\(dataSet \in R^{m \times n}\)、训练集标签\(labels \in R^n\)、测试样本\(inX \in R^{1 \times n}\)；

def classify(inX, dataSet, labels, k=3):

    # 首先计算测试样本与训练数据之间的欧式距离

    m = dataSet.shape[0]

    diffMat = np.tile(inX, (m, 1)) - dataSet

    sqDiffMat = diffMat ** 2

    sqDistance = sqDiffMat.sum(dim=1)

    distance = sqDistance ** 0.5

    # 排序，并选择距离最近的前k中样本中类别数目最多的类别

    sortedDistanceIndex = distance.argsort()

    classCount = {} # 保存距离最近的前k个样本中的类别个数

    for i in range(k):

        votelabel = labels[sortedDistanceIndex[i]]

        classCount[votelabel] = classCount.get(votelabel, 0) + 1  # 有则返回，无则置0

    sortedClassCount = np.sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

sklearn中使用KNN：

# *- coding: utf-8 -*

"""

使用sklearn实现knn

"""

# =====================================

from sklearn import neighbors

from sklearn import datasets

# load dataset

iris = datasets.load_iris()

iris_x = iris.data

iris_y = iris.target

# model

knn = neighbors.KNeighborsClassifier()

# 训练

knn.fit(iris_x, iris_y)

# 预测

predictedLabel = knn.predict(iris_x)

error = sum(abs(predictedLabel - iris_y)) / len(iris_y)

print(error)

reference

Machine Learning-KNN的更多相关文章

[Machine Learning]k-NN
k-NN最近邻算法基本思想: 对未知样本X,从训练样本集中获取与其最相近的k个样本,利用这k个样本的类别预测未知样本X的类别. 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大 ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
Machine Learning In Action 第二章学习笔记: kNN算法
本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测手写数 ...
【Machine Learning】Python开发工具：Anaconda+Sublime
Python开发工具:Anaconda+Sublime 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现 ...
【Machine Learning】机器学习及其基础概念简介
机器学习及其基础概念简介作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
【Machine Learning】决策树案例：基于python的商品购买能力预测系统
决策树在商品购买能力预测案例中的算法实现作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本 ...
【机器学习Machine Learning】资料大全
昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machi ...
[Machine Learning] 国外程序员整理的机器学习资源大全
本文汇编了一些机器学习领域的框架.库以及软件(按编程语言排序). 1. C++ 1.1 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 OpenCV—它提供C++, C ...
SOME USEFUL MACHINE LEARNING LIBRARIES.
from: http://www.erogol.com/broad-view-machine-learning-libraries/ http://www.slideshare.net/Vincenz ...

随机推荐

R语言矩阵运算
R语言矩阵运算主要包括以下内容:创建矩阵向量:矩阵加减,乘积:矩阵的逆:行列式的值:特征值与特征向量:QR分解:奇异值分解:广义逆:backsolve与fowardsolve函数:取矩阵的上下三角元 ...
学习c++的优秀博客（转）
http://zhedahht.blog.163.com/ 本博客讨论程序员面试题,并主要集中在C/C++.数据结构算法和算法上.http://saturnman.blog.163.com/ sat ...
POJ 3349 Snowflake Snow Snowflakes （哈希表）
题意:每片雪花有六瓣,给出n片雪花,六瓣花瓣的长度按顺时针或逆时针给出,判断其中有没有相同的雪花(六瓣花瓣的长度相同) 思路:如果直接遍历会超时,我试过.这里要用哈希表,哈希表的关键码key用六瓣花瓣 ...
spring学习-1
spring框架的组件结构图 IOC(Inversion of Control):反转控制,思想是反转资源获取方向,传统的资源查找方向是组件向容器发起请求资源查找,作为回应,容器适时的返回资源,IOC ...
唐诗掠影：基于词移距离（Word Mover's Distance）的唐诗诗句匹配实践
词移距离(Word Mover's Distance)是在词向量的基础上发展而来的用来衡量文档相似性的度量. 词移距离的具体介绍参考http://blog.csdn.net/qrlhl/artic ...
[基本操作]线段树分治和动态dp
不知道为什么要把这两个没什么关系的算法放到一起写...可能是都很黑科技? 1.线段树分治例题:bzoj4026 二分图给你一个图,资瓷加一条边,删一条边,询问当前图是不是二分图如果用 LCT 的 ...
用VBA计算两个日期之间的工作日(去掉周末两天)
最近公司HR和Finance想算员工的工作天数,想让我帮忙写些VBA,自己从网上找了下代码,自己再改改,以下来自网络. 计算两个日期之间的工作日,用VBA,因量大,最好用数组做 Sub kk() Di ...
UOJ #348 州区划分 —— 状压DP+子集卷积
题目:http://uoj.ac/problem/348 一开始可以 3^n 子集DP,枚举一种状态的最后一个集合是什么来转移: 设 \( f[s] \) 表示 \( s \) 集合内的点都划分好了, ...
问题：request.Headers；结果：HttpWebRequest.Headers 属性
指定构成 HTTP 标头的名称/值对的集合. Headers 集合包含与请求关联的协议标头.下表列出了由系统或由属性或方法设置但未存储在 Headers 中的 HTTP 标头. 标头设置方 Ac ...
浏览器重绘（repaint）和回流（reflow）的那点事
第一次听到重绘和回流是在鹅厂实习面试,那个时候对浏览器没有任何的概念,所以面试官说到这个问题的时候整个人都蒙圈了.下面是近期学习总结: 重绘(repaint)和回流(reflow) 文档初次加载时,H ...

Machine Learning-KNN

reference

Machine Learning-KNN的更多相关文章

随机推荐

热门专题