k近邻法

模型

  • 使用的模型实际上对应于特征空间的划分.模型的三个基本要素:
    1.距离度量
    2. k值的选择
    3. 分类决策规则决定.
  • k值的选择:k值的选择,k如果选择的过小会导致过拟合,模型会变得复杂.
  • 思想脉络
  • 方法的流程简述:
    给定一个训练数据集,对于新的输入实例,在训练数据集中找到与之最临近的k个实例,这k个实例的多数属于某个类,

    就把实例分为这个类.
    这个算法没有显示的训练过程,应用的过程就是训练的过程

算法推导

  • 1 公式推导
    无显示的算法推导过程.
    要注意的是,不同的距离度量所确定的最近邻点是不同的
    欧式距离,曼哈顿距离,以及闵科夫斯基距离.
  • 2.算法实现方法
    一种是线性扫描,计算输入实例与每一个训练实例的距离,但是当训练集很大的时候,计算非常耗时.
    一种是利用特殊的结构存储训练数据.减少计算距离的次数的kd树方法.
  • kd树方法:
    减少搜索的计算量.
    我的理解就是先根据一个坐标轴的值,划分一个二叉树,然后遍历二叉树进行最小点的比较.找出距离最小的点.
    kd树的详细介绍:


    kd树是每个节点均为k维数值点的二叉树,每个节点代表一个超平面,朝平面垂直于当前划分维度的坐标轴,在该维度上将空间划分为两个部分,一部分在右子树,一部分在左子树.

编程实现

  • 0.自己编程实现,自己构造数据
# date&time:2018.05.23
# review :2018.09.21
# @author :Danny
import numpy as np
def create_data():
"""
return : the train and test data
"""
train_data=np.array([[1.0,1.1,1],[1.0,1.0,1],[0,0,-1],[0,0.1,-1]])
x_test=np.array([1,1])
return train_data,x_test def kNN(train_data,x_test,k):
"""
type train_data:np.array([[x,y,c]])
type k: the k values
return the label of x_test
"""
x=train_data[:,0:2]
label=train_data[:,2]
diff=x-x_test
distance=np.sqrt(np.sum(diff**2,axis=1))
sort_distance_index=distance.argsort() # 将距离按大小顺序提取下标index ,这样就可以利用下标取相对应的label值.
class_label_count={}
# start to voting the label
for i in range(k):
vote_label=label[sort_distance_index[i]]
if vote_label not in class_label_count: # 典型的字典计数办法.
class_label_count[vote_label]=0
class_label_count[vote_label]+=1
return max(class_label_count,key=class_label_count.get)  # 返回字典中values值最大所对应的key ,也就是需要找的class_label if __name__=="main":
train_data,x_test=create()
k=1
result_label=kNN(train_data,x_test,k)
print("the test_data label:{}".format(result_label))
  • 1.对于小数量集合的线性扫描的方法
"""
date&time :2018.05.23 不要浮躁,静下心来 慢慢学习.
@author:Peter and Danny kNN implement with kd_tree. in the first place ,follow the machine learning in action kNN algorithms,and comprehensions the principle.
"""
# classify function
from numpy import *
import operator
import os
def classify(inX,dataSet,labels,k):
"""
:param inX: vector to compare to existing dataset (1xN)
:param dataSet: size m data set of known vectors (NxM)
:param labels: data set labels (1xM vector)
:param k: number of neighbors to use for comparison (should be an odd number)
:return: sortedClassCount
"""
dataSetSize=dataSet.shape[0]
diffMat=tile(inX,(dataSetSize,1))-dataSet
sqDiffMat=diffMat**2
sqDistances=sqDiffMat.sum(axis=1)
Distance=sqDistances**0.5
sortedDistances=Distance.argsort() # return a distance elements index in sorted
classCount={} # define a dictionary
for i in range(k):
voteIlabel=labels[sortedDistances[i]] # don't how to extract the label
classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
return sortedClassCount[0][0] # return the voting label # construct dataSet
def createDataSet():
"""
:return: the group and labels
"""
group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels=['A','A','B','B']
return group,labels if __name__=='__main__':
group,labels=createDataSet()
result=classify([1.0,1.2],group,labels,3)
print("the label :{}".format(result))
print("\n dating site with kNN \n")
the label :A
  • 还存在两个主要问题:
    1.K值在利用cross-validation的选择问题
    2.voting 方法的使用及编程实现.

kd树实现kNN

kd_tree实现

# kd 树的构建代码
def kd_tree(points,depth):
if len(points)==0:
return None
cutting_dim=depth%len(points[0]) # 切分的维度数
# 这一段构建代码不是很懂.
medium_index=len(points)//2
points.sort(key=itemgetter(cutting_dim))
node=Node(points[medium_index])
node.left=kd_tree(points[:medium_index],depth+1)
node.right=kd_tree(points[medium_index+1:],depth+1)
return node # 寻找最小坐标值点,利用递归 def findmin(n,depth,cutting_dim,min):
if min is None:
min=n.location
if n is None:
return min
current_cutting_dim=depth%len(min)
if n.location[cutting_dim]<min[cuting_dim]:
min=n.location
if cutting_dim==current_cutting_dim:
return findmin(n.left,depth+1,cutting_dim,min)
else:
leftmin=findmin(n.left,depth+1,cutting_dim,min)
rightmin=findmin(n.right,depth+1,cutting_dim,min)
if leftmin[cutting_dim]>rightmin[cutting_dim]:
return rightmin
else:
return leftmin

k近邻法的实现的更多相关文章

  1. 学习笔记——k近邻法

    对新的输入实例,在训练数据集中找到与该实例最邻近的\(k\)个实例,这\(k\)个实例的多数属于某个类,就把该输入实例分给这个类. \(k\) 近邻法(\(k\)-nearest neighbor, ...

  2. 统计学习方法三:K近邻

    一.什么是K近邻? K近邻是一种基本的分类和回归方法. 在分类时,对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决权等方式预测其类别. 通俗的讲,找K个和其关系最近的邻居,哪个类别的邻居多, ...

  3. 《统计学习方法》笔记三 k近邻法

    本系列笔记内容参考来源为李航<统计学习方法> k近邻是一种基本分类与回归方法,书中只讨论分类情况.输入为实例的特征向量,输出为实例的类别.k值的选择.距离度量及分类决策规则是k近邻法的三个 ...

  4. K近邻法(KNN)原理小结

    K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用.比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出 ...

  5. k临近法的实现:kd树

    # coding:utf-8 import numpy as np import matplotlib.pyplot as plt T = [[2, 3], [5, 4], [9, 6], [4, 7 ...

  6. 从K近邻算法谈到KD树、SIFT+BBF算法

    转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动 前言 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...

  7. 机器学习03:K近邻算法

    本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...

  8. <转>从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

    转自 http://blog.csdn.net/likika2012/article/details/39619687 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经 ...

  9. 机器学习 Python实践-K近邻算法

    机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...

随机推荐

  1. 基于zookeeper集群的云平台-配置中心的功能设计

    最近准备找工作面试,就研究了下基于zookeeper集群的配置中心. 下面是自己设想的关于开源的基于zookeeper集群的云平台-配置中心的功能设计.大家觉得哪里有问题,请提出宝贵的意见和建议,谢谢 ...

  2. 改MySQL的编码方式,解决jdbc MySQL中文乱码问题

    进MySQL安装目录,打开my.ini 这两个地方改成gbk 重启服务

  3. html以前没有学到的标签

    <q>标签,短文本引用 <blockquote>标签,长文本引用 <address>标签,为网页加入地址信息 <code>标签,插入单行代码 <p ...

  4. Qt实现表格树控件-自绘树节点虚线

    目录 一.开心一刻 二.自绘树节点? 三.效果展示 四.实现思路 1.可扩展接口 2.函数重写 3.同步左侧表头 五.相关文章 原文链接:Qt实现表格树控件-自绘树节点虚线 一.开心一刻 一程序员第一 ...

  5. 让techempower帮你通讯服务框架的性能

    在编写服务应用框架的时候一般都需要进行性能测试,但自己测试毕竟资源受限所以很难做更高性能上的测试.其实GitHub上有一个项目可以让开发人员提交自己的框架服务代码然后进行一个标准测试:现在已经有上百个 ...

  6. 武林 HDU - 1107

    题目链接:https://vjudge.net/problem/HDU-1107 注意:题目中只有两个不同门派的人在同一个地方才能对决,其他情况都不能对决. 还有,这步的有效的攻击只有走到下一步之后才 ...

  7. [转载]ActiveMQ实现负载均衡+高可用部署方案

    转载于 http://www.open-open.com/lib/view/open1400126457817.html 一.架构和技术介绍 1.简介 ActiveMQ 是Apache出品,最流行的, ...

  8. 【0728 | 预习】第三篇 Python基础

    第三篇 Python基础预习 Part 1 变量 一.什么是变量? 二.为什么要有变量? 三.定义变量 四.变量的组成 五.变量名的命名规范 六.变量名的两种风格 Part 2 常量 Part 3 P ...

  9. final,权限,引用类型数据

    1. final关键字 1.概述 为了避免子类出现随意改写父类的情况,java提供了关键字final,用于修饰不可改变内容 final:不可改变,可以修饰类,方法和变量 类:被修饰的类,不能用于继承 ...

  10. Spring Boot之Profile--快速搞定多环境使用与切换

    Spring Profile是Spring3引入的概念,主要用在项目多环境运行的情况下,通过激活方式实现多环境切换,省去多环境切换时配置参数和文件的修改,并且Spring profile提供了多种激活 ...