第三章 K近邻法(k-nearest neighbor)

书中存在的一些疑问

kd树的实现过程中，为何选择的切分坐标轴要不断变换？公式如：x^(l)=j(modk)+1。有什么好处呢？优点在哪？还有的实现是通过选取方差最大的维度作为划分坐标轴，有何区别？
- 第一种方法网上也没具体的解释，我不是很清楚其原因(可能要去论文上找原因)。
- 不过第二种方法的话，方差越大，说明这个维度数据的相似性就越差，就越容易通过选取中点的方式将数据集分开，kd树的效率就越高，试想如果你挑了一个维度其中数据全为一样，那么kd树的建立过程就无法将使用挑选中位数的方法来达到，而且后面的kd树的搜索效率就和线性的没什么大的区别。
kd树实现加速查找的最近邻方法是：某个维度的中位数作为切分点，父节点与子节点的关系为其为其下面所有节点的在某个维度的中位数。

代码实现过程中的一些难点

kd树的实现也就是二叉树的实现过程。
kd树的搜索过程。二叉树的搜索还不是很清楚(枯辽)

具体代码实现：

import matplotlib.pyplot as plt

import numpy as np

def ls(p):

    # 返回左子节点

    return p << 1

def rs(p):

    # 返回右子节点

    return p << 1 | 1

def build_kd_tree(data_x, tree, p, dim):

    """

    建立二叉树的过程

    :param data: 建立二叉树所需要的数据

    :param tree: 存二叉树的数组

    :param p: 所在的节点

    :param dim: 现在所在的维度

    :return: None

    """

    # 根据dim对数据进行排序并取其中位数

    # data[data[:,i].argsort()],根据第i维对数据进行排序

    if len(data_x) == 1:

        tree[p] = data_x

        return

    if len(data_x) == 0:

        return

    length = len(data_x[0]) - 1

    data_x = data_x[data_x[:, dim].argsort()]

    mid = len(data_x) >> 1

    tree[p] = data_x[mid]

    build_kd_tree(data_x[:mid, :], tree, ls(p), ((dim + 1) % length))

    build_kd_tree(data_x[mid + 1:, :], tree, rs(p), ((dim + 1) % length))

    return

def find_leaf_node(data, tree):

    # 从根节点出发，循环向下访问kd树，返回其叶子节点

    p, dim, length = 1, 0, len(tree[1]) - 1

    if tree[p, dim].sum() <= 0.0:

        return 1

    while True:

        if data[dim] > tree[p, dim]:

            if tree[rs(p), dim].sum() <= 0.0:

                return p

            p = rs(p)

        else:

            if tree[ls(p), dim].sum() <= 0.0:

                return p

            p = ls(p)

        dim = (dim + 1) % length

    return 1

def distance(a, b, p=1):

    # 我只对数据进行p方运算，不进行开方运算

    sum = 0

    if p == 1:

        c = a - b

    else:

        c = a - b

        c=c.__pow__(p)

    c=c.__abs__()

    sum=c.sum()

    return sum

def find_label(data,tree,nowp,mer):

    if tree[nowp].sum()<=0.0:

        return

    len_of_mer=len(mer)

    len_of_data=len(data)

    mer=mer[mer[:,0].argsort()]

    dis=distance(data,tree[nowp,:-1])

    if dis<=mer[0,0]:

        for i in range(1,len_of_mer-2):

            mer[i]=mer[i+1]

        mer[0]=[dis,tree[nowp,-1]]

        find_label(data,tree,ls(nowp),mer)

        find_label(data,tree,rs(nowp),mer)

    for i in range(1,len_of_mer):

        if dis>mer[len_of_mer-i,0]:

            if i!=1:

                mer[len_of_mer-1]=[dis,tree[nowp,-1]]

            find_label(data, tree, nowp >> 1, mer)

            return

def k_NN(data, tree, p, k):

    label = np.zeros((len(data), 1))

    for i in range(len(data)):

        # 先找到其对应的叶子节点

        #直接默认p=1吧，p对这个影响不是很大吧，主要是k的影响

        pointer = find_leaf_node(data[i], tree)

        mer=np.zeros((k,2))

        for j in range(k):

            mer[j,0]=9999999

        find_label(data[i],tree,pointer,mer)

        # d=np.argmax(np.bincount(int(mer[:,1])))

        # label[i]=d

    return  label

if __name__ == '__main__':

    # train_x, train_y = np.load("data//train_x.npy"), np.load("data//train_y.npy")

    # test_x, test_y = np.load("data//test_x.npy"), np.load("data//test_y.npy")

    # kd树的建立过程，即为二叉树的建立过程，只需要将二叉树对位置的划分变成对某个维度的排序再取其中位数位置的作为划分中点即可

    # 下面为验证数据集，可以看到完美符合

    train_x = np.array(((2, 3), (5, 4), (9, 6), (4, 7), (8, 1), (7, 2)))

    train_y = np.array((4, 2, 3, 5, 6, 1))

    # 为了防止操作过于繁琐，将标签直接加到数据的最后一列

    test_x=np.array(((1,2),(3,4)))

    data = np.insert(train_x, len(train_x[0]), train_y, axis=1)

    tree = np.zeros(((len(train_x) << 2) + 10, len(data[0])))

    build_kd_tree(data, tree, 1, 0)

    p, k = 1, 4

    test_label = k_NN(test_x, tree, p, k)

    print(test_label)

第三章 K近邻法(k-nearest neighbor)的更多相关文章

K近邻法（K-Nearest Neighbor，KNN）
KNN是一种基本分类与回归方法,本篇只总结分类问题中的KNN. 输入:样本的特征向量,对应于特征空间中的点输出:样本的类别,可取多类算法思想:给定一个样本类别已知的训练数据集,对于新样本,根据其K ...
学习笔记——k近邻法
对新的输入实例,在训练数据集中找到与该实例最邻近的$k$个实例,这$k$个实例的多数属于某个类,就把该输入实例分给这个类. $k$ 近邻法($k$-nearest neighbor, ...
k近邻法（kNN）
<统计学习方法>(第二版)第3章 3 分类问题中的k近邻法 k近邻法不具有显式的学习过程. 3.1 算法(k近邻法) 根据给定的距离度量,在训练集$T$中找出与$x$最邻近的\(k ...
《统计学习方法（李航）》讲义第03章 k近邻法
k 近邻法(k-nearest neighbor,k-NN) 是一种基本分类与回归方法.本书只讨论分类问题中的k近邻法.k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类 ...
统计学习方法（三）——K近邻法
/*先把标题给写了.这样就能经常提醒自己*/ 1. k近邻算法 k临近算法的过程,即对一个新的样本,找到特征空间中与其最近的k个样本,这k个样本多数属于某个类,就把这个新的样本也归为这个类. 算法 ...
《统计学习方法》笔记三 k近邻法
本系列笔记内容参考来源为李航<统计学习方法> k近邻是一种基本分类与回归方法,书中只讨论分类情况.输入为实例的特征向量,输出为实例的类别.k值的选择.距离度量及分类决策规则是k近邻法的三个 ...
统计学习三：1.k近邻法
全文引用自<统计学习方法>(李航) K近邻算法(k-nearest neighbor, KNN) 是一种非常简单直观的基本分类和回归方法,于1968年由Cover和Hart提出.在本文中, ...
机器学习PR：k近邻法分类
k近邻法是一种基本分类与回归方法.本章只讨论k近邻分类,回归方法将在随后专题中进行. 它可以进行多类分类,分类时根据在样本集合中其k个最近邻点的类别,通过多数表决等方式进行预测,因此不具有显式的学习过 ...
k近邻法（二）
上一篇文章讲了k近邻法,以及使用kd树构造数据结构,使得提高最近邻点搜索效率,但是这在数据点N 远大于 2^n 时可以有效的降低算法复杂度,n为数据点的维度,否则,由于需要向上回溯比较距离,使得实际效 ...
K近邻法(KNN)原理小结
K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用.比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出 ...

随机推荐

TeamViewer & remote control
TeamViewer remote control https://www.teamviewer.com/en/download/windows/ https://dl.tvcdn.de/downlo ...
ABC077翻车实况
今天强行打一波ABC,想作为信心赛,然而= = T1 日常练习读入&输出 T2 $STL$大法好,$sqrt$保平安,我强行递推$WA$了一圈,然后罚时++ T3 woc好难啊,$n=1 ...
网易2018校招合唱 DP
时间限制:2秒空间限制:131072K 小Q和牛博士合唱一首歌曲,这首歌曲由n个音调组成,每个音调由一个正整数表示.对于每个音调要么由小Q演唱要么由牛博士演唱,对于一系列音调演唱的难度等于所有相 ...
codevs——1006 等差数列
1006 等差数列时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题解查看运行结果题目描述 Description 给定n(1<=n< ...
ubuntu忘记root密码的解决办法
ubuntu忘记密码,不需要重装系统即可重新设置root密码,以下是步骤: 1)在系统一启动时,按ESC键,目的是为了出现选单页面 2) 当看到选单页面时,此时按下[e] 这个键,此时会进入grub ...
高数(A)下第十一章
11.1 11.2 11.3 11.4 11.5
sql 按中文排序
sql server:select * from [表名]order by [字段],[字段] collate Chinese_PRC_CS_AS_KS_WS mysql:select * from ...
mysql设置datetime默认值为now
mysql设置datetime默认值为now MYSQL-TIMESTAMP数据类型的默认值与自动更新问题 http://blog.csdn.net/scogeek/article/details/5 ...
myloader恢复mysql数据库演示样例
mydumper是针对mysql数据库备份的一个轻量级第三方的开源工具.备份方式为逻辑备份.它支持多线程.备份速度远高于原生态的mysqldump以及众多优异特性.与其相配套的恢复工具则是mylo ...
Django学习系列之ORM-QuerySetAPI
基本操作 # 增 models.Tb1.objects.create(c1='xx', c2='oo') #增加一条数据,可以接受字典类型数据 **kwargs obj = models.Tb1(c1 ...

第三章 K近邻法(k-nearest neighbor)

书中存在的一些疑问

代码实现过程中的一些难点

第三章 K近邻法(k-nearest neighbor)的更多相关文章

随机推荐

热门专题