kNN(k近邻)算法代码实现

目标：预测未知数据(或测试数据)X的分类y
批量kNN算法
1.输入一个待预测的X(一维或多维)给训练数据集,计算出训练集X_train中的每一个样本与其的距离
2.找到前k个距离该数据最近的样本-->所属的分类y_train
3.将前k近的样本进行统计，哪个分类多，则我们将x分类为哪个分类

# 准备阶段：

import numpy as np

# import matplotlib.pyplot as plt

raw_data_X = [[3.393533211, 2.331273381],

              [3.110073483, 1.781539638],

              [1.343808831, 3.368360954],

              [3.582294042, 4.679179110],

              [2.280362439, 2.866990263],

              [7.423436942, 4.696522875],

              [5.745051997, 3.533989803],

              [9.172168622, 2.511101045],

              [7.792783481, 3.424088941],

              [7.939820817, 0.791637231]

             ]

raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

X_train = np.array(raw_data_X)

y_train = np.array(raw_data_y)

x = np.array([8.093607318, 3.365731514])

核心代码：

 目标：预测未知数据(或测试数据)X的分类y

批量kNN算法

1.输入一个待预测的X(一维或多维)给训练数据集,计算出训练集X_train中的每一个样本与其的距离

2.找到前k个距离该数据最近的样本-->所属的分类y_train

3.将前k近的样本进行统计，哪个分类多，则我们将x分类为哪个分类

from math import sqrt

from collections import Counter

# 已知X_train，y_train

# 预测x的分类

def predict(x, k=5):

    # 计算训练集每个样本与x的距离

    distances = [sqrt(np.sum((x-x_train)**2)) for x_train in X_train]  # 这里用了numpy的fancy方法，np.sum((x-x_train)**2)

    # 获得距离对应的索引，可以通过这些索引找到其所属分类y_train

    nearest = np.argsort(distances)

    # 得到前k近的分类y

    topK_y = [y_train[neighbor] for neighbor in nearest[:k]]

    # 投票的方式，得到一个字典，key是分类，value数个数

    votes = Counter(topK_y)

    # 取出得票第一名的分类

    return votes.most_common(1)[0][0]   # 得到y_predict

predict(x, k=6)

面向对象的方式，模仿sklearn中的方法实现kNN算法：

import numpy as np

from math import sqrt

from collections import Counter

class kNN_classify:

    def __init__(self, n_neighbor=5):

        self.k = n_neighbor

        self._X_train = None

        self._y_train = None

    def fit(self, X_train, y_train):

        self._X_train = X_train

        self._y_train = y_train

        return self

    def predict(self, X):

        '''接收多维数据，返回y_predict也是多维的'''

        y_predict = [self._predict(x) for x in X]

        # return y_predict

        return np.array(y_predict)  # 返回array的格式

    def _predict(self, x):

        '''接收一个待预测的x，返回y_predict'''

        distances = [sqrt(np.sum((x-x_train)**2)) for x_train in self._X_train]

        nearest = np.argsort(distances)

        topK_y = [self._y_train[neighbor] for neighbor in nearest[:self.k]]

        votes = Counter(topK_y)

        return votes.most_common(1)[0][0]

    def __repr__(self):

        return 'kNN_clf(k=%d)' % self.k

kNN(k近邻)算法代码实现的更多相关文章

基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
第四十六篇入门机器学习——kNN - k近邻算法（k-Nearest Neighbors）
No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...
KNN K~近邻算法笔记
K~近邻算法是最简单的机器学习算法.工作原理就是:将新数据的每一个特征与样本集中数据相应的特征进行比較.然后算法提取样本集中特征最相似的数据的分类标签.一般来说.仅仅提取样本数据集中前K个最相似的数据 ...
KNN (K近邻算法) - 识别手写数字
KNN项目实战——手写数字识别 1. 介绍 k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法.它的工作原理是:存在一个 ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
机器学习：k-NN算法（也叫k近邻算法）
一.kNN算法基础 # kNN:k-Nearest Neighboors # 多用于解决分裂问题 1)特点: 是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集 ...
数据挖掘算法（一）--K近邻算法（KNN）
数据挖掘算法学习笔记汇总数据挖掘算法(一)–K近邻算法 (KNN) 数据挖掘算法(二)–决策树数据挖掘算法(三)–logistic回归算法简介 KNN算法的训练样本是多维特征空间向量,其中每个训 ...
《机实战》第2章 K近邻算法实战（KNN）
1.准备:使用Python导入数据 1.创建kNN.py文件,并在其中增加下面的代码: from numpy import * #导入科学计算包 import operator #运算符模块,k近邻算 ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...

随机推荐

linux远程搭建yum网络仓库《全面解析》
目录一:远程版本需求 1.yum简介 2.yum安装解析二:yum安装的生命周期三:yum私有仓库作用与必要性四:搭建yum私有仓库本地版本 1.下载必须的软件包 2.创建软件仓库(就是创建 ...
python网络爬虫-解析网页（六）
解析网页主要使用到3种方法提取网页中的数据,分别是正则表达式.beautifulsoup和lxml. 使用正则表达式解析网页正则表达式是对字符串操作的逻辑公式 .代替任意字符 . *匹配前0个或多 ...
010 Linux 文本统计与去重 (wc 和 uniq)
wc 命令一般是作为组合命令的一员与其他命令一同起到统计的作用.而一般情况下使用wc -l 命令较多. uniq 可检查文本文件中重复出现的行,一般与 sort 命令结合使用.一起组合搭配使用完成统计 ...
Java8之Stream常用操作方式
哈喽!大家好,我是[学无止境小奇],一位热爱分享各种技术的博主! [学无止境小奇]的创作宗旨:每一条命令都亲自执行过,每一行代码都实际运行过,每一种方法都真实实践过,每一篇文章都良心制作过. [学无止 ...
simpholders 官方网址 https://www.simpholders.com/
SimPholders可让你快速直接地访问iPhone模拟器应用的app文档.你可以通过SimPholders找到数据库文件.永久存储以及缓存,它是一个非常实用的app debug工具,同时还可以离线 ...
JVM学习十一 - （复习）性能调优
在高性能硬件上部署程序,目前主要有两种方式: 通过 64 位 JDK 来使用大内存: 使用若干个 32 位虚拟机建立逻辑集群来利用硬件资源. 使用 64 位 JDK 管理大内存堆内存变大后,虽然垃圾 ...
VC 常用
转载请注明来源:https://www.cnblogs.com/hookjc/ ------------------------------------------------------------ ...
【转载】Nginx简介及使用Nginx实现负载均衡的原理
原文地址:http://blog.csdn.net/u014749862/article/details/50522276 是什么? Nginx 这个轻量级.高性能的 web server 主要可以干 ...
内部类&异常
/* 内部类内部类类别: 成员内部类: 在一个类的成员位置定义另外一个类,那么另外一个类就称作为成员内部类. 成员内部类的访问方式: 方式1: 在外部类内提供一个方法创建内部类的对象进行访问. ...
k8s之list-watch机制、节点调度以及亲和性
k8s之list-watch机制.节点调度以及亲和性目录 k8s之list-watch机制.节点调度以及亲和性一.list-watch机制 1. list-watch介绍 2. list-watc ...

kNN(k近邻)算法代码实现

kNN(k近邻)算法代码实现的更多相关文章

随机推荐

热门专题