tensorflow之最近邻算法实现

最近邻算法，最直接的理解就是，输入数据的特征与已有数据的特征一一进行比对，最靠近哪一个就将输入数据划分为那一个所属的类，当然，以此来统计k个最靠近特征中所属类别最多的类，那就变成了k近邻算法。本博客同样对sklearn的乳腺癌数据进行最近邻算法分类，基本的内容同上一篇博客内容一样，就是最近邻计算的是距离，优化的是最小距离问题，这里采用L1距离(曼哈顿距离)或者L2距离(欧氏距离)，计算特征之间的绝对距离：

# 计算L1距离(曼哈顿)

distance = tf.reduce_sum(tf.abs(tf.add(xtr, tf.negative(xte))), reduction_indices=1)

# L2距离(欧式距离)

distance = tf.sqrt(tf.reduce_sum(tf.square(tf.add(xtr, tf.negative(xte))), reduction_indices=1))

优化问题就是获得最小距离的标签：

pred = tf.arg_min(distance, 0)

最后衡量最近邻算法的性能的时候就通过统计正确分类和错误分类的个数来计算准确率，完整的代码如下：

from __future__ import print_function

import tensorflow as tf

import sklearn.datasets

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets as skd

from sklearn.model_selection import train_test_split

# 加载乳腺癌数据集，该数据及596个样本，每个样本有30维，共有两类

cancer = skd.load_breast_cancer()

# 将数据集的数据和标签分离

X_data = cancer.data

Y_data = cancer.target

print("X_data.shape = ", X_data.shape)

print("Y_data.shape = ", Y_data.shape)

# 将数据和标签分成训练集和测试集

x_train,x_test,y_train,y_test = train_test_split(X_data,Y_data,test_size=0.2,random_state=1)

print("y_test=", y_test)

print("x_train.shape = ", x_train.shape)

print("x_test.shape = ", x_test.shape)

print("y_train.shape = ", y_train.shape)

print("y_test.shape = ", y_test.shape)

# tf的图模型输入

xtr = tf.placeholder("float", [None, 30])

xte = tf.placeholder("float", [30])

# 计算L1距离(曼哈顿)

# distance = tf.reduce_sum(tf.abs(tf.add(xtr, tf.negative(xte))), reduction_indices=1)

# L2距离(欧式距离)

distance = tf.sqrt(tf.reduce_sum(tf.square(tf.add(xtr, tf.negative(xte))), reduction_indices=1))

# Prediction: Get min distance index (Nearest neighbor)

pred = tf.arg_min(distance, 0)

accuracy = 0.

error_count = 0

init = tf.global_variables_initializer()

with tf.Session() as sess:

    sess.run(init)

    for i in range(x_test.shape[0]):

        # 获取最近邻类

        nn_index = sess.run(pred, feed_dict={xtr: x_train, xte: x_test[i, :]})

        print("Test", i, "Prediction:", y_train[nn_index], "True Class:", y_test[i])

        if y_train[nn_index] == y_test[i]:

            accuracy += 1./len(x_test)

        else:

            error_count = error_count + 1

    print("完成!")

    print("准确分类：", x_test.shape[0] - error_count)

    print("错误分类：", error_count)

    print("准确率:", accuracy)

最近邻算法的表现如下：

这里有几点影响：

1、数据集，一般，训练集越大，相对来说准确率相对就高一些；

2、使用欧氏距离度量的时候会比用曼哈顿距离要好一些。

朱雀桥边野草花，乌衣巷口夕阳斜。

旧时王谢堂前燕，飞入寻常百姓家。

-- 刘禹锡《乌衣巷》

tensorflow之最近邻算法实现的更多相关文章

在opencv3中实现机器学习算法之：利用最近邻算法（knn)实现手写数字分类
手写数字digits分类,这可是深度学习算法的入门练习.而且还有专门的手写数字MINIST库.opencv提供了一张手写数字图片给我们,先来看看这是一张密密麻麻的手写数字图:图片大小为1000*20 ...
KNN(k-nearest neighbor的缩写)又叫最近邻算法
KNN(k-nearest neighbor的缩写)又叫最近邻算法机器学习笔记--KNN算法1 前言 Hello ,everyone. 我是小花.大四毕业,留在学校有点事情,就在这里和大家吹吹我们的 ...
【算法】K最近邻算法（K-NEAREST NEIGHBOURS，KNN）
K最近邻算法(k-nearest neighbours,KNN) 算法对一个元素进行分类查看它k个最近的邻居在这些邻居中,哪个种类多,这个元素有更大概率是这个种类使用使用KNN来做两项基本工 ...
最近邻算法（KNN）
最近邻算法: 1.什么是最近邻是什么? kNN算法全程是k-最近邻算法(k-Nearest Neighbor) kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数数以一个类型别 ...
图说十大数据挖掘算法(一)K最近邻算法
如果你之前没有学习过K最近邻算法,那今天几张图,让你明白什么是K最近邻算法. 先来一张图,请分辨它是什么水果很多同学不假思索,直接回答:“菠萝”!!! 仔细看看同学们,这是菠萝么?那再看下边这这张图 ...
《算法图解》——第十章 K最近邻算法
第十章 K最近邻算法 1 K最近邻(k-nearest neighbours,KNN)——水果分类 2 创建推荐系统利用相似的用户相距较近,但如何确定两位用户的相似程度呢? ①特征抽取对水果 ...
12、K最近邻算法（KNN算法）
一.如何创建推荐系统? 找到与用户相似的其他用户,然后把其他用户喜欢的东西推荐给用户.这就是K最近邻算法的分类作用. 二.抽取特征推荐系统最重要的工作是:将用户的特征抽取出来并转化为度量的数字,然后 ...
[笔记]《算法图解》第十章 K最近邻算法
K最近邻算法简称KNN,计算与周边邻居的距离的算法,用于创建分类系统.机器学习等. 算法思路:首先特征化(量化) 然后在象限中选取目标点,然后通过目标点与其n个邻居的比较,得出目标的特征. 余弦相似 ...
PCB 加投率计算实现基本原理--K最近邻算法（KNN）
PCB行业中,客户订购5000pcs,在投料时不会直接投5000pcs,因为实际在生产过程不可避免的造成PCB报废, 所以在生产前需计划多投一定比例的板板, 例:订单量是5000pcs,加投3%,那 ...

随机推荐

2019 OI日记
// 我觉得记日记是个好习惯吧毕竟指不定哪天就学不下去了就AFO了就没有梦了 // [置顶]活跃于你谷普及训练场.ybt(没底气说全部).loj(提高基础部分) //优先级从前往后因为 ...
vscode dart 插件关闭自动注释
vscode dart 插件关闭自动注释左下角设置 --> 搜索 Closing Labels --> 去掉勾选
Mongoose使用
文章来自 Mongoose基础入门 Mongoose的API Mongoose模式扩展指南之查询指南之验证 mongoose方法很多,很乱,版本不一样,有些方法可能都过时了,所以整理了很久连接数 ...
servlet3.0的文件上传代码配置怎么写
之前学习过xml配置servlet3.0的文件上传,但是变成code方式一直不知道怎么弄,相比较起来apache的文件上传配置和xml倒是没什么太大区别. 直接上代码:无需依赖,只要一个方法就好了cu ...
HDU - 3729 I'm Telling the Truth（二分匹配）
题意:有n个人,每个人给出自己的名次区间,问最多有多少个人没撒谎,如果有多解,输出字典序最大的解. 分析: 1.因为字典序最大,所以从后往前分析. 2.假设后面的人没说谎,并将此作为已知条件,然后从后 ...
idea 将java 项目打包成jar包
记录一下,防止忘记.ps : 请忽略这个是web项目 1.idea 打包jar包 (1)首先打开Project Structure,选中Artifacts (2)点击绿色加号,选中jar ,然后选中f ...
3分钟学会Python 针对Excel操作
1.python 读取Excel # -*- coding: utf-8 -*- import xlrd import os,sys reload(sys) sys.setdefaultencodin ...
102-PHP多维数组的元素输出
<?php //定义一个三维数组 $grade=array('class1'=>array('stu1'=>array('yuwen'=>85,'shuxue'=>95, ...
PostAsync与GetAsync
using Newtonsoft.Json; using Newtonsoft.Json.Linq; using System; using System.Collections.Generic; u ...
servlet 之 HttpServlet抽象类详解
Servlet的框架是由两个Java包组成:javax.servlet和javax.servlet.http. 在javax.servlet包中定义了所有的Servlet类都必须实现或扩展的的通用接口 ...

tensorflow之最近邻算法实现

tensorflow之最近邻算法实现的更多相关文章

随机推荐

热门专题