kNN-准备数据

在上一小节，我们大概了解了kNN算法的基本原理，现在我们要进行数据的处理

本小节所用数据集来自[机器学习实战]:Machine Learning in Action (manning.com)

下载数据集后，将datingTestSet2.txt和datingTestSet放在本程序同一文件夹下

首先阅读程序清单2-2，知道我们应该将datingTestSet2.txt文件中的内容进行读取，书上虽然写的是datingTestSet，但我们将这两个文件打开之后会发现，2对应的文件是将label进行处理的，而另一个没有。关于数据集处理，博主暂时只会pandas处理，这里用的numpy

读取文件

读取文件程序清单2-2直接用的open，没有close，我这里用with open语句

filename = './datingTestSet2.txt'

with open(filename,'r')as fobj:

    content_arr = fobj.readlines()

    print(content_arr)

['40920\t8.326976\t0.953952\t3\n', '14488\t7.153469\t1.673904\t2\n', '26052\t1.441871\t0.805124\t1\n',...]

创建空的numpy矩阵

目的是将刚刚得到的文件内容，存储到numpy中，这时需要：

上述数据是1000*4，所以需要有一个1000*4的ndarray
将刚刚得到的content_arr分开，把回车与换行去掉
1000*4并不能满足我们数据集与标记的需求，所以我们细分成1000*3的数据，和1000*1的标记

import numpy as np

filename = "./datingTestSet2.txt"

def file2matrix(filename):

    # 'r'的意思是只读，fobj是file_object的缩写

    with open(filename,'r')as fobj:

        content_arr = fobj.readlines()

        # 获取content_arr的长度

        arr_len = len(content_arr)

        # 构造1000*3的ndarray

        dataSet = np.zeros([arr_len,3])

        # 标记

        labelSet = []

        index = 0

        for line in content_arr:

            # 去掉换行

            new_line = line.strip()

            # 去掉制表

            normal_line = new_line.split('\t')

            # 这时我们再将normal_line存储进dataSet,并将最后一列存进labelSet

            dataSet[index,:] = normal_line[0:3]

            labelSet.append(int(normal_line[-1]))

            index += 1

        return dataSet,labelSet

dataSet,labelSet = file2matrix(filename)

dataSet

array([[4.0920000e+04, 8.3269760e+00, 9.5395200e-01],

       [1.4488000e+04, 7.1534690e+00, 1.6739040e+00],

       [2.6052000e+04, 1.4418710e+00, 8.0512400e-01],

       ...,

       [2.6575000e+04, 1.0650102e+01, 8.6662700e-01],

       [4.8111000e+04, 9.1345280e+00, 7.2804500e-01],

       [4.3757000e+04, 7.8826010e+00, 1.3324460e+00]])

这里dataSet[index,:] = normal_line[0:3]，这样的语法没见到过，这时numpy中的数据处理方式

见下：

import numpy as np

a = np.zeros((5,6))

b = np.array([1,2,3])

print("a:\n",a)

print("b:\n",b)

a:

 [[0. 0. 0. 0. 0. 0.]

 [0. 0. 0. 0. 0. 0.]

 [0. 0. 0. 0. 0. 0.]

 [0. 0. 0. 0. 0. 0.]

 [0. 0. 0. 0. 0. 0.]]

b:

 [1 2 3]

a[2,3:6] = b

print("a:\n",a)

a:

 [[0. 0. 0. 0. 0. 0.]

 [0. 0. 0. 0. 0. 0.]

 [0. 0. 0. 1. 2. 3.]

 [0. 0. 0. 0. 0. 0.]

 [0. 0. 0. 0. 0. 0.]]

kNN-准备数据的更多相关文章

使用KNN对MNIST数据集进行实验
由于KNN的计算量太大,还没有使用KD-tree进行优化,所以对于60000训练集,10000测试集的数据计算比较慢.这里只是想测试观察一下KNN的效果而已,不调参. K选择之前看过貌似最好不要超过2 ...
机器学习（2） - KNN识别MNIST
代码 https://github.com/s055523/MNISTTensorFlowSharp 数据的获得数据可以由http://yann.lecun.com/exdb/mnist/下载.之后 ...
K-临近算法(KNN)
K-临近算法(KNN) K nearest neighbour 1.k-近邻算法原理简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类. 优点:精度高.对异常值不敏感.无数据输入假定. ...
【转载】K-NN算法学习总结
声明:作者:会心一击出处:http://www.cnblogs.com/lijingchn/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接, ...
Python实现knn
#coding:utf-8 import numpy as np import operator import os def classify0(inX, dataSet, labels, k): d ...
机器学习（一）之KNN算法
knn算法原理 ①.计算机将计算所有的点和该点的距离 ②.选出最近的k个点 ③.比较在选择的几个点中那个类的个数多就将该点分到那个类中 KNN算法的特点: knn算法的优点:精度高,对异常值不敏感,无 ...
机器学习经典算法具体解释及Python实现--K近邻(KNN)算法
(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值 ...
knn 算法 k个相近邻居
# 一个最基本的例子 #样本数据的封装 feature = [[170,70,42],[166,56,39],[188,90,44],[165,88,40],[170,66,40],[176,80,4 ...
机器学习之近邻算法模型(KNN)
1..导引如何进行电影分类众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问 ...
《zw版·Halcon-delphi系列原创教程》 Halcon分类函数011,ocr，字符识别
<zw版·Halcon-delphi系列原创教程> Halcon分类函数011,ocr,字符识别为方便阅读,在不影响说明的前提下,笔者对函数进行了简化: :: 用符号“**”,替换:“p ...

随机推荐

ubuntu sublime text3 python 配置 sublime text3 python 配置
ubuntu sublime text3 python 配置 1.安装sublime text 3 安装过程非常简单,在terminal中输入: sudo add-apt-repository ...
机器学习优化算法之EM算法
EM算法简介 EM算法其实是一类算法的总称.EM算法分为E-Step和M-Step两步.EM算法的应用范围很广,基本机器学习需要迭代优化参数的模型在优化时都可以使用EM算法. EM算法的思想和过程 E ...
EF框架基础
ORM概述: ORM全称是"对象 - 关系映射" . ORM是将关系数据库中的数据用对象的形式表现出来,并通过面向对象的方式将这些对象组织起来,实现系统业务逻辑的过程. Entit ...
java中类变量和实例变量的实质区别？
类变量和实例变量的区别相对于static(静态的)或说类的, 本章开始提到的都是instance(实例的)或说对象的. 每个对象都有自己的一份儿对象域或实例域,相互之间没关系, 不共享. 我们可以从 ...
java中的排序除了冒泡以来，再给出一种方法，举例说明
9.5 排序: 有一种排序的方法,非常好理解,详见本题的步骤,先找出最大值和最小值,把最小值打印出来后,把它存在另一个数组b当中,再删除此最小值,之后再来一次找出最小值,打印出最小值以后,再把它存 ...
以&#开头的是什么编码？
今天遇到了一个网页时繁体的,它的title和meta信息在浏览器中显示正常,但是查看其源码是却是"最新發"这种. 在网上找了半天资料,终于搞明白了. 以在网页中&#开头的是 ...
Mybatis模糊查询结果为空的解决方案
写在前面 Mybatis使用模糊查询,查询结果为空的解决方案,我的代码是 select * from sp_user where 1=1 <if test="username!=nul ...
技术管理进阶——什么Leader值得追随？
原创不易,求分享.求一键三连 Leader眼里的主动性前几天孙狗下面小A身上发生了一件Case,让他感到很疑惑: 有一个跨部门较多的项目推进不力,于是善于交流的他被临时提拔成项目负责人,但马上令人 ...
Spring Boot配置druid监控页功能
1.导入坐标 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http ...
【简单dfs】Bubble Cup 14 - Finals Online Mirror (Unrated, ICPC Rules, Teams Preferred, Div. 2), problem: (J) Robot Factory,
传送门 Problem - 1600J - Codeforces 题目题意给定n行m列, 求每个连通块由多少格子组成,并将格子数从大到小排序输出对于每个格子都有一个数(0~15),将其转化 ...

kNN-准备数据

读取文件

创建空的numpy矩阵

kNN-准备数据的更多相关文章

随机推荐

热门专题