python数据预处理for knn

机器学习实战 一书中第20页数据预处理，从文本中解析数据的程序。

 import numpy as np

 def dataPreProcessing(fileName):

     with open(fileName) as op:

         lines=op.readlines()

         # 返回值是list

         lineNumer=len(lines)

         # list长度即文件中的行数

         dataMatrix=np.zeros((lineNumer,3))

         # 初始化lineNumer行，3列的全0矩阵，注意双层括号

         labelVector=[]

         # 标记向量初始化，它在目前是一个空的list

         index=0

         # 索引，为了后面给数据矩阵和标记向量初始化用的

         for line in lines:

             line=line.strip()

             # 去空格

             temp=line.split('\t')

             # 按换行符分割数据，返回list

             dataMatrix[index,:]=temp[0:3]

             # 切片操作，dataMatrix[a,b:c]后的方括号中第一个值表示矩阵行号（从0开始）

             # 第二、三个参数代表从b开始，c结束，前开后闭，包含b不包含c的元素

             # temp中的两个参数同理

             # 将temp中的前3个值赋给dataMatrix

             labelVector.append(int(temp[-1]))

             # 将temp中的最后一个值赋给labelVector，注意强转类型，不强转取到的类型为string

             index=index+1

         return dataMatrix,labelVector

 # arr=np.array([[0,1,2],[3,4,5],[6,7,8]])

 # print(arr[2,:])

 fileName='./datingTestSet2.txt'

 # “/”：表示根目录，在windows系统下表示某个盘的根目录，如“E:\”；

 # “./”：表示当前目录；（表示当前目录时，也可以去掉“./”，直接写文件名或者下级目录）

 # “../”：表示上级目录。

 a,b=dataPreProcessing(fileName)

 print(a,b)


附：今晚很郁闷，pycharm启动慢得要死，Numpy又用不了，好不容易才用清华镜像把numpy升级到可用状态，期间pycharm卡死了好几次，ukylin的虚拟机更卡，气得我想把电脑砸了，以后有替代的ide了再也不用pycharm了

---------------------------------------------------------------------------------------
2020-02-15更新
读取txt文件中的数据

testArray=genfromtxt(fileName,delimiter="\t",dtype=str)

# 文件名、分隔符、读取的数据以什么类型返回

# print('testArray=\n',testArray)

# print(testArray.shape)

# print(testArray.dtype)

testLabels=testArray[:,3]

testLabels=testLabels.astype(int)

# 矩阵切片，取出所有行第3列，其中：表示所有行

print('testLabels\n',testLabels)

print(testLabels.shape)

testInfo=testArray[:,0:3]

# 读取每一行的前3列，这里的0:3是左闭右开区间

testInfo=testInfo.astype(float)

print('testInfo:\n',testInfo)

　　今晚又重温了 “唐宇迪\1章Python科学计算库—numpy”课程系列中的 05-07三节内容，其中《课时07.Numpy矩阵基础》只看到了3'12''

python数据预处理for knn的更多相关文章

Python数据预处理：机器学习、人工智能通用技术（1）
Python数据预处理:机器学习.人工智能通用技术白宁超 2018年12月24日17:28:26 摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题.原始数据存在大量不完整.不 ...
python data analysis | python数据预处理（基于scikit-learn模块）
原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...
Python数据预处理—归一化，标准化，正则化
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常用的 ...
Python数据预处理之清及
使用Pandas进行数据预处理数据清洗中不是每一步都是必须的,按实际需求操作. 内容目录 1.数据的生成与导入 2.数据信息查看 2.1.查看整体数据信息 2.2.查看数据维度.列名称.数据格式 2 ...
Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler)，标准化(StandardScaler)，正则化(Normalizer, normalize)
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...
python数据预处理和特性选择后列的映射
我们在用python进行机器学习建模时,首先需要对数据进行预处理然后进行特征工程,在这些过程中,数据的格式可能会发生变化,前几天我遇到过的问题就是: 对数据进行标准化.归一化.方差过滤的时候数据都从D ...
Python数据预处理：使用Dask和Numba并行化加速
如果你善于使用Pandas变换数据.创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作.单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Num ...
Python数据预处理—训练集和测试集数据划分
使用sklearn中的函数可以很方便的将数据划分为trainset 和 testset 该函数为sklearn.cross_validation.train_test_split,用法如下: > ...
关系网络数据可视化：2. Python数据预处理
将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数 import numpy as np import pandas as pd import matplotlib.pyplo ...

随机推荐

十六、JavaScript之%运算符
一.代码如下二.运行效果如下 <!DOCTYPE html> <html> <meta http-equiv="Content-Type" cont ...
Windows 2000 栈溢出利用异常
当在一个函数(test)里面自定义了异常处理,如下: 那么在运行时,它会把自定义的异常处理函数MyExceptionhandler()的地址放入栈中(PUSH 004013CC) 然后把fs:[0]的 ...
CV_图像滤波[转]---python+opencv均值滤波，高斯滤波，中值滤波，双边滤波
1.图像滤波算法(cv2) https://blog.csdn.net/qq_27261889/article/details/80822270 2.
代码化UI设计
最近在阅读Qt 5.9 C++开发指南,为了加深对书本上内容的理解,参照书上的讲解尝试写了一些demo,用于以后工作中查阅,如果涉及侵权请告知,实例程序samp2_3 mydialog.h #ifnd ...
【Java Spring 进阶之路】1.Spring 是什么？
【pwnable.kr】 shellshock
pwnable从入门到放弃,第五题. ssh shellshock@pwnable.kr -p2222 (pw:guest) 这题主要涉及了一个关于bash的CVE漏洞. 首先还是下载源代码审计一下, ...
bzoj 1832: [AHOI2008]聚会
良心题2333 三个点两两求一遍就行,最小肯定是在某2个点的lca处,(肯定让第三个人去找2个人,不能让2个人一起去找第三个人233) #include<bits/stdc++.h> #d ...
cf 444C.
听说这是线段树的裸题??(看来我也就能搞个求和什么的了2333) #include<bits/stdc++.h> #define INF 0x7fffffff #define LL lon ...
Vue.js（18）之 axios简单封装
基于vue-cli2.x封装axios src目录 axios.js import axios from 'axios' import { Indicator, Toast } from 'mint- ...
vue实现CheckBox与数组对象绑定
实现需求: 实现一个简易的购物车,页面的表格展示data数据中的一个数组对象,并提供选中商品和全选商品checkbox复选框,页面实时显示选中商品的总金额: 分析: 1:使用v-for循环渲染arra ...

python数据预处理for knn

python数据预处理for knn的更多相关文章

随机推荐

热门专题