简介

在做科学计算的时候，我们需要从外部加载数据，今天给大家介绍一下NumPy中非常有用的一个方法genfromtxt。genfromtxt可以分解成两步，第一步是从文件读取数据，并转化成为字符串。第二步就是将字符串转化成为指定的数据类型。

genfromtxt介绍

先看下genfromtxt的定义：

numpy.genfromtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=" !#$%&'()*+, -./:;<=>?@[\]^{|}~", replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None, encoding='bytes')

genfromtxt可以接受多个参数，这么多参数中只有fname是必须的参数，其他的都是可选的。

fname可以有多种形式，可以是file, str, pathlib.Path, list of str, 或者generator。

如果是单独的str，那么默认是本地或者远程文件的名字。如果是list of str，那么每个str都被当做文件中的一行数据。如果传入的是远程的文件，这个文件会被自动下载到本地目录中。

genfromtxt还可以自动识别文件是否是压缩类型，目前支持两种压缩类型：gzip 和 bz2。

接下来我们看下genfromtxt的常见应用：

使用之前，通常需要导入两个库：

from io import StringIO

import numpy as np

StringIO会生成一个String对象，可以作为genfromtxt的输入。

我们先定义一个包含不同类型的StringIO:

s = StringIO(u"1,1.3,abcde")

这个StringIO包含一个int,一个float和一个str。并且分割符是 ,。

我们看下genfromtxt最简单的使用：

In [65]: data = np.genfromtxt(s)

In [66]: data

Out[66]: array(nan)

因为默认的分隔符是delimiter=None，所以StringIO中的数据会被作为一个整体转换成数组，结果就是nan。

下面我们添加一个逗号分割符：

In [67]: _ = s.seek(0)

In [68]: data = np.genfromtxt(s,delimiter=",")

In [69]: data

Out[69]: array([1. , 1.3, nan])

这次有输出了，但是最后一个字符串因为不能被转换成为float，所以得到了nan。

注意，我们第一行需要重置StringIO的指针到文件的开头。这里我们使用 s.seek(0)。

那么怎么把最后一个str也进行转换呢？我们需要手动指定dtype：

In [74]: _ = s.seek(0)

In [75]: data = np.genfromtxt(s,dtype=float,delimiter=",")

In [76]: data

Out[76]: array([1. , 1.3, nan])

上面我们指定了所有的数组类型都是float，我们还可以分别为数组的每个元素指定类型：

In [77]: _ = s.seek(0)

In [78]: data = np.genfromtxt(s,dtype=[int,float,'S5'],delimiter=",")

In [79]: data

Out[79]: array((1, 1.3, b'abcde'), dtype=[('f0', '<i8'), ('f1', '<f8'), ('f2', '<U')])

我们分别使用int，float和str来对文件中的类型进行转换,可以看到得到了正确的结果。

除了指定类型，我们还可以指定名字，上面的例子中，我们没有指定名字，所以使用的是默认的f0,f1,f2。看一个指定名字的例子：

In [214]: data = np.genfromtxt(s, dtype="i8,f8,S5",names=['myint','myfloat','mystring'], delimiter=",")

In [215]: data

Out[215]:

array((1, 1.3, b'abcde'),

      dtype=[('myint', '<i8'), ('myfloat', '<f8'), ('mystring', 'S5')])

分隔符除了使用字符之外，还可以使用index：

In [216]: s = StringIO(u"11.3abcde")

In [217]: data = np.genfromtxt(s, dtype=None, names=['intvar','fltvar','strvar'],

     ...:  delimiter=[1,3,5])

In [218]: data

Out[218]:

array((1, 1.3, b'abcde'),

      dtype=[('intvar', '<i8'), ('fltvar', '<f8'), ('strvar', 'S5')])

上面我们使用index作为s的分割。

多维数组

如果数据中有换行符，那么可以使用genfromtxt来生成多维数组：

>>> data = u"1, 2, 3\n4, 5, 6"

>>> np.genfromtxt(StringIO(data), delimiter=",")

array([[ 1.,  2.,  3.],

       [ 4.,  5.,  6.]])

autostrip

使用autostrip 可以删除数据两边的空格：

>>> data = u"1, abc , 2\n 3, xxx, 4"

>>> # Without autostrip

>>> np.genfromtxt(StringIO(data), delimiter=",", dtype="|U5")

array([['1', ' abc ', ' 2'],

       ['3', ' xxx', ' 4']], dtype='<U5')

>>> # With autostrip

>>> np.genfromtxt(StringIO(data), delimiter=",", dtype="|U5", autostrip=True)

array([['1', 'abc', '2'],

       ['3', 'xxx', '4']], dtype='<U5')

comments

默认的comments 是 # ，数据中所有以# 开头的都被看做是注释。

>>> data = u"""#

... # Skip me !

... # Skip me too !

... 1, 2

... 3, 4

... 5, 6 #This is the third line of the data

... 7, 8

... # And here comes the last line

... 9, 0

... """

>>> np.genfromtxt(StringIO(data), comments="#", delimiter=",")

array([[1., 2.],

       [3., 4.],

       [5., 6.],

       [7., 8.],

       [9., 0.]])

跳过行和选择列

可以使用skip_header 和 skip_footer 来跳过返回的数组特定的行：

>>> data = u"\n".join(str(i) for i in range(10))

>>> np.genfromtxt(StringIO(data),)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

>>> np.genfromtxt(StringIO(data),

...               skip_header=3, skip_footer=5)

array([ 3.,  4.])

可以使用usecols 来选择特定的行数：

>>> data = u"1 2 3\n4 5 6"

>>> np.genfromtxt(StringIO(data), usecols=(0, -1))

array([[ 1.,  3.],

       [ 4.,  6.]])

如果列还有名字的话，可以用usecols 来选择列的名字：

>>> data = u"1 2 3\n4 5 6"

>>> np.genfromtxt(StringIO(data),

...               names="a, b, c", usecols=("a", "c"))

array([(1.0, 3.0), (4.0, 6.0)],

      dtype=[('a', '<f8'), ('c', '<f8')])

>>> np.genfromtxt(StringIO(data),

...               names="a, b, c", usecols=("a, c"))

    array([(1.0, 3.0), (4.0, 6.0)],

          dtype=[('a', '<f8'), ('c', '<f8')])

本文已收录于 http://www.flydean.com/06-python-numpy-genfromtxt/

最通俗的解读，最深刻的干货，最简洁的教程，众多你不知道的小技巧等你来发现！

欢迎关注我的公众号:「程序那些事」,懂技术，更懂你！

NumPy之:使用genfromtxt导入数据的更多相关文章

用NumPy genfromtxt导入数据
用NumPy genfromtxt导入数据 NumPy provides several functions to create arrays from tabular data. We focus ...
Numpy函数学习--genfromtxt函数
genfromtxt函数今天学习时遇到了genfromtxt函数 world_alcohol = numpy.genfromtxt("world_alcohol.txt",del ...
python导入数据的几种方法
以下是在我学习过程中常用的两种导入数据的方式方法一: c = open('ML2017Data/testTarget.csv',"r") file = csv.reader(c) ...
SQL SERVER导入数据到ORACLE的方法总结
我们偶尔会有将数据从SQL SERVER导入到ORACLE当中的这种需求,那么这种跨数据库导数有那些方法呢?这些方法又有那些利弊呢? 下面比较肤浅的总结了一些可行的方法. 1:生成SQL脚本然后去OR ...
Elasticsearch —— bulk批量导入数据
在使用Elasticsearch的时候,一定会遇到这种场景--希望批量的导入数据,而不是一条一条的手动导入.那么此时,就一定会需要bulk命令! 更多内容参考我整理的Elk教程 bulk批量导入批量 ...
SQL Server导入数据时“启用标示插入”详解
在SQL Server中导入数据时,会有一个"启用标示插入"的选项,突然间懵逼了,这到底啥意思?我选与不选这个选项,结果好像没区别!不科学啊这,"存在即合理", ...
MySQL 导入数据
MySQL中可以使用两种简单的方式来导入MySQL导出的数据. 使用 LOAD DATA 导入数据 MySQL 中提供了LOAD DATA INFILE语句来插入数据. 以下实例中将从当前目录中读取文 ...
导入数据经常使用的SQL语句整理整理
1.事务(基本) GO BEGIN TRY BEGIN TRAN -- 导入数据 COMMIT TRAN END TRY BEGIN CATCH ROLLBACK TRAN END CATCH GO ...
geotrellis使用（二十一）自动导入数据
目录前言整体介绍前台界面后台控制总结一.前言之前Geotrellis数据导入集群采用的是命令行的方式,即通过命令行提交spark任务来ingest数据,待数据导入完毕再启动 ...

随机推荐

python面试题总结
Python语言特性 1. Python的函数参数传递看两个如下例子,分析运行结果 #代码1 a = 1 def fun(a): a = 2 fun(a) print(a) #1 #代码2 a ...
FreeBSD 包管理器设计简介
熟悉 Linux 的人也许会发现,FreeBSD 的包管理方案实际上大约等于以下两大 Linux 发行版包管理器的完美合体: Arch: pacman,对应 pkg(秉承同样的 KISS 理念) Ge ...
PTA 报数
6-3 报数 (20 分) 报数游戏是这样的:有n个人围成一圈,按顺序从1到n编好号.从第一个人开始报数,报到m(<)的人退出圈子:下一个人从1开始报数,报到m的人退出圈子.如此下去,直到留 ...
汇编 JCC指令表
JCC指令中文含义英文原意检查符号位典型c应用 JZ/JE 若为0则跳转:若相等则跳转 jump if zero;jump if equal ZF=1 if (i == j);if (i == ...
【java框架】SpringBoot(5)--SpringBoot整合分布式Dubbo+Zookeeper
1.理论概述 1.1.分布式分布式系统是若干独立计算机的集合,这些计算机对于用户来讲就像单个系统. 由多个系统集成成一个整体,提供多个功能,组合成一个板块,用户在使用上看起来是一个服务.(比如淘宝网 ...
java例题_18 乒乓球比赛（对手问题）
1 /*18 [程序 18 乒乓球赛] 2 题目:两个乒乓球队进行比赛,各出三人.甲队为 a,b,c 三人,乙队为 x,y,z 三人.已抽签决定比赛名单. 3 有人向队员打听比赛的名单.a说他不和 x ...
E. 【例题5】生日相同
解析字符串操作,本题解采取了多关键词排序 Code #include <bits/stdc++.h> using namespace std; int f, n; struct node ...
DSP代码搬运至RAM运行
程序运行过程中,有些函数或程序段和数据等经常调用,正常情况下在FLASH中运行处理消耗时间和资源较大,通常将其移植至RAM中运行,可提高运行效率. 如: 1 #pragma CODE_SECTION( ...
Python基础（十四）：while循环与break、continue关键字
前面我们已经学习了for循环,今天再带着大家讲述一下while循环.那么for循环和while循环,到底有什么区别呢? Python中for循环和while循环本质上是没有区别的,但是在实际应用上,针 ...
Dynamics Crm Plugin插件注册的问题及解决方案（持续更新。。。。。。）
1.注册插件的时候回遇到如下提示 Plug-in assembly does not contain the required types or assembly content cannot be ...

NumPy之:使用genfromtxt导入数据

简介