本章概要

  数据加载、存储与文件格式

数据加载、存储与文件格式

读取文本格式数据

read_csv 默认是按照逗号分割,也可设定其他分割符

df = pd.read_csv('file', sep='|')

也可以使用read_table,但是必须要指定分隔符

df = pd.read_table('examples/ex1.csv', sep=',')

一些参数设置

pd.read_csv('examples/ex2.csv', header=None)
# 一些文件没有列标题,可以设置文件头为空 pd.read_csv('examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])
# 也可以为没有列标题的文件自定义列标题 pd.read_csv('examples/ex2.csv', names=names, index_col='message')
# 自定义的列标题中的message列放到索引位置 parsed = pd.read_csv('examples/csv_mindex.csv', index_col=['key1', 'key2'])
# 使用文件内多个列做成层次化索引 result = pd.read_table('examples/ex3.txt', sep='\s+')
# 有些时候表格不是按照固定的分割符去分割字段的,可以在分隔符参数传入正则表达式 这里的\s+表示的是匹配空格符,空格,制表符,换页符 pd.read_csv('examples/ex4.csv', skiprows=[0, 2, 3])
# 有些文件可能会有一些注释,描述性文字在文件头,可以通过skiprows参数跳过指定行 result = pd.read_csv('examples/ex5.csv')
pd.isnull(result)
# 判断dataframe里面的每个值是否为空,在值的位置返回布尔值 result = pd.read_csv('examples/ex5.csv', na_values=['NULL'])
# 可以接受列表来表示缺失值的字符串 sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv('examples/ex5.csv', na_values=sentinels)
# 可以用字典为指定列定制不同的NA标记值

逐块读取文本文件

在处理大文件时,可能只是想读取文件的一小部分或逐块对文件进行迭代。

pd.options.display.max_rows = 10

设置大文件的dataframe显示10行,前5后5

pd.read_csv('examples/ex6.csv', nrows=5)
# 只读取5行 chunker = pd.read_csv('ch06/ex6.csv', chunksize=1000)
chunker
<pandas.io.parsers.TextParser at 0x8368250>
# read_csv所返回的这个TextParser对象使你可以根据chunksize对文件进行逐块迭代。 chunker = pd.read_csv('examples/ex6.csv', chunksize=1000) tot = Series([])
for piece in chunker:
tot = tot.add(piece['key'].value_counts(), fill_value=0) tot = tot.sort_values(ascending=False)
# 我们可以迭代处理ex6.csv,将值计数聚合到"key"列中

数据写出到文本格式

data = pd.read_csv('test/ex5.csv')
# 读取文件到dataframe data.to_csv('test/out.csv')
# 将数据写入文件,默认逗号分割 data.to_csv(sys.stdout, sep='|')
# 也可以设定分隔符 data.to_csv(sys.stdout, na_rep='NULL')
# 缺失值在输出结果中会被表示为空字符串 data.to_csv(sys.stdout, index=False, header=False)
#可以禁用行列索引 data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])
# 还可以指定写入你需要的列,并按顺序排列 series.to_csv('examples/tseries.csv')
# series也有写如的to_csv方法

处理分隔符格式

大部分存储在磁盘上的表格型数据都能用pandas.read_table进行加载。然而,有时还是需要做一些手工处理。由于接收到含有畸形行的文件而使read_table出毛病的情况并不少见。为了说明这些基本工具,看看下面这个简单的CSV文件:

In [1]: !cat examples/ex7.csv
"a","b","c"
"","",""
"","",""

对于任意单字符分隔符文件,可以直接使用内置的csv模块,将任意已打开的文件或文件型的对象传给csv.reader

import csv
f = open('examples/ex7.csv')
reader = csv.reader(f)
In [2]: for line in reader:
....: print(line)
['a', 'b', 'c']
['', '', '']
['', '', '']

现在,为了使数据格式合乎要求,你需要对其做一些整理工作。我们一步一步来做。首先,读取文件到一个多行的列表中:

In [3]: with open('examples/ex7.csv') as f:
....: lines = list(csv.reader(f))

然后,我们将这些行分为标题行和数据行:

In [4]: header, values = lines[0], lines[1:]

然后,我们可以用字典构造式和zip(*values),后者将行转置为列,创建数据列的字典:

In [5]: data_dict = {h: v for h, v in zip(header, zip(*values))}
In [6]: data_dict
Out[7]: {'a': ('', ''), 'b': ('', ''), 'c': ('', '')}

CSV文件的形式有很多。只需定义csv.Dialect的一个子类即可定义出新格式(如专门的分隔符、字符串引用约定、行结束符等):

class my_dialect(csv.Dialect):
lineterminator = '\n'
delimiter = ';'
quotechar = '"'
quoting = csv.QUOTE_MINIMAL
reader = csv.reader(f, dialect=my_dialect)

各个CSV语支的参数也可以用关键字的形式提供给csv.reader,而无需定义子类:

reader = csv.reader(f, delimiter='|')

要手工输出分隔符文件,你可以使用csv.writer。它接受一个已打开且可写的文件对象以及跟csv.reader相同的那些语支和格式化选项:

with open('mydata.csv', 'w') as f:
writer = csv.writer(f, dialect=my_dialect)
writer.writerow(('one', 'two', 'three'))
writer.writerow(('', '', ''))
writer.writerow(('', '', ''))
writer.writerow(('', '', ''))

其他格式的数据读取

https://www.jianshu.com/p/047d8c1c7e14,有需求的时候看一下就好了,没必要太关注

Python 数据分析4的更多相关文章

  1. [Python数据分析]新股破板买入,赚钱几率如何?

    这是本人一直比较好奇的问题,网上没搜到,最近在看python数据分析,正好自己动手做一下试试.作者对于python是零基础,需要从头学起. 在写本文时,作者也没有完成这个小分析目标,边学边做吧. == ...

  2. 【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例

    基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化 已经正确地实现 ...

  3. 【Python数据分析】Python3操作Excel(二) 一些问题的解决与优化

    继上一篇[Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 对豆瓣图书Top250进行爬取以后,鉴于还有一些问题没有解决,所以进行了进一步的交流讨论,这期间得到了一只尼玛 ...

  4. 【搬砖】【Python数据分析】Pycharm中plot绘图不能显示出来

    最近在看<Python数据分析>这本书,而自己写代码一直用的是Pycharm,在练习的时候就碰到了plot()绘图不能显示出来的问题.网上翻了一下找到知乎上一篇回答,试了一下好像不行,而且 ...

  5. Python 数据分析(二 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识

    Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识 第1节 groupby 技术 第2节 数据聚合 第3节 分组级运算和转换 第4 ...

  6. Python数据分析(二): Numpy技巧 (1/4)

    In [1]: import numpy numpy.__version__ Out[1]: '1.13.1' In [2]: import numpy as np  

  7. Python数据分析(二): Numpy技巧 (2/4)

    numpy.pandas.matplotlib(+seaborn)是python数据分析/机器学习的基本工具. numpy的内容特别丰富,我这里只能介绍一下比较常见的方法和属性.   昨天晚上发了第一 ...

  8. Python数据分析(二): Numpy技巧 (3/4)

    numpy.pandas.matplotlib(+seaborn)是python数据分析/机器学习的基本工具. numpy的内容特别丰富,我这里只能介绍一下比较常见的方法和属性.   昨天晚上发了第一 ...

  9. Python数据分析(二): Numpy技巧 (4/4)

    numpy.pandas.matplotlib(+seaborn)是python数据分析/机器学习的基本工具. numpy的内容特别丰富,我这里只能介绍一下比较常见的方法和属性.   第一部分: ht ...

  10. 【读书笔记与思考】《python数据分析与挖掘实战》-张良均

    [读书笔记与思考]<python数据分析与挖掘实战>-张良均 最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基 ...

随机推荐

  1. .NET core2.0 发布至IIS中

    .NET CORE和asp.net 发布时不太一样,ASP.NET Core不再是由IIS工作进程(w3wp.exe)托管,而是使用自托管Web服务器(Kestrel)运行,IIS则是作为反向代理的角 ...

  2. nextInt()和nextLine()一起使用时的注意点

    问题原因:nextLine()会把nextInt(),next(),nextDouble(),nextFloat()的结束换行符作为字符串读入,进而不需要从键盘输入字符串nextLine便已经转向了下 ...

  3. FLOAT 和 DOUBLE区别

    以下是 FLOAT 和 DOUBLE 的区别: float : 单精度浮点数 double : 双精度浮点数 ·浮点数以 8 位精度存储在 FLOAT 中,并且有四个字节. ·浮点数存储在 DOUBL ...

  4. 技术的极限(6): 密码朋克精神(Cypherpunk Spirit)

    上一篇:技术的极限(5): 识别计算与技术背后的心智 下一篇:技术的极限(7): 处理复杂与分层 目录: ** 0x01 数据和App分离 ** 0x02 蒸汽朋克/赛博朋克/密码朋克 ** 0x03 ...

  5. 使用cURL尝试ElasticSearch

    测试环境:debian 9官网提供了 deb,rpm,源码下载 官方下载地址:https://www.elastic.co/downloads/elasticsearch 通过源码安装会遇到一些小问题 ...

  6. parcel+vue入门

    一.parcel简单使用 npm install -D parcel-bundler npm init -y (-y表示yes,跳过项目初始化提问阶段,直接生成package.json 文件.) Pa ...

  7. Python 学习笔记 - 不断更新!

    Python 学习笔记 太久不写python,已经忘记以前学习的时候遇到了那些坑坑洼洼的地方了,开个帖子来记录一下,以供日后查阅. 摘要:一些报错:为啥Python没有自增 ++ 和自减 --: 0x ...

  8. DES的几种填补方式

    DES的几种填补方式 DES是对64位数据的加密算法,如数据位数不足64位的倍数,需要填充,补充到64位的倍数.   NoPadding    API或算法本身不对数据进行处理,加密数据由加密双方约定 ...

  9. BZOJ3033太鼓达人——哈密顿回路/欧拉回路

    题目描述 七夕祭上,Vani牵着cl的手,在明亮的灯光和欢乐的气氛中愉快地穿行.这时,在前面忽然出现了一台太鼓达人机台,而在机台前坐着的是刚刚被精英队伍成员XLk.Poet_shy和lydrainbo ...

  10. 【XSY3370】道路建设 最短路

    题目大意 有一个完全图,边有边权. 对于每个 \(i\),求一棵生成树,使得( \(\sum_{j=1,j\neq i}^n\) \(j\) 到 \(i\) 的路径上边权最小值) 最小. \(n\le ...