http://blog.csdn.net/pipisorry/article/details/52208727

数据输入输出

数据pickling

pandas数据pickling比保存和读取csv文件要快2-3倍（lz测试不准，差不多这么多）。

ltu_df.to_pickle(os.path.join(CWD, 'middlewares/ltu_df'))
ltu_df = pd.read_pickle(os.path.join(CWD, 'middlewares/ltu_df'))

[read_pickle]

不过lz测试了一下，还是直接pickle比较快，比pd.read_pickle快2倍左右。

pickle.dump(ltu_df, open(os.path.join(CWD, 'middlewares/ltu_df.pkl'), 'wb'))
ltu_df = pickle.load(open(os.path.join(CWD, 'middlewares/ltu_df.pkl'), 'rb'))

CSV

通常来说，数据是CSV格式，就算不是，至少也可以转换成CSV格式。

如：# Reading data locally

df =pd.read_csv('/Users/al-ahmadgaidasaad/Documents/d.csv')
Note: 读取速度比numpy.loadtxt快多了，近10倍，包括转换成list的时间。

# Reading data from web

data_url="https://raw.githubusercontent.com/alstat/Analysis-with-Programming/master/2014/Python/Numerical-Descriptions-of-the-Data/data.csv"

df =pd.read_csv(data_url)

Writing to a csv file

In [136]: df.to_csv('foo.csv')

read_csv

lines ],).reset_index()

dateparse = lambda dates: pd.datetime.strptime(dates, '%Y-%m')
data = pd.read_csv('AirPassengers.csv', parse_dates='Month', index_col='Month',date_parser=dateparse)

参数：

skiprows=2，表示前面两行[0, 1]都不读入，等价于skiprows=[0, 1]；

header=None第0行不作为列名；

names=[''] 指定列名；

parse_dates=[] 解析指定行为date类型；

index_col=0 指定某列为行索引，否则自动索引0, 1, .....。reset_index()是其反操作。

parse_dates:这是指定含有时间数据信息的列。正如上面所说的，列的名称为“月份”。
index_col:使用pandas 的时间序列数据背后的关键思想是：目录成为描述时间数据信息的变量。所以该参数告诉pandas使用“月份”的列作为索引。
date_parser：指定将输入的字符串转换为可变的时间数据。Pandas默认的数据读取格式是‘YYYY-MM-DD HH:MM:SS’。如需要读取的数据没有默认的格式，就要人工定义。这和dataparse的功能部分相似，这里的定义可以为这一目的服务。[python模块 - 时间模块]

converters : dict, default None: Dict of functions for converting values in certain columns. Keys can eitherbe integers or column labels.将数据某列按特定函数转化，必然可以取代自定义时date_parser和parse_dates两个参数呀。

如解析时间时想返回时间戳的浮点数表示时：

def dateParse(s): return float(__import__('datetime').datetime.timestamp(__import__('dateutil.parser').parser.parse(s)))
df , sep='\t', converters={'Time(GMT)': dateParse})

[Reading from a csv file]

In [137]: pd.read_csv('foo.csv')
Out[137]:
     Unnamed: 0          A          B         C          D
0    2000-01-01   0.266457  -0.399641 -0.219582   1.186860
1    2000-01-02  -1.170732  -0.345873  1.653061  -0.282953
..          ...        ...        ...       ...        ...
998  2002-09-25 -10.216020  -9.480682 -3.933802  29.758560
999  2002-09-26 -11.856774 -10.671012 -3.216025  29.369368

[1000 rows x 5 columns]

HDF5

Reading and writing to HDFStores

Writing to a HDF5 Store

In [138]: df.to_hdf('foo.h5','df')

Reading from a HDF5 Store

In [139]: pd.read_hdf('foo.h5','df')
Out[139]:
                    A          B         C          D
2000-01-01   0.266457  -0.399641 -0.219582   1.186860
2000-01-02  -1.170732  -0.345873  1.653061  -0.282953
...               ...        ...       ...        ...
2002-09-25 -10.216020  -9.480682 -3.933802  29.758560
2002-09-26 -11.856774 -10.671012 -3.216025  29.369368

[1000 rows x 4 columns]

Excel

好像如果使用pd.read_excel要安装xlrd：pip install xlrd

Reading and writing to MS Excel

Writing to an excel file

In [140]: df.to_excel('foo.xlsx', sheet_name='Sheet1')

Reading from an excel file

pandas.read_excel(io, sheetname=0, header=0, skiprows=None, skip_footer=0, index_col=None, names=None, parse_cols=None, parse_dates=False, date_parser=None, na_values=None, thousands=None, convert_float=True, has_index_names=None, converters=None, engine=None, squeeze=False, **kwds)

参数：converters：读数据的时候使用converters指定列数据的数值类型 pd.read_excel('a.xlsx',converters={0: str})

In [141]: pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])
Out[141]:
                    A          B         C          D
2000-01-01   0.266457  -0.399641 -0.219582   1.186860
2000-01-02  -1.170732  -0.345873  1.653061  -0.282953
...               ...        ...       ...        ...
2002-09-25 -10.216020  -9.480682 -3.933802  29.758560
2002-09-26 -11.856774 -10.671012 -3.216025  29.369368

[1000 rows x 4 columns]

Gotchas

If you are trying an operation and you see an exception like:

>>> if pd.Series([False, True, False]):
    print("I was true")
Traceback
    ...
ValueError: The truth value of an array is ambiguous. Use a.empty, a.any() or a.all().

See Comparisons for an explanation and what to do.

See Gotchas as well.

[CSV & Text files]

from: http://blog.csdn.net/pipisorry/article/details/52208727

ref: [IO Tools (Text, CSV, HDF5, ...)¶]

pandas小记：pandas数据输入输出的更多相关文章

pandas小记：pandas基本设置
http://blog.csdn.net/pipisorry/article/details/49519545 ): print(df) Note: 试了好久终于找到了这种设置方法! 它是这样实现的 ...
[数据清洗]-使用 Pandas 清洗“脏”数据
概要准备工作检查数据处理缺失数据添加默认值删除不完整的行删除不完整的列规范化数据类型必要的转换重命名列名保存结果更多资源 Pandas 是 Python 中很流行的类库,使用它可 ...
[数据清洗]- Pandas 清洗“脏”数据（二）
概要了解数据分析数据问题清洗数据整合代码了解数据在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的.我们尝试去理解数据的列/行.记录.数据格式.语义错误.缺失的条目以及错误的 ...
[数据清洗]- Pandas 清洗“脏”数据（三）
预览数据这次我们使用 Artworks.csv ,我们选取 100 行数据来完成本次内容.具体步骤: 导入 Pandas 读取 csv 数据到 DataFrame(要确保数据已经下载到指定路径) D ...
pandas小记：pandas时间序列分析和处理Timeseries
http://blog.csdn.net/pipisorry/article/details/52209377 其它时间序列处理相关的包 [P4J 0.6: Periodic light curve ...
Python利用pandas处理Excel数据的应用
Python利用pandas处理Excel数据的应用最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做 ...
Pandas学习1 --- 数据载入
import numpy as np import pandas as pd 数据加载首先,我们需要将收集的数据加载到内存中,才能进行进一步的操作.pandas提供了非常多的读取数据的函数,分别应用 ...
[数据清洗]-Pandas 清洗“脏”数据（一）
概要准备工作检查数据处理缺失数据添加默认值删除不完整的行删除不完整的列规范化数据类型必要的转换重命名列名保存结果更多资源 Pandas 是 Python 中很流行的类库,使用它可 ...
【python基础】利用pandas处理Excel数据
参考:https://www.cnblogs.com/liulinghua90/p/9935642.html 一.安装第三方库xlrd和pandas 1:pandas依赖处理Excel的xlrd模块, ...

随机推荐

实验吧_简单的sql注入_1、2、3
简单的sql注入1 看着这个简单的界面,一时间没有特别好的思路,先输入一个1',发生了报错初步猜测这是一个字符型的注入,他将我们输入的语句直接当成sql语句执行了,按题目的意思后面肯定过滤了很多注入 ...
Struts2--标签tag
在Struts2框架中提供了一套标签库,可以与struts2无缝结合. 数据标签a.action.bean.date.debug.i18n.include.param.property.push.se ...
bzoj 2437: [Noi2011]兔兔与蛋蛋
Description Solution 考虑犯错误的条件:之前是处于必胜状态,该操作之后就变成了必败状态. 我们可以把这个过程看成两人对网格图进行黑白染色,变成了一个二分图模型,即当前位置向相邻不同 ...
LOJ #6119. 「2017 山东二轮集训 Day7」国王
Description 在某个神奇的大陆上,有一个国家,这片大陆的所有城市间的道路网可以看做是一棵树,每个城市要么是工业城市,要么是农业城市,这个国家的人认为一条路径是 exciting 的,当且仅当 ...
例10-6 uva1635（唯一分解定理）
题意:给定n个数a1,a2····an,依次求出相邻两个数值和,将得到一个新数列,重复上述操作,最后结果将变为一个数,问这个数除以m的余数与那些数无关? 思路:最后观察期规律符合杨辉三角,那么,问题就 ...
习题7-1 uva 208（剪枝）
题意:按最小字典序输出a到b 的所有路径. 思路:先处理出个点到目标点b的情况(是否能到达),搜索即可. 最开始我只判了a能否到b,然后给我的是WA,然后看了半天感觉思路没什么问题,然后把所有点都处理 ...
SqlServer 跨网段跨服务器复制
注意:被同步的表必须有主键,否则无法同步.对数据库进行操作时需要登录服务器,在服务器本地进行操作,远程对数据库进行操作不能完成所有的步骤准备工作: 1.将发布数据库完整备份到订阅服务器上,并在订阅服 ...
基于 HTML5 的 WebGL 3D 智能楼宇监控系统
前言智能监控的领域已经涉及到了各大领域,工控.电信.电力.轨道交通.航天航空等等,为了减少人员的消耗,监控系统必不可少.之前我写过一篇 2D 的智能地铁监控系统广受好评,突然觉得,既然 2D 的这么 ...
基于Spark环境对比Python和Scala语言利弊
在数据挖掘中,Python和Scala语言都是极受欢迎的,本文总结两种语言在Spark环境各自特点. 本文翻译自 https://www.dezyre.com/article/Scala-vs-Py ...
Python中内置函数的介绍
内置函数的功能介绍常用内置函数如下: 1.abs() 绝对值格式:abs(x) 例如:print(abs(-18)) >>> 18 返回值:number #该函数主要用于数值类的 ...

pandas小记：pandas数据输入输出