pandas之数据IO笔记

pandas在进行数据存储与输出时会做一些相应的操作

1.*索引：将一个列或多个列读取出来构成DataFrame，其中涉及是否从文件中读取索引以及列名

2 *类型推断和数据转换：包括用户自定义的转换以及缺失值标记

3 *日期解析

4*迭代：针对大文件进行逐块迭代。这个是Pandas和Python原生的csv库的最大区别

5 *不规整数据问题：跳过一些行，或注释等等

 import pandas as pd

 import numpy as np

 pd.read_csv('ch04/ex1.csv')   # 它输出的是DataFrame

 pd.read_table('ch04/ex1.csv',sep=',')  # 它的效果和上一行一样

 pd.read_csv('ch04/ex2.csv',header=None,names=['a','b','c','d','msg'])

 #  它为读取的文件添加列索引

 pd.read_csv('ch04/ex2.csv',header=None,

                    names=['a','b','c','d','msg'],index_col=['msg','b'])

 #  为文件添加列索引后，又将'msg','b'两列变为行索引

 pd.read_table('ch04/ex3.csv',sep='\s+')

 #  文件中的分隔符用到正则表达式sep='\s+'

 pd.read_csv('ch04/ex5.csv',

                     na_values={'message':['NA','NULL','foo'],'something':['two']})

 #  读出的文件没有值的默认为NaN值，

 #  na_values通过字典形式表示message与something中需要变为NaN值的一些位置

 pd.read_csv('ch04/ex6.csv',nrows=10)

 #  表示只读取10行

 #  如果要取出每个索引出现的次数，可以利用chunksize

 tr = pd.read_csv('ch04/ex6.csv',chunksize=1000)

 #  先取出1000行

 #  它返回<pandas.io.parsers.TextFileReader at 0x1b116b02780>支持迭代

 result = pd.Series([])

 for chunk in tr:

     result = result.add(chunk['key'].value_counts(),fill_value=0)

 #  add方法会为索引对应的数据不存在添加默认值，可以采用fill_value=0填充默认值

 result = result.sort_values(ascending=False)

 result[:10]  # 取出前十大的数

往磁盘读入数据

 import pandas as pd

 import numpy as np

 df = pd.read_csv('ch04/ex5.csv')

 df.to_csv('ch04/ex5_out.csv',index=False)

 # 如果没有index=False，读取的文件与源文件有差异，给源文件加了索引

 # index=False指定不写索引值

 df.to_csv('ch04/ex5_out.csv',index=False,

               header=None,columns=['b','c','message'],sep='|')

 # header=None，不写列标签，只写'b','c','message'三列，每个数字或字符串用'|'分隔开

pandas之数据IO笔记的更多相关文章

pandas 存取数据小笔记
import pandas as pd 1. 读取和保存 csv文件 #读 df = pd.read_csv(read_file_path, header=0) # 其中read_file_pat ...
【笔记】Pandas分类数据详解
[笔记]Pandas分类数据详解 Pandas Pandas分类数据详解|轻松玩转Pandas(5) 参考:Pandas分类数据详解|轻松玩转Pandas(5)
【转载】使用Pandas对数据进行筛选和排序
使用Pandas对数据进行筛选和排序本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas对数据进行筛选和排序目录: sort() 对单列数据进行排序对多列数据进行排序获取金额最小前10项 ...
【转载】使用Pandas进行数据提取
使用Pandas进行数据提取本文转载自:蓝鲸的网站分析笔记原文链接:使用python进行数据提取目录 set_index() ix 按行提取信息按列提取信息按行与列提取信息提取特定日期的信 ...
【转载】使用Pandas进行数据匹配
使用Pandas进行数据匹配本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas进行数据匹配目录 merge()介绍 inner模式匹配 lefg模式匹配 right模式匹配 outer模式 ...
【转载】使用Pandas创建数据透视表
使用Pandas创建数据透视表本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas创建数据透视表目录 pandas.pivot_table() 创建简单的数据透视表增加一个行维度(inde ...
转载:使用Pandas进行数据匹配
使用Pandas进行数据匹配本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas进行数据匹配目录 merge()介绍 inner模式匹配 lefg模式匹配 right模式匹配 outer模式 ...
python-数据描述与分析2（利用Pandas处理数据缺失值的处理数据库的使用）
2.利用Pandas处理数据2.1 汇总计算当我们知道如何加载数据后,接下来就是如何处理数据,虽然之前的赋值计算也是一种计算,但是如果Pandas的作用就停留在此,那我们也许只是看到了它的冰山一角,它 ...
利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...

随机推荐

(转)hadoop 配置文件解释
借鉴:https://blog.csdn.net/wangming520liwei/article/details/78923216 Hadoop 参数配置详解一.常用端口组件节点默认端口 ...
简易版最长序列（map映射）
题目描述给你一组数(未排序),请你写设计一个程序:求出里面个数最多的数.并输出这个数的长度. 例如:给你的数是:1. 2. 3. 3. 4. 4. 5. 5. 5 .6, 其中只有6组数:1, ...
java集合类型源码解析之PriorityQueue
本来第二篇想解析一下LinkedList,不过扫了一下源码后,觉得LinkedList的实现比较简单,没有什么意思,于是移步PriorityQueue. PriorityQueue通过数组实现了一个堆 ...
oracle之case
使用oracle时,不免会用到判断后转换为要展示的值,这里常用case,如下: SELECT (case ) then 'yes' ) then 'no' else 'other' end) --no ...
docker tcp配置
1. Ubuntu Docker deamon监听tcp端口设置 https://www.jianshu.com/p/e278b0e44e1b 2. Centos https://www.cnblog ...
Flutter移动电商实战 --（50）持久化_shared_preferences
当app关掉了.再进去的时候 ,购物车的内容还是存在. sqflite提供这个来操作SQLite数据库 flutter提供三种持久化的工具今天要学的就是 shared_preferences 还有一 ...
Celery如何修复Python的GIL问题
小结: 1. Celery如何修复Python的GIL问题https://python.freelycode.com/contribution/detail/346 最近,我重读了Glyph写的Uny ...
android: 日期转Unix时间戳，Unix时间戳转日期，带时区
1.UTC时间&GMT时间 UTC时间是时间标准时间(Universal Time Coordinated),UTC是根据原子钟来计算时间,误差非常小. UTC也是指零时区的时间,如果要表示其 ...
OneDrive
OneDrive https://onedrive.live.com
24 Flutter官方推荐的状态管理库provider的深入使用、初始化修改状态、父子组件同步状态
加群452892873 下载对应24课文件,运行方法,建好项目,直接替换lib目录,在往pubspec.yaml添加上一下扩展. cupertino_icons: ^0.1.2 flutter_swi ...

pandas之数据IO笔记

pandas之数据IO笔记的更多相关文章

随机推荐

热门专题