Pandas有一些不频繁使用容易忘记的小技巧

1、将不同Dataframe写在一个Excel的不同Sheet,或添加到已有Excel的不同Sheet(同名Sheet会覆盖)

from pandas import ExcelWriter

#在单个文件中不同df写入对应不同的的工作表
with ExcelWriter('path_to_file.xlsx') as writer:
df1.to_excel(writer, sheet_name='Sheet1')
df2.to_excel(writer, sheet_name='Sheet2') #附加到已有的Excel文件
with ExcelWriter('path_to_file.xlsx', mode='a') as writer:
df.to_excel(writer, sheet_name='Sheet3')

2、建立索引,修改索引,重建索引,删除索引,索引---->列,列---->索引

  • 建立索引  列---->索引
import pandas as pd

#DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
  #key:标签或者数组(Series, Index,np.ndarray),复合索引则把标签或数组放在list中
  #drop:删除作为新索引的列
  #append :将列附加到现有的索引
  #inplace :是否修改Dataframe df = pd.DataFrame({'month': [1, 4, 7, 10],
'year': [2012, 2014, 2013, 2014],
'sale': [55, 40, 84, 31]})
#列转索引
df.set_index('month') #多列转复合索引
df.set_index(['year', 'month']) #设置列与另一索引为复合索引
df.set_index([pd.Index([1, 2, 3, 4]), 'year']) #使用Series建立索引
s = pd.Series([1, 2, 3, 4])
df.set_index([s, s**2])
  • 重建/删除索引    索引---->列
#原索引转列,重建递增索引
df.reset_index() #删除原索引、重建默认递增索引
df.reset_index(drop=True) #行多索引子索引转列多索引的某一层级的列,默认为最高级,若插入其他等级,col_fill为指定最高级索引,若不存在,则创建
df.reset_index(level='class', col_level=1, col_fill='genus')
  • 修改索引
import pandas as pd
import numpy as np #DataFrame.reindex(labels = None,index = None,columns = None,axis = None,method = None,copy = True,level = None,
            fill_value = nan,limit = None,tolerance = None)
#reindex相当于对DataFrame的架构(index或者column)筛选或者补充,即如果原df存在相应的
##索引或列,就保留,没有则为NAN,函数有一系列填充NAN的方法(不止固定填充某值,非操作原始数据NAN) index = ['Firefox', 'Chrome', 'Safari', 'IE10', 'Konqueror']
df = pd.DataFrame({
'http_status': [200,200,404,404,301],
'response_time': [0.04, 0.02, 0.07, 0.08, 1.0]},
index=index) #重新索引行
new_index= ['Safari', 'Iceweasel', 'Comodo Dragon', 'IE10','Chrome']
df.reindex(new_index, fill_value='missing') #重新索引列
df.reindex(columns=['http_status', 'user_agent']) #展示对索引中产生的NAN的填充功能
date_index = pd.date_range('1/1/2010', periods=6, freq='D')
df2 = pd.DataFrame({"prices": [100, 101, np.nan, 100, 89, 88]},index=date_index)
date_index2 = pd.date_range('12/29/2009', periods=10, freq='D')
df2.reindex(date_index2)
#第一个有效值以填充之前的NaN值
df2.reindex(date_index2, method='bfill') #.reindex_like
#等价于.reindex(index=other.index, columns=other.columns,...)

3、读取有BOM头的文档(Windows有的软件会在首行添加看不见的BOM头,导致文件处理出错)

import pandas as pd

df=pd.read_csv("test.csv",sep="\t",encoding="utf-8-sig",engine="python")

#即编码改成有BOM头的即可

4、在Pandas读取csv的时候报 field larger than field limit (131072) 这样的错误

  •   从报错上来说,这是说字段大小超过限制了,但是一般来说,我们的字段通常是不会超过限制的,如果超过了,就应该反思数据结构是不是适合csv的格式了,所以除了这个,很有可能是解析的方式出了问题,我遇到过一个例子,通过改变Quote行为解决的
import pandas as pd

df = pd.read_csv('test.csv',sep='\t',encoding='utf-8-sig',quoting=3)

#quoting:控制引用字符引用行为,QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3).
  •   但是如果csv的字段就是那么的大,可以使用下述DirtyCode进行拓展限制的处理
import pandas as pd

maxInt =pd.io.parsers.sys.maxsize
while True:
try:
pd.io.parsers.csv.field_size_limit(maxInt)
break
except OverflowError:
#这里主要是因为Python的Int的大小是远大于C的,当不满足的时候,除以2
maxInt = maxInt>>1

5、未完待续... ...

Pandas一些小技巧的更多相关文章

  1. js几个小技巧和坑

    蝴蝶书看了,也知道充满了毒瘤和糟粕,但该用还是得用. 实际写了几天,小技巧记录下来.都是在py里有直接答案,不会遇到的问题,没想到js里这么费事. 还是要多读<ES6标准入门> 1判断ob ...

  2. pandas常用小trick(持续更新)

    记录一下pandas常用的小技巧,时间长了干别的去了会忘记,记录一下: 1. 在处理数据过程中涉及到label和null的处理方法 # 方法一 df['height'][df.height < ...

  3. 今天整理了几个在使用python进行数据分析的常用小技巧、命令。

    提高Python数据分析速度的八个小技巧 01 使用Pandas Profiling预览数据 这个神器我们在之前的文章中就详细讲过,使用Pandas Profiling可以在进行数据分析之前对数据进行 ...

  4. 8条github使用小技巧

    1 简介 作为全球最大的开源及私有软件项目托管社区平台,github可以显著地帮助从事编程相关工作的人员提升自己的技术水平,也是费老师我日常最常浏览学习的技术类网站. github为了使得其使用更加便 ...

  5. 前端网络、JavaScript优化以及开发小技巧

    一.网络优化 YSlow有23条规则,中文可以参考这里.这几十条规则最主要是在做消除或减少不必要的网络延迟,将需要传输的数据压缩至最少. 1)合并压缩CSS.JavaScript.图片,静态资源CDN ...

  6. Git小技巧 - 指令别名及使用Beyond Compare作为差异比较工具

    前言 本文主要写给使用命令行来操作Git的用户,用于提高Git使用的效率.至于使用命令还是GUI(Tortoise Git或VS的Git插件)就不在此讨论了,大家根据自己的的喜好选择就好.我个人是比较 ...

  7. 分享两个BPM配置小技巧

    1.小技巧 流程图修改后发布的话版本号会+1,修改次数多了之后可能会导致版本号很高,这个时候可以将流程导出,然后删除对应的流程包再导入,发布数据模型和流程图之后,版本清零 2.小技巧 有的同事入职后使 ...

  8. linux系统维护时的一些小技巧,包括系统挂载新磁盘的方法!可收藏!

    这里发布一些平时所用到的小技巧,不多,不过会持续更新.... 1.需要将history创建硬链接ln 全盘需要备份硬链接 ln /etc/xxx /home/xxx 2.root用户不可以远程 /et ...

  9. JS处理事件小技巧

    今天,就分享一下我自己总结的一些JS的小技巧: ①防止鼠标选中事件 <div class="mask" onselectstart="return false&qu ...

随机推荐

  1. java程序容错

    程序最怕出错的方式就是直接闪退 编程应该以这种方式进行,保证结构不出错,数据可容错的方式 比如 fungetsonmfrominternet(){变量 a a=从网络返回数据 return a } 在 ...

  2. Spring事务管理——事务的传播行为

    1.简介 当事务方法被另一个事务方法调用时,必须指定事务应该如何传播.例如:方法可能继续在现有事务中运行,也可能开启一个新事务,并在自己的事务中运行. 事务的传播行为可以由传播属性指定.Spring定 ...

  3. implement-stack-using-queues(easy,但也有思考价值)

    https://leetcode.com/problems/implement-stack-using-queues/ 还有种方法,就是利用同一个队列,知道队列长度前提下,把内容从头到尾,再向尾部依次 ...

  4. Zookeeper协调分布式节点demo

    多台服务器和客户端通过第三方组件Zookeeper管理 public class DistributedServer { private static final String connectStri ...

  5. React Native 三:样式

    一.声明和使用样式 1.React Native里面的样式和使用如以下所看到的.StyleSheet.create这个构造函数不是必须的. index.android.js文件 import Reac ...

  6. hibernate uuid

  7. jquery ajax传参数问题

    var fd = new FormData();//实例化表单,提交数据使用fd.append('imgUrl',imgUrl);//将files追加进去fd.append('typeId',type ...

  8. Synchronous XMLHttpRequest on the main thread is deprecated because of its detrimental……

    Synchronous XMLHttpRequest on the main thread is deprecated because of its detrimental effects to th ...

  9. javascript---》Fcuntion对象

    Function 对象的valueOf() 和 toString() 方法.返回函数的源代码,调试时有用 Function 对象的 length 属性返回函数期望的参数个数------>接受任意 ...

  10. 回到顶部totop

    <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...