python/numpy/pandas数据操作知识与技巧

pandas针对dataframe各种操作技巧集合:

filtering:

一般地，使用df.column > xx将会产生一个只有boolean值的series，以该series作为dataframe的选择器(index/slicing)将直接选中该series中所有value为true的记录。

df[df.salt>60]  # 返回所有salt大于60的行

df[(df.salt>50)&(df.eggs < 300)] # 返回salt大于50并且eggs小于300的行

print(df2.loc[:,df2.all()]) # 打印不含0值的所有列(所有行)

print(df2.loc[:,df2.any()]) #打印所有含非0值的所有列(所有行)

print(df2.loc[:,df2.isnull().any()]) #打印所有包含一个NaN值的列(所有行)

print(df2.loc[:,df2.notnull().all()]) #打印所有满值列(不含空值)(所有行)
df.dropna(how='any') # 将任何含有nan的行删除

filter过滤并赋值

# Create the boolean array: too_close

too_close = election['margin']<1

# Assign np.nan to the 'winner' column where the results were too close to call

election.loc[too_close,'winner'] = np.nan

# 等价于以下，需要注意的是[column][row]和loc[row,column]是反过来的哦！！！！

election['winner'][too_close] = np.nan

dict(list(zip()))创建DataFrame

就地修改某列数据类型为数值型，无法parse成功的则设为NaN

df['salt'] = pd.to_numeric(df['salt'],errors='coerce')

setting index with combined column:列组合作为index(比如股票名称+日期)

获取df.loc['rowname','colname']==df.iloc[x,y]中的x和y

x = election.index.get_loc('Bedford') # 行名称为Bedford

y = election.columns.get_loc('winner') #列名称为winner

# 这时:

election.loc['Bedford','winner'] == election.iloc[x,y]

election.winner[too_close] = np.nan

python/numpy/pandas数据操作知识与技巧的更多相关文章

用Python的pandas框架操作Excel文件中的数据教程
用Python的pandas框架操作Excel文件中的数据教程本文的目的,是向您展示如何使用pandas 来执行一些常见的Excel任务.有些例子比较琐碎,但我觉得展示这些简单的东西与那些你可以在其 ...
Python之pandas数据加载、存储
Python之pandas数据加载.存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 利用Web API操作网络资源 1. 读 ...
python 发送json数据操作实例分析 - python
文章来源:嗨学网敏而好学论坛www.piaodoo.com 欢迎大家相互学习本文实例讲述了python 发送json数据操作.分享给大家供大家参考,具体如下: # !/usr/bin/env py ...
【Python自动化Excel】Python与pandas字符串操作
Python之所以能够成为流行的数据分析语言,有一部分原因在于其简洁易用的字符串处理能力. Python的字符串对象封装了很多开箱即用的内置方法,处理单个字符串时十分方便:对于Excel.csv等表格 ...
Python/Numpy大数据编程经验
Python/Numpy大数据编程经验 1.边处理边保存数据,不要处理完了一次性保存.不然程序跑了几小时甚至几天后挂了,就啥也没有了.即使部分结果不能实用,也可以分析程序流程的问题或者数据的特点. ...
[Python] Python 学习 - 可视化数据操作（一）
Python 学习 - 可视化数据操作(一) GitHub:https://github.com/liqingwen2015/my_data_view 目录折线图散点图随机漫步骰子点数概率文 ...
pandas数据操作
pandas数据操作字符串方法 Series对象在其str属性中配备了一组字符串处理方法,可以很容易的应用到数组中的每个元素 t = pd.Series(['a_b_c_d','c_d_e',np. ...
有关python numpy pandas scipy 等能在YARN集群上运行PySpark
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...
Python: NumPy, Pandas学习资料
NumPy 学习资料书籍 NumPy Cookbook_[Idris2012] NumPy Beginner's Guide,3rd_[Idris2015] Python数据分析基础教程:NumPy ...

随机推荐

运维甩锅神器---Jumpserver
简介jumpserver 也就是跳板机,堡垒机,主要用于免密钥登陆web终端,可以对所有操作进行记录,录像!对所有服务器进行资产管理, 给开发人员分配登陆主机的权限和sudo权限,为运维人员省了很多手 ...
Python——可变类型与不可变类型（即为什么函数默认参数要用元组而非列表）
Python 的内建标准类型有一种分类标准是分为可变类型与不可变类型: 可变类型:列表.字典不可变类型:数字.字符串.元组因为变量保存的实际都是对象的引用,所以在给一个不可变类型(比如 int)的 ...
Nodejs学习笔记（十六）—Pomelo介绍&入门
前言&介绍 Pomelo:一个快速.可扩展.Node.js分布式游戏服务器框架从三四年前接触Node.js开始就接触到了Pomelo,从Pomelo最初的版本到现在,总的来说网易出品还算不错 ...
HTTPClient 超时链接设置
远程访问链接,设置时间,从而减少不必要的麻烦,但是HttpClient版本不一致,方法不一样,所以有了如下设置原帖链接:https://www.cnblogs.com/jimmy-muyuan/p/ ...
hadoop的RPC机制 -源码分析
这些天一直奔波于长沙和武汉之间,忙着腾讯的笔试.面试,以至于对hadoop RPC(Remote Procedure Call Protocol ,远程过程调用协议,它是一种通过网络从远程计算机程序上 ...
java 使用 pdf.js 在线查看 pdf 文档
1. 下载对应的 pdf.js 文件: 推荐地址: https://github.com/mozilla/pdf.js/ http://mozilla.g ...
Django请求响应对象
请求与响应对象 HttpRequest HttpRequest存储了客户请求的相关参数和一些查询方法. path 请求页面的全路径,不包括域名-例如, "/hello/". met ...
django2.1---上下文处理器
上下文处理器上下文处理器是可以返回一些数据,在全局模板中都可以使用.比如登录后的用户信息,在很多页面中都需要使用,那么我们可以放在上下文处理器中,就没有必要在每个视图函数中都返回这个对象. 在set ...
c#基础学习(0702)之面向对象和方法重写概述
面向对象编程(OOP==>Object-Oriented Programming) OOA:面向对象分析 OOD:面向对象设计 OOAD:面向对象分析与设计什么是面向对象?一种分析问题的方式( ...
IList，ICollection，IEnumerable，IEnumerator，IQueryable
http://www.cnblogs.com/edison1105/archive/2012/07/30/2616082.html 1.首先看一个简单的例子 int[] myArray = { 1, ...

python/numpy/pandas数据操作知识与技巧

pandas针对dataframe各种操作技巧集合:

filtering:

filter过滤并赋值

dict(list(zip()))创建DataFrame

就地修改某列数据类型为数值型，无法parse成功的则设为NaN

获取df.loc['rowname','colname']==df.iloc[x,y]中的x和y

python/numpy/pandas数据操作知识与技巧的更多相关文章

随机推荐

热门专题