pandas 初识(三)
Python Pandas 空值
- pandas 判断指定列是否(全部)为NaN(空值)
import pandas as pd
import numpy as np df = pd.DataFrame({"a": ["aa", np.NAN, np.NAN], "b": [3, np.NAN, 2]})
- 判断某列是否有NaN
>>> df.a.isnull().any()
True
- 判断是否全部为 NAN
>>> df.a.isnull().all()
True
- NAN值替换:
- 不能使用,apply 去判断类型;DataFrame中np.nan 和 None 同为 isnull
>>> df.c.apply(None if x == np.nan else x) # 错误的方式,x的类型不是np.nan活着np.NAN, 任何类型都有可能。所以这种判断时可用 >>> df = df.where(df.notnull(), None)
>>> print(df)
>>> print(df.isnull())
a b c
0 aa None
1 None None None
2 None None None
a b c
0 False False True
1 True True True
2 True True True
Pandas 使用 cut 把一组数据分割成离散的区间,比如:一组年龄,一组成绩,把年龄或者成绩数据分割成不同的段上面,并打上标签
- 定义:
def cut(x, bins, right=True, labels=None, retbins=False, precision=3,
include_lowest=False, duplicates='raise'):
- 参数:
- x: 被切分的数组数据(array-like),必须为1维,不能使用DataFrame
- bins: 被切割后的区间,三种形式: int类型,数组或者 pandas.IntervalIndex
- int: 将 x 均分成 bins 份
- 数组(bins=[-1, 1, 2, 5, np.inf]): 分成以下组: (-1, 1], (1, 2], (2, 5], (5, inf), 注意: (-1, 1] 不为str类型
- right:boo 类型,默认为True,表示是否包含区间右部,比如: bins=[0, 1, 2], right=True, 则: (0, 1], (1, 2] 如果为False,则:(1,2),(2,3)
- labels: 给分割后的区间打上相应的标签
- retbins: bool 类型,表示是否将分割后的 bins 返回,当bins为一个int类型,可以获取划分后的区间,默认为False
- precision: 分割区间,边境的小数位数,默认为3位
- include_lowest: bool型的参数,表示区间的左边是开还是闭的,默认为false,也就是不包含区间左部(闭)
- duplicates: 是否允许重复区间: raise, drop,默认: raise(不允许)
- 例子:
import pandas as pd
ages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32]) #年龄数据
pd.cut(ages, [0,5,20,30,50,100], labels=False)
pd.cut(ages, [0,5,20,30,50,100], labels=False)
array([0, 0, 1, 3, 3, 1, 4, 4, 4, 4, 4, 1, 1, 2, 2, 3], dtype=int64)
- 与 groupby 配合实现分组: df.groupby(pd.cut(df.ages, [0,5,20,30,50,100]))
Pandas 使用 groupby 对数据分组进行迭代
import pandas as pd
import numpy as np df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2': ['one', 'two', 'one', 'two', 'one'],
'data1': np.random.randn(5), 'data2': np.random.randn(5)}) print(df)
print("*********") class_key = ["key1", "key2"]
# class_key = ["key1"] # 如果 class_key 是一个元素或者字符串,这class_ 为字符串
for class_, group in df.groupby(class_key):
print("______________")
print(class_)
print(group)
结果:
key1 key2 data1 data2
0 a one 1.237276 -0.813727
1 a two 0.508972 -1.336699
2 b one -0.343635 0.714680
3 b two 2.433797 0.417454
4 a one 1.215114 2.646685
*********
______________
('a', 'one')
key1 key2 data1 data2
0 a one 1.237276 -0.813727
4 a one 1.215114 2.646685
______________
('a', 'two')
key1 key2 data1 data2
1 a two 0.508972 -1.336699
______________
('b', 'one')
key1 key2 data1 data2
2 b one -0.343635 0.71468
______________
('b', 'two')
key1 key2 data1 data2
3 b two 2.433797 0.417454
Pandas 修改列名
import pandas as pd
import numpy as np a = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
print(a) # a.colums = ["a", "b", "c"] # 错误的写法
a.rename(columns={'A': 'a', 'C': 'c'}, inplace=True)
print(a)
结果:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
a B c
0 1 4 7
1 2 5 8
2 3 6 9
pandas 初识(三)的更多相关文章
- pandas初识
pandas初识 1.生成DataFrame型的数据 import pandas as pd import numpy as np dates = pd.date_range('20130101',p ...
- Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
- pandas(三)汇总和计算描述统计
pandas对象有一些常用的数学和统计的方法,大部分都属于约简或汇总统计. SUM方法 DataFrame对象的sum方法,返回一个含有列小计的Series >>> df = Dat ...
- 浅谈python的第三方库——pandas(三)
令笔者对pandas印象最为深刻的一件事,就是在pandas中已经内置了很多数据导入导出方法,然而本人并不了解,在一次小项目的工作中曾手写了一个从excel表格导入数据到DataFrame的pytho ...
- numpy最后一部分及pandas初识
今日内容概要 numpy剩余的知识点 pandas模块 今日内容详细 二元函数 加 add 减 sub 乘 mul 除 div 平方 power 数学统计方法 sum 求和 cumsum 累计求和 m ...
- pandas 初识(四)
Pandas 和 sqlalchemy 配合实现分页查询 Mysql 并获取总条数 @api.route('/show', methods=["POST"]) def api_sh ...
- pandas 初识(一)
基本内容 Series: Series 是有一组数据(numpy的数据类型 numpy.ndarray)以及一组数据标签(即索引)组成,可以看成一个一个定长的有序字典(索引值到数据值的一个映射) ob ...
- pandas 初识(二)
基本统计 pivot_table(数据透视表 ): 使用appfunc, 按不同index分类统计各特征values的值 df.pivot_table(index="Pclass" ...
- python初识(三)
目录: 字符编码 文件操作 循环结构拾遗 函数 整体介绍 函数的参数 函数的返回值 函数的调用 自定义函数 一.字符编码 1.了解字符编码的知识储备 a. 文件编辑存取文件的原理(nodepad++, ...
随机推荐
- Python学习--打码平台
打码平台介绍 作用:可以通过第三方平台进行智能识别或者人工识别图片. 优点:1. 价格便宜: 2. 使用简单: 3. 识别率高 平台介绍: - 云打码(推荐) [http://www.yundama. ...
- MySQL基础之 如何删除主键
我们在一个表中设置了主键之后,那么如何删除主键呢? 删除主键的语法是: ALTER TABLE TABLE_NAME DROP PRIMARY KEY; 在这里我们要考虑两种情况: 1.可以直接使用d ...
- MMIO----Wav格式文件解析
DirectSound只支持Wav格式的音频文件,在创建次缓冲区之前需要先确定播放的Wav音频数据的格式.如果是从本地Wav文件播放,则需要先读出它的数据格式. 1. Wav音频格式布局 Wav是WA ...
- 阿里八八Alpha阶段Scrum(11/12)
今日进度 叶文滔: 合并日程界面debug成功,但是目前出现了新的问题,日程界面一些控件无法适配屏幕,正在排查问题 李嘉群: 尝试用okhttp的方式发送请求 王国超: 今天开始进行recycerli ...
- 邮局加强版:四边形不等式优化DP
题目描述 一些村庄建在一条笔直的高速公路边上,我们用一条坐标轴来描述这条公路,每个村庄的坐标都是整数,没有两个村庄的坐标相同.两个村庄的距离定义为坐标之差的绝对值.我们需要在某些村庄建立邮局.使每个村 ...
- HTML5API之获取地理位置详解
在使用地理位置API之前先来了解一下什么是经度和纬度以及地理位置获取的原理 首先经度指的是南北极的连接线,纬度指的是东西的连接线 地理位置的获取原理是通过IP地址(基于ISP记录,能够知道这个IP地址 ...
- HTML5音/视频标签详解
一.发展历: 早期:<embed>+<object>+文件 问题:不是所有浏览器都支持,而且embed不是标准. 现状:Realplay.window media.Qu ...
- 随手练——小米OJ 高弗雷勋爵
高弗雷勋爵 题目链接:https://code.mi.com/problem/list/view?id=113 这个解法比较暴力,主要需要注意的是一颗子弹 弹死两个及以上的情况. #include & ...
- 2.2.2 RelativeLayout(相对布局)
本节引言 在上一节中我们对LinearLayout进行了详细的解析,LinearLayout也是我们 用的比较多的一个布局,我们更多的时候更钟情于他的weight(权重)属性,等比例划分,对屏幕适配还 ...
- css 常用单位
em: 相对于应用在当前元素的字体尺寸,1em 等于当前的字体尺寸,2em 等于当前字体尺寸的两倍,一般浏览器字体大小默认为16px,则2em == 32px: W3原文:font size of t ...