pandas 初识（三）

Python Pandas 空值

pandas 判断指定列是否（全部）为NaN（空值）

import pandas as pd

import numpy as np

df = pd.DataFrame({"a": ["aa", np.NAN, np.NAN], "b": [3, np.NAN, 2]})

- 判断某列是否有NaN

>>> df.a.isnull().any()

True

- 判断是否全部为 NAN

>>> df.a.isnull().all()

True

NAN值替换：
- 不能使用，apply 去判断类型；DataFrame中np.nan 和 None 同为 isnull

>>> df.c.apply(None if x == np.nan else x)  # 错误的方式，x的类型不是np.nan活着np.NAN, 任何类型都有可能。所以这种判断时可用

>>> df = df.where(df.notnull(), None)

>>> print(df)

>>> print(df.isnull())

      a     b     c

0    aa        None

1  None  None  None

2  None  None  None

       a      b     c

0  False  False  True

1   True   True  True

2   True   True  True

Pandas 使用 cut 把一组数据分割成离散的区间，比如：一组年龄，一组成绩，把年龄或者成绩数据分割成不同的段上面，并打上标签

定义：

def cut(x, bins, right=True, labels=None, retbins=False, precision=3,

        include_lowest=False, duplicates='raise'):

参数：
- x：被切分的数组数据（array-like），必须为1维，不能使用DataFrame
- bins: 被切割后的区间，三种形式： int类型，数组或者 pandas.IntervalIndex
  - int: 将 x 均分成 bins 份
  - 数组（bins=[-1, 1, 2, 5, np.inf]）：分成以下组： (-1, 1], (1, 2], (2, 5], (5, inf), 注意： (-1, 1] 不为str类型
- right：boo 类型，默认为True，表示是否包含区间右部，比如： bins=[0, 1, 2], right=True, 则： (0, 1], (1, 2] 如果为False，则：（1,2），（2,3）
- labels：给分割后的区间打上相应的标签
- retbins： bool 类型，表示是否将分割后的 bins 返回，当bins为一个int类型，可以获取划分后的区间，默认为False
- precision：分割区间，边境的小数位数，默认为3位
- include_lowest: bool型的参数，表示区间的左边是开还是闭的，默认为false，也就是不包含区间左部（闭）
- duplicates: 是否允许重复区间： raise， drop，默认： raise（不允许）
例子：

import pandas as pd

ages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32]) #年龄数据

pd.cut(ages, [0,5,20,30,50,100], labels=False)

pd.cut(ages, [0,5,20,30,50,100], labels=False)

array([0, 0, 1, 3, 3, 1, 4, 4, 4, 4, 4, 1, 1, 2, 2, 3], dtype=int64)

- 与 groupby 配合实现分组： df.groupby(pd.cut(df.ages, [0,5,20,30,50,100]))

Pandas 使用 groupby 对数据分组进行迭代

import pandas as pd

import numpy as np

df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2': ['one', 'two', 'one', 'two', 'one'],

                   'data1': np.random.randn(5), 'data2': np.random.randn(5)})

print(df)

print("*********")

class_key = ["key1", "key2"]

# class_key = ["key1"]  # 如果 class_key 是一个元素或者字符串，这class_ 为字符串

for class_, group in df.groupby(class_key):

    print("______________")

    print(class_)

    print(group)

结果：

  key1 key2     data1     data2

0    a  one  1.237276 -0.813727

1    a  two  0.508972 -1.336699

2    b  one -0.343635  0.714680

3    b  two  2.433797  0.417454

4    a  one  1.215114  2.646685

*********

______________

('a', 'one')

  key1 key2     data1     data2

0    a  one  1.237276 -0.813727

4    a  one  1.215114  2.646685

______________

('a', 'two')

  key1 key2     data1     data2

1    a  two  0.508972 -1.336699

______________

('b', 'one')

  key1 key2     data1    data2

2    b  one -0.343635  0.71468

______________

('b', 'two')

  key1 key2     data1     data2

3    b  two  2.433797  0.417454

Pandas 修改列名

import pandas as pd

import numpy as np

a = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

print(a)

# a.colums = ["a", "b", "c"] # 错误的写法

a.rename(columns={'A': 'a', 'C': 'c'}, inplace=True)

print(a)

结果：

pandas 初识（三）的更多相关文章

pandas初识
pandas初识 1.生成DataFrame型的数据 import pandas as pd import numpy as np dates = pd.date_range('20130101',p ...
Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
pandas（三）汇总和计算描述统计
pandas对象有一些常用的数学和统计的方法,大部分都属于约简或汇总统计. SUM方法 DataFrame对象的sum方法,返回一个含有列小计的Series >>> df = Dat ...
浅谈python的第三方库——pandas（三）
令笔者对pandas印象最为深刻的一件事,就是在pandas中已经内置了很多数据导入导出方法,然而本人并不了解,在一次小项目的工作中曾手写了一个从excel表格导入数据到DataFrame的pytho ...
numpy最后一部分及pandas初识
今日内容概要 numpy剩余的知识点 pandas模块今日内容详细二元函数加 add 减 sub 乘 mul 除 div 平方 power 数学统计方法 sum 求和 cumsum 累计求和 m ...
pandas 初识（四）
Pandas 和 sqlalchemy 配合实现分页查询 Mysql 并获取总条数 @api.route('/show', methods=["POST"]) def api_sh ...
pandas 初识（一）
基本内容 Series: Series 是有一组数据(numpy的数据类型 numpy.ndarray)以及一组数据标签(即索引)组成,可以看成一个一个定长的有序字典(索引值到数据值的一个映射) ob ...
pandas 初识（二）
基本统计 pivot_table(数据透视表 ): 使用appfunc, 按不同index分类统计各特征values的值 df.pivot_table(index="Pclass" ...
python初识(三)
目录: 字符编码文件操作循环结构拾遗函数整体介绍函数的参数函数的返回值函数的调用自定义函数一.字符编码 1.了解字符编码的知识储备 a. 文件编辑存取文件的原理(nodepad++, ...

随机推荐

python解析式
一.列表解析式列表解析是外面一对中括号,它返回的是列表. 一般形式为:[expr for item in itratoble] print([i+1 for i in range(10)]) #结果 ...
T4学习- 1、简介
一.T4简介 T4(Text Template Transformation Toolkit)在 Visual Studio 中,"T4 文本模板"是由一些文本块和控制 ...
beta冲刺————第三天（3/5）
完善的具体内容: 前端: (1)可以进行修改文字大小背景其中,金色的文字个人觉得很好看,点赞.(我很满意啊) (2)可以改变成夜间模式(也很不错啊) 后端: 尝试将本地的后端war文件,以及数据库传 ...
6.Solr4.10.3API使用(CURD)
转载请出自出处:http://www.cnblogs.com/hd3013779515/ 1.在工程中引入solr-solrj-4.10.3.jar <dependency> <gr ...
（二十）ArcGIS JS 加载WMTS服务（超图示例）
前言在前一篇中说到我们可以通过加载WMS服务解决用ArcGIS API加载超图发布的服务,但是WMS服务在加载效率上是低于切片服务的,加上超图的IServer,无力吐槽,所以,在加载速度的要求下,切 ...
BZOJ4923:[Lydsy1706月赛]K小值查询(Splay)
Description 维护一个长度为n的正整数序列a_1,a_2,...,a_n,支持以下两种操作: 1 k,将序列a从小到大排序,输出a_k的值. 2 k,将所有严格大于k的数a_i减去k. In ...
Spark项目之电商用户行为分析大数据平台之（五）实时数据采集
python利用smtplib和MIMETYPE发送邮件
# -*- coding:utf- -*- import smtplib from email.mime.text import MIMEText sender = '你的发送邮件' my_pass= ...
VS2010自行编译OpenCV2.4.4时缺少python27_d.lib的解决方法
错误 24 error LNK1104: 无法打开文件“python27_d.lib” C:\OpenCV\VS2013_64\modules\python\LINK opencv_python 编 ...
[转]System.DllNotFoundException: 无法加载 DLL“*.dll”: 内存位置访问无效。 (异常来自 HRESULT:0x800703E6)
我在使用地税发票控件进行开票的测试的时候,在xp上测试时正常的,在别人的win7系统测试也是正常,但我在我本机确不正常.我本机装的是msdn版本win7系统,这个系统比较原装. 错误信息如下: -- ...

pandas 初识（三）

Python Pandas 空值

Pandas 使用 cut 把一组数据分割成离散的区间，比如：一组年龄，一组成绩，把年龄或者成绩数据分割成不同的段上面，并打上标签

Pandas 使用 groupby 对数据分组进行迭代

Pandas 修改列名

pandas 初识（三）的更多相关文章

随机推荐

热门专题