pandas 初识（三）

Python Pandas 空值

pandas 判断指定列是否（全部）为NaN（空值）

import pandas as pd

import numpy as np

df = pd.DataFrame({"a": ["aa", np.NAN, np.NAN], "b": [3, np.NAN, 2]})

- 判断某列是否有NaN

>>> df.a.isnull().any()

True

- 判断是否全部为 NAN

>>> df.a.isnull().all()

True

NAN值替换：
- 不能使用，apply 去判断类型；DataFrame中np.nan 和 None 同为 isnull

>>> df.c.apply(None if x == np.nan else x)  # 错误的方式，x的类型不是np.nan活着np.NAN, 任何类型都有可能。所以这种判断时可用

>>> df = df.where(df.notnull(), None)

>>> print(df)

>>> print(df.isnull())

      a     b     c

0    aa        None

1  None  None  None

2  None  None  None

       a      b     c

0  False  False  True

1   True   True  True

2   True   True  True

Pandas 使用 cut 把一组数据分割成离散的区间，比如：一组年龄，一组成绩，把年龄或者成绩数据分割成不同的段上面，并打上标签

定义：

def cut(x, bins, right=True, labels=None, retbins=False, precision=3,

        include_lowest=False, duplicates='raise'):

参数：
- x：被切分的数组数据（array-like），必须为1维，不能使用DataFrame
- bins: 被切割后的区间，三种形式： int类型，数组或者 pandas.IntervalIndex
  - int: 将 x 均分成 bins 份
  - 数组（bins=[-1, 1, 2, 5, np.inf]）：分成以下组： (-1, 1], (1, 2], (2, 5], (5, inf), 注意： (-1, 1] 不为str类型
- right：boo 类型，默认为True，表示是否包含区间右部，比如： bins=[0, 1, 2], right=True, 则： (0, 1], (1, 2] 如果为False，则：（1,2），（2,3）
- labels：给分割后的区间打上相应的标签
- retbins： bool 类型，表示是否将分割后的 bins 返回，当bins为一个int类型，可以获取划分后的区间，默认为False
- precision：分割区间，边境的小数位数，默认为3位
- include_lowest: bool型的参数，表示区间的左边是开还是闭的，默认为false，也就是不包含区间左部（闭）
- duplicates: 是否允许重复区间： raise， drop，默认： raise（不允许）
例子：

import pandas as pd

ages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32]) #年龄数据

pd.cut(ages, [0,5,20,30,50,100], labels=False)

pd.cut(ages, [0,5,20,30,50,100], labels=False)

array([0, 0, 1, 3, 3, 1, 4, 4, 4, 4, 4, 1, 1, 2, 2, 3], dtype=int64)

- 与 groupby 配合实现分组： df.groupby(pd.cut(df.ages, [0,5,20,30,50,100]))

Pandas 使用 groupby 对数据分组进行迭代

import pandas as pd

import numpy as np

df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2': ['one', 'two', 'one', 'two', 'one'],

                   'data1': np.random.randn(5), 'data2': np.random.randn(5)})

print(df)

print("*********")

class_key = ["key1", "key2"]

# class_key = ["key1"]  # 如果 class_key 是一个元素或者字符串，这class_ 为字符串

for class_, group in df.groupby(class_key):

    print("______________")

    print(class_)

    print(group)

结果：

  key1 key2     data1     data2

0    a  one  1.237276 -0.813727

1    a  two  0.508972 -1.336699

2    b  one -0.343635  0.714680

3    b  two  2.433797  0.417454

4    a  one  1.215114  2.646685

*********

______________

('a', 'one')

  key1 key2     data1     data2

0    a  one  1.237276 -0.813727

4    a  one  1.215114  2.646685

______________

('a', 'two')

  key1 key2     data1     data2

1    a  two  0.508972 -1.336699

______________

('b', 'one')

  key1 key2     data1    data2

2    b  one -0.343635  0.71468

______________

('b', 'two')

  key1 key2     data1     data2

3    b  two  2.433797  0.417454

Pandas 修改列名

import pandas as pd

import numpy as np

a = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

print(a)

# a.colums = ["a", "b", "c"] # 错误的写法

a.rename(columns={'A': 'a', 'C': 'c'}, inplace=True)

print(a)

结果：

pandas 初识（三）的更多相关文章

pandas初识
pandas初识 1.生成DataFrame型的数据 import pandas as pd import numpy as np dates = pd.date_range('20130101',p ...
Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
pandas（三）汇总和计算描述统计
pandas对象有一些常用的数学和统计的方法,大部分都属于约简或汇总统计. SUM方法 DataFrame对象的sum方法,返回一个含有列小计的Series >>> df = Dat ...
浅谈python的第三方库——pandas（三）
令笔者对pandas印象最为深刻的一件事,就是在pandas中已经内置了很多数据导入导出方法,然而本人并不了解,在一次小项目的工作中曾手写了一个从excel表格导入数据到DataFrame的pytho ...
numpy最后一部分及pandas初识
今日内容概要 numpy剩余的知识点 pandas模块今日内容详细二元函数加 add 减 sub 乘 mul 除 div 平方 power 数学统计方法 sum 求和 cumsum 累计求和 m ...
pandas 初识（四）
Pandas 和 sqlalchemy 配合实现分页查询 Mysql 并获取总条数 @api.route('/show', methods=["POST"]) def api_sh ...
pandas 初识（一）
基本内容 Series: Series 是有一组数据(numpy的数据类型 numpy.ndarray)以及一组数据标签(即索引)组成,可以看成一个一个定长的有序字典(索引值到数据值的一个映射) ob ...
pandas 初识（二）
基本统计 pivot_table(数据透视表 ): 使用appfunc, 按不同index分类统计各特征values的值 df.pivot_table(index="Pclass" ...
python初识(三)
目录: 字符编码文件操作循环结构拾遗函数整体介绍函数的参数函数的返回值函数的调用自定义函数一.字符编码 1.了解字符编码的知识储备 a. 文件编辑存取文件的原理(nodepad++, ...

随机推荐

Python Socket传输文件
发送端可以不停的发送新文件,接收端可以不停的接收新文件. 例如:发送端输入:e:\visio.rar,接收端会默认保存为 e:\new_visio.rar,支持多并发,具体实现如下: 接收端: 方法一 ...
jQuery插件实例五：手风琴效果[动画效果可配置版]
昨天写了个jQuery插件实例四:手风琴效果[无动画版]那个是没有动画效果的,且可配置性不高,本篇为有动画效果.对于一些数据做了动态的计算,以实现自适应. 欢迎大家入群相互交流,学习,新群初建,欢迎各 ...
python第三十五课——生成器
1.生成器: 什么是生成器? 它内部封装了一套公式/算法,只有等到需要调用/执行数据时 --> next()函数执行才会将公式计算得到数据结果,这就是生成器的原理(核心思想): [注意事项]: ...
随手练——ZOJ 1093 Monkey and Banana（动态规划）
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=93 一堆科学家研究猩猩的智商,给他M种长方体,每种N个. 然后,将一个 ...
Chrome安装metamask
到chrome网上应用商店去下载metamask: 然后查找metamask,进行安装即可因为我这已经安装好了,所以按钮处是评分,否则应该是安装按钮安装好后查看chrome://extension ...
Kubernetes1.91（K8s）安装部署过程（六）--node节点部署
hi,everybody,我回来了,之前安装到flannel之后,文章一直没有更新,甚至不少小伙伴都来加qq询问是否继续更新了, 这里说明下原因,我在部署1.91node的时候的确出现了各种各样的问题 ...
数据同步canal服务端HA配置
canal服务端HA模式,本人并未使用过,为保证文章的完整性,从以下地址摘抄该部分内容,待以后验证及使用 https://github.com/alibaba/canal/wiki/AdminGuid ...
pyspider爬取数据存入mysql--2.测试数据库能否连通
做一个简单的测试,看数据能否存入mysql 1 #!/usr/bin/env python 2 # -*- encoding: utf-8 -*- 3 # Created on 2017-10-26 ...
WorldWind源码剖析系列：设置类SettingsBase
PluginSDK中的星球设置类WorldSettings 和WorldWind.程序设置类WorldWindSettings均继承自父类SettingsBase.类图如下所示.其中父类Setting ...
windows/Linux动态加载链接库问题
windows: LoadLibraryA 指定的可执行模块映射到调用进程的地址空间并返回该 DLL 的句柄 HMODULE LoadLibraryA( LPCTSTR lpLibFileName// ...

pandas 初识（三）

Python Pandas 空值

Pandas 使用 cut 把一组数据分割成离散的区间，比如：一组年龄，一组成绩，把年龄或者成绩数据分割成不同的段上面，并打上标签

Pandas 使用 groupby 对数据分组进行迭代

Pandas 修改列名

pandas 初识（三）的更多相关文章

随机推荐

热门专题