Pandas对缺失值的处理
Pandas使用这些函数处理缺失值:
- isnull和notnull:检测是否是空值,可用于df和series
- dropna:丢弃、删除缺失值
- axis : 删除行还是列,{0 or ‘index’, 1 or ‘columns’}, default 0
- how : 如果等于any则任何值为空都删除,如果等于all则所有值都为空才删除
- inplace : 如果为True则修改当前df,否则返回新的df
- fillna:填充空值
- value:用于填充的值,可以是单个值,或者字典(key是列名,value是值)
- method : 等于ffill使用前一个不为空的值填充forword fill;等于bfill使用后一个不为空的值填充backword fill
- axis : 按行还是列填充,{0 or ‘index’, 1 or ‘columns’}
- inplace : 如果为True则修改当前df,否则返回新的df
import pandas as pd
实例:特殊Excel的读取、清洗、处理
步骤1:读取excel的时候,忽略前几个空行
studf = pd.read_excel("./datas/student_excel/student_excel.xlsx", skiprows=2)
studf
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| Unnamed: 0 | 姓名 | 科目 | 分数 | |
|---|---|---|---|---|
| 0 | NaN | 小明 | 语文 | 85.0 |
| 1 | NaN | NaN | 数学 | 80.0 |
| 2 | NaN | NaN | 英语 | 90.0 |
| 3 | NaN | NaN | NaN | NaN |
| 4 | NaN | 小王 | 语文 | 85.0 |
| 5 | NaN | NaN | 数学 | NaN |
| 6 | NaN | NaN | 英语 | 90.0 |
| 7 | NaN | NaN | NaN | NaN |
| 8 | NaN | 小刚 | 语文 | 85.0 |
| 9 | NaN | NaN | 数学 | 80.0 |
| 10 | NaN | NaN | 英语 | 90.0 |
步骤2:检测空值
studf.isnull()
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| Unnamed: 0 | 姓名 | 科目 | 分数 | |
|---|---|---|---|---|
| 0 | True | False | False | False |
| 1 | True | True | False | False |
| 2 | True | True | False | False |
| 3 | True | True | True | True |
| 4 | True | False | False | False |
| 5 | True | True | False | True |
| 6 | True | True | False | False |
| 7 | True | True | True | True |
| 8 | True | False | False | False |
| 9 | True | True | False | False |
| 10 | True | True | False | False |
studf["分数"].isnull()
0 False
1 False
2 False
3 True
4 False
5 True
6 False
7 True
8 False
9 False
10 False
Name: 分数, dtype: bool
studf["分数"].notnull()
0 True
1 True
2 True
3 False
4 True
5 False
6 True
7 False
8 True
9 True
10 True
Name: 分数, dtype: bool
# 筛选没有空分数的所有行
studf.loc[studf["分数"].notnull(), :]
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| Unnamed: 0 | 姓名 | 科目 | 分数 | |
|---|---|---|---|---|
| 0 | NaN | 小明 | 语文 | 85.0 |
| 1 | NaN | NaN | 数学 | 80.0 |
| 2 | NaN | NaN | 英语 | 90.0 |
| 4 | NaN | 小王 | 语文 | 85.0 |
| 6 | NaN | NaN | 英语 | 90.0 |
| 8 | NaN | 小刚 | 语文 | 85.0 |
| 9 | NaN | NaN | 数学 | 80.0 |
| 10 | NaN | NaN | 英语 | 90.0 |
步骤3:删除掉全是空值的列
studf.dropna(axis="columns", how='all', inplace=True)
studf
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| 姓名 | 科目 | 分数 | |
|---|---|---|---|
| 0 | 小明 | 语文 | 85.0 |
| 1 | NaN | 数学 | 80.0 |
| 2 | NaN | 英语 | 90.0 |
| 3 | NaN | NaN | NaN |
| 4 | 小王 | 语文 | 85.0 |
| 5 | NaN | 数学 | NaN |
| 6 | NaN | 英语 | 90.0 |
| 7 | NaN | NaN | NaN |
| 8 | 小刚 | 语文 | 85.0 |
| 9 | NaN | 数学 | 80.0 |
| 10 | NaN | 英语 | 90.0 |
步骤4:删除掉全是空值的行
studf.dropna(axis="index", how='all', inplace=True)
studf
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| 姓名 | 科目 | 分数 | |
|---|---|---|---|
| 0 | 小明 | 语文 | 85.0 |
| 1 | NaN | 数学 | 80.0 |
| 2 | NaN | 英语 | 90.0 |
| 4 | 小王 | 语文 | 85.0 |
| 5 | NaN | 数学 | NaN |
| 6 | NaN | 英语 | 90.0 |
| 8 | 小刚 | 语文 | 85.0 |
| 9 | NaN | 数学 | 80.0 |
| 10 | NaN | 英语 | 90.0 |
步骤5:将分数列为空的填充为0分
studf.fillna({"分数":0})
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| 姓名 | 科目 | 分数 | |
|---|---|---|---|
| 0 | 小明 | 语文 | 85.0 |
| 1 | NaN | 数学 | 80.0 |
| 2 | NaN | 英语 | 90.0 |
| 4 | 小王 | 语文 | 85.0 |
| 5 | NaN | 数学 | 0.0 |
| 6 | NaN | 英语 | 90.0 |
| 8 | 小刚 | 语文 | 85.0 |
| 9 | NaN | 数学 | 80.0 |
| 10 | NaN | 英语 | 90.0 |
# 等同于
studf.loc[:, '分数'] = studf['分数'].fillna(0)
studf
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| 姓名 | 科目 | 分数 | |
|---|---|---|---|
| 0 | 小明 | 语文 | 85.0 |
| 1 | NaN | 数学 | 80.0 |
| 2 | NaN | 英语 | 90.0 |
| 4 | 小王 | 语文 | 85.0 |
| 5 | NaN | 数学 | 0.0 |
| 6 | NaN | 英语 | 90.0 |
| 8 | 小刚 | 语文 | 85.0 |
| 9 | NaN | 数学 | 80.0 |
| 10 | NaN | 英语 | 90.0 |
步骤6:将姓名的缺失值填充
使用前面的有效值填充,用ffill:forward fill
studf.loc[:, '姓名'] = studf['姓名'].fillna(method="ffill")
studf
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| 姓名 | 科目 | 分数 | |
|---|---|---|---|
| 0 | 小明 | 语文 | 85.0 |
| 1 | 小明 | 数学 | 80.0 |
| 2 | 小明 | 英语 | 90.0 |
| 4 | 小王 | 语文 | 85.0 |
| 5 | 小王 | 数学 | 0.0 |
| 6 | 小王 | 英语 | 90.0 |
| 8 | 小刚 | 语文 | 85.0 |
| 9 | 小刚 | 数学 | 80.0 |
| 10 | 小刚 | 英语 | 90.0 |
步骤7:将清洗好的excel保存
studf.to_excel("./datas/student_excel/student_excel_clean.xlsx", index=False)
Pandas对缺失值的处理的更多相关文章
- Python Pandas找到缺失值的位置
python pandas判断缺失值一般采用 isnull(),然而生成的却是所有数据的true/false矩阵,对于庞大的数据dataframe,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺 ...
- pandas判断缺失值的办法
参考这篇文章: https://blog.csdn.net/u012387178/article/details/52571725 python pandas判断缺失值一般采用 isnull(),然而 ...
- pandas 处理缺失值(连续值取平均,离散值fillna"<unk>")
# 2.1处理缺失值,连续值用均值填充 continuous_fillna_number = [] for i in train_null_ix: if(i in continuous_ix): me ...
- python-数据描述与分析2(利用Pandas处理数据 缺失值的处理 数据库的使用)
2.利用Pandas处理数据2.1 汇总计算当我们知道如何加载数据后,接下来就是如何处理数据,虽然之前的赋值计算也是一种计算,但是如果Pandas的作用就停留在此,那我们也许只是看到了它的冰山一角,它 ...
- Python数据分析之pandas学习
Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利 ...
- Python pandas 0.19.1 Intro to Data Structures 数据结构介绍 文档翻译
官方文档链接http://pandas.pydata.org/pandas-docs/stable/dsintro.html 数据结构介绍 我们将以一个快速的.非全面的pandas的基础数据结构概述来 ...
- python 数据分析--pandas
接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...
- Pandas 常见的基本方法
说明:文章所有内容均截选自实验楼教程[Pandas 使用教程],想要查看教程完整内容,点击教程即可~ 前言: Pandas 是非常著名的开源数据处理工具,我们可以通过它对数据集进行快速读取.转换.过滤 ...
- pandas常用
#python中的pandas库主要有DataFrame和Series类(面向对象的的语言更愿意叫类) DataFrame也就是#数据框(主要是借鉴R里面的data.frame),Series也就是序 ...
随机推荐
- 启xin宝app的token算法破解——frida篇(四)
前两篇文章分析该APP的抓包.的逆向: 启xin宝app的token算法破解--抓包分析篇(一) 启xin宝app的token算法破解--逆向篇(二) 启xin宝app的token算法破解--toke ...
- Integer 使用==判断127和超过128的数据的区别
Integer封装类型字数据当超过一定长度后,若使用==来判断数否相等,那么判断的结果是false; Integer的范围是超过128就是false. 对于所有封装类而言,建议使用equals来进行判 ...
- 完结撒花!129 集 21 个小时,松哥自制的 Spring Boot2 系列视频教程杀青啦!
松哥的 Spring Boot 教程分为几个阶段. 2016 松哥最早在 2016 年底的时候开始写 Spring Boot 系列的教程,记得当时在广州上班,年底那段时间在深圳出差,在深圳人生地不熟, ...
- shell中特殊符号的作用
linux中shell变量$#,$@,$0,$1,$2的含义解释: 变量说明: $$ Shell本身的PID(ProcessID) $! Shell最后运行的后台Process的PID $? 最后运行 ...
- python 3.7.4下载与安装的问题
发病时间:2019 年 8 月12 日 周一 1.操作系统环境: Win10 64位 2.pyhon版本3.7.4 python官网地址:www.python.org 本机下载的文件名为:python ...
- 线程、进程的区别,Java的几个线程状态
线程.进程的区别 进程的定义:进程就是程序在一个数据集合上的一次执行过程.他与程序的区别在于程序是静态的代码,而进程是动态的执行过程. 进程的特性:1.结构性,进程由程序块.数据块.进程 ...
- ubuntu使用yum安装软件问题
其实ubuntu是不应该用yum来管理软件安装的,只是后来才发现的,这里记录一下尝试的过程. 一开始是想把windows桌面上的文件拖到xshell登录的ubuntu的目录中,但是没成功,参考http ...
- NN入门,手把手教你用Numpy手撕NN(2)
这是一篇包含较少数学推导的NN入门文章 上篇文章中简单介绍了如何手撕一个NN,但其中仍有可以改进的地方,将在这篇文章中进行完善. 误差反向传播 之前的NN计算梯度是利用数值微分法,虽容易实现,但是计算 ...
- CF #541 E. String Multiplication
题意: 给定一系列字符串,每次都是后一个字符串和前面的融合,这个融合操作就是原来的串分成独立的,然后把新串插入到这些空格中.问最后,最长的相同连续的长度. 思路: 这道题可以贪心的来,我们压缩状态,记 ...
- 基于DP+位运算的RMQ算法
来源:http://blog.csdn.net/y990041769/article/details/38405063 RMQ算法,是一个快速求区间最值的离线算法,预处理时间复杂度O(n*log(n) ...