(二)pandas处理丢失数据
处理丢失数据
有两种丢失数据:
- None
- np.nan(NaN)
import numpy as np
type(None)
NoneType
type(np.nan)
float
1. None
None是Python自带的,其类型为python object。因此,None不能参与到任何计算中。
object类型的运算要比int类型的运算慢得多
计算不同数据类型求和时间
%timeit np.arange(1e5,dtype=xxx).sum()
1E7
10000000.0
%timeit np.arange(1E6, dtype= int).sum()
4.85 ms ± 1.08 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit np.arange(1E6, dtype = float).sum()
7.33 ms ± 587 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit np.arange(1E6,dtype = object).sum()
118 ms ± 8.94 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
2. np.nan(NaN)
np.nan是浮点类型,能参与到计算中。但计算的结果总是NaN。
但可以使用np.nan*()函数来计算nan,此时视nan为0。
nd = np.array([10,20,30,np.nan,None])
#None 不能够参加到运算当中
nd.sum()
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-13-218f693fc17f> in <module>()
1 nd = np.array([10,20,30,np.nan,None])
----> 2 nd.sum()
C:\anaconda\lib\site-packages\numpy\core\_methods.py in _sum(a, axis, dtype, out, keepdims)
30
31 def _sum(a, axis=None, dtype=None, out=None, keepdims=False):
---> 32 return umr_sum(a, axis, dtype, out, keepdims)
33
34 def _prod(a, axis=None, dtype=None, out=None, keepdims=False):
TypeError: unsupported operand type(s) for +: 'float' and 'NoneType'
nd = np.array([10,20,30,np.nan])
nd
array([10., 20., 30., nan])
nd.sum()
nan
np.mean(nd)
nan
np.nanmean(nd)
20.0
np.nansum(nd)
60.0
np.nan
nan
3. pandas中的None与NaN
1) pandas中None与np.nan都视作np.nan
创建DataFrame
import pandas as pd
from pandas import Series,DataFrame
df = DataFrame([10,20,57,None,np.nan], index = list('abcde'), columns = ["Python"])
df
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | |
---|---|
a | 10.0 |
b | 20.0 |
c | 57.0 |
d | NaN |
e | NaN |
df.sum()
Python 87.0
dtype: float64
df = DataFrame([[10,20,57,None,np.nan],
[22,33,56,16,None],
[np.nan,1,2,3,4]], index = list("abc"), columns = ["Python","Java","物理","数学","H5"])
df
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20 | 57 | NaN | NaN |
b | 22.0 | 33 | 56 | 16.0 | NaN |
c | NaN | 1 | 2 | 3.0 | 4.0 |
df.sum(axis = 0)
Python 32.0
Java 54.0
物理 115.0
数学 19.0
H5 4.0
dtype: float64
使用DataFrame行索引与列索引修改DataFrame数据
df["Python"]["c"] = 12
C:\anaconda\lib\site-packages\ipykernel_launcher.py:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
"""Entry point for launching an IPython kernel.
df
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20 | 57 | NaN | NaN |
b | 22.0 | 33 | 56 | 16.0 | NaN |
c | 12.0 | 1 | 2 | 3.0 | 4.0 |
2) pandas中None与np.nan的操作
df = DataFrame([[10,20,57,None,np.nan],
[22,33,56,16,None],
[np.nan,1,2,3,4]], index = list("abc"), columns = ["Python","Java","物理","数学","H5"])
df
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20 | 57 | NaN | NaN |
b | 22.0 | 33 | 56 | 16.0 | NaN |
c | NaN | 1 | 2 | 3.0 | 4.0 |
#下面讲的是一个重点!!!!
isnull()
notnull()
dropna()
: 过滤丢失数据fillna()
: 填充丢失数据
df
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20 | 57 | NaN | NaN |
b | 22.0 | 33 | 56 | 16.0 | NaN |
c | NaN | 1 | 2 | 3.0 | 4.0 |
#DataFrame 的isnull这个函数返回值就是一个DataFrame
is_null = df.isnull()
is_null
#
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | False | False | False | True | True |
b | False | False | False | False | True |
c | True | False | False | False | False |
#需求:查看哪一行有空值,举数据分析的例子的时候吗,会用这个方法
is_null = is_null.any(axis = 1)
is_null
a True
b True
c True
dtype: bool
df2 = DataFrame([[10,20,57,90,28],[22,35,46,78,67],[21,34,23,77,66]],
index = list("efg"),columns = ["Python","Java","物理","数学","H5"] )
#没空值的数据
df2
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
e | 10 | 20 | 57 | 90 | 28 |
f | 22 | 35 | 46 | 78 | 67 |
g | 21 | 34 | 23 | 77 | 66 |
df3 = df.add(df2, fill_value = 0)
df3
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | NaN | NaN |
b | 22.0 | 33.0 | 56.0 | 16.0 | NaN |
c | NaN | 1.0 | 2.0 | 3.0 | 4.0 |
e | 10.0 | 20.0 | 57.0 | 90.0 | 28.0 |
f | 22.0 | 35.0 | 46.0 | 78.0 | 67.0 |
g | 21.0 | 34.0 | 23.0 | 77.0 | 66.0 |
df3_isnull = df3.isnull()
df3_isnull = df3_isnull.any(axis = 1)
df3_isnull
a True
b True
c True
e False
f False
g False
dtype: bool
df3[df3_isnull]
#过滤问题 过滤的是没有空值的,留下来的是带空值的!!!
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | NaN | NaN |
b | 22.0 | 33.0 | 56.0 | 16.0 | NaN |
c | NaN | 1.0 | 2.0 | 3.0 | 4.0 |
df
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20 | 57 | NaN | NaN |
b | 22.0 | 33 | 56 | 16.0 | NaN |
c | NaN | 1 | 2 | 3.0 | 4.0 |
df[is_null]
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20 | 57 | NaN | NaN |
b | 22.0 | 33 | 56 | 16.0 | NaN |
c | NaN | 1 | 2 | 3.0 | 4.0 |
(1)判断函数
isnull()
notnull()
df3
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | NaN | NaN |
b | 22.0 | 33.0 | 56.0 | 16.0 | NaN |
c | NaN | 1.0 | 2.0 | 3.0 | 4.0 |
e | 10.0 | 20.0 | 57.0 | 90.0 | 28.0 |
f | 22.0 | 35.0 | 46.0 | 78.0 | 67.0 |
g | 21.0 | 34.0 | 23.0 | 77.0 | 66.0 |
df3_notnull = df3.notnull().all(axis = 1)
df3_notnull
a False
b False
c False
e True
f True
g True
dtype: bool
df3[df3_notnull]
#过滤的是空值,留下来的是没有空值的情况
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
e | 10.0 | 20.0 | 57.0 | 90.0 | 28.0 |
f | 22.0 | 35.0 | 46.0 | 78.0 | 67.0 |
g | 21.0 | 34.0 | 23.0 | 77.0 | 66.0 |
#还可以通过条件来进行过滤
df3
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | NaN | NaN |
b | 22.0 | 33.0 | 56.0 | 16.0 | NaN |
c | NaN | 1.0 | 2.0 | 3.0 | 4.0 |
e | 10.0 | 20.0 | 57.0 | 90.0 | 28.0 |
f | 22.0 | 35.0 | 46.0 | 78.0 | 67.0 |
g | 21.0 | 34.0 | 23.0 | 77.0 | 66.0 |
cond = (df3 >= 10).all(axis= 1)
cond
a False
b False
c False
e True
f True
g True
dtype: bool
df3[cond]
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
e | 10.0 | 20.0 | 57.0 | 90.0 | 28.0 |
f | 22.0 | 35.0 | 46.0 | 78.0 | 67.0 |
g | 21.0 | 34.0 | 23.0 | 77.0 | 66.0 |
(2) 过滤函数
dropna()
df3
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | NaN | NaN |
b | 22.0 | 33.0 | 56.0 | 16.0 | NaN |
c | NaN | 1.0 | 2.0 | 3.0 | 4.0 |
e | 10.0 | 20.0 | 57.0 | 90.0 | 28.0 |
f | 22.0 | 35.0 | 46.0 | 78.0 | 67.0 |
g | 21.0 | 34.0 | 23.0 | 77.0 | 66.0 |
df3.dropna()
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
e | 10.0 | 20.0 | 57.0 | 90.0 | 28.0 |
f | 22.0 | 35.0 | 46.0 | 78.0 | 67.0 |
g | 21.0 | 34.0 | 23.0 | 77.0 | 66.0 |
df3["H5"] = None
df3
#pandas 自身的bug 但是数据还是nan
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | NaN | None |
b | 22.0 | 33.0 | 56.0 | 16.0 | None |
c | NaN | 1.0 | 2.0 | 3.0 | None |
e | 10.0 | 20.0 | 57.0 | 90.0 | None |
f | 22.0 | 35.0 | 46.0 | 78.0 | None |
g | 21.0 | 34.0 | 23.0 | 77.0 | None |
df3.dropna(axis = 1,how = "all")
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | |
---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | NaN |
b | 22.0 | 33.0 | 56.0 | 16.0 |
c | NaN | 1.0 | 2.0 | 3.0 |
e | 10.0 | 20.0 | 57.0 | 90.0 |
f | 22.0 | 35.0 | 46.0 | 78.0 |
g | 21.0 | 34.0 | 23.0 | 77.0 |
可以选择过滤的是行还是列(默认为行)
也可以选择过滤的方式 how = 'all'
(3) 填充函数 Series/DataFrame
fillna()
df3
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | NaN | None |
b | 22.0 | 33.0 | 56.0 | 16.0 | None |
c | NaN | 1.0 | 2.0 | 3.0 | None |
e | 10.0 | 20.0 | 57.0 | 90.0 | None |
f | 22.0 | 35.0 | 46.0 | 78.0 | None |
g | 21.0 | 34.0 | 23.0 | 77.0 | None |
df3.fillna(-1)
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | -1.0 | -1 |
b | 22.0 | 33.0 | 56.0 | 16.0 | -1 |
c | -1.0 | 1.0 | 2.0 | 3.0 | -1 |
e | 10.0 | 20.0 | 57.0 | 90.0 | -1 |
f | 22.0 | 35.0 | 46.0 | 78.0 | -1 |
g | 21.0 | 34.0 | 23.0 | 77.0 | -1 |
可以选择前向填充还是后向填充
df3
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | NaN | None |
b | 22.0 | 33.0 | 56.0 | 16.0 | None |
c | NaN | 1.0 | 2.0 | 3.0 | None |
e | 10.0 | 20.0 | 57.0 | 90.0 | None |
f | 22.0 | 35.0 | 46.0 | 78.0 | None |
g | 21.0 | 34.0 | 23.0 | 77.0 | None |
df3.fillna(method = "bfill")
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | 16.0 | None |
b | 22.0 | 33.0 | 56.0 | 16.0 | None |
c | 10.0 | 1.0 | 2.0 | 3.0 | None |
e | 10.0 | 20.0 | 57.0 | 90.0 | None |
f | 22.0 | 35.0 | 46.0 | 78.0 | None |
g | 21.0 | 34.0 | 23.0 | 77.0 | None |
df3.fillna(method = "ffill")
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | NaN | None |
b | 22.0 | 33.0 | 56.0 | 16.0 | None |
c | 22.0 | 1.0 | 2.0 | 3.0 | None |
e | 10.0 | 20.0 | 57.0 | 90.0 | None |
f | 22.0 | 35.0 | 46.0 | 78.0 | None |
g | 21.0 | 34.0 | 23.0 | 77.0 | None |
#f forward 向前
df3.fillna(method='ffill', axis = 1)
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
Python | Java | 物理 | 数学 | H5 | |
---|---|---|---|---|---|
a | 10.0 | 20.0 | 57.0 | 57.0 | 57.0 |
b | 22.0 | 33.0 | 56.0 | 16.0 | 16.0 |
c | NaN | 1.0 | 2.0 | 3.0 | 3.0 |
e | 10.0 | 20.0 | 57.0 | 90.0 | 90.0 |
f | 22.0 | 35.0 | 46.0 | 78.0 | 78.0 |
g | 21.0 | 34.0 | 23.0 | 77.0 | 77.0 |
df3.fillna(method = "bfill",axis = 1)
对于DataFrame来说,还要选择填充的轴axis。记住,对于DataFrame来说:
- axis=0:index/行
- axis=1:columns/列
============================================
练习7:
简述None与NaN的区别
假设张三李四参加模拟考试,但张三因为突然想明白人生放弃了英语考试,因此记为None,请据此创建一个DataFrame,命名为ddd3
老师决定根据用数学的分数填充张三的英语成绩,如何实现?
用李四的英语成绩填充张三的英语成绩?
============================================
(二)pandas处理丢失数据的更多相关文章
- Pandas 处理丢失数据
处理丢失数据 import pandas as pd from pandas import Series, DataFrame import numpy as np 有两种丢失数据: 1. None ...
- pandas处理丢失数据-【老鱼学pandas】
假设我们的数据集中有缺失值,该如何进行处理呢? 丢弃缺失值的行或列 首先我们定义了数据集的缺失值: import pandas as pd import numpy as np dates = pd. ...
- Pandas处理丢失数据
1.创建含NaN的矩阵 >>> dates = pd.date_range(', periods=6) >>> df = pd.DataFrame(np.arang ...
- [数据清洗]- Pandas 清洗“脏”数据(二)
概要 了解数据 分析数据问题 清洗数据 整合代码 了解数据 在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的.我们尝试去理解数据的列/行.记录.数据格式.语义错误.缺失的条目以及错误的 ...
- [数据清洗]- Pandas 清洗“脏”数据(三)
预览数据 这次我们使用 Artworks.csv ,我们选取 100 行数据来完成本次内容.具体步骤: 导入 Pandas 读取 csv 数据到 DataFrame(要确保数据已经下载到指定路径) D ...
- Python利用pandas处理Excel数据的应用
Python利用pandas处理Excel数据的应用 最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做 ...
- 【python基础】利用pandas处理Excel数据
参考:https://www.cnblogs.com/liulinghua90/p/9935642.html 一.安装第三方库xlrd和pandas 1:pandas依赖处理Excel的xlrd模块, ...
- Python3 Pandas的DataFrame数据的增、删、改、查
Python3 Pandas的DataFrame数据的增.删.改.查 一.DataFrame数据准备 增.删.改.查的方法有很多很多种,这里只展示出常用的几种. 参数inplace默认为False,只 ...
- pandas.DataFrame——pd数据框的简单认识、存csv文件
接着前天的豆瓣书单信息爬取,这一篇文章看一下利用pandas完成对数据的存储. 回想一下我们当时在最后得到了六个列表:img_urls, titles, ratings, authors, detai ...
随机推荐
- Rectangle【思维+模拟】
Rectangle 题目链接(点击) frog has a piece of paper divided into nn rows and mm columns. Today, she would l ...
- 使用阿里云K8S 服务,丢失访问中原始IP 问题
解决步骤: 1. 利用kubectl 修改 k8s 配置, 设置 external** = Local 2. 在服务发现与负载均衡界面,选择对应的LB 服务, 设置服务LB 的 external** ...
- Win10 1903小白搭建Redis
一.Redis介绍 Please Baidu. 二.安装 1)下载: 下载网址 https://github.com/microsoftarchive/redis/releases 选这个 2)安装 ...
- Beta冲刺测试随笔
测试工作安排 人员安排: 余文锦,孙劼成,陈富杰,明锐,王彦杰,陈康杰:测试 杨铭海,张鑫宇测试用例的编写 测试工具选择和运用 本来计划Beta冲刺挑选人员进行测试相关的接触和学习并胜任测试工作,但是 ...
- windows RN 环境搭建(实测心得)
首先安装官网的装好依赖 这里特别敲掉的是 jdk 必须要1.8的才行: 装了node 就不要 py了. 官网 其次安装 android studio 开发工具 把对应的都装好: 这里的 ...
- 【解读】Https协议
一.为什么需要https 1.HTTP是明文传输的,也就意味着,介于发送端.接收端中间的任意节点都可以知道你们传输的内容是什么.这些节点可能是路由器.代理等. 举个最常见的例子,用户登陆.用户输入账号 ...
- viewerjs 在html打开图片或打开pdf文件使用案例
开发者常用到在线访问pdf,txt,浏览图片的插件,这里推荐viewer.js这个插件,简单好用.它的核心亮点就是查看图片和pdf功能.老早以前就用过的,昨天一个小伙伴问我Android开发在线浏览p ...
- ant +jmeter+jenkins接口自动化测试二
[Jmeter篇]Jmeter+Ant+Jenkins接口自动化测试集成之半路逆转(二) 橙子探索测试发表于橙子探索测试订阅 72 [Jmeter篇]jmeter+Ant+Jenkins接口自动化测试 ...
- 微信小程序 wx:if 多条件判断
<view wx:if="{{a}}">单个条件</view> <view wx:if="{{a || b}}">多个或条件 ...
- CentOS 7 Zookeeper 和 Kafka 集群搭建
环境 CentOS 7.4 Zookeeper-3.6.1 Kafka_2.13-2.4.1 Kafka-manager-2.0.0.2 本次安装的软件全部在 /home/javateam 目录下. ...