python进行数据清理之pandas中的drop用法

好久好久没有更新博客了，之前自学的估计也都忘记差不多了。由于毕业选择从事的行业与自己的兴趣爱好完全两条路，心情也难过了很久，既然入职了就要好好干，仍要保持自己的兴趣，利用业余时间重拾之前的乐趣。

从基本的数据清理学起吧

讲一下drop函数的用法

删除表中的某一行或者某一列更明智的方法是使用drop，它不改变原有的df中的数据，而是可选择性的返回另一个dataframe来存放删除后的数据。

删除无效项

df[df.isnull()]  #返回的是个true或false的Series对象（掩码对象），进而筛选出我们需要的特定数据。

df[df.notnull()]

df.dropna()     #将所有含有nan项的row删除

df.dropna(axis=1,thresh=3)  #将在列的方向上三个为NaN的项删除

df.dropna(how='ALL')        #将全部项都是nan的row删除

这里面，print(data.dropna() )和 print(data[data.notnull()] )结果一样

填充空缺项

df.fillna(0)

df.fillna({1:0, 2:0.5})         #对第一列nan值赋0，第二列赋值0.5

df.fillna(method='ffill')   #在列方向上以前一个值作为值赋给NaN

method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None

pad/ffill：用前一个非缺失值去填充该缺失值

backfill/bfill：用下一个非缺失值填充该缺失值

None：指定一个值去替换缺失值

drop函数的使用：

(1)删除行、列

print(frame.drop(['a']))

print(frame.drop(['b'], axis = 1))#drop函数默认删除行，列需要加axis = 1

(2)inplace参数

1. DF.drop('column_name', axis=1)；

2. DF.drop('column_name',axis=1, inplace=True)

3. DF.drop([DF.columns[[0,1, 3]]], axis=1, inplace=True)

对原数组作出修改并返回一个新数组，往往都有一个 inplace可选参数。如果手动设定为True（默认为False），那么原数组直接就被替换。也就是说，采用inplace=True之后，原数组名对应的内存值直接改变（如2和3情况所示）；

而采用inplace=False之后，原数组名对应的内存值并不改变，需要将新的结果赋给一个新的数组或者覆盖原数组的内存位置（如1情况所示）。

DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

python进行数据清理之pandas中的drop用法的更多相关文章

「Python实用秘技07」pandas中鲜为人知的隐藏排序技巧
本文完整示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/PythonPracticalSkills 这是我的系列文章「Python实用秘技」的第7期 ...
Pandas 数据处理 | Datetime 在 Pandas 中的一些用法！
Datatime 是 Python 中一种时间数据类型,对于不同时间格式之间的转换是比较方便的,而在 Pandas 中也同样支持 DataTime 数据机制,可以借助它实现许多有用的功能,例如 1,函 ...
python读取数据文件：pandas包详解
本文转载自https://blog.csdn.net/brucewong0516/article/details/79092579 pandas包是一个高效的文件读取工具,适用于txt,excel,等 ...
python pandas 中 loc & iloc 用法区别
转自:https://blog.csdn.net/qq_21840201/article/details/80725433 ### 随机生DataFrame 类型数据import pandas as ...
Python小数据保存，有多少中分类？不妨看看他们的类比与推荐方案...
小数据存储我们在编写代码的时候,经常会涉及到数据存储的情况,如果是爬虫得到的大数据,我们会选择使用数据库,或者excel存储.但如果只是一些小数据,或者说关联性较强且存在存储后复用的数据,我们该如何 ...
Python爬虫数据保存到MongoDB中
MongoDB是一款由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储方式类似于JSON对象,它的字段值可以是其它文档或数组,但其数据类型只能是String文本型. ...
[python]mysql数据缓存到redis中取出时候编码问题
描述: 一个web服务,原先的业务逻辑是把mysql查询的结果缓存在redis中一个小时,加快请求的响应. 现在有个问题就是根据请求的指定的编码返回对应编码的response. 首先是要修改响应的bo ...
Python将数据保存到CSV中
#coding:utf-8import csv headers = ['ID','UserName','Password','Age','Country'] rows = [(1001,'qiye', ...
pandas中.value_counts()的用法
原文链接:https://www.jianshu.com/p/f773b4b82c66 value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值 ...

随机推荐

windows php下memcache+memcached安装与配置
环境声明: 服务器:Windows7 64-bit:Memcached:Memcached 64-bit for Windows(64位) 安装过程解压刚刚下载的压缩包,得到两个文件:memcach ...
jeecms一些经典标签
http://www.121ask.com/thread-5512-1.html [@cms_channel_list]标签详细介绍 http://www.jeecmstheme.com/2014/0 ...
VS2017新建windows控制台程序打印中文乱码问题
最近刚换上VS2017,由于手头又要做个MFC的程序,所以写控制台程序做功能测试,然后发现居然乱码了. 于是用VS2017新建windows控制台应用程序,在main函数种加一句printf(&quo ...
EF调用存储过程查询表中的部分字段，报数据读取器与指定的“AdventureWorksDWModel.Student”不兼容。某个类型为“Age”的成员在同名的数据读取器中没有对应的列。
实现功能:查询单张表Student中返回指定的列一:数据库表结构: 二:存储过程: USE [AdventureWorksDW] GO /****** Object: StoredProcedure ...
C# 基础备忘录
1. decimal 类型调用ToString()方法后没把末尾的0去掉的解决办法: 例子:decimal? money = Convert.ToDecimal(10.8950); string mo ...
5月31日上课笔记-Mysql简介
一.mysql 配置mysql环境变量 path中添加 D:\Program Files\MySQL\MySQL Server 5.7\bin cmd命令: 登录:mysql -uroot -p 退出 ...
[maven] 实战笔记 - 构建、打包和安装maven
① 手工构建自己的maven项目 Maven 项目的核心是 pom.xml.POM (Project Object Model,项目对象模型)定义了项目的基本信息,用于描述项目如何构建,声明项目依赖等 ...
Web Api HelpPage
为了方面APP开发人员,服务端的接口都应当提供详尽的API说明.但每次有修改,既要维护代码,又要维护文档,一旦开发进度紧张,很容易导致代码与文档不一致. Web API有一个Help Page插件,可 ...
Building Your First App（创建你的第一个应用程序）
欢迎来到Android应用开发这部分课程将教你如何创建你的第一个android应用程序,包括如何创建一个android项目以并且在可调试模式下去运行这个应用程序, 您还将学习关于Android的应用 ...
HTML常用技术
1. 使用a标签实现文件的上传下载完整代码: <a class="btn btn-success btn-sm" href="http://sf.jb51.net ...

python进行数据清理之pandas中的drop用法

python进行数据清理之pandas中的drop用法的更多相关文章

随机推荐

热门专题