pandas处理大数据题目的操作

1、用法：DataFrame.drop(labels=None, axis=0, index=None, columns=None, inplace=False)

2、参数说明：

labels：要删除的行/列的名字，用列表给出

axis：默认为0，即删除行，删除列时指定为1

index：直接指定要删除的行

columns：直接指定要删除的列

inplace：默认为False，即删除操作不改变元数据，而是返回一个执行删除操作后的新DataFrame，若为True，则会在元数据据上进行删除操作，删除后无法返回

3、删除行列的两种方式：

1）labels=None, axis=0/1的组合

2）index或columns直接指定要删除的行或列

1.滤除缺失数据dropna()

import pandas as pd
import numpy as np
df=pd.DataFrame({"record":[np.nan,"亚健康|潘光|45岁","疾病|张思",np.nan],"date":[np.nan,20210102,20210103,20210104]},index=["one","two","three","four"])

1)滤除含有NaN值的所有行
df.dropna()#默认axis=0

2)滤除含有NaN值的所有列
df.dropna(axis=1)

3)滤除元素都是NaN值的行
df.dropna(axis=0,how="all")

5)滤除指定列中含有缺失的行
df.dropna(subset=["record"],axis=0)

以上如果需要在原数据上直接做更改，需设置参数inplace=True

2.删除重复值 drop_duplicates()
df=pd.DataFrame({'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']})

语法：drop_duplicates(subset,keep,inplace)，其中参数 keep:{‘first’，‘last’，False}，默认’first’

first：保留第一次出现的重复项，删除第二次及之后出现的重复项。

last：保留最后一次出现的重复项，删除之前出现的重复项。

"false"：删除所有重复项。

1)keep=“first”

df.drop_duplicates(keep="first")

2)keep=“last”

df.drop_duplicates(keep="last")

3)keep=False

df.drop_duplicates(keep=False)

4)删除指定列中重复项对应的行

df.drop_duplicates(subset=["state"],keep="first")

以上如果需要在原数据上直接做更改，需设置参数inplace=True

3.根据指定条件删除行列drop()

df=pd.DataFrame(np.arange(16).reshape(4,4),columns=["one","two","three","four"])

1).删除指定列

df.drop(["one"],axis=1)

>>>df.drop(columns=['B', 'C'])

另外，也可通过del df["one"]来实现删除指定列，但该方法不推荐，因为这默认直接在源数据上做更改。

2).删除指定行

df.drop([0],axis=0)

>>> df.drop(index=[0])

以上如果需要在原数据上直接做更改，需设置参数inplace=True

————————————————
版权声明：本文为CSDN博主「永远在减肥永远110的的小潘」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/p1306252/article/details/114890550

pandas处理大数据题目的操作的更多相关文章

Dapper学习(四)之Dapper Plus的大数据量的操作
这篇文章主要讲 Dapper Plus,它使用用来操作大数量的一些操作的.比如插入1000条,或者10000条的数据时,再使用Dapper的Execute方法,就会比较慢了.这时候,可以使用Dappe ...
【大数据技术】操作系统和Hadoop版本选择
1.操作系统选择 Hadoop产品是由Java语言开发的,所以推荐的是Linux操作系统,理由很简单开源免费,推荐的操作系统CentOS. CentOS是一个基于Red Hat 企业级 Linux 提 ...
EasyExcel对大数据量表格操作导入导出
前言最近有个项目里面中有大量的Excel文档导入导出需求,数据量最多的文档有上百万条数据,之前的导入导出都是用apache的POI,于是这次也决定使用POI,结果导入一个四十多万的文档就GG了,内存 ...
mysql大数据表删除操作锁表，导致其他线程等待锁超时（Lock wait timeout exceeded; try restarting transaction;）
背景: 1.有一个定时任务,每10分钟入一批统计数据: 2.另一个定时任务,每天定时清理7天前数据,此定时任务每天01:18:00执行: 现象: 每天01:20:00的统计数据入库失败,异常信息如下, ...
入门大数据---SparkSQL联结操作
一. 数据准备本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据.分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: val spark = SparkSessio ...
面试- 阿里-. 大数据题目- 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?
假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决. Step1:遍历文件a, ...
大数据自学5-Python操作Hbase
在Hue环境中本身是可以直接操作Hbase数据库的,但是公司的环境不知道什么原因一直提示"Api Error:timed out",进度条一直在跑,却显示不出表. 但是在CDH后台 ...
大数据学习——java操作hdfs环境搭建以及环境测试
1 新建一个maven项目打印根目录下的文件的名字添加pom依赖 pom.xml <?xml version="1.0" encoding="UTF-8&quo ...
MERGE INTO 解决大数据量复杂操作更新慢的问题
现我系统中有一条复杂SQL,由于业务复杂需要关联人员的工作离职三个表,并进行分支判断,再计算人员的字段信息,由于人员多,分支多,计算复杂等原因,一次执行需要5min,容易卡死,现在使用MERGE IN ...
成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...

随机推荐

使用containerd从0搭建k8s(kubernetes)集群
准备环境准备两台服务器节点,如果需要安装虚拟机,可以参考<wmware和centos安装过程> 机器名 IP 角色 CPU 内存 centos01 192.168.109.130 mas ...
浅析开源容器标准——OCI
1.导语容器技术火起来了以后,Docker的容器镜像和容器运行时已然成为行业的标准.此后,为了推进容器生态的健康发展.在Linux基金会的主导下,Docker和各大云厂商Google, Amazon ...
ReactNative原理与核心知识点
React Native特点跨平台使用js写出页面组件代码被React框架统一转成Virtual DOM树,Virtual DOM树是UI结构的一层抽象,可以被转换成任何支持端的UI视图. Rea ...
ArcPy批量对大量遥感影像相减做差
本文介绍基于Python中ArcPy模块,对大量栅格遥感影像文件批量进行相减做差的方法. 首先,我们来明确一下本文的具体需求.现有一个存储有多张.tif格式遥感影像的文件夹,其中每一个遥感影像 ...
基于DSP的设备振动信号的采集技术方案综述
前记在能源领域,由于很多地方都是无人值守,设备故障检测是一个必须面对的问题.笔者通过几个行业案例了解到,由于很多设备发生故障时候会产生特定频谱的声音,所以该行业对振动监测的需求特别强烈,由于涉及到 ...
采集douban
# -*- coding: utf-8 -*-"""Created on Thu Oct 31 16:14:02 2019 @author: DELL"&quo ...
ASP.NET MVC4 学习笔记-3
创建一个简单的数据录入程序--Create a Simple Data-Entry Application 在这篇博客中,我们将通过创建一个简单的数据录入程序来探索MVC的其他特点.在这一节中我们要跟 ...
SVE学习记录- SVE特性以及寄存器
本文地址:https://www.cnblogs.com/wanger-sjtu/p/SVE_learn_0.html SVE对比NEON有几个新增的地方. 变长的向量支持Gather-load & ...
使用DBeaver连接数据库
下载网站:官网下载参考链接:使用 DBeaver 连接 OceanBase
体验IntelliJ IDEA的远程开发（Remote Development）
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览 IDEA的远程开发功能,可以将本地的编译.构 ...

pandas处理大数据题目的操作

1、用法：DataFrame.drop(labels=None, axis=0, index=None, columns=None, inplace=False)

2、参数说明：

labels：要删除的行/列的名字，用列表给出

axis：默认为0，即删除行，删除列时指定为1

index：直接指定要删除的行

columns：直接指定要删除的列

inplace：默认为False，即删除操作不改变元数据，而是返回一个执行删除操作后的新DataFrame，若为True，则会在元数据据上进行删除操作，删除后无法返回

3、删除行列的两种方式：

1）labels=None, axis=0/1的组合

2）index或columns直接指定要删除的行或列

1.滤除缺失数据dropna()

import pandas as pdimport numpy as npdf=pd.DataFrame({"record":[np.nan,"亚健康|潘光|45岁","疾病|张思",np.nan],"date":[np.nan,20210102,20210103,20210104]},index=["one","two","three","four"])

1)滤除含有NaN值的所有行df.dropna()#默认axis=0

2)滤除含有NaN值的所有列df.dropna(axis=1)

3)滤除元素都是NaN值的行df.dropna(axis=0,how="all")

5)滤除指定列中含有缺失的行df.dropna(subset=["record"],axis=0)

以上如果需要在原数据上直接做更改，需设置参数inplace=True

2.删除重复值 drop_duplicates()df=pd.DataFrame({'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']})

语法：drop_duplicates(subset,keep,inplace)，其中参数 keep:{‘first’，‘last’，False}，默认’first’

first：保留第一次出现的重复项，删除第二次及之后出现的重复项。

last：保留最后一次出现的重复项，删除之前出现的重复项。

"false"：删除所有重复项。

1)keep=“first”

df.drop_duplicates(keep="first")

2)keep=“last”

df.drop_duplicates(keep="last")

3)keep=False

df.drop_duplicates(keep=False)

4)删除指定列中重复项对应的行

df.drop_duplicates(subset=["state"],keep="first")

以上如果需要在原数据上直接做更改，需设置参数inplace=True

3.根据指定条件删除行列drop()

df=pd.DataFrame(np.arange(16).reshape(4,4),columns=["one","two","three","four"])

1).删除指定列

df.drop(["one"],axis=1)

另外，也可通过del df["one"]来实现删除指定列，但该方法不推荐，因为这默认直接在源数据上做更改。

2).删除指定行

df.drop([0],axis=0)

以上如果需要在原数据上直接做更改，需设置参数inplace=True

————————————————版权声明：本文为CSDN博主「永远在减肥永远110的的小潘」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/p1306252/article/details/114890550

pandas处理大数据题目的操作的更多相关文章

随机推荐

热门专题

import pandas as pd
import numpy as np
df=pd.DataFrame({"record":[np.nan,"亚健康|潘光|45岁","疾病|张思",np.nan],"date":[np.nan,20210102,20210103,20210104]},index=["one","two","three","four"])

1)滤除含有NaN值的所有行
df.dropna()#默认axis=0

2)滤除含有NaN值的所有列
df.dropna(axis=1)

3)滤除元素都是NaN值的行
df.dropna(axis=0,how="all")

5)滤除指定列中含有缺失的行
df.dropna(subset=["record"],axis=0)

2.删除重复值 drop_duplicates()
df=pd.DataFrame({'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']})

————————————————
版权声明：本文为CSDN博主「永远在减肥永远110的的小潘」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/p1306252/article/details/114890550