pandas包 —— drop()、sort_values()、drop

一、drop() 函数

当你要删除某一行或者某一列时，用drop函数，它不改变原有的df中的数据，而是返回另一个dataframe来存放删除后的数据。

1.命令：　　df.drop()

　　删除行：df.drop('apps') 　　　#drop函数的参数默认 axis=0

　　删除列：df.dorp('col', axis=1) #删除列要加axis=1，默认是删除行的

temp = deviceid_packages.drop('apps', axis=1)

temp1 = deviceid_packages.drop(['apps'], axis=1)

二、sort_values()函数

pandas中的sort_values()函数原理类似于SQL中的order by，可以将数据集依照某个字段中的数据进行排序，该函数即可根据指定列数据也可根据指定行的数据排序。

1.sort_values()函数的具体参数

Usage：

DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘last’)

2.参数说明：

参数	说明
by	指定列名(axis=0或’index’)或索引值(axis=1或’columns’)
axis	若axis=0或’index’，则按照指定列中数据大小排序；若axis=1或’columns’，则按照指定索引中数据大小排序，默认axis=0
ascending	是否按指定列的数组升序排列，默认为True，即升序排列
inplace	是否用排序后的数据集替换原来的数据，默认为False，即不替换
na_position	{‘first’,‘last’}，设定缺失值的显示位置

#注意sort_values()函数与drop()函数的参数axis表示的相反

三、drop_duplicates()函数

参考:https://www.cnblogs.com/xxswkl/p/10989306.html

dataframe删除某一列的重复元素，默认只留下第一次出现的

inplace参数设置为true时直接在原数据上修改,为False时,生成副本.

#注意：所有函数中inplace一旦设置为True,它整体已经就是None.想要再跟函数只能再写一行.

且此时在前面也不能赋值,赋值也是None.因为设置为True时,整体是None,设置为False时,整体是一个引用,可以赋给其它变量.

a1 = pd.DataFrame({

                    'a': [1, 1, 3, 2,],

                    'b': [1, 1, 6, 4,],

                    'c': [1, 1, 3, 9,]

                  })

print(a1)

#    a  b  c

# 0  1  1  1

# 1  1  1  1

# 2  3  6  3

# 3  2  4  9

a1.drop_duplicates(inplace=True)

print(a1)

#    a  b  c

# 0  1  1  1

# 2  3  6  3

# 3  2  4  9

# 这里inplace为假，整体实际上是一个引用，所以可以直接输出.

print(a1.drop_duplicates(['a','b'], keep='first',inplace=False)) #删除a，b两列重复的行，并且保留首次出现的哪一行

#    a  b  c

# 0  1  1  1

# 2  3  6  3

# 3  2  4  9

# 注意这里因为inplace为真，直接在原数据上修改，直接输出是空，因为它并不是一个引用，a1才是引用.

print(a1.drop_duplicates(['a','b'], keep='first',inplace=True))

# None

想要留下去掉的重复行，可以先删除重复行后，保存索引，再删除索引.

import pandas as pd

import numpy as np

import re

df = pd.DataFrame({'a': [1,1,3,4,3],

                   'b': [1,1,3,4,3],

                   'c': [1,1,3,4,3]})

print('原始数据：\n',df)

# 原始数据：

#     a  b  c

# 0  1  1  1

# 1  1  1  1

# 2  3  3  3

# 3  4  4  4

# 4  3  3  3

print('去掉重复行后：\n', df.drop_duplicates())

# 去掉重复行后：

#     a  b  c

# 0  1  1  1

# 2  3  3  3

# 3  4  4  4

drop_index = df.drop_duplicates().index.tolist()

print('去掉的重复行是：\n',df.drop(drop_index))

# 去掉的重复行是：

#     a  b  c

# 1  1  1  1

# 4  3  3  3

#参数inplace=默认为假，数据框df还是原来的没有改变

print(df)

#     a  b  c

# 0  1  1  1

# 1  1  1  1

# 2  3  3  3

# 3  4  4  4

# 4  3  3  3

pandas包 —— drop()、sort_values()、drop_duplicates()的更多相关文章

pandas Series的sort_values()方法
pandas Series的 sort_values() 方法能对Series进行排序,返回一个新的Series: s = pd.Series([np.nan, 1, 3, 10, 5]) 升序排列: ...
沉淀，再出发：python中的pandas包
沉淀,再出发:python中的pandas包一.前言 python中有很多的包,正是因为这些包工具才使得python能够如此强大,无论是在数据处理还是在web开发,python都发挥着重要的作用,下 ...
python读取数据文件：pandas包详解
本文转载自https://blog.csdn.net/brucewong0516/article/details/79092579 pandas包是一个高效的文件读取工具,适用于txt,excel,等 ...
Python之路-pandas包的详解与使用
什么是pandas pandas是一种Python数据分析的利器,是一个开源的数据分析包,最初是应用于金融数据分析工具而开发出来的,因此pandas为时间序列分析提供了很好的支持.pandas是PyD ...
pandas包学习笔记
目录 zip Importing & exporting data Plotting with pandas Visual exploratory data analysis 折线图散点图 ...
Lesson11——Pandas去重函数：drop_duplicates()
pandas目录 "去重"通过字面意思不难理解,就是删除重复的数据.在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程.删除重复数 ...
pandas的drop函数
当你要删除某一行或者某一列时,用drop函数,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据. 1.命令: df.drop() 删除行:df.drop('apps') ...
pandas 排序之 sort_values，reindex，reset_index， sort_index
如果想按照自己的方式排序ind = 行索引data= data[ind] ind = data.sum(axis=1).sort_values(ascending=False).index data ...
Python使用xlrd、pandas包从Excel读取数据
#coding=utf-8 # pip install xlrd import xlrd def read_from_xls(filepath,index_col_list): #filepath:读 ...

随机推荐

解决xpath中文乱码
利用xpath建标签树以后,虽然提高了元素匹配效率,但是etree会把中文转为ASCII码,所以简单地tostring以后会有乱码. 解决方法: import requests from reques ...
设计模式课程设计模式精讲 4-2 简单工厂coding
1 代码演练 1.1 未使用简单工厂模式代码 1.2 使用简单工厂模式 1.3 使用反射机制简单工行模式 1 代码演练 1.1 未使用简单工厂模式代码测试类: package com.geely.d ...
Elasticsearch 6.8.4 启动报错解决方法
运行环境:centos 7,jdk 1.8 问题一: ERROR: bootstrap checks failed max ] ] 原因:无法创建本地文件问题,用户最大可创建文件数太小解决方案:切换 ...
Java基础 -3.5
我觉得上一篇不是很严谨啊我认为这个逻辑还是正确的原码.反码.补码: (1)在Java中,所有数据的表示方式都是以补码形式来表示如果没有特别的说明,Java 中的数据类型默认为int,int数据类 ...
SpringMvc 初步配置
spring-aop.jarspring-bean.jarspring-context.jarspring-core.jarspring-web.jarspring-webmvc.jarcommons ...
Redis的安装配置及简单集群部署
最近针对中铁一局项目,跟事业部讨论之后需要我们的KF平台能够接入一些开源的数据库,于是这两天研究了一下Redis的原理. 1. Redis的数据存储原理及简述 1.1Redis简述 Redis是一个基 ...
郁闷的 IE6/7/8 所遇兼容问题
IE6,7只支持inline元素设置为inline-block,但不支持block元素转换成inline-block,所以非inline元素在IE6,7下要转换成inline-block,需先转换成i ...
5.使用Redis+Flask维护动态Cookies池
1.为什么要用Cookies池? 网站需要登录才可爬取,例如新浪微博爬取过程中如果频率过高会导致封号需要维护多个账号的Cookies池实现大规模爬取 2.Cookies池的要求自动登录更新定时 ...
yum软件仓库常用命令
一.PRM简化安装软件的复杂度安装软件的命令格式 prm -ivh filename.rpm 升级软件的命令格式 prm -Uvh filename.rpm 卸载软件的命令格式 prm -e fil ...
springboot,vue,shiro整合关于登录认证功能
首先是session问题传统session认证 http协议是一种无状态协议,即浏览器发送请求到服务器,服务器是不知道这个请求是哪个用户发来的.为了让服务器知道请求是哪个用户发来的,需要让用户提供用 ...

pandas包 —— drop()、sort_values()、drop_duplicates()

pandas包 —— drop()、sort_values()、drop_duplicates()的更多相关文章

随机推荐

热门专题