pandas--排序和排名

排序

要对行或列索引进行排序，可使用sort_index方法，它将返回一个已排序的新对象：

Series

1、对Series索引排序

 obj=Series(range(4),index=['d','a','b','c'])

 obj.sort_index()

 Out[18]:

 a    1

 b    2

 c    3

 d    0

 dtype: int64

2、按值对Series进行排序

 obj=Series([4,7,-3,2])

 obj

 Out[10]:

 0    4

 1    7

 2   -3

 3    2

 dtype: int64

 obj.sort_values()

 Out[11]:

 2   -3

 3    2

 0    4

 1    7

 dtype: int64

在排序时，任何缺失值默认都会被放到Series的末尾：

 obj=Series([4,np.nan,7,np.nan,-3,2])

 obj

 Out[13]:

 0    4.0

 1    NaN

 2    7.0

 3    NaN

 4   -3.0

 5    2.0

 dtype: float64

 obj.sort_values()

 Out[14]:

 4   -3.0

 5    2.0

 0    4.0

 2    7.0

 1    NaN

 3    NaN

 dtype: float64

DataFrame

1、对于DataFrame，可以根据任意一个轴上的索引进行排序：

 frame=DataFrame(np.arange(8).reshape((2,4)),index=['three','one'],

 columns=['d','a','b','c'])

 frame

 Out[20]:

        d  a  b  c

 three  0  1  2  3

 one    4  5  6  7

 frame.sort_index()

 Out[21]:

        d  a  b  c

 one    4  5  6  7

 three  0  1  2  3

 #指定轴

 frame.sort_index(axis=1)

 Out[22]:

        a  b  c  d

 three  1  2  3  0

 one    5  6  7  4

数据默认是升序排序，但也可以降序排序

 frame.sort_index(axis=1,ascending=False)

 Out[23]:

        d  c  b  a

 three  0  3  2  1

 one    4  7  6  5

2、在DataFrame上，根据一个或多个列中的值来进行排序

 frame=DataFrame({'b':[4,7,-3,2],'a':[0,1,0,1]})

 frame

 Out[16]:

    a  b

 0  0  4

 1  1  7

 2  0 -3

 3  1  2

 frame.sort_values(by='b')

 Out[17]:

    a  b

 2  0 -3

 3  1  2

 0  0  4

 1  1  7

 #根据多个列进行排序，传入名称的列表即可

 frame.sort_values(by=['a','b'])

 Out[18]:

    a  b

 2  0 -3

 0  0  4

 3  1  2

 1  1  7

排名

通过Series和DataFrame的rank方法。

默认情况下，rank是通过“为各组分配一个平均排名”的方式破坏平级关系的。

Series

 obj=Series([7,-5,7,4,2,0,4])

 obj.rank()

 Out[20]:

 0    6.5

 1    1.0

 2    6.5

 3    4.5

 4    3.0

 5    2.0

 6    4.5

 dtype: float64

 #将数值进行排序，对于相同数据排名，取排名的平均值

根据值在原数据中出现的顺序给出排名：

obj.rank(method='first')

Out[21]:

0    6.0

1    1.0

2    7.0

3    4.0

4    3.0

5    2.0

6    5.0

dtype: float64

可以进行降序排名：

 #max使用整个分组的最大排名

 obj.rank(ascending=False,method='max')

 Out[22]:

 0    2.0

 1    7.0

 2    2.0

 3    4.0

 4    5.0

 5    6.0

 6    4.0

 dtype: float64

DataFrame

在行或列上计算排名

 frame=DataFrame({'b':[4.3,7,-3,2],'a':[0,1,0,1],

 'c':[-2,5,-8,-2.5]})

 frame

 Out[25]:

    a    b    c

 0  0  4.3 -2.0

 1  1  7.0  5.0

 2  0 -3.0 -8.0

 3  1  2.0 -2.5

 #指定轴

 frame.rank(axis=1)

 Out[26]:

      a    b    c

 0  2.0  3.0  1.0

 1  1.0  3.0  2.0

 2  3.0  2.0  1.0

 3  2.0  3.0  1.0

排名时用于破坏平级关系的method选项

'average'	默认：在相等分组中，为各值分配平均排名
'min'	使用整个分组的最小排名
'max'	使用整个分组的最大排名
'first'	按值在原数据中的出现顺序分配排名

pandas--排序和排名的更多相关文章

Pandas基本功能之算术运算、排序和排名
算术运算和数据对齐 Series和DataFrame中行运算和列运算有种特征叫做广播在将对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集.自动的数据对齐操作在不重叠的索引处引入了NA ...
Pandas的排序和排名（Series， DataFrame） + groupby
根据条件对数据集排序(sorting)也是一种重要的内置运算.要对行或列索引进行排序(按字典顺序), 可使用sort_index 方法, 它将返回一个已排序的新对象: 而DataFrame, 则可以根 ...
Pandas排序
Pandas有两种排序方式,它们分别是 - 按标签按实际值下面来看看一个输出的例子. import pandas as pd import numpy as np unsorted_df=pd.D ...
第七节：pandas排序
pandas具有两种排序方式:sort_index()和sort_values().
PAT A1012 The Best Rank （25 分）——多次排序，排名
To evaluate the performance of our first year CS majored students, we consider their grades of three ...
pandas 排序之 sort_values，reindex，reset_index， sort_index
如果想按照自己的方式排序ind = 行索引data= data[ind] ind = data.sum(axis=1).sort_values(ascending=False).index data ...
Cognos开发自定义排序规则的报表和自定义排名报表
场景:有一个简单的销售数据分析,可以按照日期,按照商品类型来分析订单笔数和订单金额. 目的:用户可以自定义查看按照不同指标排序的数据,用户可以查看按照不同指标排名的前N名数据一:功能及效果展示效果 ...
pandas 按照某一列进行排序
pandas排序的方法有很多,sort_values表示根据某一列排序 pd.sort_values("xxx",inplace=True) 表示pd按照xxx这个字段排序,inp ...
《利用python进行数据分析》读书笔记--第五章 pandas入门
http://www.cnblogs.com/batteryhp/p/5006274.html pandas是本书后续内容的首选库.pandas可以满足以下需求: 具备按轴自动或显式数据对齐功能的数据 ...
利用python进行数据分析之pandas库的应用（二）
本节介绍Series和DataFrame中的数据的基本手段重新索引 pandas对象的一个重要方法就是reindex,作用是创建一个适应新索引的新对象 >>> from panda ...

随机推荐

java虚拟机规范(se8)——java虚拟机结构(六)
2.11 指令集简介 java虚拟机指令由一个字节的操作码,接着时0个或多个操作数组成,操作码描述了执行的操作,操作数提供了操作所需的参数或者数据.许多指令没有操作数只包含一个操作码. 如果忽略异常处 ...
springboot整合netty，多种启动netty的方式，展现bean得多种启动方法
首先讲解下,spring中初始化加载问题: 很多时候,我们自己写的线程池,还有bean对象,还有其他的服务类,都可以通过,相关注解进行交给spring去管理,那么我们如何让nettyserver初始化 ...
BUUCTF MISC ZIP
这道题有点烦,拿出来单独写先贴两张图,一会用首先这题给了68个压缩包,每个压缩包里只有4bytes大小,于是可以想到是crc爆破,自己写的脚本总是被killed,犯懒找了个脚本 import zip ...
关于Oracle中Sort Merge Join的改写
业务场景的问题,我们有一个刷CUBE的SQL,是Oracle环境,平时跑70多分钟, 但是最近突然不动了,这个SQL需要算累计值,比如年累计客户数量. 累计值是什么意思呢?我们使用下面的数据来说明问题 ...
LeetCode Array Easy 217. Contains Duplicate
Description Given an array of integers, find if the array contains any duplicates. Your function sho ...
【记录】ajax跨域问题jsonp正确的使用方式
最近遇到ajax请求跨域问题,解决方案用jsonp,现记录如下: //跨域请求jsonp封装 function doJsonPostCallBack(type, url, data,async, ca ...
Spring Cloud服务保护
微服务虽然解决了传统单体式应用各个模块之间强耦合的缺点,但同时也引出了新问题,由于微服务各个服务之间是独立部署的,并且一般情况下一个服务往往会依赖多个其他服务,并且服务之间的调用更多的是依赖不稳定的网 ...
dubbo-源码阅读之Filter默认实现
SPI配置的默认实现 cache=com.alibaba.dubbo.cache.filter.CacheFilter validation=com.alibaba.dubbo.validation. ...
Begin at this time
学习了一段时间的Python,今天终于下定决心建立博客来记录自己的机器学习之路了.希望这是一个好的开始,希望自己永远不放弃,坚持努力下去.
codeforces1213F Unstable String Sort 思维
题目传送门题意:a和b都代表字符串的下标,至少用k个字符,构造一个长度为n的字符串,将这个字符串中的字符按无论是按$a$写还是按$b$写,字典序都非递减. 思路:如果将$a[l,r]=b[l,r]$ ...

pandas--排序和排名

pandas--排序和排名的更多相关文章

随机推荐

热门专题