排序是一种索引机制的一种常见的操作方法,也是Pandas重要的内置运算,主要包括以下3种方法:

排序方法 说明
sort_values() 根据某一列的值进行排序
sort_index() 根据索引进行排序
随机重排 详见后面

本节以新冠肺炎的部分数据为例(读取“today_world_2020_04_18.csv”的国家名、时间、累计确诊、累计治愈、累计死亡这5列)

一、sort_values()

注意:默认情况下sort_values()是升序排列,ascending = Fals表示降序;

import pandas as pd
import numpy as np
df = pd.read_csv('.input/today_world_2020_04_18.csv',
usecols=['name','lastUpdateTime','total_confirm','total_dead','total_heal'],encoding='gbk')
#使用sort_values()根据累计确诊人数的进行降序重排,并列出排名前10的国家信息;
df.sort_values('total_confirm',ascending=False)[:10] name lastUpdateTime total_confirm total_dead total_heal
9 美国 2020-04-17 15:01:45 677146 34641 56159
168 西班牙 2020-04-18 00:00:31 188068 19478 74797
160 意大利 2020-04-18 03:16:25 172434 22745 40164
155 法国 2020-04-18 07:35:22 147969 18681 34420
8 德国 2020-04-18 07:23:10 140886 4326 83114
159 英国 2020-04-18 00:00:31 108692 14576 622
2 中国 2020-04-18 08:03:46 84176 4642 77723
14 伊朗 2020-04-18 00:00:31 79494 4958 54064
143 土耳其 2020-04-18 03:38:28 78546 1769 8631
178 比利时 2020-04-18 00:00:31 36138 5163 7961

二、sort_index()

>>> df.sort_index(ascending=False)[:5]
name lastUpdateTime total_confirm total_dead total_heal
203 马达加斯加 2020-04-18 07:57:30 117 0 33
202 列支敦士登 2020-04-12 00:00:31 79 1 55
201 阿曼 2020-04-18 03:28:30 1069 6 176
200 罗马尼亚 2020-04-18 03:52:56 8067 411 1508
199 格恩西岛 2020-03-27 11:33:37 1 0 0

三、随机重排

sort_values()和sort_index()只能对DataFrame进行升序或降序排列,若希望随机打乱排列顺序(即随机重排),方法如下:

步骤1:使用numpy.random.permutation()产生一个重排后的整数数组【注:numpy.random.permutation可随机排列一个序列,返回一个随机排列后的序号】

步骤2:使用.iloc[]或take()得到重排后的Pandas对象。

#步骤一:取出随机序列
>>> import numpy as np
>>> sampler = np.random.permutation(5) #步骤二:以步骤一得到的随机序列为索引,取出这些数据
#take()函数
>>> df.take(sampler)
name lastUpdateTime total_confirm total_dead total_heal
1 塞尔维亚 2020-04-18 00:00:31 5690 110 534
2 中国 2020-04-18 08:03:46 84176 4642 77723
3 日本 2020-04-18 00:00:31 10535 210 1657
4 泰国 2020-04-18 00:00:31 2700 47 1689
0 突尼斯 2020-04-18 08:09:13 864 37 43 #iloc方法
>>> df.iloc[sampler]
name lastUpdateTime total_confirm total_dead total_heal
1 塞尔维亚 2020-04-18 00:00:31 5690 110 534
2 中国 2020-04-18 08:03:46 84176 4642 77723
3 日本 2020-04-18 00:00:31 10535 210 1657
4 泰国 2020-04-18 00:00:31 2700 47 1689
0 突尼斯 2020-04-18 08:09:13 864 37 43

四、随机采样

使用sample()进行随机采样

>>> df.sample(3)
name lastUpdateTime total_confirm total_dead total_heal
163 芬兰 2020-04-18 02:51:06 3489 82 1700
144 巴布亚新几内亚 2020-04-08 00:00:31 2 0 0
94 索马里 2020-04-16 07:33:23 80 5 2

使用sample()也可以实现重排

>>> df.sample(len(df))[:5]
name lastUpdateTime total_confirm total_dead total_heal
99 马里 2020-04-18 03:33:59 190 13 34
12 圣巴泰勒米 2020-03-27 11:18:38 3 0 0
117 吉尔吉斯斯坦 2020-04-18 00:00:31 489 5 114
88 斯威士兰 2020-04-18 07:55:57 19 1 8
178 比利时 2020-04-18 00:00:31 36138 5163 7961

11-Pandas之排序(df.sort_index()、df.sort_values()、随机重排、随机采样)的更多相关文章

  1. pandas 数据排序.sort_index()和.sort_values()

    原文链接:https://www.jianshu.com/p/f0ed06cd5003 import pandas as pd df = pd.DataFrame(……) 说明:以下“df”为Data ...

  2. python数据分析之pandas数据选取:df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]

    1 引言 Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用.本文主要介绍Pandas的几种数据选取的方法. Pandas中,数据主要保存为Dataframe和Se ...

  3. pandas中df.ix, df.loc, df.iloc 的使用场景以及区别

    pandas中df.ix, df.loc, df.iloc 的使用场景以及区别: https://stackoverflow.com/questions/31593201/pandas-iloc-vs ...

  4. Pandas数据排序

    Pandas数据排序 .sort_index() 在指定轴上根据索引进行排序,索引排序后内容会跟随排序 b = pd.DataFrame(np.arange(20).reshape(4,5),inde ...

  5. Pandas | 10 排序

    Pandas有两种排序方式,它们分别是 - 按标签 按实际值 import pandas as pd import numpy as np df=pd.DataFrame(np.random.rand ...

  6. pandas数据排序(series排序 & DataFrame排序)

    # pandas数据排序 # series的排序: # Series.sort_values(ascending = True,inplace = False) # 参数说明: # ascending ...

  7. 11.4.2 排序或合并文件(sort命令) - 51CTO.COM

    11.4.2 排序或合并文件(sort命令) - 51CTO.COM 11.4.2 排序或合并文件(sort命令) 2010-03-12 14:37 陆松年 电子工业出版社 我要评论(0) 字号:T ...

  8. 009 Linux 文件大小统计与排序( du于df和sort)

    @ 目录 01 du 与 df 作用与区别? du(disk usage) df(disk free) 02 du 常用命令示例 03 sort 常用参数 04 常用组合 du + sort + he ...

  9. Pandas的排序和排名(Series, DataFrame) + groupby

    根据条件对数据集排序(sorting)也是一种重要的内置运算.要对行或列索引进行排序(按字典顺序), 可使用sort_index 方法, 它将返回一个已排序的新对象: 而DataFrame, 则可以根 ...

随机推荐

  1. JVM类加载机制小结

    这篇文章我们关注一个问题:Java程序是怎么进入JVM并执行的?经常写Java程序的小伙伴应该都听说过类加载机制,在<深入理解Java虚拟机>里周老师已经讲的很清楚了,这篇随笔把之前的笔记 ...

  2. 第三方 CSS 并不安全

    最近一段时间,关于 通过 CSS 创建 “keylogger”(键盘记录器) 的讨论很多. 有些人呼吁浏览器厂商去“修复”它.有些人则深入研究,表示它仅能影响通过类 React 框架建立的网站,并指责 ...

  3. 浏览器的回流与重绘 (Reflow & Repaint)

    写在前面 在讨论回流与重绘之前,我们要知道: 浏览器使用流式布局模型 (Flow Based Layout). 浏览器会把HTML解析成DOM,把CSS解析成CSSOM,DOM和CSSOM合并就产生了 ...

  4. NuGet 应用指南

     一.前言 在产品开发过程中,一点有很多类库:这么多类库大家是如何管理的呢,TFS.SVN.Github……?在开发人员使用对应类库是否存在类库引用路径不一致.版本不一致问题.依赖类库版本不对应等一些 ...

  5. css3-pointer-events

    <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...

  6. 【Python】__name__ 是什么?

    前言 在我们浏览一下 python 文件或者自己写 python 代码的时候,时常会在代码的最后加上这样的一行代码 if __name__ == '__main__': func_name() 那么这 ...

  7. day21 模块与包+软件开发目录规范

    目录 一.导入模块的两种方式 二.模块搜索的路径的优先级 三.循环导入 四.区分py文件的两种用途 五.编写一个规范的模板 五.包 1 什么是包 2 为什么要有包 3 包的相关使用 3.1 在当前文件 ...

  8. unity第一人称如何设置

    关系图 红色菱形:脚本 白色矩形:组件 移动代码 //移动代码 public CharacterController controller;//角色控制器 public float speed = 1 ...

  9. 一张PDF了解JDK10 GC调优秘籍-附PDF下载

    目录 简介 Java参数类型 Large Pages JIT调优 总结 简介 今天我们讲讲JDK10中的JVM GC调优参数,JDK10中JVM的参数总共有1957个,其中正式的参数有658个. 其实 ...

  10. Go的100天之旅-02基本语法

    基本语法 Go关键字 下面是Go的25个关键字: break default func interface select case defer go map struct chan else goto ...