描述统计学(descriptive statistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。Pandas 库正是对描述统计学知识完美应用的体现,可以说如果没有“描述统计学”作为理论基奠,那么 Pandas 是否存在犹未可知。下列表格对 Pandas 常用的统计学函数做了简单的总结:

函数名称 描述说明
count() 统计某个非空值的数量。
sum() 求和
mean() 求均值
median() 求中位数
mode() 求众数
std() 求标准差
min() 求最小值
max() 求最大值
abs() 求绝对值
prod() 求所有数值的乘积。
cumsum() 计算累计和,axis=0,按照行累加;axis=1,按照列累加。
cumprod() 计算累计积,axis=0,按照行累积;axis=1,按照列累积。
corr() 计算数列或变量之间的相关系数,取值-1到1,值越大表示关联性越强。

从描述统计学角度出发,我们可以对 DataFrame 结构执行聚合计算等其他操作,比如 sum() 求和、mean()求均值等方法。

在 DataFrame 中,使用聚合类方法时需要指定轴(axis)参数。下面介绍两种传参方式:

  • 对行操作,默认使用 axis=0 或者使用 "index";
  • 对列操作,默认使用 axis=1 或者使用 "columns"。

图1:axis轴示意图
 

从图 1 可以看出,axis=0 表示按垂直方向进行计算,而 axis=1 则表示按水平方向。下面让我们创建一个 DataFrame,使用它对本节的内容进行演示。

创建一个 DataFrame 结构,如下所示:

  1. import pandas as pd
  2. import numpy as np
  3. #创建字典型series结构
  4. d = {'Name':pd.Series(['小明','小亮','小红','小华','老赵','小曹','小陈',
  5. '老李','老王','小冯','小何','老张']),
  6. 'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
  7. 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
  8. }
  9. df = pd.DataFrame(d)
  10. print(df)

输出结果:

   Name  Age  Rating
0 小明 25 4.23
1 小亮 26 3.24
2 小红 25 3.98
3 小华 23 2.56
4 老赵 30 3.20
5 小曹 29 4.60
6 小陈 23 3.80
7 老李 34 3.78
8 老王 40 2.98
9 小冯 30 4.80
10 小何 51 4.10
11 老张 46 3.65

sum()求和

在默认情况下,返回 axis=0 的所有值的和。示例如下:

  1. import pandas as pd
  2. import numpy as np
  3. #创建字典型series结构
  4. d = {'Name':pd.Series(['小明','小亮','小红','小华','老赵','小曹','小陈',
  5. '老李','老王','小冯','小何','老张']),
  6. 'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
  7. 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
  8. }
  9. df = pd.DataFrame(d)
  10. #默认axis=0或者使用sum("index")
  11. print(df.sum())

输出结果:

Name      小明小亮小红小华老赵小曹小陈老李老王小冯小何老张
Age 382
Rating 44.92
dtype: object

注意:sum() 和 cumsum() 函数可以同时处理数字和字符串数据。虽然字符聚合通常不被使用,但使用这两个函数并不会抛出异常;而对于 abs()、cumprod() 函数则会抛出异常,因为它们无法操作字符串数据。

下面再看一下 axis=1 的情况,如下所示:

  1. import pandas as pd
  2. import numpy as np
  3. d = {'Name':pd.Series(['小明','小亮','小红','小华','老赵','小曹','小陈',
  4. '老李','老王','小冯','小何','老张']),
  5. 'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
  6. 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
  7. }
  8. df = pd.DataFrame(d)
  9. #也可使用sum("columns")或sum(1)
  10. print(df.sum(axis=1))

输出结果:

0     29.23
1 29.24
2 28.98
3 25.56
4 33.20
5 33.60
6 26.80
7 37.78
8 42.98
9 34.80
10 55.10
11 49.65
dtype: float64

mean()求均值

示例如下:

  1. import pandas as pd
  2. import numpy as np
  3. d = {'Name':pd.Series(['小明','小亮','小红','小华','老赵','小曹','小陈',
  4. '老李','老王','小冯','小何','老张']),
  5. 'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
  6. 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
  7. }
  8. df = pd.DataFrame(d)
  9. print(df.mean())

输出结果:

Age       31.833333
Rating 3.743333
dtype: float64

std()求标准差

返回数值列的标准差,示例如下:

  1. import pandas as pd
  2. import numpy as np
  3. d = {'Name':pd.Series(['小明','小亮','小红','小华','老赵','小曹','小陈',
  4. '老李','老王','小冯','小何','老张']),
  5. 'Age':pd.Series([25,26,25,23,59,19,23,44,40,30,51,54]),
  6. 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
  7. }
  8. df = pd.DataFrame(d)
  9. print(df.std())

输出结果:

Age       13.976983
Rating     0.661628
dtype: float64

标准差是方差的算术平方根,它能反映一个数据集的离散程度。注意,平均数相同的两组数据,标准差未必相同。

数据汇总描述

describe() 函数显示与 DataFrame 数据列相关的统计信息摘要。示例如下:

  1. import pandas as pd
  2. import numpy as np
  3. d = {'Name':pd.Series(['小明','小亮','小红','小华','老赵','小曹','小陈',
  4. '老李','老王','小冯','小何','老张']),
  5. 'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
  6. 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
  7. }
  8. #创建DataFrame对象
  9. df = pd.DataFrame(d)
  10. #求出数据的所有描述信息
  11. print(df.describe())

输出结果:

             Age     Rating
count  12.000000  12.000000
mean   34.916667   3.743333
std    13.976983   0.661628
min    19.000000   2.560000
25%    24.500000   3.230000
50%    28.000000   3.790000
75%    45.750000   4.132500
max    59.000000   4.800000

describe() 函数输出了平均值、std 和 IQR 值(四分位距)等一系列统计信息。通过 describe() 提供的include能够筛选字符列或者数字列的摘要信息。

include 相关参数值说明如下:

  • object: 表示对字符列进行统计信息描述;
  • number:表示对数字列进行统计信息描述;
  • all:汇总所有列的统计信息。

下面看一组示例,如下所示:

  1. import pandas as pd
  2. import numpy as np
  3. d = {'Name':pd.Series(['小明','小亮','小红','小华','老赵','小曹','小陈',
  4. '老李','老王','小冯','小何','老张']),
  5. 'Age':pd.Series([25,26,25,23,59,19,23,44,40,30,51,54]),
  6. 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
  7. }
  8. df = pd.DataFrame(d)
  9. print(df.describe(include=["object"]))

输出结果:

       Name
count 12
unique 12
top 小红
freq 1

最后使用all参数,看一下输出结果,如下所示:

  1. import pandas as pd
  2. import numpy as np
  3. d = {'Name':pd.Series(['小明','小亮','小红','小华','老赵','小曹','小陈',
  4. '老李','老王','小冯','小何','老张']),
  5. 'Age':pd.Series([25,26,25,23,59,19,23,44,40,30,51,54]),
  6. 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
  7. }
  8. df = pd.DataFrame(d)
  9. print(df.describe(include="all"))

输出结果:

       Name        Age     Rating
count 12 12.000000 12.000000
unique 12 NaN NaN
top 小红 NaN NaN
freq 1 NaN NaN
mean NaN 34.916667 3.743333
std NaN 13.976983 0.661628
min NaN 19.000000 2.560000
25% NaN 24.500000 3.230000
50% NaN 28.000000 3.790000
75% NaN 45.750000 4.132500
max NaN 59.000000 4.800000

pandas之面属行统计的更多相关文章

  1. pandas数据框,统计某列或者某行数据元素的个数

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/sinat_38893241/articl ...

  2. pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)

    pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录 常用数学统计方法总结 读取或保存数据 缺省值和异常值处理 常用数学统计方法总结 count 计算非NA值的数量 de ...

  3. pandas之数值计算与统计

    数值计算与统计 对于DataFrame来说,求和.最大.最小.平均等统计方法,默认是按列进行统计,即axis = 0,如果添加参数axis = 1则会按照行进行统计. 如果存在空值,在统计时默认会忽略 ...

  4. 【转】Git 代码行统计命令集

    查看git上个人代码量 git log --author="username" --pretty=tformat: --numstat | awk '{ add += $1; su ...

  5. Shell 命令行统计 apache 网站日志访问IP以及IP归属地

    Shell 命令行统计 apache 网站日志访问IP以及IP归属地 我的一个站点用 apache 服务跑着,积攒了很多的日志.我想用 shell 看看有哪些人访问过我的站点,并且他来自哪里. 因为日 ...

  6. 04. Pandas 3| 数值计算与统计、合并连接去重分组透视表文件读取

    1.数值计算和统计基础 常用数学.统计方法 数值计算和统计基础 基本参数:axis.skipna df.mean(axis=1,skipna=False)  -->> axis=1是按行来 ...

  7. Pandas高级教程之:统计方法

    目录 简介 变动百分百 Covariance协方差 Correlation相关系数 rank等级 简介 数据分析中经常会用到很多统计类的方法,本文将会介绍Pandas中使用到的统计方法. 变动百分百 ...

  8. linux shell脚本查找重复行/查找非重复行/去除重复行/重复行统计

    转自:http://blog.sina.com.cn/s/blog_6797a6700101pdm7.html 去除重复行 sort file |uniq 查找非重复行 sort file |uniq ...

  9. uniq 重复行统计

    uniq 命令   文字 uniq 是LINUX命令 用途 报告或删除文件中重复的行. 语法 uniq [ -c | -d | -u ] [ -f Fields ] [ -s Characters ] ...

  10. 【转】Git代码行统计命令集

    http://blog.csdn.NET/dwarven/article/details/46550117 http://blog.csdn.net/hshl1214/article/details/ ...

随机推荐

  1. lvs模式配置

    lvs模式配置 lvs简介 LVS(Linux Virtual Server)即Linux虚拟服务器,是由章文嵩博士主导的开源负载均衡项目,目前LVS已经被集成到Linux内核模块中.该项目在Linu ...

  2. sar与ksar使用显示监控数据

    一.Ksar: 1)下载ksar地址:https://github.com/vlsi/ksar/releases/tag/v5.2.4-snapshot.10-gf068072 2)启动:java - ...

  3. 2、Java程序设计环境

    1.JDK Java开发工具箱 在Java 9之前,有32位和64位两个版本的Java开发工具包.现在Oracle公司不在开发32位版本,要使用Oracle JDK,你需要有一个64位的操作系统. 安 ...

  4. vue上传证书

    //队伍证书上传 getFile() { var that = this; // //1 创建formData let formData = new FormData(); // //2 添加数据,k ...

  5. 测试Lock锁

    package com.company;import java.util.concurrent.locks.ReentrantLock;//测试Lock锁public class TestLock i ...

  6. fgets()函数的详解以及使用时需要注意的一些细节-C语言基础

    这篇文章要探讨的是"fgets()函数的详解以及使用时需要注意的一些细节".涉及fgets()函数的应用和需要注意的问题.属于C语言基础篇(持续更新). fgets()(函数原型: ...

  7. idea初学

    IDEA 什么是IDE IDEA官网 idea中文设置:打开右上角设置选择设置,选择Plugins ,搜索Chinese,安装插件后重启即可 IDEA基础语法 注释 编写代码量多时,项目结构复杂,需要 ...

  8. Arrays.asList()需要注意的点

    千万不要这样使用Arrays.asList ! 测试的几种情况及原因: public static void main(String[] args) { //第一种基本类型数组 int[] arr = ...

  9. Ubantu12.04安装及离线安装网卡驱动

    一.用软通牒UltarISO写入硬盘映像,制作启动U盘 装机,ubantu安装很简单. 二.安装网卡驱动 1. 下载e1000e:https://downloadcenter.intel.com/De ...

  10. SEGGER_RTT_printf()函数添加打印浮点数功能

    SEGGER 的实时传输 (RTT) 是一种用于嵌入式应用程序中交互式用户 I/O 的技术.它以非常高的性能结合了 SWO 和半主机的优势.但是在笔者使用时(RTT v758版本),其暂时不支持浮点数 ...