数据科学：Pandas 和 Series 的 describe() 方法

一、Pandas 和 Series 的 describe() 方法

　1）功能

功能：对数据中每一列数进行统计分析；（以“列”为单位进行统计分析）
默认只先对“number”的列进行统计分析；

一列数据全是“number”

count：一列的元素个数；
mean：一列数据的平均值；
std：一列数据的均方差；（方差的算术平方根，反映一个数据集的离散程度：越大，数据间的差异越大，数据集中数据的离散程度越高；越小，数据间的大小差异越小，数据集中的数据离散程度越低）
min：一列数据中的最小值；
max：一列数中的最大值；
25%：一列数据中，前 25% 的数据的平均值；
50%：一列数据中，前 50% 的数据的平均值；
75%：一列数据中，前 75% 的数据的平均值；

一列数据： “categorical”、“categorical” + “number”：

count：一列数据的元素个数；
unique：一列数据中元素的种类；
top：一列数据中出现频率最高的元素；
freq：一列数据中出现频率最高的元素的个数；

一列数据：object（如时间序列）

first：开始时间；
last：结束时间；

　2）实例及参数使用：Series 数据类型

number

categorical

object（统称为 “string” 类）

　3）实例及参数使用：DataFrame 数据类型

（一）默认只处理 number

（二）分析整个 DataFrame 数据：include = 'all'

（三）指定统计分析 DataFrame 中的某一列

（四）只分析所有的 “number” 列
也可以是：df.describe(include=['number'])

（五）只分析所有 “category” 列

（六）只统计所有 “object” 列

（七）分析除了 “number” 列的所有列

（八）分析除了 “object” 列的所有列

　4）与 loc、sort 的配合使用

df.describe(include=['number']).loc[['min', 'max', 'mean', 'std']].T.sort_values('max')
只对数据的“min”、“max”、“mean”、“std”进行分析，并将分析的结果转置后，以“max”的大小对每行进行排序；（默认从小到大）

数据科学：Pandas 和 Series 的 describe() 方法的更多相关文章

读书笔记一、pandas之series
转自 # 直接传入一组数据 from pandas import Series, DataFrame obj = Series([4, 2, 3]) obj 0 4 1 2 2 3 dtype: in ...
（数据科学学习手札131）pandas中的常用字符串处理方法总结
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在日常开展数据分析的过程中,我们经常需要对 ...
Python数据科学手册-Pandas:数值运算方法
Numpy 的基本能力之一是快速对每个元素进行运算 Pandas 继承了Numpy的功能,也实现了一些高效技巧. 对于1元运算,(函数,三角函数)保留索引和列标签对于2元运算,(加法,乘法),Pan ...
pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)
pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录常用数学统计方法总结读取或保存数据缺省值和异常值处理常用数学统计方法总结 count 计算非NA值的数量 de ...
（数据科学学习手札69）详解pandas中的map、apply、applymap、groupby、agg
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 pandas提供了很多方 ...
Python 数据科学系列の Numpy、Series 和 DataFrame介绍
本課主題 Numpy 的介绍和操作实战 Series 的介绍和操作实战 DataFrame 的介绍和操作实战 Numpy 的介绍和操作实战 numpy 是 Python 在数据计算领域里很常用的模块 ...
python pandas ---Series,DataFrame 创建方法,操作运算操作(赋值,sort,get,del,pop,insert,+,-,*,/)
pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的, 导入如下: from panda ...
（数据科学学习手札07）R在数据框操作上方法的总结（初级篇）
上篇我们了解了Python中pandas内封装的关于数据框的常用操作方法,而作为专为数据科学而生的一门语言,R在数据框的操作上则更为丰富精彩,本篇就R处理数据框的常用方法进行总结: 1.数据框的生成 ...
pandas中Series对象下的str所拥有的方法(df["xx"].str)
在使用pandas的时候,经常要对DataFrame的某一列进行操作,一般都会使用df["xx"].str下的方法,但是都有哪些方法呢?我们下面来罗列并演示一下.既然是df[&qu ...

随机推荐

用Java编程计算兔子生兔子的问题
题目:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第四个月后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少? 程序分析: 这是一个典型的Fibonacci数列问 ...
LeetCode第[46]题(Java)：Permutations(求所有全排列) 含扩展——第[47]题Permutations 2
题目:求所有全排列难度:Medium 题目内容: Given a collection of distinct integers, return all possible permutations. ...
npm install 时总是报phantomjs-prebuilt@2.1.14安装失败
在npm install时总是报如下错误, 尝试单独安装:npm install phantomjs-prebuilt@2.1.14 还是报错 Please report this full log ...
控制语句1:真假与if 语句
一.真假与运算符 1.1 真假的划分.查看任何数据都可以分为两类:True 与 False False : 0,None,空的数据结构例如:[] ,{},str1 = '' True :除了上面情 ...
Android中Application是什么？
Application是什么? Application和Activity,Service一样,是android框架的一个系统组件,当android程序启动时系统会创建一个 application对象, ...
剑指offer--34.数字在排序数组中出现的次数
时间限制:1秒空间限制:32768K 热度指数:209611 本题知识点: 数组题目描述统计一个数字在排序数组中出现的次数. class Solution { public: int GetNu ...
python学习网址
http://kuanghy.github.io/categories/#Python
目标跟踪之ECO：Efficient Convolution Operators for Tracking
一. 相关滤波算法总结作者首先分析了影响相关滤波算法效率和导致过拟合的几个原因: 1)Model Size (模型大小) 包括两个方面: - 模型层数,对应多分辨率 Sample,比如多层 ...
hihocoder-1483区间价值 (二分+尺取法)
题目链接: 区间价值给定n个数A1...An,小Ho想了解AL..AR中有多少对元素值相同.小Ho把这个数目定义为区间[L,R]的价值,用v[L,R]表示. 例如1 1 1 2 2这五个数所组成的区 ...
打印机无法使用且无法重新安装，提示spooler service is not running
使用场景:之前安装好的打印服务今天突然无法使用,列表里面找不到打印机,于是重新安装,得到以下错误: The local print spooler service is not running. Pl ...

数据科学：Pandas 和 Series 的 describe() 方法

一、Pandas 和 Series 的 describe() 方法

1）功能

2）实例及参数使用：Series 数据类型

number

categorical

object（统称为 “string” 类）

3）实例及参数使用：DataFrame 数据类型

（一）默认只处理 number

（二）分析整个 DataFrame 数据：include = 'all'

（三）指定统计分析 DataFrame 中的某一列

（四）只分析所有的 “number” 列

（五）只分析所有 “category” 列

（六）只统计所有 “object” 列

（七）分析除了 “number” 列的所有列

（八）分析除了 “object” 列的所有列

4）与 loc、sort 的配合使用

数据科学：Pandas 和 Series 的 describe() 方法的更多相关文章

随机推荐

热门专题