Python数据分析与展示[第三周](pandas数据特征分析单元8)
数据理解
- 基本统计
- 分布/累计统计
- 数据特征
- 数据挖掘
数据排序
操作索引的排序
.sort_index() 在指定轴上排序,默认升序
参数
- axis=0 column
- ascending=True 升序
.sort_values()
参数同上
+by 对应的(axis)轴上某一个索引或者索引列表 (会相应的改变行)
NAN空 统一放到排序末尾
基本统计函数
| 方法 | 说明 |
|---|---|
| .sum() | 和,默认0轴下同 |
| .count() | 计算非NAN的数量 |
| .mean() .median() | 计算均值,中位数 |
| .var().std() | 方差标准差 |
| .min().max() | 最小值最大值 |
| .describe() | 万能汇总,输出Series类型 |
对于二维的Dataframe 也可以调用describe
计算每一列统计值的信息
b.describe().ix['max'] 发挥一横行的数据 返回Series 获得所有列的max
b.describe()[2] 获得第2行的describe
累积运算
累计统计分析函数
.cumsum() 依次给出前1,2.。。。n个数的和
.cumprod() 积
.cummin() 最小值
.cummax() 最大值
如果是DataFrame 的话就是沿着列方向计算的
适用于Series DataFrame 滚动计算函数
滚动窗口函数
| 方法 | 说明 |
|---|---|
| .rolling(w).sum() | 依次计算相邻w各元素的和 |
| .rolling(w).mead() | 均值 |
| .rolling(w).var() std min max | 标准差方差最小(大)值 |
b.rolling(2).sum()
在当前的位置,与前一个元素相加(没有就补nan)
数据的相关分析
XY,如何判断相关性 协方差方法
协方差
\(cov(X,Y)=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}\)
Pearson相关系数
\(r=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}} \)
适用于 Series DataFrame
.cov() 计算协方差矩阵
.corr() 计算相关系数矩阵,Pearson Spearman Kendall系数等
a.corr(b)计算相关性
Python数据分析与展示[第三周](pandas数据特征分析单元8)的更多相关文章
- Python数据分析与展示[第三周](pandas简介与数据创建)
第三周的课程pandas 分析数据 http://pandas.pydata.org import pandas as pd 常与numpy matplotlib 一块定义 d=pd.Series(r ...
- Python数据分析与展示[第三周](pandas数据类型操作)
数据类型操作 如何改变Series/ DataFrame 对象 增加或重排:重新索引 删除:drop 重新索引 .reindex() reindex() 能够改变或重排Series和DataFrame ...
- python数据分析及展示(三)
一.Pandas库入门 1. Pandas库的介绍 http://pandas.pydata.org Pandas是Python第三方库,提供高性能易用数据类型和分析工具 import pandas ...
- Python数据分析与展示第3周学习笔记(北京理工大学 嵩天等)
入门学习马上结束辽. 1.Pandas库 import pandas as pd 两个数据类型:Series,DataFrame Series类型:数据+索引 自定义索引 b = pd.Series( ...
- Python数据分析与展示第2周学习笔记(北理工 嵩天)
单元4:Matplotlib库入门 matplotlib.pyplot是绘制各类可视化图形的命令子库,相当于快捷方式 import matplotlib.pyplot as plt # -*- cod ...
- Python数据分析与挖掘所需的Pandas常用知识
Python数据分析与挖掘所需的Pandas常用知识 前言Pandas基于两种数据类型:series与dataframe.一个series是一个一维的数据类型,其中每一个元素都有一个标签.series ...
- 【学习笔记】PYTHON数据分析与展示(北理工 嵩天)
0 数据分析之前奏 课程主要内容:常用IDE:本课程主要使用:Anaconda Anaconda:一个集合,包括conda.某版本Python.一批第三方库等 -支持近800个第三方库 -适合科学计算 ...
- 数据分析与展示——Pandas数据特征分析
Pandas数据特征分析 数据的排序 将一组数据通过摘要(有损地提取数据特征的过程)的方式,可以获得基本统计(含排序).分布/累计统计.数据特征(相关性.周期性等).数据挖掘(形成知识). .sort ...
- Python数据分析:手把手教你用Pandas生成可视化图表
大家都知道,Matplotlib 是众多 Python 可视化包的鼻祖,也是Python最常用的标准可视化库,其功能非常强大,同时也非常复杂,想要搞明白并非易事.但自从Python进入3.0时代以后, ...
随机推荐
- PKUOJ 区间内的真素数
http://bailian.openjudge.cn/tm2018/A/ #include <iostream> #include <math.h> #include < ...
- Leetcode946. Validate Stack Sequences验证栈序列
给定 pushed 和 popped 两个序列,只有当它们可能是在最初空栈上进行的推入 push 和弹出 pop 操作序列的结果时,返回 true:否则,返回 false . 示例 1: 输入:pus ...
- SyntaxError: Non-ASCII character ‘xe5’ in file 04.py on line 4, but no encoding declared
出现问题的原因:程序中的编码错误,python默认是acii模式,没有支持utf8,代码中需要输出汉字,所以报错. 解决办法:源代码文件第一行添加:#coding:utf-8 -- coding: U ...
- HZOI2019 B. 那一天她离我而去 最小环
题目大意:https://www.cnblogs.com/Juve/articles/11219089.html 那一天,我们......行啦,不要帮出题人脑补画面了,我们来正经的题解 我们发现我们可 ...
- c++继承知识点小结
继承的概念 继承是c++中一个重要的概念.继承是指,我们可以使用一个类来定义另一个类,在创建这个类时,我们就不需要重新编写数据成员与成员函数,这可以大大方便我们编写代码和维护代码的效率. 当我们使用一 ...
- visual studio 2013 打开失败 ,报错:未能完成操作,不支持此接口
因为从新安装了.net 4.0版本,再打开visual studio 2013时,提示报错:未能完成此操作,不支持接口 解决办法:从microsoft官网下载了最新4.5版本进行安装后.即可成功打开.
- mysql视图详解
什么是视图 视图是从一个或多个表中导出来的表,是一种虚拟存在的表. 视图就像一个窗口,通过这个窗口可以看到系统专门提供的数据. 这样,用户可以不用看到整个数据库中的数据,而之关心对自己有用的数据. ...
- Jmeter环境搭建及目录介绍
Jmeter环境搭建及目录介绍 运行环境:jmeter是基于java语言的,所有需要准备Java的JDK环境,并添加到环境变量中. 一.环境搭建及配置 1.JMeter的下载: 官网:http://j ...
- 在VS中编译Opencascade6.6.0
话说,OpenCASCADE团队真的很给力,版本更新速度也是嗖嗖地.依稀记得上次编译OCC,那时候的第三方库.OCC本身几何引擎库,全都得自己编译. 于是,编译过程之艰苦也就可想而知了.最近重换系统, ...
- storm 动态设置并发度