Python数据分析与展示[第三周]（pandas数据特征分析单元8）

sfzyk 2024-10-31 17:45:37 原文

数据理解

基本统计
分布/累计统计
数据特征
数据挖掘

数据排序

操作索引的排序
.sort_index() 在指定轴上排序，默认升序

参数

axis=0 column
ascending=True 升序

.sort_values()

参数同上
+by 对应的（axis）轴上某一个索引或者索引列表（会相应的改变行）

NAN空统一放到排序末尾

基本统计函数

方法	说明
.sum()	和，默认0轴下同
.count()	计算非NAN的数量
.mean() .median()	计算均值，中位数
.var().std()	方差标准差
.min().max()	最小值最大值
.describe()	万能汇总,输出Series类型

对于二维的Dataframe 也可以调用describe
计算每一列统计值的信息
b.describe().ix['max'] 发挥一横行的数据返回Series 获得所有列的max
b.describe()[2] 获得第2行的describe

累积运算

累计统计分析函数
.cumsum() 依次给出前1,2.。。。n个数的和
.cumprod() 积
.cummin() 最小值
.cummax() 最大值

如果是DataFrame 的话就是沿着列方向计算的

适用于Series DataFrame 滚动计算函数
滚动窗口函数

方法	说明
.rolling(w).sum()	依次计算相邻w各元素的和
.rolling(w).mead()	均值
.rolling(w).var() std min max	标准差方差最小（大）值

b.rolling(2).sum()
在当前的位置，与前一个元素相加（没有就补nan）

数据的相关分析

XY，如何判断相关性协方差方法
协方差
\(cov(X,Y)=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}\)

Pearson相关系数
\(r=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}} \)

适用于 Series DataFrame
.cov() 计算协方差矩阵
.corr() 计算相关系数矩阵,Pearson Spearman Kendall系数等

a.corr(b)计算相关性

Python数据分析与展示[第三周]（pandas数据特征分析单元8）的更多相关文章

Python数据分析与展示[第三周]（pandas简介与数据创建）
第三周的课程pandas 分析数据 http://pandas.pydata.org import pandas as pd 常与numpy matplotlib 一块定义 d=pd.Series(r ...
Python数据分析与展示[第三周]（pandas数据类型操作）
数据类型操作如何改变Series/ DataFrame 对象增加或重排:重新索引删除:drop 重新索引 .reindex() reindex() 能够改变或重排Series和DataFrame ...
python数据分析及展示（三）
一.Pandas库入门 1. Pandas库的介绍 http://pandas.pydata.org Pandas是Python第三方库,提供高性能易用数据类型和分析工具 import pandas ...
Python数据分析与展示第3周学习笔记（北京理工大学嵩天等）
入门学习马上结束辽. 1.Pandas库 import pandas as pd 两个数据类型:Series,DataFrame Series类型:数据+索引自定义索引 b = pd.Series( ...
Python数据分析与展示第2周学习笔记（北理工嵩天）
单元4:Matplotlib库入门 matplotlib.pyplot是绘制各类可视化图形的命令子库,相当于快捷方式 import matplotlib.pyplot as plt # -*- cod ...
Python数据分析与挖掘所需的Pandas常用知识
Python数据分析与挖掘所需的Pandas常用知识前言Pandas基于两种数据类型:series与dataframe.一个series是一个一维的数据类型,其中每一个元素都有一个标签.series ...
【学习笔记】PYTHON数据分析与展示(北理工嵩天)
0 数据分析之前奏课程主要内容:常用IDE:本课程主要使用:Anaconda Anaconda:一个集合,包括conda.某版本Python.一批第三方库等 -支持近800个第三方库 -适合科学计算 ...
数据分析与展示——Pandas数据特征分析
Pandas数据特征分析数据的排序将一组数据通过摘要(有损地提取数据特征的过程)的方式,可以获得基本统计(含排序).分布/累计统计.数据特征(相关性.周期性等).数据挖掘(形成知识). .sort ...
Python数据分析：手把手教你用Pandas生成可视化图表
大家都知道,Matplotlib 是众多 Python 可视化包的鼻祖,也是Python最常用的标准可视化库,其功能非常强大,同时也非常复杂,想要搞明白并非易事.但自从Python进入3.0时代以后, ...

随机推荐

从0开始学习ssh之日志工具与配置log4j
添加slf4j-api-1.6.1,slf4j-log4j12-1.6.1,log4j-1.2.15三个jar包到lib文件夹下就可以使用log4j日志文件.具体配置在log4j.properties ...
Activiti流程图部署及流程图部分操作
流程图部署有两种方式,一种是通过classpath,另一种是通过zip文件通过classpath方式如下 public void deploymentProcessDefinition_classp ...
Python读写文件学习笔记
一. 基础 1.创建文件夹 import os os.makedirs('I:\\pythonWorkPace') # 创建文件夹 2. 获取文件夹里面文件列表 import os # os.make ...
LUOGU P2675 《瞿葩的数字游戏》T3-三角圣地
题面解题思路手推可以得出,最后每个数字的贡献其实就是第n行杨辉三角数,然后直接卢卡斯直接算(今天才找到lucas定理时间复杂度是log n,log以模数为底).代码略麻烦,不想改了. 代码 #in ...
微信小程序上传图片(附后端代码)
几乎每个程序都需要用到图片. 在小程序中我们可以通过image组件显示图片. 当然小程序也是可以上传图片的,微信小程序文档也写的很清楚. 上传图片首先选择图片通过wx.chooseImage(OB ...
etcd 研究研究
先记录参考信息:etcd 场景https://blog.csdn.net/bbwangj/article/details/82584988 etcd 集群部署https://www.jianshu.c ...
day65-test
目录一.点击事件控制标签颜色二.实现点击次数,变换页面标签的颜色三.周期性实现颜色的旋转变色练习题一.点击事件控制标签颜色 1.有红.黄.蓝三个按钮,以及一个200x200矩形框box, ...
Python中函数的定义必须在调用的前面
# -*- coding:utf-8 -*- Python中函数的定义必须在调用的前面,但是在函数的内部调用一个函数,不用考虑顺序,只要被调用的函数被定义了即可 #标准的先函数定义,后函数调用def ...
rabbitmq实现单发送单接收
1.创建两个项目.都使其支持rabbitmq (1)在pom.xml文件中添加支持rabbitmq的jar包 <dependency> <groupId>org.springf ...
bert 预训练模型路径
google的bert预训练模型: BERT-Large, Uncased (Whole Word Masking): 24-layer, 1024-hidden, 16-heads, 340M pa ...