Python之Pandas库常用函数大全(含注释)
前言:本博文摘抄自中国慕课大学上的课程《Python数据分析与展示》,推荐刚入门的同学去学习,这是非常好的入门视频。
继续一个新的库,Pandas库。Pandas库围绕Series类型和DataFrame类型这两种数据结构,提供了一种高效便捷的数据处理方式。
- Series 类型创建
Series类型是一组数据及与之相关的数据索引组成
自动索引:
a = pd.Series([9, 8, 7, 6]) 构造一个Series对象a
自定义索引:
a = pd.Series([9, 8, 7, 6], index = [‘a’, ‘b’, ‘c’, ‘d’])
- 从标量值创建:
s = pd.Series(25, index = [‘a’, ‘b’, ‘c’])
- 从字典类型创建:
键值对中的键是索引
d = pd.Series({‘a’:9, ‘b’:8, ‘c’:7})
- 从ndarray类型创建:
- Series类型基本操作
- ,index 获得索引 .values 获得数据
Series类型会自动生成默认索引,当自动索引和自定义索引并存,全当自定义索引。
只索引,得到值。做切片,得到还是Series类型数据。
in : 判断“键”是否在字段中 返回 True / False
b.get(‘f’, 100) 获取b的索引为‘f’的数据,若不存在,返回100
Series类型对齐操作
索引一致的,对应元素相加,无一致的索引,数据为NaN
Series类型的name属性
- DataFrame类型创建
DataFrame是表格型类,可理解为二维代表签数据类型, 其由共用相同索引的一组列组成: index(axis=0),colum(axis=1)
从ndarray创建DataFrame类型
d= pd.DataFrame(np.arange(10).reshape(2,5))
从字典创建DataFrame类型
字典中的键,默认为列索引;
只选取字典中有的索引所对应的值,没有的自动补齐
从列表创建DataFrame类型
d[‘one’] 获得新的DataFrame类型
d.ix[‘b’] 获得d的 b这一列
d[‘one’][‘b’] 获得 数据 2 注意:必须先[‘one’]后[‘b’],先列后行
- Pandas数据类型操作
重新索引
reindex(index=None, columns=None,…)方法 可改变或重排Series和DataFrame索引
reindex(index=None, columns=None,…)
index, colums 新的行列自定义索引
fill_value 在重新索引,用于填充缺失位置的值
method 填充方法,ffill当前值向前填充, bfill向后填充
limit 最大填充量
copy 默认为True,生成新的对象,False时,新旧相等,但不复制
d.reindex(index = [‘d’, ‘c’, ‘b’, ‘a’ ])
d.reindex(colums = [‘two’, ‘one’])
newc = d.colums.insert( 4, ‘新增’) newc为一个colums
- 索引类型常用方法
.append(idx) 连接另外一个Index对象,产生新的Index对象
.diff(idx) 计算差集,产生新的Index对象
.intersection(idx) 计算交集,产生新对象
.union(idx) 计算并集
.delete(loc) 删除loc位置处的元素
.insert(loc, e) 在loc位置增加一各元素e
删除指定索引对象
.drop()可删除Series或DataFrame制定的行或列
d.drop([‘c1’, ‘c2’]) # 此处生成新对象,原对象d不改变
d.drop(‘one’,axis=1) 要删除列,需要加上axis = 1.
- Pandas库数据类型运算
算术运算法则
根据行列索引进行运算,补齐(NaN)后运算,运算默认产生浮点数
二维和一维、一维和零维时,采用广播运算,即低的于高的每一维运算
算术运算方法形式的运算
.add(d, **argws) .sub(d, **argws) .mul(d, **argws) .div(d, **argws)
**argws为可选参数:
fill_value,补齐时填充的值;
广播运算时,一维的列默认作用到二维的行(axis=1),要更改到列,则需要增加参数
a.add(b, axis=0 )
比较运算
同维度需要有相同的shape
不同维度时,默认为在1轴运算
- 数据排序
.sort_index()方法在指定轴上根据索引进行排序,默认升序。
.sort_index(axis=0,ascending = True) ascending是指递增排序
.sort_values()方法在指定轴上根据数值进行排序,默认升序。
Serier.sort_values(axis= 0, ascending=True)
DataFrame.sort_values(by, axis = 0, ascending = True)
by: 只对axis轴上的某个 索引 或 索引列表 进行排序
NaN空值,保持在排序末尾
- Pandas统计分析函数
.sum() 计算数据总和,按0轴计算
.count() 非NaN值的数量
.mean() .median() 计算算术平均值、算术中位数
.var() .var() 计算方差、标准差
.min() .max 计算最小、大值
.argmin() .argmax() 计算最大、小值所在位置的索引(针对自动索引的)(适用于Series类型:)
.idxmin() .idxmax() 计算最大、小值所在位置的索引(针对自定义索引的)(适用于Series类型:)
.describe() 针对0轴(各列)的统计汇总
- 数据的相关性
.cov() 计算协方差矩阵
.corr() 计算相关系数矩阵
Python之Pandas库常用函数大全(含注释)的更多相关文章
- Python之Numpy库常用函数大全(含注释)
前言:最近学习Python,才发现原来python里的各种库才是大头! 于是乎找了学习资料对Numpy库常用的函数进行总结,并带了注释.在这里分享给大家,对于库的学习,还是用到时候再查,没必要死记硬背 ...
- Python之Numpy库常用函数大全(含注释)(转)
为收藏学习,特转载:https://blog.csdn.net/u011995719/article/details/71080987 前言:最近学习Python,才发现原来python里的各种库才是 ...
- Python之Matplotlib库常用函数大全(含注释)
plt.savefig(‘test’, dpi = 600) :将绘制的图画保存成png格式,命名为 test plt.ylabel(‘Grade’) : y轴的名称 plt.axis([-1, 1 ...
- Matplotlib库常用函数大全
Python之Matplotlib库常用函数大全(含注释) plt.savefig(‘test’, dpi = 600) :将绘制的图画保存成png格式,命名为 test plt.ylabel(‘Gr ...
- Pandas库常用函数和操作
1. DataFrame 处理缺失值 dropna() df2.dropna(axis=0, how='any', subset=[u'ToC'], inplace=True) 把在ToC列有缺失值 ...
- python重要的第三方库pandas模块常用函数解析之DataFrame
pandas模块常用函数解析之DataFrame 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器 ...
- Python math库常用函数
math库常用函数及举例: 注意:使用math库前,用import导入该库>>> import math 取大于等于x的最小的整数值,如果x是一个整数,则返回x>>> ...
- 【javascript】javascript常用函数大全
javascript函数一共可分为五类: •常规函数 •数组函数 •日期函数 •数学函数 •字符串函数 1.常规函数 javascript常规函数包括以下9个函数: ( ...
- pandas模块常用函数解析之Series(详解)
pandas模块常用函数解析之Series 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器输入网 ...
随机推荐
- 【bzoj3098】Hash Killer II 生日悖论
这天天气不错,hzhwcmhf神犇给VFleaKing出了一道题:给你一个长度为N的字符串S,求有多少个不同的长度为L的子串.子串的定义是S[l].S[l + 1].… S[r]这样连续的一段.两个字 ...
- gzip: stdin: unexpected end of file tar: 归档文件中异常的 EOF
gzip: stdin: unexpected end of file tar: 归档文件中异常的 EOF 问题描述: 使用tar命令解压文件时,报错: gzip: stdin: unexpected ...
- Office文件上传自动生成缩略图-C#开发
原文: http://www.knowsky.com/898407.html 上传office文件的时候需要将首页自动截图,用于显示文件列表的时候将文件第一页缩略图展示给用户.实现的方式有多种,这里给 ...
- toUpperCase与toLowerCase
public String toLowerCase()此方法返回的字符串转换为小写. public String toUpperCase()此方法返回的字符串转换为大写. 注:支队英文字符有效,其他字 ...
- TextReader 和StreamReader
TextReader 和StreamReader 目录: 为什么要介绍 TextReader? TextReader的常用属性和方法 TextReader 示例 从StreamReader想到多态 简 ...
- Tomcat是怎么工作的(2) -- 动手实现山寨版的简单Web Server
本文先讲解一下Java web server都是怎么工作的.web server也叫HTTP server——顾名思义它是用HTTP协议和客户端交互的.客户端一般就是各种各样的浏览器了.相信所有朋友都 ...
- BZOJ 1044 木棍分割(二分答案 + DP优化)
题目链接 木棍分割 1044: [HAOI2008]木棍分割 Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 3830 Solved: 1453[S ...
- 通配符、正则表达式、python去重
1.linux通配符 *:代表所有字符(0到多个); ?:代表一个字符; ;:连续不同命令之间的分隔符; #:配置文件注释; |:管道; ~:当前用户的家目录; -:上一次所在的路径; $:变量前面需 ...
- 济南day6
上午 60+0+5 数组开小了 暴力打挂了 下午 0+0+30 T1爆零 //T1,T2文件打错了.... 暴力打挂
- golang 版本升降之后报错——imports runtime: C source files not allowed when not using cgo or SWIG
问题: golang 升级或者降级版本之后,执行编译报错如下: package github.com/onsi/ginkgo/ginkgo imports runtime: C source file ...