pandas数据结构之Dataframe
Dataframe
DataFrame是一个【表格型】的数据结构,可以看做是【由Series组成的字典】(多个series共用同一个索引)。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。
- 行索引:index
- 列索引:columns
- 值:values(numpy的二维数组)
dataframe的创建
最常用的方法是传递一个字典或者二维数组的方法创建
DataFrame(data=data,index=['张三','李四','王五'],columns=list('语数外'))

另外通过导入csv文件得到的也是DataFrame
import pandas as pd
df1 = pd.read_csv('../backup/data/president_heights.csv') # 路径名
DataFrame属性:values、columns、index、shape
values:表格中的数据(二维数组)
columns:列索引
index:行索引
shape:形状
Dataframe的索引
(1) 对列进行索引
- 通过类似字典的方式
- 通过属性的方式
按照列名进行索引,获取到一个Series
d = np.random.randint(0,100,size=(3,4))
d
i = ['临风','班长','孙武空'] # 行索引
c = ['chinese','math','english','python'] # 列索引
df = DataFrame(d,i,c)

df['math']
临风 87
班长 55
孙武空 28
Name: math, dtype: int32 type(df['math'])
pandas.core.series.Series df.math
临风 87
班长 55
孙武空 28
Name: math, dtype: int32
(2) 对行进行索引
- 使用.loc[]加index来进行行索引,显式索引
- 使用.iloc[]加整数来进行行索引,隐式索引
同样返回一个Series,index为原来的columns。
# df.loc['临风'] # 显式索引
df.iloc[0] # 隐式所引进
chinese 27
math 87
english 70
python 93
Name: 临风, dtype: int32
总结
对 列 进行索引 df['列名'] df.列名 得到的是Series
对 行 进行索引 df.loc['行名'] df.iloc[行序号] 得到的是Series
(3) 对元素索引的方法
- 使用列索引
- 使用行索引
- 使用values属性(二维numpy数组)
# 对具体元素进行定位
df.python.loc['班长'] # 先按列找 找到的是Series 在对Series进行索引
df.loc['班长'].iloc[-1] # df的loc或者iloc提供了更加优雅的方式
df.loc['班长','python']
df.iloc[1,-1] df.values # 如果DataFrame的索引记不清 可以直接通过values然后去定位值
array([[27, 87, 70, 93],
[21, 55, 31, 36],
[38, 28, 24, 37]])
df.values[1,-1]
【注意】 直接使用中括号时:
- 索引表示的是列索引
- 切片表示的是行切片
df['临风':'孙武空']
df['临风':'班长'] # 直接使用中括号 不能对列进行切片 而是对行进行切片(因为对行进行切片的需求比较常见)

# 如果非要对列 进行切片 可以使用loc或者iloc
df.loc[:,'math':'python']

Dataframe的运算
(0) df和数值
df +5
相当于给表中的所有的数据都+5
# 对某一行样本进行修改
df.loc['临风']+=100
(1) DataFrame之间的运算
同Series一样:
- 在运算中自动对齐不同索引的数据
- 如果索引不对应,则补NaN
# 创建DataFrame df1 不同人员的各科目成绩,月考一
d = np.random.randint(0,100,size=(4,3))
d
i = ['jack','rose','tom','jerry'] # 行索引
c = ['math','english','python'] # 列索引
df1 = DataFrame(d,i,c)
df1

# 创建DataFrame df2 不同人员的各科目成绩,月考二 有新学生转入
d = np.random.randint(0,100,size=(5,3))
d
i = ['jack','rose','tom','jerry','bob'] # 行索引
c = ['math','english','python'] # 列索引
df2 = DataFrame(d,i,c)
df2

display(df1,df2) 可以让数据同时显示
df1+df2

那么有没有办法不显示NaN呢,肯定是有的
其实对象使用 + 相加其实是执行了类中的add方法
所以
df1.add(df2,fill_value=0) # 设置上这个参数就可以给没有的数据设定一个默认值=
结果展示:

下面是Python 操作符与pandas操作函数的对应表:

(2) Series与DataFrame之间的运算
【重要】
使用Python操作符:以行为单位操作,对所有行都有效。(类似于numpy中二维数组与一维数组的运算,但可能出现NaN)
使用pandas操作函数:
axis=0:以列为单位操作(参数必须是列),对所有列都有效。
axis=1:以行为单位操作(参数必须是行),对所有行都有效。
例子:
df = DataFrame(data=np.random.randint(0,10,size=(5,5)),index=list('abcde'),columns=list(''))
df

s1 = Series(data=np.random.randint(0,10,size=5),index=list(''))
s1
0 1
1 3
2 1
3 1
4 9
dtype: int32
df+s1 # 表格和序列 相加 默认 每一行都要和序列相加 对应项相加

s2 = Series(data=np.random.randint(0,10,size=5),index=list('abcde'))
s2
df+s2 # 输出的结果全部都是NaN
# axis='columns' 默认是columns 每一行和Series相加 让列名和Series中的索引去对应
df.add(s2,axis='index')
pandas数据结构之Dataframe的更多相关文章
- pandas 学习(2): pandas 数据结构之DataFrame
DataFrame 类型类似于数据库表结构的数据结构,其含有行索引和列索引,可以将DataFrame 想成是由相同索引的Series组成的Dict类型.在其底层是通过二维以及一维的数据块实现. 1. ...
- pandas数据结构之DataFrame操作
这一次我的学习笔记就不直接用官方文档的形式来写了了,而是写成类似于“知识图谱”的形式,以供日后参考. 下面是所谓“知识图谱”,有什么用呢? 1.知道有什么操作(英文可以不看) 2.展示本篇笔记的结构 ...
- pandas数据结构之DataFrame笔记
DataFrame输出的为表的形式,由于要把输出的表格贴上来比较麻烦,在此就不在贴出相关输出结果,代码在jupyter notebook可以顺利运行代码中有相关解释用来加深理解方便记忆 import ...
- 03. Pandas数据结构
03. Pandas数据结构 Series DataFrame 从DataFrame中查询出Series 1. Series Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一 ...
- pandas数据结构:Series/DataFrame;python函数:range/arange
1. Series Series 是一个类数组的数据结构,同时带有标签(lable)或者说索引(index). 1.1 下边生成一个最简单的Series对象,因为没有给Series指定索引,所以此时会 ...
- Pandas 数据结构Dataframe:基本概念及创建
"二维数组"Dataframe:是一个表格型的数据结构,包含一组有序的列,其列的值类型可以是数值.字符串.布尔值等. Dataframe中的数据以一个或多个二维块存放,不是列表.字 ...
- pandas 学习(1): pandas 数据结构之Series
1. Series Series 是一个类数组的数据结构,同时带有标签(lable)或者说索引(index). 1.1 下边生成一个最简单的Series对象,因为没有给Series指定索引,所以此时会 ...
- pandas教程1:pandas数据结构入门
pandas是一个用于进行python科学计算的常用库,包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单.pandas建造在NumPy之上,它使得以NumPy为中心的应用很容 ...
- pandas数据结构练习题(部分)
更多函数查阅http://pandas.pydata.org/pandas-docs/stable/10min.htmlimport pandas as pd#两种数据结构from pandas im ...
随机推荐
- OCP-第三节课.md
一. dataguard stream 字节流技术: 二. 突然断电:触发实例恢复过程: 三. 宕机:赔钱 四. Redis.MQ(消息中间件.队列管理器.缓存)(内存数据库) 五. IBM MQ ...
- [js]面向对象2
delete删除属性 删除对象的属性 删除未用var定义的变量. delete返回布尔 删除不存在的属性,返回true 无法删除原形中的属性 如 delete obj.toString() resu= ...
- 【LeetCode每天一题】Spiral Matrix(螺旋打印数组)
Given a matrix of m x n elements (m rows, n columns), return all elements of the matrix in spiral or ...
- POJ 3087 模拟
给定两个长度为len的字符串s1和s2, 接着给出一个长度为len*2的字符串s12. 将字符串s1和s2通过一定的变换变成s12,找到变换次数 变换规则如下: 假设s1=12345,s2=67890 ...
- Spring Boot IoC 容器初始化过程
1. 加载 ApplicationContextInializer & ApplicationListener 2. 初始化环境 ConfigurableEnvironment & 加 ...
- .NetCore实现简单的分布式缓存
分布式缓存能够处理大量的动态数据,因此比较适合应用在Web 2.0时代中的社交网站等需要由用户生成内容的场景.从本地缓存扩展到分布式缓存后,关注重点从CPU.内存.缓存之间的数据传输速度差异也扩展到了 ...
- Python Redis list
List操作,redis中的List在在内存中按照一个name对应一个List来存储. 注:列表存入 从右到左 如图: lpush(name,values) # 在name对应的list中添加元素,每 ...
- 剑指offer(20)包含min函数的栈
题目描述 定义栈的数据结构,请在该类型中实现一个能够得到栈最小元素的min函数. 题目分析 首先一开始我们分析得到最小值肯定要比较嘛,和栈里面的数据一一比较,但是栈这种数据结构,你又只能和栈顶弹出来的 ...
- 【java】J2EE、J2SE和J2ME的区别
本文向大家简单介绍一下J2EE.J2SE.J2ME概念及区别,J2EE,J2SE,J2ME是java针对不同的的使用来提供不同的服务,也就是提供不同类型的类库. Java2平台包括:标准版(J2SE) ...
- P4248 [AHOI2013]差异
思路 SAM 后缀自动机parent树的LCA就是两个子串的最长公共后缀 现在要求LCP 所以把字符串反转一下 然后每个点的贡献就是endpos的大小,dfs一遍求出贡献就可以了 代码 #includ ...