pandas之合并操作
Pandas 提供的 merge() 函数能够进行高效的合并操作,这与 SQL 关系型数据库的 MERGE 用法非常相似。从字面意思上不难理解,merge 翻译为“合并”,指的是将两个 DataFrame 数据表按照指定的规则进行连接,最后拼接成一个新的 DataFrame 数据表。
merge() 函数的法格式如下:
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=('_x', '_y'), copy=True)
参数说明,如下表所示:
| 参数名称 | 说明 |
|---|---|
| left/right | 两个不同的 DataFrame 对象。 |
| on | 指定用于连接的键(即列标签的名字),该键必须同时存在于左右两个 DataFrame 中,如果没有指定,并且其他参数也未指定, 那么将会以两个 DataFrame 的列名交集做为连接键。 |
| left_on | 指定左侧 DataFrame 中作连接键的列名。该参数在左、右列标签名不相同,但表达的含义相同时非常有用。 |
| right_on | 指定左侧 DataFrame 中作连接键的列名。 |
| left_index | 布尔参数,默认为 False。如果为 True 则使用左侧 DataFrame 的行索引作为连接键,若 DataFrame 具有多层 索引(MultiIndex),则层的数量必须与连接键的数量相等。 |
| right_index | 布尔参数,默认为 False。如果为 True 则使用左侧 DataFrame 的行索引作为连接键。 |
| how | 要执行的合并类型,从 {'left', 'right', 'outer', 'inner'} 中取值,默认为“inner”内连接。 |
| sort | 布尔值参数,默认为True,它会将合并后的数据进行排序;若设置为 False,则按照 how 给定的参数值进行排序。 |
| suffixes | 字符串组成的元组。当左右 DataFrame 存在相同列名时,通过该参数可以在相同的列名后附加后缀名,默认为('_x','_y')。 |
| copy | 默认为 True,表示对数据进行复制。 |
注意:Pandas 库的 merge() 支持各种内外连接,与其相似的还有 join() 函数(默认为左连接)。
下面创建两个不同的 DataFrame,然后对它们进行合并操作:
- import pandas as pd
- left = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Smith', 'Maiki', 'Hunter', 'Hilen'],
- 'subject_id':['sub1','sub2','sub4','sub6']})
- right = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['William', 'Albert', 'Tony', 'Allen'],
- 'subject_id':['sub2','sub4','sub3','sub6']})
- print (left)
- print (right)
输出如下:
id Name subject_id
0 1 Smith sub1
1 2 Maiki sub2
2 3 Hunter sub4
3 4 Hilen sub6 id Name subject_id
0 1 William sub2
1 2 Albert sub4
2 3 Tony sub3
3 4 Allen sub6
1) 在单个键上进行合并操作
通过 on 参数指定一个连接键,然后对上述 DataFrame 进行合并操作:
- import pandas as pd
- left = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Smith', 'Maiki', 'Hunter', 'Hilen'],
- 'subject_id':['sub1','sub2','sub4','sub6']})
- right = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['William', 'Albert', 'Tony', 'Allen'],
- 'subject_id':['sub2','sub4','sub3','sub6']})
- #通过on参数指定合并的键
- print(pd.merge(left,right,on='id'))
输出结果:
id Name_x subject_id_x Name_y subject_id_y
0 1 Smith sub1 William sub2
1 2 Maiki sub2 Albert sub4
2 3 Hunter sub4 Tony sub3
3 4 Hilen sub6 Allen sub6
2) 在多个键上进行合并操作
下面示例,指定多个键来合并上述两个 DataFrame 对象:
- import pandas as pd
- left = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Smith', 'Maiki', 'Hunter', 'Hilen'],
- 'subject_id':['sub1','sub2','sub4','sub6']})
- right = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Bill', 'Lucy', 'Jack', 'Mike'],
- 'subject_id':['sub2','sub4','sub3','sub6']})
- print(pd.merge(left,right,on=['id','subject_id']))
输出结果:
id Name_x subject_id Name_y
0 4 Hilen sub6 Mike
使用how参数合并
通过how参数可以确定 DataFrame 中要包含哪些键,如果在左表、右表都不存的键,那么合并后该键对应的值为 NaN。为了便于大家学习,我们将 how 参数和与其等价的 SQL 语句做了总结:
| Merge方法 | 等效 SQL | 描述 |
|---|---|---|
| left | LEFT OUTER JOIN | 使用左侧对象的key |
| right | RIGHT OUTER JOIN | 使用右侧对象的key |
| outer | FULL OUTER JOIN | 使用左右两侧所有key的并集 |
| inner | INNER JOIN | 使用左右两侧key的交集 |
1) left join
- import pandas as pd
- left = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Smith', 'Maiki', 'Hunter', 'Hilen'],
- 'subject_id':['sub1','sub2','sub4','sub6']})
- right = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Bill', 'Lucy', 'Jack', 'Mike'],
- 'subject_id':['sub2','sub4','sub3','sub6']})
- #以left侧的subject_id为键
- print(pd.merge(left,right,on='subject_id',how="left"))
输出结果:
id_x Name_x subject_id id_y Name_y
0 1 Smith sub1 NaN NaN
1 2 Maiki sub2 1.0 Bill
2 3 Hunter sub4 2.0 Lucy
3 4 Hilen sub6 4.0 Mike
2) right join
- import pandas as pd
- left = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Smith', 'Maiki', 'Hunter', 'Hilen'],
- 'subject_id':['sub1','sub2','sub4','sub6']})
- right = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Bill', 'Lucy', 'Jack', 'Mike'],
- 'subject_id':['sub2','sub4','sub3','sub6']})
- #以right侧的subject_id为键
- print(pd.merge(left,right,on='subject_id',how="right"))
输出结果:
id_x Name_x subject_id id_y Name_y
0 2.0 Maiki sub2 1 Bill
1 3.0 Hunter sub4 2 Lucy
2 4.0 Hilen sub6 4 Mike
3 NaN NaN sub3 3 Jack
3) outer join(并集)
- import pandas as pd
- left = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Smith', 'Maiki', 'Hunter', 'Hilen'],
- 'subject_id':['sub1','sub2','sub4','sub6']})
- right = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Bill', 'Lucy', 'Jack', 'Mike'],
- 'subject_id':['sub2','sub4','sub3','sub6']})
- #求出两个subject_id的并集,并作为键
- print(pd.merge(left,right,on='subject_id',how="outer"))
输出结果:
id_x Name_x subject_id id_y Name_y
0 1.0 Smith sub1 NaN NaN
1 2.0 Maiki sub2 1.0 Bill
2 3.0 Hunter sub4 2.0 Lucy
3 4.0 Hilen sub6 4.0 Mike
4 NaN NaN sub3 3.0 Jack
4) inner join(交集)
- import pandas as pd
- left = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Smith', 'Maiki', 'Hunter', 'Hilen'],
- 'subject_id':['sub1','sub2','sub4','sub6']})
- right = pd.DataFrame({
- 'id':[1,2,3,4],
- 'Name': ['Bill', 'Lucy', 'Jack', 'Mike'],
- 'subject_id':['sub2','sub4','sub3','sub6']})
- #求出两个subject_id的交集,并将结果作为键
- print(pd.merge(left,right,on='subject_id',how="inner"))
输出结果:
id_x Name_x subject_id id_y Name_y
0 2 Maiki sub2 1 Bill
1 3 Hunter sub4 2 Lucy
2 4 Hilen sub6 4 Mike
注意:当 a 与 b 进行内连操作时 a.join(b) 不等于 b.join(a)。
pandas之合并操作的更多相关文章
- Pandas | 19 合并/连接
Pandas具有功能全面的高性能内存中连接操作,与SQL等关系数据库非常相似.Pandas提供了一个单独的merge()函数,作为DataFrame对象之间所有标准数据库连接操作的入口 - pd.me ...
- Pandas的拼接操作
pandas的拼接操作 pandas的拼接分为两种: 级联:pd.concat, pd.append 合并:pd.merge, pd.join import pandas as pd import n ...
- 利用os和pandas来合并当前目录下所有excel文件
#1.引入模块 import os import pandas as pd #2.取出指定目录下的全部excel文件路径 path="C:\\TEST" dirlist=[] fo ...
- (四)pandas的拼接操作
pandas的拼接操作 #重点 pandas的拼接分为两种: 级联:pd.concat, pd.append 合并:pd.merge, pd.join 0. 回顾numpy的级联 import num ...
- pandas的级联操作
级联操作 pd.concat, pd.append import pandas as pd from pandas import DataFrame import numpy as np pandas ...
- eclipse svn分支与合并操作
以前做项目的时候没有用过svn的分支合并操作,今天用到了,刚开始还真不会啊.最后查了下就是这么的方便.专门记录下来. 原文来自:http://blog.csdn.net/lisq037/article ...
- C#文件的拆分与合并操作示例
C#文件的拆分与合并操作示例代码. 全局变量定义 ;//文件大小 //拆分.合并的文件数 int count; FileInfo splitFile; string splitFliePath; Fi ...
- pandas的apply操作
pandas的apply操作类似于Scala的udf一样方便,假设存在如下dataframe: id_part pred pred_class v_id 0 d [0.722817, 0.650064 ...
- pandas列合并为一行
将dataframe利用pandas列合并为一行,类似于sql的GROUP_CONCAT函数.例如如下dataframe id_part pred pred_class v_id 0 d 0 0.12 ...
- git分支与主干合并操作
git分支与主干合并操作1.主干合并分支在主干上合并分支 branch (master)git merge branch --squash 提交合并后的代码 (master)git commit -m ...
随机推荐
- pyechart画图(1)安装和基本操作
安装 pip install pyecharts==0.1.9.4 https://blog.csdn.net/weixin_43735353/article/details/89328048 Lin ...
- 01背包&完全背包二维写法的对比,进而理解一维优化后的正逆序
01背包题解 完全背包题解 二维写法时两种背包问题核心代码的区别: 可以看出,01背包用的是上一层的数据,完全背包用的是当前层的数据 所以优化为一维时, 01背包需逆序 for (int i = 1; ...
- js-classList用法学习记录1
classList introduction: 学习后我的个人理解是,在给html中创建的类一系列操作的方法调用. detailed method: 网站具体介绍(菜鸟) add:添加类,已有则不添加 ...
- 在css 中使用calc并且含有变量
bottom:~"calc(.9rem + constant(safe-area-inset-bottom))"; bottom:~"calc(.9rem + env ...
- 3、HTTP请求头与响应头
HTTP简介 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送 ...
- pandas数据增删改查+拼接
pandas数据的拼接+增删改查 def lengthways_joint(df,df1): #纵向拼接 if list(df.columns) == list(df1.columns): leb_j ...
- js 遍历对象属性
function* objectEntries(obj) { let propKeys = Reflect.ownKeys(obj); for (let propKey of propKeys) { ...
- (四).JavaScript的循环结构
2.2 循环嵌套 ①.语法 // 嵌套循环:循环内部包裹其他的循环 // 外侧循环执行一次,内部循环执行一轮 // 实例 for (var i = 0; i < 5; i++) { for (v ...
- 加热算法,加热温度控制加热功率,加热功率控制加热速度(PWM)
uint8_t user_heating_algorithmPID(void) { uint32_t temp_1; uint16_t Adcn; nrfx_err_t err_code; HEATI ...
- [C# 学习笔记]运用 GDI+ 的 Matrix 进行显示图形的平移和缩放
C# 学习中,想尝试着做一个工控方面的上位机,可以读取CAD绘制的图形,然后把它显示出来,后面让运动控制器去走CAD里面的轨迹. 一.用netDXF 开源包,对DXF文件进行解析.解析后的直线.圆.圆 ...