Pandas 合并merge

pandas中的merge和concat类似,但主要是用于两组有key column的数据,统一索引的数据. 通常也被用在Database的处理当中.

1、依据一组key合并

>>> import pandas as pd

>>> left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],

...                              'A': ['A0', 'A1', 'A2', 'A3'],

...                              'B': ['B0', 'B1', 'B2', 'B3']})

>>> right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],

...                               'C': ['C0', 'C1', 'C2', 'C3'],

...                               'D': ['D0', 'D1', 'D2', 'D3']})

>>> print(left)

  key   A   B

0  K0  A0  B0

1  K1  A1  B1

2  K2  A2  B2

3  K3  A3  B3

>>> print(right)

  key   C   D

0  K0  C0  D0

1  K1  C1  D1

2  K2  C2  D2

3  K3  C3  D3

#依据key column合并，并打印出

>>> res = pd.merge(left, right, on='key')

>>> print(res)

  key   A   B   C   D

0  K0  A0  B0  C0  D0

1  K1  A1  B1  C1  D1

2  K2  A2  B2  C2  D2

3  K3  A3  B3  C3  D3

2、依据两组key合并

合并时有4种方法how = ['left', 'right', 'outer', 'inner']，预设值how='inner'

>>> left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],

...                       'key2': ['K0', 'K1', 'K0', 'K1'],

...                       'A': ['A0', 'A1', 'A2', 'A3'],

...                       'B': ['B0', 'B1', 'B2', 'B3']})

>>> right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],

...                        'key2': ['K0', 'K0', 'K0', 'K0'],

...                        'C': ['C0', 'C1', 'C2', 'C3'],

...                        'D': ['D0', 'D1', 'D2', 'D3']})

>>> print(left)

  key1 key2   A   B

0   K0   K0  A0  B0

1   K0   K1  A1  B1

2   K1   K0  A2  B2

3   K2   K1  A3  B3

>>> print(right)

  key1 key2   C   D

0   K0   K0  C0  D0

1   K1   K0  C1  D1

2   K1   K0  C2  D2

3   K2   K0  C3  D3

##依据key1与key2 columns进行合并，并打印出四种结果['left', 'right', 'outer', 'inner']

>>> res = pd.merge(left, right, on=['key1', 'key2'], how='inner')

>>> print(res)

  key1 key2   A   B   C   D

0   K0   K0  A0  B0  C0  D0

1   K1   K0  A2  B2  C1  D1

2   K1   K0  A2  B2  C2  D2

>>> res = pd.merge(left, right, on=['key1', 'key2'], how='outer')

>>> print(res)

  key1 key2    A    B    C    D

0   K0   K0   A0   B0   C0   D0

1   K0   K1   A1   B1  NaN  NaN

2   K1   K0   A2   B2   C1   D1

3   K1   K0   A2   B2   C2   D2

4   K2   K1   A3   B3  NaN  NaN

5   K2   K0  NaN  NaN   C3   D3

>>> res = pd.merge(left, right, on=['key1', 'key2'], how='left')

>>> print(res)

  key1 key2   A   B    C    D

0   K0   K0  A0  B0   C0   D0

1   K0   K1  A1  B1  NaN  NaN

2   K1   K0  A2  B2   C1   D1

3   K1   K0  A2  B2   C2   D2

4   K2   K1  A3  B3  NaN  NaN

>>> res = pd.merge(left, right, on=['key1', 'key2'], how='right')

>>> print(res)

  key1 key2    A    B   C   D

0   K0   K0   A0   B0  C0  D0

1   K1   K0   A2   B2  C1  D1

2   K1   K0   A2   B2  C2  D2

3   K2   K0  NaN  NaN  C3  D3

3、Indicator

indicator=True会将合并的记录放在新的一列。

>>> df1 = pd.DataFrame({'col1':[0,1], 'col_left':['a','b']})

>>> df2 = pd.DataFrame({'col1':[1,2,2],'col_right':[2,2,2]})

>>> print(df1)

   col1 col_left

0     0        a

1     1        b

>>> print(df2)

   col1  col_right

0     1          2

1     2          2

2     2          2

# 依据col1进行合并，并启用indicator=True，最后打印出

>>> res = pd.merge(df1, df2, on='col1', how='outer', indicator=True)

>>> print(res)

   col1 col_left  col_right      _merge

0     0        a        NaN   left_only

1     1        b        2.0        both

2     2      NaN        2.0  right_only

3     2      NaN        2.0  right_only

# 自定indicator column的名称，并打印出

>>> res = pd.merge(df1, df2, on='col1', how='outer', indicator='indicator_column')

>>> print(res)

   col1 col_left  col_right indicator_column

0     0        a        NaN        left_only

1     1        b        2.0             both

2     2      NaN        2.0       right_only

3     2      NaN        2.0       right_only

4、依据index合并

>>> left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],

...                      'B': ['B0', 'B1', 'B2']},

...                      index=['K0', 'K1', 'K2'])

>>> right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],

...                       'D': ['D0', 'D2', 'D3']},

...                      index=['K0', 'K2', 'K3'])

>>> print(left)

     A   B

K0  A0  B0

K1  A1  B1

K2  A2  B2

>>> print(right)

     C   D

K0  C0  D0

K2  C2  D2

K3  C3  D3

#依据左右资料集的index进行合并，how='outer',并打印出

>>> res = pd.merge(left, right, left_index=True, right_index=True, how='outer')

>>> print(res)

      A    B    C    D

K0   A0   B0   C0   D0

K1   A1   B1  NaN  NaN

K2   A2   B2   C2   D2

K3  NaN  NaN   C3   D3

#依据左右资料集的index进行合并，how='inner',并打印出

>>> res = pd.merge(left, right, left_index=True, right_index=True, how='inner')

>>> print(res)

     A   B   C   D

K0  A0  B0  C0  D0

K2  A2  B2  C2  D2

5、解决overlapping的问题

>>> boys = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'age': [1, 2, 3]})

>>> girls = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'age': [4, 5, 6]})

>>> print(boys)

    k  age

0  K0    1

1  K1    2

2  K2    3

>>> print(girls)

    k  age

0  K0    4

1  K0    5

2  K3    6

#使用suffixes解决overlapping的问题

>>> res = pd.merge(boys, girls, on='k', suffixes=['_boy', '_girl'], how='inner')

>>> print(res)

    k  age_boy  age_girl

0  K0        1         4

1  K0        1         5

Pandas 合并merge的更多相关文章

【转】Pandas学习笔记（六）合并 merge
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
pandas 合并数据
1. pandas 的merge,join 就不说了. 2. 神奇的: concat append 参考: PANDAS 数据合并与重塑(concat篇) 3.
SVN SVN合并(Merge)与拉取分支(Branch/tag)操作简介
SVN合并(Merge)与拉取分支(Branch/tag)操作简介合并(Merge) 例子:把对feature_branch\project_name_v3.3.7_branch的修改合并到deve ...
R语言中的横向数据合并merge及纵向数据合并rbind的使用
R语言中的横向数据合并merge及纵向数据合并rbind的使用我们经常会遇到两个数据框拥有相同的时间或观测值,但这些列却不尽相同.处理的办法就是使用merge(x, y ,by.x = ,by.y ...
python pandas合并多个excel(xls和xlsx)文件（弹窗选择文件夹和保存文件）
# python pandas合并多个excel(xls和xlsx)文件(弹窗选择文件夹和保存文件) import tkinter as tk from tkinter import filedial ...
python pandas 合并数据函数merge join concat combine_first 区分
pandas对象中的数据可以通过一些内置的方法进行合并:pandas.merge,pandas.concat,实例方法join,combine_first,它们的使用对象和效果都是不同的,下面进行区分 ...
Pandas合并数据集之merge、join方法
合并数据集 pandas.merge 可根据一个或多个键将不同DataFrame中的行连接起来. pandas.concat 可以沿着一条轴将多个对象堆叠到一起. combine_first merg ...
pandas 7 合并 merge 水平合并，数据会变宽
pd.merge( df1, df2, on=['key1', 'key2'], left_index=True, right_index=True, how=['left', 'right', 'o ...
pandas之DataFrame合并merge
一.merge merge操作实现两个DataFrame之间的合并,类似于sql两个表之间的关联查询.merge的使用方法及参数解释如下: pd.merge(left, right, on=None, ...

随机推荐

2.1 Visio画图后，粘贴到word白边太宽
如下图所示:Visio2007画图后,图白边距很宽. 右击打开>将鼠标移动到画布边缘,按下Ctrl后鼠标变为双箭头,然后拖拽方格画布,拖拽合适的宽度保存即可.
使用JAVA实现的一个简单IOC注入实例
https://blog.csdn.net/echoshinian100/article/details/77977823 欲登高而望远,勿筑台于流沙 RSS订阅原使用JAVA实现的一个简单IOC ...
linux用ssh登录卡或者慢
原因:有可能是客户端在登录服务器时,服务器会先根据客户端的IP根据DNS去查找主机名,如果客户端的DNS服务器出现问题或者主机名有问题,就会卡一段时间解决办法: # vi /etc/ssh/sshd ...
2013-7-30 802.1X企业级加密
今天做了U9510的企业级加密标杆测试,写了企业级加密标杆设备的操作指南.最后做到server 2003却出了问题,peap能关联,但是TLS怎么都关联不上.用adb shell查看logcat日志, ...
理解OpenShift（3）：网络之 SDN
理解OpenShift(1):网络之 Router 和 Route 理解OpenShift(2):网络之 DNS(域名服务) 理解OpenShift(3):网络之 SDN 理解OpenShift(4) ...
[转][C#]文件流读取
{ internal static class FileUtils { public static string GetRelativePath(string absPath, string base ...
Vue 爬坑之路（一）—— 使用 vue-cli 搭建项目
vue-cli 是一个官方发布 vue.js 项目脚手架,使用 vue-cli 可以快速创建 vue 项目,GitHub地址是:https://github.com/vuejs/vue-cli vue ...
css变换与动画详解
举个栗子:--------元素整体居中.box{ position:absolute;top:50%;left:50%; width:50px; height:50px; t ...
JavaWeb——XML转义符字
被<![CDATA[]]>这个标记所包含的内容将表示为纯文本,比如<![CDATA[<]]>表示文本内容“<”. 此标记用于xml文档中,我们先来看看使用转义符的 ...
wireshark抓本地回环包
问题描述: 在网络程序开发的过程中,我们往往会把本机既作为客户端又作为服务器端来调试代码,使得本机自己和自己通信.但是wireshark此时是无法抓取到数据包的,需要通过简单的设置才可以方法一:Wi ...

Pandas 合并merge

Pandas 合并merge的更多相关文章

随机推荐

热门专题