pandas 7 合并 merge 水平合并，数据会变宽

pd.merge( df1, df2, on=['key1', 'key2'], left_index=True, right_index=True, how=['left', 'right', 'outer', 'inner'], indicator='indicator_column', suffixes=['_boy', '_girl'] )

from __future__ import print_function

import pandas as pd

merging two df by key/keys， on='key'. (may be used in database)

# merging two df by key/keys. (may be used in database)

# simple example

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],

                       'A': ['A0', 'A1', 'A2', 'A3'],

                       'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],

                        'C': ['C0', 'C1', 'C2', 'C3'],

                        'D': ['D0', 'D1', 'D2', 'D3']})

print(left)

print(right)

res = pd.merge(left, right, on='key')  # 基于列标签为‘key’合并

print(res)

>   key   A   B

> 0  K0  A0  B0

> 1  K1  A1  B1

> 2  K2  A2  B2

> 3  K3  A3  B3

>   key   C   D

> 0  K0  C0  D0

> 1  K1  C1  D1

> 2  K2  C2  D2

> 3  K3  C3  D3

>   key   A   B   C   D

> 0  K0  A0  B0  C0  D0

> 1  K1  A1  B1  C1  D1

> 2  K2  A2  B2  C2  D2

> 3  K3  A3  B3  C3  D3

consider two keys， on=['key1', 'key2']

# consider two keys

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],

                     'key2': ['K0', 'K1', 'K0', 'K1'],

                        'A': ['A0', 'A1', 'A2', 'A3'],

                        'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],

                      'key2': ['K0', 'K0', 'K0', 'K0'],

                         'C': ['C0', 'C1', 'C2', 'C3'],

                         'D': ['D0', 'D1', 'D2', 'D3']})

print(left)

print(right)

>   key1 key2   A   B

> 0   K0   K0  A0  B0

> 1   K0   K1  A1  B1

> 2   K1   K0  A2  B2

> 3   K2   K1  A3  B3

>   key1 key2   C   D

> 0   K0   K0  C0  D0

> 1   K1   K0  C1  D1

> 2   K1   K0  C2  D2

> 3   K2   K0  C3  D3

res = pd.merge(left, right, on=['key1', 'key2'], how='inner')  # default for how='inner'

print(res)  # 求交集

res = pd.merge(left, right, on=['key1', 'key2'], how='outer')  # default for how='inner'

print(res)  # 求并集

>   key1 key2   A   B   C   D

> 0   K0   K0  A0  B0  C0  D0

> 1   K1   K0  A2  B2  C1  D1

> 2   K1   K0  A2  B2  C2  D2

>   key1 key2    A    B    C    D

> 0   K0   K0   A0   B0   C0   D0

> 1   K0   K1   A1   B1  NaN  NaN

> 2   K1   K0   A2   B2   C1   D1

> 3   K1   K0   A2   B2   C2   D2

> 4   K2   K1   A3   B3  NaN  NaN

> 5   K2   K0  NaN  NaN   C3   D3

how = ['left', 'right', 'outer', 'inner']

# how = ['left', 'right', 'outer', 'inner']

res = pd.merge(left, right, on=['key1', 'key2'], how='right')

print(res)  # 以右边的数据为标准，来合并

>   key1 key2    A    B   C   D

> 0   K0   K0   A0   B0  C0  D0

> 1   K1   K0   A2   B2  C1  D1

> 2   K1   K0   A2   B2  C2  D2

> 3   K2   K0  NaN  NaN  C3  D3

显示数据的来源，多_merge这一列，默认是false不显示:indicator=True 或 indicator='indicator_column' 自定义indicator列名称

# indicator

df1 = pd.DataFrame({'col1':[0,1], 'col_left':['a','b']})

df2 = pd.DataFrame({'col1':[1,2,2],'col_right':[2,2,2]})

print(df1)

print(df2)

res = pd.merge(df1, df2, on='col1', how='outer', indicator=True)

print(res)

>    col1 col_left

> 0     0        a

> 1     1        b

>    col1  col_right

> 0     1          2

> 1     2          2

> 2     2          2

>    col1 col_left  col_right      _merge

> 0     0        a        NaN   left_only

> 1     1        b        2.0        both

> 2     2      NaN        2.0  right_only

> 3     2      NaN        2.0  right_only

# give the indicator a custom name

res = pd.merge(df1, df2, on='col1', how='outer', indicator='indicator_column')

print(res)  # 设置这列的标题为'indicator_column'

>    col1 col_left  col_right indicator_column

> 0     0        a        NaN        left_only

> 1     1        b        2.0             both

> 2     2      NaN        2.0       right_only

> 3     2      NaN        2.0       right_only

handle overlapping 信息重叠： suffixes=['_boy', '_girl']

# handle overlapping

boys = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'age': [1, 2, 3]})

girls = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'age': [4, 5, 6]})

res = pd.merge(boys, girls, on='k', suffixes=['_boy', '_girl'], how='inner')

print(boys)

print(girls)

print(res)

>     k  age

> 0  K0    1

> 1  K1    2

> 2  K2    3

>     k  age

> 0  K0    4

> 1  K0    5

> 2  K3    6

>     k  age_boy  age_girl

> 0  K0        1         4

> 1  K0        1         5

res = pd.merge(boys, girls, on='k', suffixes=['_boy', '_girl'], how='outer')

print(res)  # 这里的K0，K1理解成姓名，同一个姓名对应了不同的年龄，说明信息重叠了。

>     k  age_boy  age_girl

> 0  K0      1.0       4.0

> 1  K0      1.0       5.0

> 2  K1      2.0       NaN

> 3  K2      3.0       NaN

> 4  K3      NaN       6.0

merged by index： left_index=True, right_index=True

# merged by index

left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],

                     'B': ['B0', 'B1', 'B2']},

                   index=['K0', 'K1', 'K2'])

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],

                      'D': ['D0', 'D2', 'D3']},

                    index=['K0', 'K2', 'K3'])

print(left)

print(right)

>      A   B

> K0  A0  B0

> K1  A1  B1

> K2  A2  B2

>      C   D

> K0  C0  D0

> K2  C2  D2

> K3  C3  D3

# left_index and right_index  默认是False

res = pd.merge(left, right, left_index=True, right_index=True, how='outer')

print(res)  # 并

res = pd.merge(left, right, left_index=True, right_index=True, how='inner')

print(res)  # 交

>       A    B    C    D

> K0   A0   B0   C0   D0

> K1   A1   B1  NaN  NaN

> K2   A2   B2   C2   D2

> K3  NaN  NaN   C3   D3

>      A   B   C   D

> K0  A0  B0  C0  D0

> K2  A2  B2  C2  D2

join：join function in pandas is similar with merge. If know merge, you will understand join

END

pandas 7 合并 merge 水平合并，数据会变宽的更多相关文章

R语言中的横向数据合并merge及纵向数据合并rbind的使用
R语言中的横向数据合并merge及纵向数据合并rbind的使用我们经常会遇到两个数据框拥有相同的时间或观测值,但这些列却不尽相同.处理的办法就是使用merge(x, y ,by.x = ,by.y ...
Pandas 合并merge
pandas中的merge和concat类似,但主要是用于两组有key column的数据,统一索引的数据. 通常也被用在Database的处理当中. 1.依据一组key合并 >>> ...
【转】Pandas学习笔记（六）合并 merge
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
pandas之DataFrame合并merge
一.merge merge操作实现两个DataFrame之间的合并,类似于sql两个表之间的关联查询.merge的使用方法及参数解释如下: pd.merge(left, right, on=None, ...
动态横向(水平)合并GridView数据行DataRow的列
前一段时间,Insus.NET有写过<动态合并GridView数据行DataRow的列>http://www.cnblogs.com/insus/p/3238348.html, 那是纵向( ...
动态横向(水平)合并Repeater数据行DataItem的列
Insus.NET有对GridView控件进行横纵分别合并列:横:<动态横向(水平)合并GridView数据行DataRow的列>http://www.cnblogs.com/insus/ ...
【转载】C#的Merge方法合并两个DataTable对象的数据
在C#中的Datatable类中,可以使用DataTable类的Merge方法对两个相同结构的DataTable对象进行求并集运算,将两个DataTable对象的数据行合并到其中一个DataTable ...
Lucene学习总结之五：Lucene段合并(merge)过程分析
一.段合并过程总论 IndexWriter中与段合并有关的成员变量有: HashSet<SegmentInfo> mergingSegments = new HashSet<Segm ...
C++ Opencv split()通道分离函数 merge()通道合并函数使用操作详解
一. split()通道分离函数 split()函数的C++版本有两个原型,他们分别是: C++: void split(const Mat& src, Mat*mvbegin);//& ...

随机推荐

codecademy练习记录--Learn Python(70%)
############################################################################### codecademy python 5. ...
Java基础之Colloction
0 引言以下是介绍Java有关集合类,以及对应每个类的用途,同时进行比较集合类的不同特点来让我们深入了解. 1 Collction接口 Collection是最基本的集合接口,一个Collectio ...
一些特殊ACII码的用法在控制台中覆盖显示、刷新显示和删除字符
很好奇怎么实现在控制台中不换行直接显示新的信息把旧的替换掉,于是找到了两个ACII码字符,他们可以帮助实现. 一个是‘\b’字符,这个字符是backspace,即删除上一个字符,于是可以清除以显示的旧 ...
jupyter的安装
3.6:\Lib\site-packages\pip\models\index.py # PyPI = Index('https://pypi.python.org/') # 替换成 PyPI = I ...
CefSharp获取页面Html代码的两种方式
CefSharp在NuGet的简介是“The CefSharp Chromium-based browser component”,机翻的意思就是“基于Cefsharp Chromium的浏览器组件” ...
nefu 84 （拓展欧几里德模板题）
链接:传送门思路:拓展欧几里德模板题,设大圣至少翻转 t 次,大圣起始位置为 x ,大圣目标位置为 y + n * s ( 大圣到达目标位置 y 可能需要多圈,所以用 s 来表示圈数 ),因为只能逆 ...
FZU 1692 Key problem（循环矩阵优化 + 矩阵快速幂）
链接:传送门题意: n个小朋友围成一个环( 2 <= n <= 100 )然后进行m次的游戏. 一开始,第 i 个小朋友有 Ai 个苹果. 定义游戏的规则为:每一次游戏处于 i 位置的小 ...
NOIP2016 DAY1 T3 换教室
换教室 Description 对于刚上大学的牛牛来说,他面临的第一个问题是如何根据实际情况申请合适的课程.在可以选择的课程中,有2n节课程安排在n个时间段上.在第i(1≤i≤n)个时间段上,两节内 ...
[USACO 2009 Feb Gold] Fair Shuttle (贪心+优先队列)
题目大意:有N个站点的轻轨站,有一个容量为C的列车起点在1号站点,终点在N号站点,有K组牛群,每组数量为Mi(1≤Mi≤N),行程起点和终点分别为Si和Ei(1≤Si<Ei≤N).计算最多有多少 ...
关于fromkeys的用法
分享一个小知识点: 1. Python 中关于dict的fromkeys方法: 1. fromkeys是用于重构字典 2. 至少传一个参数,第一个参数为新建dict的key,如果第一个参数为字典,那么 ...

pandas 7 合并 merge 水平合并，数据会变宽

merging two df by key/keys， on='key'. (may be used in database)

consider two keys， on=['key1', 'key2']

how = ['left', 'right', 'outer', 'inner']

显示数据的来源，多_merge这一列，默认是false不显示:indicator=True 或 indicator='indicator_column' 自定义indicator列名称

handle overlapping 信息重叠： suffixes=['_boy', '_girl']

merged by index： left_index=True, right_index=True

join：join function in pandas is similar with merge. If know merge, you will understand join

pandas 7 合并 merge 水平合并，数据会变宽的更多相关文章

随机推荐

热门专题