Pandas合并数据集之merge、join方法

合并数据集

pandas.merge 可根据一个或多个键将不同DataFrame中的行连接起来。
pandas.concat 可以沿着一条轴将多个对象堆叠到一起。
combine_first

merge

默认情况下，merge做的是'inner'连接;结果中的键是交集

和数据库中的left、right以及outer连接这些外连全部是形成笛卡尔积

merge合并的数据如果是多对多，则是笛卡尔积的形式合并



import pandas as pd

import numpy as np

df1 = pd.DataFrame({'key1':['b','b','a','c','a','a','b'],

                    'data1':range(7)

                   })

df2 = pd.DataFrame({'key1':['a','b','d'],

                    'data2':range(3)

                   })

df1

    key1	data1

0	b	0

1	b	1

2	a	2

3	c	3

4	a	4

5	a	5

6	b	6

df2

    key1	data2

0	a	0

1	b	1

2	d	2

# merge默认会合并相同的列名，但是最好显示指定一下，on用于连接左右都存在的列名，如果只有一侧有，那不能使用on,使用left_on或者right_on

pd.merge(df1, df2, on='key1',how='left')

    key1	data1	data2

0	b	0	1.0

1	b	1	1.0

2	a	2	0.0

3	c	3	NaN

4	a	4	0.0

5	a	5	0.0

6	b	6	1.0

# 如果两个对象的列名不同，可以详细显示合并的各列情况

df3 = pd.DataFrame({'key1':['b','b','a','c','a','a','b'],

                    'data1':range(7)

                   })

df4 = pd.DataFrame({'key2':['a','b','d'],

                    'data2':range(3)

                   })

# left_on,right_on用于连接存在于一方的列

pd.merge(df3,df4,left_on='key1',right_on='key2')

    key1	data1	key2	data2

0	b	0	b	1

1	b	1	b	1

2	b	6	b	1

3	a	2	a	0

4	a	4	a	0

5	a	5	a	0

# how参数里面填写连接的类别，有left、right、outer分别对应左连接，右连接，全连接

pd.merge(df3, df4,left_on='key1',right_on='key2',how='outer')

    key1	data1	key2	data2

0	b	0.0	b	1.0

1	b	1.0	b	1.0

2	b	6.0	b	1.0

3	a	2.0	a	0.0

4	a	4.0	a	0.0

5	a	5.0	a	0.0

6	c	3.0	NaN	NaN

7	NaN	NaN	d	2.0

# 示例数据源

df5 = pd.DataFrame({'key':['b','b','a','c','a','b'],

                    'data1':range(6)

                   })

df6 = pd.DataFrame({'key':['a','b','a','b','d'],

                    'data2':range(5)

                   })

df5

    key	data1

0	b	0

1	b	1

2	a	2

3	c	3

4	a	4

5	b	5

df6

    key	data2

0	a	0

1	b	1

2	a	2

3	b	3

4	d	4

# 左外连接的笛卡尔积,左右3个b，右有2个b，2*3=6个b,又会形成并集

pd.merge(df5,df6,how='left')

    key	data1	data2

0	b	0	1.0

1	b	0	3.0

2	b	1	1.0

3	b	1	3.0

4	a	2	0.0

5	a	2	2.0

6	c	3	NaN

7	a	4	0.0

8	a	4	2.0

9	b	5	1.0

10	b	5	3.0

left = pd.DataFrame({'key1':['foo','foo','bar'],

                    'key2':['one','two','one'],

                     'lval':[1,2,3]})

right = pd.DataFrame({'key1':['foo','foo','bar','bar'],

                    'key2':['one','one','one','two'],

                     'rval':[4,5,6,7]})

left

    key1	key2	lval

0	foo	one	1

1	foo	two	2

2	bar	one	3

right

    key1	key2	rval

0	foo	one	4

1	foo	one	5

2	bar	one	6

3	bar	two	7

# 合并多个列名，需要把他们当做一个整体看，然后做笛卡尔积

pd.merge(left,right,on=['key1','key2'],how='outer')

    key1	key2	lval	rval

0	foo	one	1.0	4.0

1	foo	one	1.0	5.0

2	foo	two	2.0	NaN

3	bar	one	3.0	6.0

4	bar	two	NaN	7.0

# suffixes用于指定附加到左右两个dataframe对象的列标签的名，下面是是原始的命名，默认加_x,_y

pd.merge(left,right,on='key1')

    key1	key2_x	lval	key2_y	rval

0	foo	one	1	one	4

1	foo	one	1	one	5

2	foo	two	2	one	4

3	foo	two	2	one	5

4	bar	one	3	one	6

5	bar	one	3	two	7

# suffixes就是指定一下名字，会形成下面的效果

pd.merge(left,right,on='key1',suffixes=('_left','_right'))

    key1	key2_left	lval	key2_right	rval

0	foo	one	1	one	4

1	foo	one	1	one	5

2	foo	two	2	one	4

3	foo	two	2	one	5

4	bar	one	3	one	6

5	bar	one	3	two	7

索引上的合并



left1 = pd.DataFrame({'key':['a','b','a','a','b','c'],

                     'value':range(6)})

right1 = pd.DataFrame({'group_val':[3.5,7]},index=['a','b'])

left1

    key	value

0	a	0

1	b	1

2	a	2

3	a	3

4	b	4

5	c	5

right1

    group_val

a	3.5

b	7.0

# 上面是用key的列值去合并右侧的行索引，right_index开启将行索引用作连接的键，如果是左侧的表，同理有left_index，默认交集

pd.merge(left1, right1, left_on='key',right_index=True)

    key	value	group_val

0	a	0	3.5

2	a	2	3.5

3	a	3	3.5

1	b	1	7.0

4	b	4	7.0

# 指定并集

pd.merge(left1, right1, left_on='key',right_index=True,how='outer')

    key	value	group_val

0	a	0	3.5

2	a	2	3.5

3	a	3	3.5

1	b	1	7.0

4	b	4	7.0

5	c	5	NaN

层次化索引的合并

lefth = pd.DataFrame({'key1':['Ohio','Ohio','Ohio','Nevada','Nevada'],

                      'key2':[2000,2001,2002,2001,2002],

                       'data':np.arange(5.)})

# lefth.set_index(['key1','key2']).T 将列转为层次化行索引

lefth

    key1	key2	data

0	Ohio	2000	0.0

1	Ohio	2001	1.0

2	Ohio	2002	2.0

3	Nevada	2001	3.0

4	Nevada	2002	4.0

right1 = pd.DataFrame(np.arange(12).reshape(6,2),index=[

    ['Nevada','Nevada','Ohio','Ohio','Ohio','Ohio'],

    [2001,2000,2000,2000,2001,2002]

],columns=['data1','data2'])

right1

            data1	data2

Nevada	2001	0	1

        2000	2	3

Ohio	2000	4	5

        2000	6	7

        2001	8	9

        2002	10	11

# 对于层次化索引的合并，左侧的列名是右侧的行索引，故开启right_index

pd.merge(lefth,right1,left_on=['key1','key2'],right_index=True)

    key1	key2	data	data1	data2

0	Ohio	2000	0.0	4	5

0	Ohio	2000	0.0	6	7

1	Ohio	2001	1.0	8	9

2	Ohio	2002	2.0	10	11

3	Nevada	2001	3.0	0	1

# 合并双方的索引

left2 = pd.DataFrame([[1.,2.],[3.,4.],[5.,6.]],index=['a','c','e'],columns=['Ohio','Nevada'])

right2 = pd.DataFrame([[7.,8.],[9.,10.],[11.,12.],[13,14]],index=['b','c','d','e'],columns=['Missouri','Alabama'])

pd.merge(left2,right2,how='outer',left_index=True,right_index=True)

    Ohio	Nevada	Missouri	Alabama

a	1.0	2.0	NaN	NaN

b	NaN	NaN	7.0	8.0

c	3.0	4.0	9.0	10.0

d	NaN	NaN	11.0	12.0

e	5.0	6.0	13.0	14.0

# join方法，更方便实现按索引合并

left2.join(right2,how='outer')

    Ohio	Nevada	Missouri	Alabama

a	1.0	2.0	NaN	NaN

b	NaN	NaN	7.0	8.0

c	3.0	4.0	9.0	10.0

d	NaN	NaN	11.0	12.0

e	5.0	6.0	13.0	14.0

left3 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3','A4'],

                     'B': ['B0', 'B1', 'B2', 'B3','b4'],

                     'key': ['K0', 'K1', 'K0', 'K1','C1']})

right3 = pd.DataFrame({'C': ['C0', 'C1'],

                      'D': ['D0', 'D1']},

                    index=['K0', 'K1'])

# 如果列的值是另一个dataframe的行索引

left3.join(right3,on='key')

    A	B	key	C	D

0	A0	B0	K0	C0	D0

1	A1	B1	K1	C1	D1

2	A2	B2	K0	C0	D0

3	A3	B3	K1	C1	D1

4	A4	b4	C1	NaN	NaN

# 对于简单的索引合并，你可以向join传入一组DataFrame

another = pd.DataFrame([[7.,8.],[9.,10.],[11.,12.],[16.,17.]],index=['a','c','e','f'],columns=['New York','Oregon'])

left2.join([right2,another])

    Ohio	Nevada	Missouri	Alabama	New York	Oregon

a	1.0	2.0	NaN	NaN	7.0	8.0

c	3.0	4.0	9.0	10.0	9.0	10.0

e	5.0	6.0	13.0	14.0	11.0	12.0

Pandas合并数据集之merge、join方法的更多相关文章

python pandas 合并数据函数merge join concat combine_first 区分
pandas对象中的数据可以通过一些内置的方法进行合并:pandas.merge,pandas.concat,实例方法join,combine_first,它们的使用对象和效果都是不同的,下面进行区分 ...
排序合并连接(sort merge join)的原理
排序合并连接(sort merge join)的原理排序合并连接(sort merge join)的原理排序合并连接(sort merge join) 访问次数:两张表都只会访 ...
Python数据科学手册-Pandas:合并数据集
将不同的数据源进行合并 , 类似数据库 join merge . 工具函数 concat / append pd.concat() 简易合并合并高维数据默认按行合并. axis=0 ,试试 axi ...
Pandas合并数据集之concat、combine_first方法
轴向连接(concat) Numpy import numpy as np import pandas as pd from pandas import Series arr = np.arange( ...
pandas合并数据集-【老鱼学pandas】
有两个数据集,我们想把他们的结果根据相同的列名或索引号之类的进行合并,有点类似SQL中的从两个表中选择出不同的记录并进行合并返回. 合并首先准备数据: import pandas as pd imp ...
python merge、concat合并数据集
数据规整化:合并.清理.过滤 pandas和python标准库提供了一整套高级.灵活的.高效的核心函数和算法将数据规整化为你想要的形式! 本篇博客主要介绍: 合并数据集:.merge()..conca ...
多表连接的三种方式详解 HASH JOIN MERGE JOIN NESTED LOOP
在多表联合查询的时候,如果我们查看它的执行计划,就会发现里面有多表之间的连接方式. 之前打算在sqlplus中用执行计划的,但是格式看起来有点乱,就用Toad 做了3个截图. 从3张图里我们看到了几点 ...
Nested Loops，Hash Join 和 Sort Merge Join. 三种不同连接的不同：
原文:https://blog.csdn.net/tianlesoftware/article/details/5826546 Nested Loops,Hash Join 和 Sort Merge ...
三种Join方法
NESTED LOOP JOIN (NLJOIN) 对于被连接的数据子集较小的情况,nested loop连接是个较好的选择.nested loop就是扫描一个表,每读到一条记录,就根据索引去另一个 ...

随机推荐

A Statistical Model for Scientific Readability-paper
Authors: Luo SiCarnegie Mellon University, Pittsburgh, PA Jamie CallanCarnegie Mellon University, Pi ...
ES6语法知识
let/const(常用) let,const用于声明变量,用来替代老语法的var关键字,与var不同的是,let/const会创建一个块级作用域(通俗讲就是一个花括号内是一个新的作用域) 这里外部的 ...
goaccess 通过jsonpath 转换为prometheus metrics
goaccess 是一个不错的日志分析工具,包含了json 数据同时支持基于websocket 的实时数据处理,当然我们可以通过jsonpath 的exporter 转换为支持promethues 的 ...
Java面向对象第2节 Scanner 类和格式化输出printf
§Scanner 类 java.util.Scanner 是 Java5 的新特征,我们可以通过 Scanner 类来获取用户的输入. 1.创建 Scanner 对象的基本语法:Scanner s = ...
谈谈 ServerFul 架构
我写了一篇文章 <自己实现一个线程池> https://www.cnblogs.com/KSongKing/p/9803935.html , 其实不仅仅是线程池, 中间件层的 ...
crontab定时任务第一个周期未完成下一个周期执行就来了
一.现象有一个定时任务,每分钟执行一次,前一分钟还没有执行完成,下一个分钟就来了,怎么解决. 二.模拟 #!/bin/bash echo "开始 `date` " >> ...
支付宝生活号获取 userId 和生活号支付
第一:申请生活号. 第二:激活开发者模式 ,并且上创自己的公钥 ( 支付宝 demo 里面有 ) 第三: 配置回调地址 ( 用于前端调用获取 auth_code 的时候填写的回调地址,支 ...
对poi-excel导出的浅层理解
上一篇对excel导入做了浅层的解释,本文将对导出再做浅层解释. 仍然是相同的套路,只不过是反过来而已. 反过来方向理论上本来是这样的:cell-->row-->sheet-->wo ...
cookie.js插件
/*! cookiejs v1.0.23 | MIT (c) 2018 kenny wong | https://github.com/jaywcjlove/cookie.js */!function ...
CSV文件乱码展示（编码格式问题）
最开始mac上打开CSV文件乱码,是这样的:CSV文件编码格式为UTF-8 解决办法一:将excel文件同样的转换编码格式为utf-8,具体操作如下: 去掉tab,勾选comma 最后,将文件另存为u ...

Pandas合并数据集之merge、join方法

合并数据集

merge

索引上的合并

层次化索引的合并

Pandas合并数据集之merge、join方法的更多相关文章

随机推荐

热门专题