python merge、join、concat用法与区别

由于合并变化较大，以后函数可能会修改，只给出一些例子作为参考

总结：

merge、join

1、当没有索引时：merge、join为按照一定条件合并

2、当有索引、并按照索引合并时，得到结果为两者混合到一起了，重新按照一定规则排序了。

3、当没有索引时、concat不管列名，直接加到一起，可以加到后面、也可以加到右边，axis=0为加到后面，axis=1为加到右边，左边的数据结构没有变，变的是右边数据结构。

4、当有索引、并按照索引合并时，得到结果两者混合到一起了。

import pandas as pd

import numpy as np

from pandas import DataFrame,Series

data1=pd.DataFrame(np.arange(6).reshape(2,3),columns=list('abc'))

data2=pd.DataFrame(np.arange(20,26).reshape(2,3),columns=list('ayz'))

data1

Out[33]:

   a  b  c

0  0  1  2

1  3  4  5

data2

Out[34]:

    a   y   z

0  20  21  22

1  23  24  25

data=pd.concat([data1,data2],axis=0)

data

Out[22]:

    a    b    c     y     z

0   0  1.0  2.0   NaN   NaN

1   3  4.0  5.0   NaN   NaN

0  20  NaN  NaN  21.0  22.0

1  23  NaN  NaN  24.0  25.0

data=pd.concat([data1,data2],axis=1)

data

Out[24]:

   a  b  c   a   y   z

0  0  1  2  20  21  22

1  3  4  5  23  24  25

data=pd.merge(data1,data2)

data

Out[26]:

Empty DataFrame

Columns: [a, b, c, y, z]                    #a列没有共同元素

Index: []

data=pd.merge(data1,data2,on='a')

data

Out[28]:

Empty DataFrame

Columns: [a, b, c, y, z]

Index: []

data=pd.merge(data1,data2,on='a',how='outer')

data

Out[30]:

data

Out[30]:

    a    b    c     y     z

0   0  1.0  2.0   NaN   NaN

1   3  4.0  5.0   NaN   NaN

2  20  NaN  NaN  21.0  22.0

3  23  NaN  NaN  24.0  25.0

data=pd.merge(data1,data2,how='outer')

data

Out[32]:

    a    b    c     y     z

0   0  1.0  2.0   NaN   NaN

1   3  4.0  5.0   NaN   NaN

2  20  NaN  NaN  21.0  22.0

3  23  NaN  NaN  24.0  25.0

MJ数据处理:

方法一：reindex

A（少量数据）中数据按照B的数据重新排序，再将A中数据放入到B某一列中

这样不行，重排列后A中特有数据没有了

import pandas as pd

import numpy as np

from pandas import DataFrame,Series

data_a=pd.read_excel('A.xlsx',index_col=2).loc[:,'授信敞口额度'];print(data_a.head())

data_b=pd.read_excel('B.xlsx',index_col=0);print(data_b.head())

data_a=data_a.reindex(index=data_b.index)

data_b.iloc[:,9]=data_a

data_b.to_excel('new_data.xlsx')

方法二：concat

https://stackoverflow.com/questions/27719407/pandas-concat-valueerror-shape-of-passed-values-is-blah-indices-imply-blah2

print(data_a.index.is_unique,data_b.index.is_unique)

data=pd.concat([data_b,data_a],axis=1)

#True False

#ValueError: Shape of passed values is (21, 378), indices imply (21, 288)

因为索引有重复项，所以不能concat

dataframe中去掉重复行

https://stackoverflow.com/questions/13035764/remove-rows-with-duplicate-indices-pandas-dataframe-and-timeseries/34297689#34297689

df3 = df3[~df3.index.duplicated(keep='first')]
#下面只能去掉同样的行，不能去掉索引相同行元素不同行
data_a.drop_duplicates(inplace=True);data_b.drop_duplicates(inplace=True)
data=pd.concat([data_b,data_a],axis=1)

还是不可以，由于有索引，结果会按照索引排序。

方法三：join

data=data_b.join(data_a,how='outer')

data.to_excel('data_join.xlsx')

也不可以，排序不是按照B中的数据在前，A中有B中没有数据在后，不太满足要求，较前面两种方法好

方法四：merge

data=pd.merge(data_b,data_a,left_index=True,right_index=True,how='outer')

data.to_excel('data_merge.xlsx')

与join方法得到结果一致，一样功能，不太满足需求。

方法五：merge

##合并数据不放在索引上，放在列上，没有索引，按列进行合并，结果直接在后面加，排列默认以合并左边列先排列，再排右边列。

#如果把公共列放在索引上，则返回结果会排序，merge、concat、join都会。

a = pd.read_excel('8月.xlsx')

b = pd.read_excel('8月末.xlsx')

print(b.head(),a.head())

c=pd.merge(a,b,on='客户名称',how='outer')

python merge、join、concat用法与区别的更多相关文章

python merge、concat合并数据集
数据规整化:合并.清理.过滤 pandas和python标准库提供了一整套高级.灵活的.高效的核心函数和算法将数据规整化为你想要的形式! 本篇博客主要介绍: 合并数据集:.merge()..conca ...
python pandas 合并数据函数merge join concat combine_first 区分
pandas对象中的数据可以通过一些内置的方法进行合并:pandas.merge,pandas.concat,实例方法join,combine_first,它们的使用对象和效果都是不同的,下面进行区分 ...
merge,join,concat
merge交集 join并集 concat axis=0 竖着连 axis=1 横着连
Python多线程join的用法
import threading, time def Myjoin(): print 'hello world!' time.sleep(1) for i in range(5): t=threadi ...
python中join的用法
str.join(sequence) # 将序列中的元素以str字符连接生成一个新的字符串 list1 = ['a', 'b', 'c'] new_str = '-'.join(list1) # 输出 ...
python中join函数用法
str.join(list/tuple/dict/string) str = "-"; seq = ("a", "b", "c&q ...
python中一些相似用法的区别：index()和find()，dict[]和get()
index和find在字符串中的区别: index()方法和find()方法相似,唯一的区别就是find方法不包含索引值会返回-1,而index()不包含索引值会抛出异常同样的:获取字典dict ...
python ord()与chr()用法以及区别
ord()函数主要用来返回对应字符的ascii码,chr()主要用来表示ascii码对应的字符他的输入时数字,可以用十进制,也可以用十六进制. >>> ord("a&quo ...
Python中threading的join和setDaemon的区别及用法［例子］
Python多线程编程时,经常会用到join()和setDaemon()方法,今天特地研究了一下两者的区别. 1.join ()方法:主线程A中,创建了子线程B,并且在主线程A中调用了B.join() ...

随机推荐

关于ubuntu挂载ntfs无法进行读写的解决方法
查看挂载信息 df -h 参看要挂载磁盘UUID sudo blkid 编辑/etc/fstab文件: sudo vim /etc/fstab 在最后一行添加如下一行信息: UUID=A248CF46 ...
SSH框架整合，启动Tomcat报错：Unable to load configuration
报错信息: 严重: Dispatcher initialization failed Unable to load configuration. - bean - file:/E:/MIKEY/mik ...
【剑指Offer面试编程题】题目1355：扑克牌顺子--九度OJ
题目描述: LL今天心情特别好,因为他去买了一副扑克牌,发现里面居然有2个大王,2个小王(一副牌原本是54张^_^)...他随机从中抽出了5张牌,想测测自己的手气,看看能不能抽到顺子,如果抽到的话,他 ...
【转载】使用阿里云code和git管理项目
使用代码云托管和git来管理项目可以使多客户端和多人开发更加高效.通过对比github,bitbucket和国内一些云托管服务发现阿里云在项目空间和传输速度及稳定性上更能满足公司开发的要求.本文将介绍 ...
myBatis mapper接口方法重载问题
在mybatis框架中,写dao层的mapper接口时,是不可以进行方法的重载的,下面是截图证明: 当mapper接口中有方法的重载时,会出现异常, 这是mapper接口中定义的两个方法,进行 ...
HackerOne去年发放超过8200万美元的赏金，联邦政府参与度大幅上涨
2019年,由黑客驱动的漏洞赏金平台HackerOne支付的漏洞奖金几乎是前几年总和的两倍,达到8200万美元. HackerOne平台在2019年也将注册黑客数量翻了一番,超过了60万,同时全年收到 ...
Docker如何使用nginx搭建tomcat集群
首先创建tomcat的文件夹 , 为了方便docker的配置我这里直接在根目录中创建第一步:创建文件夹:发布文件夹 mkdir -p /docker/tomcat/webapp8081 mkdir ...
141、Java内部类之实例化外部类对象
01. 代码如下: package TIANPAN; class Outer { // 外部类 private static String msg = "Hello World !" ...
Linux系统需要关闭的安全防护
1.关闭网络管理我们一般在开发时都会将它关闭掉,因为它在做集群的时候,可能会劫持 systemctl status NetworkManager systemctl stop NetworkMana ...
js 动画提示数据有变化
let groupZiArray = $.....; for (let i = 1; i < groupZiArray.length; i++) { let $groupZi = $(group ...

python merge、join、concat用法与区别

python merge、join、concat用法与区别的更多相关文章

随机推荐

热门专题