一、pd.merge()

pd.merge()的常用参数
参数 说明
left 参与合并的左侧DataFrame
right 参与合并的右侧DataFrame
how

如何合并。值为{'left','right','outer','inner'},默认为'inner'

left: 仅保留左侧DataFrame中存在的键

right:仅保留右侧DataFrame中存在的键

outer:保留左右DataFrame键的交集

inner:保留左右DataFrame键的并集

on 用于连接的列名,默认是两个DataFrame重叠的列
left_on 左侧DataFrame中用作连接键的列
right_on 右侧DataFrame中用作连接键的列
left_index {True,False},将左侧的行索引用作其连接键
right_index {True,False},将右侧的行做引用作其连接键
suffixes 字符串值元组,用于追加到重叠列名的后缀,默认为('_x','_y')

(1)先创建两个DataFrame

>>> left = pd.DataFrame({'姓名':['张某','李某','段某'],'年龄':[22,26,24]})
>>> left
姓名 年龄
0 张某 22
1 李某 26
2 段某 24 >>> right = pd.DataFrame({'姓名':['张某','李某','钱某'],'籍贯':['北京','河北','江苏']})
>>> right
姓名 籍贯
0 张某 北京
1 李某 河北
2 钱某 江苏

(2)在默认情况下,将重叠列当做键,也可通过参数on指定;

>>> pd.merge(left,right)
姓名 年龄 籍贯
0 张某 22 北京
1 李某 26 河北 #通过参数on指定
>>> pd.merge(left,right,on='姓名')
姓名 年龄 籍贯
0 张某 22 北京
1 李某 26 河北

(3)融合指标变量indicator,设置indicator的值为True,则融合结果中将增加列名为"_merge"的一列,其值代表不同含义:

取值 说明
left_only 融合的键仅在左侧的DataFrame中存在
right_only 融合的键仅在右侧的DataFrame中存在
both 融合的键在左右两侧的DataFrame中均存在
>>> pd.merge(left,right,on='姓名',how='outer',indicator=True)
姓名 年龄 籍贯 _merge
0 张某 22.0 北京 both
1 李某 26.0 河北 both
2 段某 24.0 NaN left_only
3 钱某 NaN 江苏 right_only

  indicator也可以接受字符串,生成的指标列的列名将由”_merge“变为该字符串:

>>> pd.merge(left,right,on='姓名',how='outer',indicator='indicator_column')
姓名 年龄 籍贯 indicator_column
0 张某 22.0 北京 both
1 李某 26.0 河北 both
2 段某 24.0 NaN left_only
3 钱某 NaN 江苏 right_only

(4)索引与列进行融合

注:left的索引和right中的某一列均为“姓名”,现在需要根据姓名进行融合

>>> left = pd.DataFrame({'年龄':[22,26,24]},index=['张某','李某','段某'])
>>> left
年龄
张某 22
李某 26
段某 24
>>> left.index.name='姓名'
>>> left
年龄
姓名
张某 22
李某 26
段某 24 >>> right = pd.DataFrame({'姓名':['张某','李某','钱某'],'籍贯':['北京','河北','江苏']})
>>> right
姓名 籍贯
0 张某 北京
1 李某 河北
2 钱某 江苏 #其中,left的索引和right中的某一列均为“姓名”,现在需要根据姓名进行融合
>>> pd.merge(left,right,how='outer',left_index=True,right_on='姓名')
年龄 姓名 籍贯
0 22.0 张某 北京
1 26.0 李某 河北
2 24.0 段某 NaN
2 NaN 钱某 江苏

(5)索引与索引的融合

left和right的索引均为‘姓名’,现进行融合

>>> left = pd.DataFrame({'年龄':[22,26,24]},index=['张某','李某','段某'])
>>> left.index.name='姓名'
>>> right = pd.DataFrame({'籍贯':['北京','河北','江苏']},index=['张某','李某','钱某'])
>>> right.index.name='姓名'
>>> left
年龄
姓名
张某 22
李某 26
段某 24
>>> right
籍贯
姓名
张某 北京
李某 河北
钱某 江苏 #left和right的索引均为‘姓名’,现进行融合
>>> pd.merge(left,right,how='outer',left_index=True,right_index=True)
年龄 籍贯
姓名
张某 22.0 北京
李某 26.0 河北
段某 24.0 NaN
钱某 NaN 江苏

二、join()

join()函数相对于pd.merge()而言是一种更为简便的实现方式

(1)对于索引与列的融合,需要设置on参数,来指明左键

注意:此时on的值应该是具体的列,而不是索引,索引此时的实体(即join左边的对象应该是包含“姓名”列的DataFrame)

>>> left
年龄
姓名
张某 22
李某 26
段某 24
>>> right
姓名 籍贯
0 张某 北京
1 李某 河北
2 钱某 江苏 #注意:此时on的值应该是具体的列,而不是索引,索引此时的实体(即join左边的对象应该是包含“姓名”列的DataFrame)
>>> right.join(left,on='姓名')
姓名 籍贯 年龄
0 张某 北京 22.0
1 李某 河北 26.0
2 钱某 江苏 NaN

(2)索引与索引的融合

相当于>>>pd.merge(left,right,how='outer',left_index=True,right_on='姓名')

>>> left
年龄
姓名
张某 22
李某 26
段某 24
>>> right
籍贯
姓名
张某 北京
李某 河北
钱某 江苏 >>> left.join(right,how='outer')
年龄 籍贯
姓名
张某 22.0 北京
李某 26.0 河北
段某 24.0 NaN
钱某 NaN 江苏

三、combine_first()

  由于数据融合是有一种常见的现象,即:需要根据一个DataFrame对象中的值为另一个DataFrame中的值做缺失值处理;

于是combine_first()应运而生,该方法实现了用参数对象中的数据为调用者对象的缺失数据“打补丁”,且会自动对其索引。

>>> left = pd.DataFrame({'姓名':['张某','李某','段某'],'年龄':[22,26,24]})
>>> right = pd.DataFrame({'姓名':['张某','李某','段某'],'年龄':[22,np.nan,np.nan],'籍贯':['北京','河北','江苏']}) #根据left中的值去填补right中的值
>>> right.combine_first(left)
姓名 年龄 籍贯
0 张某 22.0 北京
1 李某 26.0 河北
2 段某 24.0 江苏

  

10-Pandas之数据融合(pd.merge()、df.join()、df.combine_first()详解)的更多相关文章

  1. 如何用R来处理数据表的长宽转换(图文详解)

    不多说,直接上干货! 很多地方都需用到这个知识点,比如Tableau里.   通常可以采取如python 和 r来作为数据处理的前期. Tableau学习系列之Tableau如何通过数据透视表方式读取 ...

  2. legend3---Windows 7/8/10 系统下Laravel框架的开发环境安装及部署详解(Vagrant + Homestead)

    legend3---Windows 7/8/10 系统下Laravel框架的开发环境安装及部署详解(Vagrant + Homestead) 一.总结 一句话总结: 1.安装的话就是下载好git,va ...

  3. df 和 du 命令详解

    df命令详细用法 a:显示全部的档案系统和各分割区的磁盘使用情形 i:显示i -nodes的使用量 k:大小用k来表示 (默认值) t:显示某一个档案系统的所有分割区磁盘使用量 x:显示不是某一个档案 ...

  4. 如何用Python来处理数据表的长宽转换(图文详解)

    不多说,直接上干货! 很多地方都需用到这个知识点,比如Tableau里.   通常可以采取如python 和 r来作为数据处理的前期. Tableau学习系列之Tableau如何通过数据透视表方式读取 ...

  5. 大数据学习笔记——Spark工作机制以及API详解

    Spark工作机制以及API详解 本篇文章将会承接上篇关于如何部署Spark分布式集群的博客,会先对RDD编程中常见的API进行一个整理,接着再结合源代码以及注释详细地解读spark的作业提交流程,调 ...

  6. linux超级块和inode 详解 和 df 、du 命令详解与环境变量

    一.inode块,Unix文件的核心. 首先需要明白的是,在Unix操作系统中的任何资源都被当作文件来管理.如目录.光驱.终端设备等等,都被当作是一种文件.从这方面来说,Unix操作系统中的所有的目录 ...

  7. 大数据学习系列之五 ----- Hive整合HBase图文详解

    引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...

  8. Windows 7/8/10 系统下Laravel框架的开发环境安装及部署详解(Vagrant + Homestead)

    注意! laravel/homestead box项目地址已经不再是原来的 https://atlas.hashicorp.com/laravel/boxes/homestead 而已经变更成 htt ...

  9. 2018.10.7 理解Hibernate的工作原理及其中的ORM详解

    复习 hibernate框架 简介j及其搭建: hibernate是一个开源框架,它是对象关联关系映射的框架,它对JDBC做了轻量级的封装,而我们java程序员可以使用面向对象的思想来操纵数据库. 1 ...

随机推荐

  1. JasperReport报表中输出Excel时,部分列不显示的问题

    JasperReport开源报表功能强大,是我们WEB系统中做报表开发的一个强有力的工具,上手也比较简单.我碰到的问题是进行报表输出时,在html网页中显示正常,但如果导出为Excel时,部分列不显示 ...

  2. 飞越面试官(三)--JVM

    大家好!我是本公众号唯一官方指定没头屑的小便--怕屁林.   JVM,全称Java Virtual Machine,作为执行Java程序的容器,几乎代理了Java内存与服务器内存的交互,可以说是程序拥 ...

  3. 「MoreThanJava」Day 1:环境搭建和程序基本结构元素

    「MoreThanJava」 宣扬的是 「学习,不止 CODE」,本系列 Java 基础教程是自己在结合各方面的知识之后,对 Java 基础的一个总回顾,旨在 「帮助新朋友快速高质量的学习」. 当然 ...

  4. Spring IoC 属性赋值阶段

    前言 本系列全部基于 Spring 5.2.2.BUILD-SNAPSHOT 版本.因为 Spring 整个体系太过于庞大,所以只会进行关键部分的源码解析. 本篇文章主要介绍 Spring IoC 容 ...

  5. 网页不让用户复制方法总汇,设置html禁止选择,保护源码,js禁止复制文字

    这篇文章主要讲解:右键复制失效方法.菜单"文件"-"另存为"失效方法.防止查看源代码进行复制的方法.防止页面缓存的方法.来达到一定的代码保护效果 右键复制失效方 ...

  6. Flv.js文档使用随记

    关键字:Flv.js | Flv js | Flv-js | HTML5 FLV Player | 0x001: 前言以下涉及到 flv.js 所有内容均是V1.5.0版本内的,如方法.属性.常量.监 ...

  7. python学习笔记之装饰器、生成器、内置函数、json(五)

    一.装饰器 装饰器,这个器就是函数的意思,连起来,就是装饰函数,装饰器本身也是一个函数,它的作用是用来给其他函数添加新功能比如说,我以前写了很多代码,系统已经上线了,但是性能比较不好,现在想把程序里面 ...

  8. 从零开始学Electron笔记(四)

    在之前的文章我们介绍了一下Electron的这个remote模块,接下来我们继续说一下Electron的右键菜单的制作. 在我们日常我们使用的软件中都会存在右键菜单的情况,比如我们用到的浏览器,开发所 ...

  9. .Net Core 2.2升级3.1的避坑指南

    写在前面 微软在更新.Net Core版本的时候,动作往往很大,使得每次更新版本的时候都得小心翼翼,坑实在是太多.往往是悄咪咪的移除了某项功能或者组件,或者不在支持XX方法,这就很花时间去找回需要的东 ...

  10. Scala 基础(十三):Scala 模式匹配(一)

    1 match 应用案例 Scala的模式匹配 案例代码完整: package com.atguigu.base object MatchDemo { def main(args: Array[Str ...