原创文章,转载请保留出处

最近刚刚忙完Spark 2.2.0的性能测试及Bug修复,社区又要发布2.1.2了,国庆期间刚好有空,过了一遍2.1.2的相关JIRA,发现有不少重要修复2.2.0也能用上,接下来需要将有用的PR合到我们内部维护的2.2.0分支上了。

经常有朋友问我是怎么把社区的PR合到自己分支上的,我之前跟他们介绍的做法是基于PR拉分支,在IDEA中单个文件diff合并。如果是偶尔合下社区代码,这种方式也不算太费事。但是如果PR中改动的文件较多,或者要合并多个PR过来,这种方式也挺麻烦。

废话到此,这篇文章是介绍,如何高效地合并Spark社区PR到自己维护的分支(常说的打Patch),当然,针对其他开源项目,该方法同样适用。

PR:Pull Request是GitHub上的一个功能,开源代码的贡献者,通过发起一个Pull Request向社区贡献代码。

准备Spark代码

一般来说,自己维护一套Spark代码,需要Fork下社区项目,在clone自己Fork的代码,进行开发。我这里以Spark 2.2.0为例。

  1. clone自己Fork的仓库到本地

    # stanzhai是我的GitHub账号,大家需要换成自己的仓库地址
    git clone https://github.com/stanzhai/spark.git
    cd spark
  2. 添加一个名为upstream的远程仓库指向社区的版本库

    git remote add upstream https://github.com/apache/spark.git
  3. 设置PR引用,编辑git配置vi .git/config,找到upstream,添加最后一行fetch

    [remote "upstream"]
    url = https://github.com/apache/spark.git
    fetch = +refs/heads/*:refs/remotes/upstream/*
    fetch = +refs/pull/*/head:refs/remotes/upstream/pr/* # 注意添加这行
  4. 同步远端库,更新分支引用(每次合并前都需要执行)

    git remote update
  5. checkout一个2.2.0的维护分支

    git checkout -b my-2.2.0 v2.2.0

我们创建了一个基于2.2.0的my-2.2.0分支,下面的示例是将社区PR合并到my-2.2.0分支中。

提交给社区的PR大致分为2类:

  1. PR被接受,且被合并到社区的仓库
  2. PR没有合并到社区仓库,(代码没问题,有可能commiter还没来得及处理)

整合已被社区合并的PR

被合并到社区的PR已经做了rebase处理,对于这种PR,合并到自己的分支中是非常简单的事情,直接使用git的cherry-pick就可以搞定。

我们以这个卡片为例:https://issues.apache.org/jira/browse/SPARK-22083

这个卡片被标记为resolved,而且PR也被合到社区仓库了:https://github.com/apache/spark/pull/19311,我们打开这个链接,到页面下方,找到这个位置:

打开后,会跳转到这个地址:https://github.com/apache/spark/commit/2c5b9b1173c23f6ca8890817a9a35dc7557b0776,地址中后面的一长串就是我们需要的commit-id,得到这个就可以直接合并代码了:

git remote update
git cherry-pick 2c5b9b1173c23f6ca8890817a9a35dc7557b0776

执行完,提示以下信息就表示合并成功了:

➜  spark git:(my-2.2.0) ✗ git cherry-pick 2c5b9b1173c23f6ca8890817a9a35dc7557b0776
[my-2.2.0 529f5ea55ff] [SPARK-22083][CORE] Release locks in MemoryStore.evictBlocksToFreeSpace
Author: Imran Rashid <irashid@cloudera.com>
Date: Mon Sep 25 12:02:30 2017 -0700
2 files changed, 153 insertions(+), 13 deletions(-)

如果合并的代码恰好也被你改过了,那么有可能会出现冲突,这种情况正常解决冲突,然后git commit就可以了。

整合尚未合并到社区的PR

由于一个PR可能包含多次提交,整合未合并到社区的PR就比较麻烦了。Spark的主干代码每天都有变动,直接对比两个不同的分支变动通常会比较大,我们需要将PR中n次提交的代码的所有变更梳理出来,然后在做整合。

我们以这个PR为例:https://github.com/apache/spark/pull/19301,这个PR实现上还有待改进,但可以正常工作,因此还没合入社区,我们将这个PR合并到my-2.2.0分支,需要进行以下操作:

# 更新远程仓库及版本引用信息
git remote update # 基于某个PR创建一个分支,这里的19301是这个PR在GitHub上的id
git checkout -b pr-19301 upstream/pr/19301
git checkout pr-19301 # PR分支大都基于master开发,以upstream/master分支为基准,重新apply PR分支上的修改
git rebase upstream/master # 通过diff提取这次PR的patch文件
git diff upstream/master > pr-19301.patch # 到目标分支打patch
git checkout my-2.2.0
git apply --reject pr-19301.patch # 查看上一步apply的状态
git status
# apply有可能会不成功,尚未apply的patch被存放到*.rej文件中,需要手动处理,最后提交即可
git commit -a # 清理
rm pr-19301.patch
rm *.rej
git branch -D pr-19301

参考

最后

上述方法不能保证合PR 100%成功,原则上你的分支和社区代码约近,冲突越少,越容易处理。Spark 2.x的代码有很大的变动,把针对2.x的PR打到1.6的分支上,往往是个麻烦事。

文章首发自知乎专栏:Spark大数据技术,专注大数据、Spark相关技术,欢迎关注。

据说看完这篇文章给个赞的同学,打Patch都不会遇到冲突 (≧▽≦)/

合并Spark社区代码的正确姿势的更多相关文章

  1. vs加调试代码的正确姿势

    为了方便,我们会在系统中加入一些调试代码,比如自动登录,这样会省掉很多精力时间,但用的姿势不对, 第一重姿势:打包注释 我看一些人在vs中加调试代码(比如自动登录),然后打包的时候注释掉,这样操作是省 ...

  2. 【Git】Git提交代码的正确姿势

    按此步骤基本没问题,中间有conflict,需要手动解决. 1.git stash 2.git pull 3.git stash pop 4.git add --xxx 5.git commit -m ...

  3. Git提交代码的正确姿势

    按此步骤基本没问题,中间有conflict,需要手动解决. 1.git stash 2.git pull 3.git stash pop 4.git add --xxx 5.git commit -m ...

  4. 如何往Spark社区做贡献,贡献代码

    随着社区正在努力准备Apache Spark的下一版本3.0,您可能会问自己“我如何参与其中?”.现在的Spark代码已经很庞大,因此很难知道如何开始自己做出贡献.Spark PMC & Co ...

  5. 开发函数计算的正确姿势 —— 使用 Fun Local 本地运行与调试

    前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传.函数计算 ...

  6. windows系统下npm升级的正确姿势以及原理

    本文来自网易云社区 作者:陈观喜 网上关于npm升级很多方法多种多样,但是在windows系统下不是每种方法都会正确升级.其中在windows系统下主要的升级方法有以下三种: 首先最暴力的方法删掉no ...

  7. 剖析和解决Python中网络粘包的正确姿势

    目录 1.粘包及其成因 1.1.粘包产生 1.2.粘包产生的原因 2.尝试解决粘包 2.1.指定数据包的长度 2.2.固定数据包的长度 2.3.用函数实现多次调用发送数据 3.解决粘包问题的正确姿势 ...

  8. Git 提交的正确姿势

    Git 提交的正确姿势:Commit message 编写指南 SCOP范围 middleware core config plugin test type范围 Git 每次提交代码,都要写 Comm ...

  9. [Python]判断序列是否为空的正确姿势

    本篇文章起源于StackOverflow上一个热度非常高的问题: 我该如何判断一个Python列表是否为空? @Ray Vega (提问者) 举例说明,现在我得到了如下代码: a = [] 我如何该检 ...

随机推荐

  1. hdu 2066 最短路水题

    题意:给出多个可选择的起始点和终点,求最短路 思路:执行起始点次的spfa即可 代码: #include<iostream> #include<cstdio> #include ...

  2. 【★】SPF(Dijkstra)算法完美教程

  3. ps图层面板上的【透明度】与【填充】的区别

    为文字添加投影,分别调图层面板上的[透明度]与[填充]的值你就知道区别了. 如上图降低填充的数值,结果只对文字颜色有影响却对投影毫无影响. 而如上图,调整不透明度的时候对文字颜色与投影均产生效果. 这 ...

  4. Swing-JSlider用法-入门

    JSlider是Swing中的滑块控件,在交互过程中用户可拖动它来实现数值的调整.它具有3个基本参数,分别为:最小值.最大值和初始值,如果不指定数值,则默认值分别为:0,100,50.滑块的值发生改变 ...

  5. 201521123108 《Java程序设计》第4周学习总结

    1. 本章学习总结 2. 书面作业 Q1. 注释的应用 使用类的注释与方法的注释为前面编写的类与方法进行注释,并在Eclipse中查看.(截图) 答: Q2. 面向对象设计(大作业1-非常重要) 2. ...

  6. 201521123044 《Java程序设计》第13周学习总结

    1. 本章学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 2. 书面作业 1.网络基础 1.1 比较ping www.baidu.com与ping cec.jmu.ed ...

  7. 201521123049 《JAVA程序设计》 第13周学习总结

    1. 本周学习总结 以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 书面作业 1. 网络基础 1.1 比较ping www.baidu.com与ping cec.jmu ...

  8. 201521123066 《Java程序设计》第十一周学习总结

    1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 2. 书面作业 1.互斥访问与同步访问 完成题集4-4(互斥访问)与4-5(同步访问) 1.1 除了使用synch ...

  9. 下载安装ActiveMQ(消息队列)

    安装步骤: 第一步.安装jdk环境,因为ActiveMQ是使用java语言编写. 第二步.将下载好的activemq压缩包上传至Linux系统,进行解压. 第三步.进入解压后的bin/目录,进行启动a ...

  10. oracle客户端plsql设置字符集

    感谢一个新朋友的到来,我帮他的过程中有好些东西都不怎么想的起来了,所以从现在起我需要记录下每一点一滴, 因为我觉得写下来的东西才不会丢,而且欢迎以后的朋友到来. 使用plsql查数据的时候有时候中文会 ...