【软件分析与挖掘】An Empirical Study of Bugs in Build Process
摘要
对软件构建过程中所产生的错误(build process bugs)进行实证研究。
5个开源项目:CXF, Camel, Felix,Struts, and Tuscany。
把build process bugs 和 other bugs在3个维度比较:bug severity, bug fix time, the number of files modified to fix a bug。
结论表明,
Ⅰ.the fraction of build process bugs which are above major severity level(严重级别) is lower than that of other bugs.
小部分高于major级别的软件构建过程中的错误数量少于非软件构建过程中的错误数量
Ⅱ.the time effort required to fix a build process bug is around 2.03 times more than that of a non-build process bug.
修复一个软件构建过程中的错误的时间花费是非构建错误的2.03倍
Ⅲ.the number of source files modified to fix a build process bug is around 2.34 times more than that modified for a non-build bug.
修复一个软件构建过程过程中的错误需要改动的源文件数量是非构建错误的2.34倍
S1 Introduction
软件系统生成过程:编译成二进制代码,封装,执行测试样例,静态分析,生成文档,部署产品。
3个研究问题:
- build process bugs 和 non-build bugs的严重级别分布
- 修复build process bugs 和 non-build bugs所花的时间
- 修复build process bugs 和 non-build bugs需要修改多少的源码
S2 METHODOLOGY & BASIC STATISTICS
To collect build process bugs we follow a two step approach: bug report collection and build process bug identification.
Bug Report Collection
5个开源项目,利用JIRA bug tracking systems搜集错误报告:

Build Process Bug Identification
标识Build Process Bug:
- 半自动的分析出哪些report是我们需要的;
- 从这些报告中,手动分析出哪些是构建过程中产生的错误,哪些不是;
由于并非每一个构建阶段的文件都会出现在构建文件中,因此筛选到最后,left with 3,205 bug reports (642, 836, 811, 343, and 573 for CXF, Camel, Felix, Struts2, and Tuscany, respectively)。
对于所有的错误报告,人工地去检测它是否是构建过程中出现的错误,最后,identified 121 build process bugs (27, 33, 12, 11, and 38 for CXF, Camel, Felix, Struts2,
and Tuscany, respectively).
S3 EMPIRICAL STUDY RESULTS 实证研究结果
RQ1:构建过程中的错误的严重分布
JIRA在bug report中指定了5中严重等级:Blocker, Critical, Major, Minor, and Trivial.
发现:
- 无论是构建错误还是非构建错误,他们导致系统严重问题(级别为Blocker和Critical)的错误数量都相对较少;
- 导致系统严重问题(级别为Blocker和Critical)的错误中,构建错误的数量小于非构建错误的数量;
RQ2:BUG修复时间
用两个时间戳来记录fix time
发现:
- To fix a bug, the time effort for a build process bug is around 2.03 times the time required to fix a non-build bug.(构建错误的维护时间是非构建错误的维护时间的2.03倍)
- the mean fix time of bug reports whose severity levels are either Major, Critical, or Blocker is much longer for build process bugs than for other bugs(严重等级在Major, Critical, or Blocker 的构建错误的平均维护时间要比相应的非构建错误的维护时间要长)
RQ3:修改过的源文件的数量
发现:
- the number of source files modified for build process bugs is much more than that of non-build bugs(修复构建错误所需要修改的源文件数量远远多余非构建错误)
- the number of source files modified for bug reports whose severity levels are either Major, Critical, or Blocker is much more for build
process bugs than for other bugs, (严重等级在Major, Critical, or Blocker的构建错误修复所需的源文件数量远远大于非构建错误)
实证研究结果的有效性
由于有些过程是人工检测的,所以难免会有一些错误
【软件分析与挖掘】An Empirical Study of Bugs in Build Process的更多相关文章
- 【软件分析与挖掘】ELBlocker: Predicting blocking bugs with ensemble imbalance learning
摘要: 提出一种方法——ELBlocker,用于自动检测出Blocking Bugs(prevent other bugs from being fixed). 难度在于这些Blocking Bugs仅 ...
- 【软件分析与挖掘】A Comparative Study of Supervised Learning Algorithms for Re-opened Bug Prediction
摘要: 本文主要是评估多种监督机器学习算法的有效性,这些算法用于判断一个错误报告是否是reopened的,算法如下: 7种监督学习算法:kNN,SVM, SimpleLogistic,Bayesian ...
- 【软件分析与挖掘】Vision of Software Clone Management: Past, Present, and Future (Keynote Paper)
abstract: 代码克隆的综述 S1 INTRODUCTION AND MOTIVATION 代码克隆的利弊: 利:可以有效地去耦合,避免其他一些可能的错误: 弊:当被复制的那段code中带 ...
- 【软件分析与挖掘】Multiple kernel ensemble learning for software defect prediction
摘要: 利用软件中的历史缺陷数据来建立分类器,进行软件缺陷的检测. 多核学习(Multiple kernel learning):把历史缺陷数据映射到高维特征空间,使得数据能够更好地表达: 集成学习( ...
- 【软件分析与挖掘】BOAT: An Experimental Platform for Researchers to Comparatively and Reproducibly Evaluate Bug Localization Techniques
摘要: 目前有许多的bug定位技术,但是,由于他们基于不同的数据集,而且有些数据集还不是公开的,甚至有些技术只应用于小数据集,不具有通用性,因此,不好比较这些技术之间的优劣. 因此,BOAT应运而生. ...
- 第二次作业-Steam软件分析
1 .介绍产品相关信息 随着电子音频游戏产业的发展以及正版意识的崛起,Steam已经成为大部分游戏爱好者必备的一款游戏下载平台.这款软件也使得Valve公司从一个游戏制作公司成功扩展业务到一个承揽众多 ...
- 使用AES加密的勒索类软件分析报告
报告名称: 某勒索类软件分析报告 作者: 李东 报告更新日期: 样本发现日期: 样本类型: 样本文件大小/被感染文件变化长度: 样本文件MD5 校验值: da4ab5e31793 ...
- [软件逆向]实战Mac系统下的软件分析+Mac QQ和微信的防撤回
0x00 一点废话 最近因为Mac软件收费的比较多,所以买了几款正版软件,但是有的软件卖的有点贵,买了感觉不值,不买吧,又觉得不方便,用别人的吧,又怕不安全.于是我就买了正版的Hopper Di ...
- 必应词典手机版(IOS版)与有道词典(IOS版)之软件分析【功能篇】【用户体验篇】
1.序言: 随着手机功能的不断更新和推广,手机应用市场的竞争变得愈发激烈.这次我们选择必应词典和有道词典的苹果客户端作对比,进一步分析这两款词典的客户端在功能和用户体验方面的利弊.这次测评的主要评测人 ...
随机推荐
- nodejs基础 -- 路由
我们要为路由提供请求的URL和其他需要的GET/POST参数,随后路由需要根据这些数据(URL.GET/POST参数)来执行相应的代码. 因此,需要查看HTTP请求,从中提取出请求的URL及GET/P ...
- 工作所用的日常 Git 命令
几乎每个开发人员都在使用 Git,当然很可能是 GitHub.但大多数开发者大概有 99% 的时间只是使用这三个命令: #使用命令git add <file>,将文件添加到暂存区 git ...
- Android 监听屏幕唤醒和关闭的广播
今天希望应用程序的服务运行时,可以监听到屏幕的唤醒.继续百度学习法,连同监听闭幕关闭也一同学习了. 此种情况需要动态注册系统广播.在AndroidManifest.xml中静态注册的实际运行中无效. ...
- lakala反欺诈建模实际应用代码GBDT监督学习
/** * Created by lkl on 2018/1/16. */ import org.apache.spark.mllib.evaluation.BinaryClassificationM ...
- 如何使用 URLOpenStream 函数
URLOpenStream 和 URLDownloadToFile 类似, 都是下载文件的 COM 函数; 前者是下载到 IStream 流, 后者是直接下载到指定路径; 不如后者使用方便. 它们都声 ...
- C语言之Bit-wise Operation和Logical Operation
首先第一点:十六进制位运算和逻辑运算 都是先转化二进制,后输出结果(十六进制,二或十)Bit-Wise Operations (位运算)包括:& 按位与 | 按位或 ^ 按位异或 ~ 取反 & ...
- 浅谈java中"&&"和"&"的区别
“&&”和”&”都是java中的逻辑运算符,并且它们都表示“逻辑与”即“同真则真,有一假则假”,它们的区别在于”&&”具有短路功能,即如果左边是false,则右 ...
- django时区设置(timezone)
django时区设置(timezone): 默认: TIMEZONE:'America/Chicago'(以前的版本,现在的版本默认的都是UTC时间.) Chicago时间,为UTC/GMT -6 小 ...
- Gulp--Less
摘要: 前面分享了一些less的是用方法,包括在grunt中,今天在分享下使用gulp来编译less文件.首先需要安装gulp,如何安装请看文章. 安装插件: gulp编译less使用了gulp-le ...
- OpenVPN多处理之-多队列TUN多实例
两年前我以前提到了多个OpenVPN共享一个tun虚拟网卡,旨在降低管理开销和切换开销,由于我讨厌在外面对一大堆网卡做Bridge或者Bonding,除了初衷不同,其实的关于TUN的进展一直没有偏离我 ...





