【软件分析与挖掘】A Comparative Study of Supervised Learning Algorithms for Re-opened Bug Prediction

摘要：

本文主要是评估多种监督机器学习算法的有效性，这些算法用于判断一个错误报告是否是reopened的，算法如下：

7种监督学习算法：kNN,SVM, SimpleLogistic,Bayesian Network, Decision Table, CARTand LWL；

3种集成学习算法： AdaBoost,Bagging and Random Forest。

实验结果表明：

评判的指标：accuracy scores和 F-Measure scores

Bagging and Decision Table取得了比较好的性能。

S1 Introduction

一个典型的错误修复通常包括4个阶段：(以Bugzilla为例)

检测到软件中的一个bug，发布一个bug report，状态标记为“new”；
bug triager指派每一个bug到与之相应的开发者，状态标记为“assigned”；
开发者阅读bug report，验证是否是一个bug，若是，则修复它，状态标记为“verified”；
若不是一个bug，或已修复完毕，则bug triager会关闭这个bug，状态标记为“closed”。

然而，很多时候，一个bug必须被重新开放，因为：

检测到bug时并没有提供大量的信息，导致开发者对bug的真正原因判断不准确；
尽管在先前的系统中已被修复，bug又重新出现在当前版本的系统中。

重新开放的bug修复起来更加耗时，成本越高，因为开发者必须重新审视问题。

S2 总体框架

由上图可以看到，有两个阶段：1）训练阶段；2）测试阶段。

在特征提取的过程中，把特征分类四类：

以下是算法中一些参数的设定：

S3 实验结果

数据集用的是之前Shihab所使用的，其中包含1530个bug report，其中246个为reopened。

使用十折交叉验证的方法，对数据集进行处理。

指标也和Shihab的相同： accuracy, re-opened precision (Precision(re)), reopened recall (Recall(re)),reopened F-Measure ((F-Measure(re)),

not reopened precision(Precision(nre)), not reopened recall (Recall(nre)), and not reopened F-measure (F-Measure(nre)).

这10种算法统一用weka实现。

主要的问题：

10种算法性能差异；

2. 集成学习算法的性能是否优于非集成学习算法？

结论表明，并没有直接关系。

S5 结论与未来工作方向

本文中算法都只采用唯一的参数，以后要尝试修改参数，来进行比较。

【软件分析与挖掘】A Comparative Study of Supervised Learning Algorithms for Re-opened Bug Prediction的更多相关文章

【软件分析与挖掘】ELBlocker: Predicting blocking bugs with ensemble imbalance learning
摘要: 提出一种方法——ELBlocker,用于自动检测出Blocking Bugs(prevent other bugs from being ﬁxed). 难度在于这些Blocking Bugs仅 ...
【软件分析与挖掘】An Empirical Study of Bugs in Build Process
摘要对软件构建过程中所产生的错误(build process bugs)进行实证研究. 5个开源项目:CXF, Camel, Felix,Struts, and Tuscany. 把build pr ...
【软件分析与挖掘】Vision of Software Clone Management: Past, Present, and Future (Keynote Paper)
abstract: 代码克隆的综述 S1 INTRODUCTION AND MOTIVATION 代码克隆的利弊: 利:可以有效地去耦合,避免其他一些可能的错误: 弊:当被复制的那段code中带 ...
【软件分析与挖掘】Multiple kernel ensemble learning for software defect prediction
摘要: 利用软件中的历史缺陷数据来建立分类器,进行软件缺陷的检测. 多核学习(Multiple kernel learning):把历史缺陷数据映射到高维特征空间,使得数据能够更好地表达: 集成学习( ...
【软件分析与挖掘】BOAT: An Experimental Platform for Researchers to Comparatively and Reproducibly Evaluate Bug Localization Techniques
摘要: 目前有许多的bug定位技术,但是,由于他们基于不同的数据集,而且有些数据集还不是公开的,甚至有些技术只应用于小数据集,不具有通用性,因此,不好比较这些技术之间的优劣. 因此,BOAT应运而生. ...
第二次作业-Steam软件分析
1 .介绍产品相关信息随着电子音频游戏产业的发展以及正版意识的崛起,Steam已经成为大部分游戏爱好者必备的一款游戏下载平台.这款软件也使得Valve公司从一个游戏制作公司成功扩展业务到一个承揽众多 ...
使用AES加密的勒索类软件分析报告
报告名称: 某勒索类软件分析报告作者: 李东报告更新日期: 样本发现日期: 样本类型: 样本文件大小/被感染文件变化长度: 样本文件MD5 校验值: da4ab5e31793 ...
[软件逆向]实战Mac系统下的软件分析+Mac QQ和微信的防撤回
0x00 一点废话最近因为Mac软件收费的比较多,所以买了几款正版软件,但是有的软件卖的有点贵,买了感觉不值,不买吧,又觉得不方便,用别人的吧,又怕不安全.于是我就买了正版的Hopper Di ...
必应词典手机版(IOS版)与有道词典(IOS版)之软件分析【功能篇】【用户体验篇】
1.序言: 随着手机功能的不断更新和推广,手机应用市场的竞争变得愈发激烈.这次我们选择必应词典和有道词典的苹果客户端作对比,进一步分析这两款词典的客户端在功能和用户体验方面的利弊.这次测评的主要评测人 ...

随机推荐

js手风琴图片切换实现原理及函数分析
关键词: js手风琴 js百叶窗 js百页窗实现原理解读使用两层for循环实现, 第一层有三个功能,分别给第个li: 添加索引预设位置添加事件第二层有两个功能,整理图片位置: 鼠标的li,以 ...
fir.im Weekly - 如果让你重新做一款APP
设想下:如果让你重新做一款 APP ,你会用到哪些开发.设计等资源和工具? 本期的 Weekly 为大家分享了最近不错的 APP 开发资源,大部分是关于 iOS 开发. Android 开发.UI设计 ...
pl/sql死锁oracle
http://jingyan.baidu.com/album/3ea51489eb65b152e61bba8b.html?picindex=2
main方法中声明8种基本数据类型的变量并赋值
main方法中声明8种基本数据类型的变量并赋值 char→ int→ long→ float→ double byte→ short→
JS_Ajax基础
一:Ajax ajax 的全称是Asynchronous(异步) JavaScript and XML 在不刷新页面的情况下从服务器获取,提交数据的一种数据交互方式; 二:Ajax使用步骤概括 //1 ...
实测可用的免费STUN服务器！
实测可用的免费STUN服务器! 以实际ping延迟排序: stun.voipbuster.com 287ms stun.wirlab.net 320ms s1.taraba.net ...
C#中判断一个集合是另外一个集合的子集
有这样的两个集合: string[] bigArr = new string[] { "a", "b", "c" };string[] sm ...
Android中使用自定义View实现下载进度的显示
一般有下载功能的应用都会有这样一个场景,需要一个图标来标识不同的状态.之前在公司的项目中写过一个,今天抽空来整理一下. 一般下载都会有这么几种状态:未开始.等待.正在下载.下载结束,当然有时候会有下载 ...
Nginx + FastCgi + Spawn-fcgi + c 的架构
参考: nginx+c/c++ fastcgi:http://www.yis.me/web/2011/11/01/66.htm cgi探索之路:http://github.tiankonguse.co ...
oracle导入导出小记
问题:11.2.0.3.0 导入 11.2.0.2.0 都是oracle 11g ,从0.3.0到0.2.0 报错,以为是版本问题,结果不是采用impdp 导入exp导出的文件会报错所以改为im ...

【软件分析与挖掘】A Comparative Study of Supervised Learning Algorithms for Re-opened Bug Prediction

摘要：

S1 Introduction

S2 总体框架

S3 实验结果

S5 结论与未来工作方向

【软件分析与挖掘】A Comparative Study of Supervised Learning Algorithms for Re-opened Bug Prediction的更多相关文章

随机推荐

热门专题