海华大赛第一名团队聊比赛经验和心得:AI在垃圾分类中的应用
摘要:为了探究垃圾的智能分类等问题,由中关村海华信息研究院、清华大学交叉信息研究院以及Biendata举办的2020海华AI垃圾分类大赛吸引了大量工程师以及高校学生的参与
01赛题介绍
随着我国经济的发展,城市化进程不断加速,生活垃圾对城市环境的威胁日益增加。如何高效、环保地解决处理生活垃圾迫在眉睫。因此垃圾的智能分类对于智能化分拣垃圾、提高垃圾分拣效率就显得十分重要。为了探究这一问题,由中关村海华信息研究院、清华大学交叉信息研究院以及Biendata举办的2020海华AI垃圾分类大赛吸引了大量工程师以及高校学生的参与。由华为NAIE平台提供的算力支持,也为比赛的顺利开展奠定了基础。该比赛旨在激发更广泛的科研探索热情,挖掘更有价值的算法优化和创新。
02数据分析
我们参与的是该比赛的专业赛道,因此有两种数据集可以使用。一种为单类数据集,共80,000张垃圾图像,每张图像中只有一个类别。此外,还提供了图中唯一对象的边框的信息。多类别数据集包含训练集中的2998张垃圾图像,验证集中的1000张垃圾图像,测试集中的1000张垃圾图像,每幅图像最多包含20个类别。
不同于VOC、COCO、OID等常见的目标数据集,这些数据集具有不同的特点:
1. 对于205个类别,单类垃圾数据集的大小就足够了。然而,这个数据集中的垃圾图像与多类数据集中的垃圾图像有很大的不同,即使是同一类别的垃圾。直接使用该数据集来训练模型可能会导致特征不匹配和性能下降(图1)。

图1:左图为多类数据集中的镜子,右图为单类数据集中的镜子
2. 多类数据集在训练集中只包含2998张垃圾图像。而在125个类别的情况下,该数据量是比较小的,且类别存在不平衡的现象。因此大规模数据集的迁移学习和减少过拟合的技术是非常需要的。
3. 在大多数多类图像中,垃圾密集地堆积在图像的中心,并且形状大小不一。它会导致垃圾相互遮挡,使检测任务更加困难。并且每张图像的背景都比较干净(图2)。

图2:多类数据集图像示例
4. 数据集中存在许多混淆类别的垃圾,导致类别标签的不一致性。人工检查和更正标签可能有帮助,但也可能存在导致数据不匹配的风险(图3)。

图3:左右图为同一类物体,但在多类数据集中
左图被标定为食品塑料盒,而右图被标定为食品外包装盒
03Baseline
为了完成该比赛的任务,我们借鉴了其他大型的目标检测竞赛中的解决方案,如COCO、Objects365和OID。在这些解决方案中,我们借鉴了百度在OID 2019中的解决方案。Baseline模型选用的是基于Class-aware的Cascade R-CNN,且同时使用ResNet200-Vd作为模型的backbone并且加入了FPN、Dcnv2和Non-local方法来提高模型的整体效果。训练使用多尺度训练(480:1440:32)和常见的数据增强方法如水平翻转。
迁移学习可以在小数据集上获得良好的性能,因此在该比赛中使用该方法理论上应当可以取得较好的效果。因此,我们选择了COCO、Objects365和OID混合的预训练模型。具体效果如表1所示。

表1:使用不同预训练参数的Baseline的AP
训练方面,由于庞大的模型以及多尺度训练方法,所以在Tesla V100 上batch size只能设置为1,这里感谢华为NAIE提供的算力支持。使用引用动量的SGD作为训练的优化器。基础学习率设置为0.001,权重衰减速率为0.0001。使用了Cosine annealing with warmup的学习率调度策略,从0.0001的学习率开始,1000次迭代后到达基础学习率。我们训练Baseline进行了120K次迭代,训练时间大约40个小时。
04数据增强方案
为了减少在如此小的数据集上的过拟合,就需要大量的数据扩充。我们尝试了许多数据增强方案,最终发现RandomVerticalFlip、AutoAugment和GridMask能有效提高模型性能。
不同于自然图像,对于垃圾图像,水平翻转和垂直翻转的效果是等同的,因此我们使用了RandomVerticalFlip而并非RandomHorizontalFlip。
并且我们将广泛使用于图像分类中的AutoAugment方法迁移到了目标检测中。实验证明,该方法对各种目标检测数据集都是有效的。并且我们在baseline中尝试了三种不同的自动增强策略(表2),发现AutoAugment v0的效果是最好的,最终我们也使用了它。

表2:不同AutoAugment策略下模型的AP
再者我们使用了GridMask的数据增强方法,该方法包括random erasing、hide-and-seek、Dropout以及DropBlock。实验表明,GridMask可以有效减少目标检测的过拟合。并且使用GridMask长时间训练模型可以显著提高模型性能。在本实验中,我们尝试了不同概率和训练时间下的GridMask。如表3所示,使用GridMask的训练模型需要比baseline更长的训练时间。使用0.3的概率足以减少过拟合,且训练时间越长越好。概率为0.5和0.7甚至会导欠拟合的现象。所以如果以较高的GridMask概率训练超过300K次迭代理论上来说可以进一步提高结果。

表3:不同GridMask概率与迭代次数下模型的AP
05模型融合
在最终提交阶段,我们只能在RTX 2080上测试两个小时,但是模型大小不受限制。所以考虑到这些约束条件,我们训练了仅随机种子不同的6个相同的模型来进行模型融合,且使用了前面提到的所有有效技巧。同时使用了Top-k voting nms对6个模型的检测结果进行合并,设置top-k voting的nms的IoU阈值为0.7,该阈值与Cascade R-CNN第三阶段的IoU阈值一致。
06总结
最终我们在测试集上以0.910的成绩取得了第一名,我们认为我们能够取胜的原因主要有以下几点:
(1)参考了大型目标检测比赛前几名的方案
(2)使用了COCO,Object365以及OIDV5的混合预训练模型
(3)使用了多种数据增强方法
(4)在模型融合中使用了top-k voting nms
最后感谢华为提供的NAIE平台,为比赛训练提供了巨大的帮助,平台功能也十分强大。在我们使用平台遇到问题时,官方都及时地进行了解答和协助,十分的给力。我们也非常荣幸能有这次机会和大家分享这次比赛的历程,谢谢!
海华大赛第一名团队聊比赛经验和心得:AI在垃圾分类中的应用的更多相关文章
- 【干货】Kaggle 数据挖掘比赛经验分享(mark 专业的数据建模过程)
简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 C ...
- Kaggle 数据挖掘比赛经验分享
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 腾讯广告算法大赛 作者 | 陈成龙 Kaggle 于 2010 年创立,专注数据科学,机器学 ...
- Kaggle 数据挖掘比赛经验分享(转)
原作者:陈成龙 简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比 ...
- ACM比赛经验
这篇博客是转别人的,觉得很好,希望能在以后的现场赛中用上:ACM比赛经验 推荐此篇文章打印,与模板放在一起. 1. 比赛中评测会有些慢,偶尔还会碰到隔10分钟以上才返回结果的情况,这段时间不能等结果, ...
- 成功的背后!(给所有IT人)----转载:来自CSDN第一名博主
转载:来自CSDN第一名博主:http://blog.csdn.net/phphot/article/details/2187505 放在这里激励你我! 正文: 成功的背后,有着许多不为人知的故事,而 ...
- Kaggle网站流量预测任务第一名解决方案:从模型到代码详解时序预测
Kaggle网站流量预测任务第一名解决方案:从模型到代码详解时序预测 2017年12月13日 17:39:11 机器之心V 阅读数:5931 近日,Artur Suilin 等人发布了 Kaggl ...
- 教程 | Kaggle网站流量预测任务第一名解决方案:从模型到代码详解时序预测
https://mp.weixin.qq.com/s/JwRXBNmXBaQM2GK6BDRqMw 选自GitHub 作者:Artur Suilin 机器之心编译 参与:蒋思源.路雪.黄小天 近日,A ...
- 一名3年工作经验的java程序员应该具备的职业技能
一名3年工作经验的Java程序员应该具备的技能,这可能是Java程序员们比较关心的内容.我这里要说明一下,以下列举的内容不是都要会的东西—-但是如果你掌握得越多,最终能得到的评价.拿到的薪水势必也越高 ...
- 一名3年工作经验的java程序员应该具备的技能
一名3年工作经验的Java程序员应该具备的技能,这可能是Java程序员们比较关心的内容.我这里要说明一下,以下列举的内容不是都要会的东西—-但是如果你掌握得越多,最终能得到的评价.拿到的薪水势必也越高 ...
随机推荐
- Electricity POJ - 2117 + SPF POJ - 1523 去除割点后求强连通分量个数问题
Electricity POJ - 2117 题目描述 Blackouts and Dark Nights (also known as ACM++) is a company that provid ...
- 从零开始学Electron笔记(一)
前端技术在最近几年迅猛发展,在任何开发领域我们都能看到前端的身影,从PC端到手机端,从APP到小程序,似乎前端已经无所不能,这就要求我们需要不断地去学习来提升自己!前段时间尤大通过直播介绍了一下Vue ...
- 自动化测试平台(Vue前端框架安装配置)
Vue简介: 通俗的来说Vue是前端框架,用来写html的框架,可轻量级也可不轻量级 Vue特性: 绑定性,响应性,实时性,组件性 安装软件以及控件: 控件库:element-ui node.js ( ...
- 一个howdoo的预兆
原文链接:https://medium.com/howdoo/its-an-omen-for-howdoo-b33b831ed936 它是一个预兆.它是刻在墙上的.它不会消失 随着越来越多的人对Fac ...
- Maven 专题(六):Maven核心概念详解(二)
5 仓库 5.1 分类 [1]本地仓库:为当前本机电脑上的所有 Maven 工程服务.[2]远程仓库: (1)私服:架设在当前局域网环境下,为当前局域网范围内的所有 Maven 工程服务 ...
- redis(十六):Redis 安装,部署(LINUX环境下)
第一步:下载安装包 访问https://redis.io/download 到官网进行下载.这里下载最新的4.0版本. 第二步:安装 1.通过远程管理工具,将压缩包拷贝到Linux服务器中,执行解压 ...
- Django之Model、Form、ModelForm区别
本节内容: 1:Model https://www.cnblogs.com/shuai1991/p/10844662.html 2:Form ...
- java.lang.NoSuchMethodError: org.apache.poi.ss.usermodel.CellStyle.setVerticalAlignment(Lorg/apache/poi/ss/usermodel/VerticalAlignment;)V
项目里引入了两个不同的 POI 版本 ,可能是版本冲突引起的. 但是奇怪的是 用Eclipse在本地就失败,在公共测试 环境就是OK的,同事用的 edea 编译器也是OK的. Caused by: j ...
- 软件测试大牛都是这样写测试用例的,你get到了嘛?
1. 用于语句覆盖的基路径法 基路径法保证设计出的测试用例,使程序的每一个可执行语句至少执行一次,即实现语句覆盖.基路径法是理论与应用脱节的典型,基本上没有应用价值,读者稍作了解即可,不必理解和掌握. ...
- Python Hacking Tools - Port Scanner
Socket Programming 1. Scan the target Vulnerable Server. And test it by telnet. 2. Write the scanne ...