为了高效地学习准确的预测框及其分布,论文对Focal loss进行拓展,提出了能够优化连续值目标的Generalized Focal loss,包含Quality Focal loss和Distribution Focal loss两种具体形式。QFL用于学习更好的分类分数和定位质量的联合表示,DFL通过对预测框位置进行general分布建模来提供更多的信息以及准确的预测。从实验结果来看,GFL能够所有one-stage检测算法的性能



来源:晓飞的算法工程笔记 公众号

论文: Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

Introduction


  目前,dense detector(one-stage)是目标检测中的主流方向,论文主要讨论其中的两个做法:

  • 预测框的表示方法(representation):可认为是网络对预测框位置的输出,常规方法将其建模为简单的Dirac delta分布,即直接输出位置结果。而有的方法将其建模为高斯分布,输出均值和方差,分别表示位置结果和位置结果的不确定性,提供额外的信息。

  • 定位质量估计:最近一些研究增加了额外的定位质量预测,比如IoU-Net加入了IoU分数的预测和FCOS加入了centerness分数的预测,最后将定位质量以及分类分数合并为最终分数。

  经过分析,论文发现上述的两个做法存在以下问题:

  • 定位质量估计和分类分数实际不兼容:首先,定位质量估计和分类分数通常是独立训练的,但在推理时却合并使用。其次,定位质量估计只使用正样本点进行训练,导致负样本点可能估计了高定位质量,这种训练和测试的差异会降低检测的性能。
  • 预测框表示方法不够灵活:大多算法将其建模为Dirac delta分布,这种做法没有考虑数据集中的歧义和不确定部分,只知道结果,不知道这个结果靠不靠谱。虽然有的方法将其建模为高斯分布,但高斯分布太简单粗暴了,不能反映预测框的真实分布。

  为了解决上面的两个问题,论文分别提出了解决的策略:

  • 对于定位质量估计,论文将其直接与分类分数进行合并,保留类别向量,每个类别的分数的含义变为与GT的IoU。另外,使用这种方式能够同时对正负样本进行训练,不会再有训练和测试的差异。

  • 对于预测框的表示方法,使用general的分布进行建模,不再强加任何的约束,不仅能够获得可靠和准确的预测结果,还能感知其潜在的真实分布情况。如上图所示,对于存在歧义或不确定的边界,其分布会表现为较平滑的曲线,否则,其分布会表示为尖锐的曲线。

  实际上,使用上述提到的两种策略会面临优化的问题。在常规的one-stage检测算法中,分类分支都使用Focal loss进行优化,而Focal loss主要针对离散的分类标签。在论文将定位质量与分类分数结合后,其输出变为类别相关的连续的IoU分数,不能直接使用Focal loss。所以论文对Focal loss进行拓展,提出了GFL(Generalized Focal Los),能够处理连续值目标的全局优化问题。GFL包含QFL(Quality Focal Los)和DFL( Distribution Focal Los)两种具体形式,QFL用于优化难样本同时预测对应类别的连续值分数,而DFL则通过对预测框位置进行general分布的建模来提供更多的信息以及准确的位置预测。

  总体而言,GFL有以下优点:

  • 消除额外的质量估计分支在训练和测试时的差异,提出简单且高效的联合预测策略。
  • 很好地对预测框的真实分布进行灵活建模,提供更多的信息以及准确的位置预测。
  • 在引入额外开销的情况下,能够提升所有one-stage检测算法的性能。

Method


Focal Loss (FL)

  FL主要用于解决one-stage目标检测算法中的正负样本不平衡问题:

  包含标准的交叉熵部分\(-log(p_t)\)以及缩放因子部分\((1-p_t)^{\gamma}\),缩放因子会自动将容易样本降权,让训练集中于难样本。

Quality Focal Loss (QFL)

  由于FL仅支持离散标签,为了将其思想应用到分类与定位质量结合的连续标签,对其进行了扩展。首先将交叉熵部分\(-log(p_t)\)扩展为完整形式\(-((1-y)log(1-\sigma) + y\ log(\sigma))\),其次将缩放因子\((1-p_t)^{\gamma}\)泛化为预测值\(\sigma\)与连续标签\(y\)的绝对差值\(|y-\sigma|^{\beta}\),将其组合得到QFL:

  \(\sigma=y\)为QFL的全局最小解。

  缩放因子的超参数\(\beta\)用于控制降权的速率,表现如上图所示,假定目标连续标签\(y=0.5\),距离标签越远产生的权重越大,反之则趋向于0,跟FL类似。

Distribution Focal Loss (DFL)

  论文跟其它one-stage检测算法一样,将当前位置到目标边界的距离作为回归目标。常规的方法将回归目标\(y\)建模为Dirac delta分布,Dirac delta分布满足\(\int^{+\infty}_{-\infty}\delta(x-y)dx=1\),可通过积分的形式求得标签\(y\):

  如前面说到的,这种方法没有体现预测框的真实分布,不能提供更多的信息,所以论文打算将其表示为general的分布\(P(x)\)。给定标签\(y\)的取值范围\([y_0, y_n]\),可像Dirac delta分布那样从建模的genreal分布得到预测值\(\hat{y}\):

  为了与神经网络兼容,将连续区域\([y_0, y_n]\)的积分变为离散区域\(\{y_0, y_1, \cdots, y_i, y_{i+1}, \cdots, y_{n-1}, y_n \}\)的积分,离散区域的间隔\(\Delta=1\),预测值\(\hat{y}\)可表示为:

  \(P(x)\)可通过softmax操作\(\mathcal{S}(\cdot)\)获得,标记为\(\mathcal{S}_i\),预测值\(\hat{y}\)可使用常规的方法进行后续的end-to-end学习,比如Smooth L1、IoU loss和GIoU Loss。

  但实际上,同一个积分结果\(y\)可由多种不同分布所得,会降低网络学习的效率。考虑到更多的分布应该集中于回归目标\(y\)的附近,论文提出DFL来强制网络提高最接近\(y\)的\(y_i\)和\(y_{i+1}\)的概率,由于回归预测不涉及正负样本不平衡的问题,所以DFL仅需要交叉熵部分:

  DFL的全局最优解为\(\mathcal{S}_i=\frac{y_{i+1}-y}{y_{i+1}-y_i}\),\(\mathcal{S}_{i+1}=\frac{y - y_i}{y_{i+1}-y_i}\),使得\(\hat{y}\)无限接近于标签\(y\)。

Generalized Focal Loss (GFL)

  QFL和DFL可统一地表示为GFL,假定值\(y_l\)和\(y_r\)的预测概率分别为\(p_{y_l}\)和\(p_{y_r}\),最终的预测结果为\(\hat{y}=y_l p_{y_l}+y_r p_{y_r}\),GT标签为\(y\),满足\(y_l \le y \le y_r\),将\(|y-\hat{y}|^{\beta}\)作为缩放因子,GFL的公式为:

  GFL的全局最优在\(p^{*}_{y_l}=\frac{y_r-y}{y_r-y_l}\),\(p^{*}_{y_r}=\frac{y-y_l}{y_r-y_l}\)。

  FL、QFL和DFL均可认为是GFL的特殊情况。使用GFL后,与原来的方法相比有以下不同:

  • 分类分支的输出直接用于NMS,不用再进行两分支输出合并的操作
  • 回归分支对预测框的每个位置的预测,从原来的输出单个值变为输出\(n+1\)个值

  在使用GFL后,网络损失\(\mathcal{L}\)变为:

  \(\mathcal{L}_{\mathcal{B}}\)为GIoU损失

Experiment


  性能对比。

  对比实验。

  基于ATSS与SOTA算法进行对比。

Conclusion


  为了高效地学习准确的预测框及其分布,论文对Focal loss进行拓展,提出了能够优化连续值目标的Generalized Focal loss,包含Quality Focal loss和Distribution Focal loss两种具体形式。QFL用于学习更好的分类分数和定位质量的联合表示,DFL通过对预测框位置进行general分布建模来提供更多的信息以及准确的预测。从实验结果来看,GFL能够所有one-stage检测算法的性能。





如果本文对你有帮助,麻烦点个赞或在看呗~

更多内容请关注 微信公众号【晓飞的算法工程笔记】

Generalized Focal Loss:Focal loss魔改以及预测框概率分布,保涨点 | NeurIPS 2020的更多相关文章

  1. Bert文本分类实践(二):魔改Bert,融合TextCNN的新思路

    写在前面 ​ 文本分类是nlp中一个非常重要的任务,也是非常适合入坑nlp的第一个完整项目.虽然文本分类看似简单,但里面的门道好多好多,博主水平有限,只能将平时用到的方法和trick在此做个记录和分享 ...

  2. 魔改——MDI多视图模板Tab/标签页 初始化/操作控件

    ==================================声明================================== 本文原创,转载在正文中显要的注明作者和出处,并保证文章的完 ...

  3. 魔改——MFC SDI程序 转换为 MDI程序

    ==================================声明================================== 本文原创,转载在正文中显要的注明作者和出处,并保证文章的完 ...

  4. 魔改——MFC MDI程序 定制 文档模板 运行时全部打开 禁用关闭按钮

    ==================================声明================================== 本文原创,转载在正文中显要的注明作者和出处,并保证文章的完 ...

  5. L1 loss, L2 loss以及Smooth L1 Loss的对比

    总结对比下\(L_1\) 损失函数,\(L_2\) 损失函数以及\(\text{Smooth} L_1\) 损失函数的优缺点. 均方误差MSE (\(L_2\) Loss) 均方误差(Mean Squ ...

  6. 【题解】BZOJ4241: 历史研究(魔改莫队)

    [题解]BZOJ4241: 历史研究(魔改莫队) 真的是好题啊 题意 给你一个序列和很多组询问(可以离线),问你这个区间中\(\max\){元素出现个数\(\times\)元素权值} IOI国历史研究 ...

  7. Asp.Net Core Identity 骚断腿的究极魔改实体类

    前言 默认的 Identity 实体类型在大多数时候已经基本够用,很多时候也只是稍微在 IdentityUser 类中增加一些自定义数据字段,比如头像.这次,我要向园友隆重介绍我魔改之后的 Ident ...

  8. 你没有见过的【高恪】船新版本(SX3000 NAT1 X86魔改)

    最近魔改了高恪SX3000 X86,做了如下更改: 开启了SSH 集成了插件(酸酸乳.V2RXY.SMB等等) 开启了NAT1 DIY了主题 精简了官方内置的无用应用和模块 截图(建议右击图片,在新标 ...

  9. [7b2美化]柒比贰 魔改系列|7B2-分类封面添加波浪效果&每日诗词

    本文转载自:钻芒博客 https://www.zmki.cn/5105.html 效果如图: 代码: 首先在style.css样式表里添加波浪样式 /*浪来了*/ .lang { overflow: ...

  10. 【题解】LOJ2462完美的集合(树DP 魔改Lucas)

    [题解]LOJ2462完美的集合(树DP 魔改Lucas) 省选模拟考这个??????????????????? 题目大意: 有一棵树,每个点有两个属性,一个是重量\(w_i\)一个是价值\(v_i\ ...

随机推荐

  1. 【Unity3D】UGUI之Button

    1 Button属性面板 ​ 在 Hierarchy 窗口右键,选择 UI 列表里的 Button 控件,即可创建 Button 控件,选中创建的 Button 控件,按键盘[T]键,可以调整 But ...

  2. 【framework】TaskStack简介

    1 前言 ​ TaskStack 用于管理 app,一般一个应用程序对应一个 TaskStack,其父容器为 TaskStackContainers(DisplayContent 的子容器),子容器为 ...

  3. Laravel入坑指南(2)——路由、控制器

    接上一节,我们已经把Laravel有Hello World项目跑起来了. 现在各位小友最着急的,应该是想了解,我们怎么在"页面"echo一个自己的Hello World字符串. & ...

  4. 微信小程序云开发项目-个人待办事项-01介绍

    项目简介 这个小程序项目做的是个人待办事项管理小程序,也就是大家常见的todo类程序.做这个程序主要是为了演示如何快速得学习到微信小程序一些基本得组件.路由.云函数开发技巧.有需要的朋友可以拿去自己改 ...

  5. SpringCloud Ribbon负载均衡服务调用实战

    介绍 Spring Cloud Ribbon是基于Netflix Ribbon实现的一套客户端 负载均衡的工具. 主要功能是提供客户端的软件负载均衡算法和服务调用.Ribbon客户端组件提供一系列完善 ...

  6. 【LeetCode贪心#08】根据身高重建队列(还是涉及处理两个维度的信息)

    根据身高重建队列 力扣题目链接(opens new window) 假设有打乱顺序的一群人站成一个队列,数组 people 表示队列中一些人的属性(不一定按顺序).每个 people[i] = [hi ...

  7. DataGear 制作联动异步加载图表的数据可视化看板

    通过DataGear的参数化数据集.图表事件处理和看板API功能,可以很方便地制作联动异步加载图表的数据可视化看板. 首先,新建一个参数化SQL数据集,如下所示: SELECT COL_NAME, - ...

  8. [App Service for Windows]通过 KUDU 查看 Tomcat 配置信息

    问题描述 在App Service 中选择了Java Tomcat后,如何查看Azure App Service的Tomcat的配置信息呢? 问题解答 可以通过以下的 3个步骤查看: 第一步:登录 K ...

  9. 【Azure Redis 缓存】Redis连接无法建立问题的排查(注:Azure Redis集成在VNET中)

    问题描述 在Azure App Service中部署的应用,需要连接到Redis中,目标Redis已经集成了虚拟网络(VNET)并且在Redis的网络防火墙中已经添加App Service的出站IP地 ...

  10. STL-RBTree模拟实现

    #pragma once #include<assert.h> #include<iostream> using std::cout; using std::endl; usi ...