Focal Loss

摘要

Focal Loss目标是解决样本类别不平衡以及样本分类难度不平衡等问题，如目标检测中大量简单的background，很少量较难的foreground样本。Focal Loss通过修改交叉熵函数，通过增加类别权重$\alpha$ 和样本难度权重调因子(modulating factor)$(1-p_t)^\gamma$，来减缓上述问题，提升模型精确。

一、技术背景

我们知道object detection的算法主要可以分为两大类：two-stage detector和one-stage detector。前者是指类似Faster RCNN，RFCN这样需要region proposal的检测算法，这类算法可以达到很高的准确率，但是速度较慢。虽然可以通过减少proposal的数量或降低输入图像的分辨率等方式达到提速，但是速度并没有质的提升。后者是指类似YOLO，SSD这样不需要region proposal，直接回归的检测算法，这类算法速度很快，但是准确率不如前者。作者提出focal loss的出发点也是希望one-stage detector可以达到two-stage detector的准确率，同时不影响原有的速度。

二、拟解决问题

作者认为one-stage detector的准确率不如two-stage detector的原因是：样本不均衡问题，其中包括两个方面：

1. 解决样本的类别不平衡问题
1. 解决简单/困难样本不平衡问题

When summed over a lager number of easy examples, these small loss values can overwhelm the rare class.

大量loss小的简单样本相加，可以淹没稀有类.

如在object detection领域，一张图像可能生成成千上万的candidate locations，但是其中只有很少一部分是包含object的（1：1000）。这就带来了类别不均衡。那么类别不均衡会带来什么后果呢？引用原文讲的两个后果：(1) training is inefficient as most locations are easy negatives that contribute no useful learning signal; (2) en masse, the easy negatives can overwhelm training and lead to degenerate models.

负样本数量太大，占总的loss的大部分，而且多是容易分类的，因此使得模型的优化方向并不是我们所希望的那样。

三、解决方案

为了解决（1）解决样本的类别不平衡问题和（2）解决简单/困难样本不平衡问题，作者提出一种新的损失函数：focal loss。这个损失函数是在标准交叉熵损失基础上改进得到：

该focal loss函数曲线为：

其中，$-log(p_t)$ 为初始交叉熵损失函数，$\alpha$ 为类别间（0-1二分类）的权重参数，$(1-p_t)^\gamma$ 为简单/困难样本调节因子（modulating factor），而$\gamma$ 则聚焦参数（focusing parameter）。

1、形成过程：

（1）初始二分类的交叉熵（Cross Emtropy, CE）函数：

在上面的$y\in \{\pm1\}$ 为指定的ground-truth类别，$p \in [0, 1]$ 是模型对带有 $y=1$ 标签类别的概率估计。为了方便，我们将$p_t$定义为：

和重写的$CE(p, y)$：

（2）平衡交叉熵（Balanced Cross Entropy）：

一个普遍解决类别不平衡的方法是增加权重参数$\alpha \in [0 ,1]$，当$ y=1 $类的权重为$\alpha$ ，$y=-1$ 类的权重为$1-\alpha$ 。在实验中，$\alpha$ 被设成逆类别频率（inverse class frequence），$\alpha_t$定义与$p_t$一样：

因此，$\alpha-balanced$ 的CE损失函数为：

（3）聚焦损失（Focal Loss）：

尽管$\alpha$能平衡positive/negative的重要性，但是无法区分简单easy/困难hard样本。为此，对于简单的样本增加一个小的权重(down-weighted)，让损失函数聚焦在困难样本的训练。

因此，在交叉熵损失函数增加调节因子$(1-p_t)^\gamma$ ，和可调节聚参数$\gamma \geq 0$。，所以损失函数变成：

当$p_t\rightarrow0$时，同时调节因子也 $(1-p_t)^\gamma\rightarrow0$ ，因此简单样本的权重越小。直观地讲，调节因子减少了简单示例的loss贡献，并扩展了样本接收低loss的范围。例如，在γ= 2的情况下，与CE相比，分类为pt = 0.9的示例的损失将降低100倍，而对于pt≈0.968的示例，其损失将降低1000倍。这反过来增加了纠正错误分类示例的重要性（对于pt≤0.5和γ= 2，其损失最多缩小4倍）。

（4）最终的损失函数Focal Loss形式：

根据论文作者实验，$\alpha=0.25$ 和 $\gamma=2$ 效果最好

实现代码：

def focal_loss(y_true, y_pred):

    alpha, gamma = 0.25, 2

    y_pred = K.clip(y_pred, 1e-8, 1 - 1e-8)

    return - alpha * y_true * K.log(y_pred) * (1 - y_pred)**gamma\

           - (1 - alpha) * (1 - y_true) * K.log(1 - y_pred) * y_pred**gamma

四、Reference

https://blog.csdn.net/u014380165/article/details/77019084
Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.

Focal Loss 损失函数简述的更多相关文章

焦点损失函数 Focal Loss 与 GHM
文章来自公众号[机器学习炼丹术] 1 focal loss的概述焦点损失函数 Focal Loss(2017年何凯明大佬的论文)被提出用于密集物体检测任务. 当然,在目标检测中,可能待检测物体有10 ...
论文阅读笔记四十四：RetinaNet:Focal Loss for Dense Object Detection(ICCV2017）
论文原址:https://arxiv.org/abs/1708.02002 github代码:https://github.com/fizyr/keras-retinanet 摘要目前,具有较高准确 ...
Focal Loss理解
1. 总述 Focal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题.该损失函数降低了大量简单负样本在训练中所占的权重,也可理解为一种困难样本挖掘. 2. 损失函数形式 ...
深度学习笔记（八）Focal Loss
论文:Focal Loss for Dense Object Detection 论文链接:https://arxiv.org/abs/1708.02002 一. 提出背景 object detect ...
Focal Loss笔记
论文:<Focal Loss for Dense Object Detection> Focal Loss 是何恺明设计的为了解决one-stage目标检测在训练阶段前景类和背景类极度不均 ...
Focal Loss for Dense Object Detection 论文阅读
何凯明大佬 ICCV 2017 best student paper 作者提出focal loss的出发点也是希望one-stage detector可以达到two-stage detector的准确 ...
【深度学习】Focal Loss 与 GHM——解决样本不平衡问题
Focal Loss 与 GHM Focal Loss Focal Loss 的提出主要是为了解决难易样本数量不平衡(注意:这有别于正负样本数量不均衡问题)问题.下面以目标检测应用场景来说明. 一些 ...
目标检测 | RetinaNet：Focal Loss for Dense Object Detection
论文分析了one-stage网络训练存在的类别不平衡问题,提出能根据loss大小自动调节权重的focal loss,使得模型的训练更专注于困难样本.同时,基于FPN设计了RetinaNet,在精度和速 ...
Focal loss论文解析
Focal loss是目标检测领域的一篇十分经典的论文,它通过改造损失函数提升了一阶段目标检测的性能,背后关于类别不平衡的学习的思想值得我们深入地去探索和学习.正负样本失衡不仅仅在目标检测算法中会出现 ...

随机推荐

flask 源码专题（十）：flash源码研究
flash源码 def flash(message, category="message"): flashes = session.get("_flashes" ...
数据可视化之powerBI基础（三）编辑交互，体验更灵活的PowerBI可视化
https://zhuanlan.zhihu.com/p/64412190 PowerBI可视化与传统图表的一大区别,就是可视化分析是动态的,通过页面上筛选.钻取.突出显示等交互功能,可以快速进行访问 ...
数据可视化之图表篇（三）体验Power BI最新发布的AI图表:分解树
在刚刚发布的11月更新中,PowerBI界面全新改版,采用和Office套件相似的Ribbon风格,除了这个重大变化,还发布了一个AI黑科技图表:分解树(Decomposition Tree). 无论 ...
Java图片验证码生成工具
直接把以下代码拷贝使用: import javax.imageio.ImageIO;import java.awt.*;import java.awt.image.BufferedImage;impo ...
程序员为什么要使用Markdown
为什么要学习markdown? 一个让你难以拒绝的理由:markdown可以让你养成了记录的习惯. 我自从使用了markdown之后,就喜欢了写文档,记录工作日志,记录周会,记录季度计划,记录学习目标 ...
机房vscode使用方法
问题众所周知,机房中的电脑有一个win7系统,(非常的好,摆脱linux了),同时win7上有一个 vscode ,更好了. 但是!vscode 由于老师不允许联网,导致插件无法安装,更为恶心的事, ...
初识Elastic search—附《Elasticsearch权威指南—官方guide的译文》
本文作为Elastic search系列的开篇之作,简要介绍其简要历史.安装及基本概念和核心模块. 简史 Elastic search基于Lucene(信息检索引擎,ES里一个index—索引,一个索 ...
spring学习（四）使用注解代替xml配置
用的是IDEA的maven工程,pom.xml文件导包依赖省略一.书写要导入容器的实体类 import org.springframework.beans.factory.annotation.Va ...
面试题六十：n个骰子的点数
把n个骰子扔在地上,求出现和为s的概率可得n<=s<=6n 方法:定义6n-n+1长度的数组,然后对所有可能出现的组合进行计算,把结果进行计数存进数组:递归方法二:动态规划,大问题小化 ...
python学习之路------你想要的都在这里了
python学习之路------你想要的都在这里了 (根据自己的学习进度后期不断更新哟!!!) 一.python基础 1.python基础--python基本知识.七大数据类型等 2.python基础 ...

Focal Loss 损失函数简述