最近的阅读list
fast rcnn
统一了sppnet和rcnn,将原来rcnn分stage的训练合为一个整体的stage,一次完成cls, regression的训练。引入两个loss函数,一个是用来进行cls的,一个是进行regression的,这个思路其实是和google的multibox类似的,但是不同的是regression是对bbox的,而bbox怎么引入到cnn中,同时还可以进行训练呢,这就是sppnet的思路了。fast rcnn在训练cnn时,就是借鉴了spp,通过引入roipooling layer,将用selective search得到的2K的regions通过roipooling layer映射到具体的patch上,类似于sppnet,然后每个patch分别进行分类和regression,这样就一次性完成了所有regions的分类和定位。fastrcnn既利用了sppnet在前面几层统一用conv和pooling对整图进行计算的计算资源节约的特征,又通过引入roipooling 层,将sppnet无法完成的整体cnn的ft完成了,同时引入了l1 norm对regression进行调整,做到了end-to-end.流程框架如下图,图里我少了一条线,roi的label应该是cls的loss的输入之一。

这篇文章看似内容没那么多,但是很重要,而且其实在细节的很多地方都值得借鉴,代码写的也是相当完美。
Multi-Objective Convolutional Learning for Face Labeling,其实是引入了单个pixel的loss,以及pixel之间的邻域loss,即引入了crf的两个energy,通过引入这两个loss完成对cnn的训练,但是在进行test时,并不用crf,使用graphcut完成分割。我个人觉得有点类似于fcn,但是fcn是单纯对pixel的分类,而本文通过引入crf,利用了pixel之间的关系,根据作者所说,这么做提高了不少。
Object detection via a multi-region & semantic segmentation-aware CNN model
本文我读了一下,有点类似于是sppnet,但是不同的是在生成特征时,把一个regions,通过不同方向的裁剪,得到很多个regions,而后这些regions分别得到特征,然后把这些特征通过spp统一到一个尺度,最后展开作为一个大特征,完成检测。而在分割时,直接用bbox作为正样本,而不需要那么严格的pixel级别的正样本,cnn能够对bbox带来的噪声具有鲁棒性。具体需要细看。
multibox,google的工作,整图作为输入,得到的是confidence和可能存在object的bbox位置,fastrcnn其实借鉴了这个思路。但是感觉google的工作很庞大,不知道能不能调试下来。
fcn,通过cnn,完成分割,这个工作的出现,引入了很多后续工作。
cnn-crf(deeplab),是cnn和crf分stage训练的,但是和别的思路不一样的地方是,crf在分割时起到作用了,而cnn的训练又没有用到crf。
最近就在不停的读文章和比较其中的差别了,其中可以分为两个路子,fastrcnn, multibox; fcn cnn-crf。
最近的阅读list的更多相关文章
- 【原】FMDB源码阅读(三)
[原]FMDB源码阅读(三) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 FMDB比较优秀的地方就在于对多线程的处理.所以这一篇主要是研究FMDB的多线程处理的实现.而 ...
- 【原】FMDB源码阅读(二)
[原]FMDB源码阅读(二) 本文转载请注明出处 -- polobymulberry-博客园 1. 前言 上一篇只是简单地过了一下FMDB一个简单例子的基本流程,并没有涉及到FMDB的所有方方面面,比 ...
- 【原】FMDB源码阅读(一)
[原]FMDB源码阅读(一) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 说实话,之前的SDWebImage和AFNetworking这两个组件我还是使用过的,但是对于 ...
- 【原】AFNetworking源码阅读(六)
[原]AFNetworking源码阅读(六) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 这一篇的想讲的,一个就是分析一下AFSecurityPolicy文件,看看AF ...
- 【原】AFNetworking源码阅读(五)
[原]AFNetworking源码阅读(五) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 上一篇中提及到了Multipart Request的构建方法- [AFHTTP ...
- 【原】AFNetworking源码阅读(四)
[原]AFNetworking源码阅读(四) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 上一篇还遗留了很多问题,包括AFURLSessionManagerTaskDe ...
- 【原】AFNetworking源码阅读(三)
[原]AFNetworking源码阅读(三) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 上一篇的话,主要是讲了如何通过构建一个request来生成一个data tas ...
- 【原】AFNetworking源码阅读(二)
[原]AFNetworking源码阅读(二) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 上一篇中我们在iOS Example代码中提到了AFHTTPSessionMa ...
- 【原】AFNetworking源码阅读(一)
[原]AFNetworking源码阅读(一) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 AFNetworking版本:3.0.4 由于我平常并没有经常使用AFNetw ...
- [PHP源码阅读]count函数
在PHP编程中,在遍历数组的时候经常需要先计算数组的长度作为循环结束的判断条件,而在PHP里面对数组的操作是很频繁的,因此count也算是一个常用函数,下面研究一下count函数的具体实现. 我在gi ...
随机推荐
- Java-IO中的节点流和处理流
理解好Java-IO中的节点流和处理流是理解Java输入.输出的关键基础,因此,了解节点流和处理流相关的知识点尤为重要. 1.定义 (1)节点流:可以从或向一个特定的地方(节点)读写数据.如FileR ...
- Oracle基础篇--00引言
今天开始,复习oracle基础.主要是以前培训的时候的文档作为结构来梳理知识点,主要目的是把Oracle基础打的扎实点.后面要转做后台开发,或者工作中需要用到数据库知识时也不至于临时抱佛脚. 一直以来 ...
- 电感的Q值
电感的Q值又称为品质因数,即在通过一定频率信号时,感抗与等效损耗之比.品质因数越高即系统损耗越小效率越高,一般为50`100,最高500左右,再大就会烧毁.一般Q值与很多因素有关:绕线粗细,长度与直径 ...
- 判断元素类型JS
<!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- Unity 游戏对象的组件列表
描述: 1 个游戏对象,上面有 4 个组件, 如图: 脚本 Test_01 的内容,如下: using System.Collections; using System.Collections.Gen ...
- Java基础02-变量
1.为什么要使用变量? 变量就是用来记忆数据的,它是一个记忆系统 2.什么是变量? 变量就是一个容器,用来装数据的,变量是放在内存里的. 比如:内存是酒店,变量名就是房间名,变量值就是住进房间的人 3 ...
- JNA简单使用
近期使用Java开发有关于摄像机接收到数据的上传,因为摄像机处理图像是用C语言实现的,所以开发需要用到JNA,实现JAVA对C语言的回调,因为具体的开发方式官方文档里面有示例,所以本文只是简单的把需要 ...
- webapi 开启跨域支持
1.Global文件: GlobalConfiguration.Configuration.EnableCors(); 2.需要跨域的action或controller添加跨域规则 [EnableCo ...
- (三)JavaScript之[事件]与[字符串]
5].事件**JavaScript事件:HTML事件 * HTML事件是发生在HTML元素上的事情 * HTML事件可以是[浏览器的行为],也可以是[用户的行为] * * 实例: * HTML页面完成 ...
- Android 使用xml实现边框阴影,背景渐变效果(附有RGB颜色查询对照表)
上图是显示效果,下面是代码实现: 个人理解就是使用layer-list实现两层view的叠加,其中top,left,bottom,left控制阴影 <?xml version="1.0 ...