文章转自同一作者的微信公众号:[机器学习炼丹术] 论文名称:"Deformable Convolutional Networks" 论文链接:https://arxiv.org/abs/1703.06211 0 前言 首先理解: deformable Convolution可变卷积针对的对象是卷积本身,因此膨胀卷积,3D卷积都可以用可变卷积的形式 本篇文章讲解理论和论文,我还没有用上这个可变卷积测试效果,因为PyTorch好像还没有封装这个卷积方式,有点麻烦.所以我计划下一篇文章结合g…
文章转载自微信公众号:[机器学习炼丹术],请支持原创. 这一篇文章,来讲解一下可变卷积的代码实现逻辑和可视化效果.全部基于python,没有C++.大部分代码来自:https://github.com/oeway/pytorch-deform-conv 但是我研究了挺久的,发现这个人的代码中存在一些问题,导致可变卷积并没有实现.之所以发现这个问题是在我可视化可变卷积的检测点的时候,发现一些端倪,然后经过修改之后,可以正常可视化,并且精度有所提升. 1 代码逻辑 # 为了可视化 class Con…
https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformable的卷积如何实现的一步上,在写这篇博客之前,我也查阅了很多其他人的分享或者去github找代码,当然也不敢说完全了解了这种特殊的卷积……仅仅做一点自己的阅读心得与体会吧.这是一篇很有意义的工作,但是和深度学习很多论文一样,在读完之后内心也不免有着种种疑云. Deformable Convoluti…
论文源址:https://arxiv.org/abs/1703.06211 开源项目:https://github.com/msracver/Deformable-ConvNets 摘要 卷积神经网络由于其构建时固定的网络结构,因此只能处理模型的几何变换问题.本文主要介绍了两种增强CNN模型变换的模型,称为可变形卷积及可变形RoI pooling.二者都基于一种思路,通过额外增加模型的偏移及根据目标任务对此偏移量进行学习来增强空间采样位置.新模型可以取代CNN中的原有模型,可以通过反向传播算法进…
上一篇我们介绍了:深度学习方法(十二):卷积神经网络结构变化--Spatial Transformer Networks,STN创造性地在CNN结构中装入了一个可学习的仿射变换,目的是增加CNN的旋转.平移.缩放.剪裁性.为什么要做这个很奇怪的结构呢?原因还是因为CNN不够鲁棒,比如把一张图片颠倒一下,可能就不认识了(这里mark一下,提高CNN的泛化能力,值得继续花很大力气,STN是一个思路,读者以及我自己应该多想想,还有什么方法?). 今天介绍的这一篇可变形卷积网络deformable co…
1 空洞卷积 1.1 理解空洞卷积 在图像分割领域,图像输入到CNN(典型的网络比如FCN)中,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像尺寸的同时增大感受野,但是由于图像分割预测是pixel-wise的输出,所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测,之前的pooling操作使得每个pixel预测都能看到较大感受野信息.因此图像分割FCN中有两个关键,一个是pooling减小图像尺寸增大感受野,另一个是upsampling扩大图像尺…
原文:C#数字图像处理算法详解大全 C#数字图像处理算法详解大全 网址http://dongtingyueh.blog.163.com/blog/#m=0 分享一个专业的图像处理网站(微像素),里面有很多源代码下载: http://www.zealpixel.com/portal.php 效果图如下:     以上只是部分算法的试验效果,所有内容都在开头所述网址中,希望与大家分享!!!  …
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zisserman[§] Visual Geometry Group, Department of Engineering Science, University of Oxford {karen,az}@robots.ox.ac.uk 用于大规模图像识别的深度卷积网络 Karen Simonyan[‡] &am…
一.背景 自从Attention机制在提出之后,加入Attention的Seq2Seq模型在各个任务上都有了提升,所以现在的seq2seq模型指的都是结合rnn和attention的模型.传统的基于RNN的Seq2Seq模型难以处理长序列的句子,无法实现并行,并且面临对齐的问题. 所以之后这类模型的发展大多数从三个方面入手: input的方向性:单向 -> 双向 深度:单层 -> 多层 类型:RNN -> LSTM GRU 但是依旧收到一些潜在问题的制约,神经网络需要能够将源语句的所有必…
Learning Efficient Convolutional Networks through Network Slimming 简介 这是我看的第一篇模型压缩方面的论文,应该也算比较出名的一篇吧,因为很早就对模型压缩比较感兴趣,所以抽了个时间看了一篇,代码也自己实现了一下,觉得还是挺容易的.这篇文章就模型压缩问题提出了一种剪枝针对BN层的剪枝方法,作者通过利用BN层的权重来评估输入channel的score,通过对score进行threshold过滤到score低的channel,在连接的…
发表于2015年这篇<Fully Convolutional Networks for Semantic Segmentation>在图像语义分割领域举足轻重. 1 CNN 与 FCN 通常CNN网络在卷积层之后会接上若干个全连接层, 将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量.以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务,因为它们最后都期望得到整个输入图像的一个数值描述(概率),比如AlexNet的ImageNet模型输出一个1000维的…
这篇论文真是让我又爱又恨,可以说是我看过的最认真也是最多次的几篇paper之一了,首先deformable conv的思想我觉得非常好,通过end-to-end的思想来做这件事也是极其的make sense的,但是一直觉得哪里有问题,之前说不上来,最近想通了几点,先初步说几句,等把他们的代码跑通并且实验好自己的几个想法后可以再来聊一聊.首先我是做semantic segmentation的,所以只想说说关于这方面的问题. 直接看这篇paper的话可能会觉得ji feng的这篇工作非常棒,但实际上…
废话不多说,上车吧,少年 paper链接:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks &创新点 设计Region Proposal Networks[RPN],利用CNN卷积操作后的特征图生成region proposals,代替了Selective Search.EdgeBoxes等方法,速度上提升明显: 训练Region Proposal Networks与检测网络[Fast R…
这几天在看<Rich feature hierarchies for accurate object detection and semantic segmentation >,觉得作者的科研素养非常棒,考虑问题很全面而且很有逻辑性: 不过暂时有的地方看的也不是太懂,这里转载了一篇博客中的介绍,博主写的不错: 博客链接:http://blog.csdn.net/wopawn/article/details/52133338 paper链接:链接: https://pan.baidu.com/s…
“Google文件存储系统(GFS)是构建在廉价服务器之上的大型分布式系统.它将服务器故障视为正常现象,通过软件方式自动容错,在保证系统可用性和可靠性同时,大大降低系统成本. GFS是Google整个分布式系统的基石,其他存储系统如Google BigTable.GoogleMegastore等系统均直接或间接构建在GFS之上.另外,Google的大规模批处理系统MapReduce也是利用GFS系统作为海量数据的输入输出.” 以下内容为在研读Google_File_System论文时,对其中一些…
废话不多说,上车吧,少年 paper链接:Fast R-CNN &创新点 规避R-CNN中冗余的特征提取操作,只对整张图像全区域进行一次特征提取: 用RoI pooling层取代最后一层max pooling层,同时引入建议框信息,提取相应建议框特征: Fast R-CNN网络末尾采用并行的不同的全连接层,可同时输出分类结果和窗口回归结果,实现了end-to-end的多任务训练[建议框提取除外],也不需要额外的特征存储空间[R-CNN中这部分特征是供SVM和Bounding-box regres…
废话不多说,上车吧,少年 paper链接:Rich feature hierarchies for accurate object detection and semantic segmentation &创新点 采用CNN网络提取图像特征,从经验驱动的人造特征范式HOG.SIFT到数据驱动的表示学习范式,提高特征对样本的表示能力: 采用大样本下有监督预训练+小样本微调的方式解决小样本难以训练甚至过拟合等问题. &问题是什么 近10年以来,以人工经验特征为主导的物体检测任务mAP[物体类别…
简介 用户体验与软件的流畅程度是呈正相关的,所以对于软件服务提供方来说,保持服务耗时在用户能接受的范围内就是一件必要的事情.但是在大型分布式系统上保持一个稳定的耗时又是一个很大的挑战,这篇文章解析的是google发布的一篇论文<The Tail At Scale>,里面讲述的是google内部的一些长尾耗时优化相关的经验,以及我个人的一些思考. 服务耗时为什么会产生抖动 在目前大规模的分布式系统中,服务与服务之间的调用关系可以呈现为下图的形式,服务A,B都有多个实例,服务A实例通过服务发现模块…
im2bw是基于转换为二值图像的算法,用的是otsu's method. matlab中DIP工具箱函数im2bw使用阈值(threshold)变换法把灰度图像(grayscale image)转换成二值图像.所谓二值图像, 一般意义上是指只有纯黑(0).纯白(255)两种颜色的图像. 当然, 也可以是其他任意两种颜色的组合. 在matlab命令行中键入doc im2b或help im2bw即可获得该函数的帮助信息. 阈值变换 比如数组 a = [120, 254, 0, 200, 99]; 设…
VGGNet由牛津大学的视觉几何组(Visual Geometry Group)提出,是ILSVRC-2014中定位任务第一名和分类任务第二名.本文的主要贡献点就是使用小的卷积核(3x3)来增加网络的深度,并且可以有效提高网络的性能,而且在其他数据集上也有很好的泛化能力. 总结本文,能为网络带来比较好的方法有: 1) 加深网络的深度(网络太深,可能造成过拟合,需要小心): 2) 将较大的卷积核替换为小的卷积核,比如3x3,效果会变好,参数也会降低: 3) 使用1x1卷积,可以为网络增加非线性,某…
本文是 Google 团队在 MobileNet 基础上提出的 MobileNetV2,其同样是一个轻量化卷积神经网络.目标主要是在提升现有算法的精度的同时也提升速度,以便加速深度网络在移动端的应用.…
一.Abstract 提出了一种end-to-end的做semantic segmentation的方法,也就是FCN,是我个人觉得非常厉害的一个方法. 二.亮点 1.提出了全卷积网络的概念,将Alexnet这种的最后的全连接层转换为卷积层,好处就是可以输入任意的scale. 只不过在输出的scale不同的时候,feature map的大小也不同,因为这里的目的是最piexl的语义分割,所以其实不重要. 在Alexnet基础上, 最后的channel=4096的feature map经过一个1x…
Visual studio 2017 RC出来一段时间了,最近有时间就想安装试试,随带分享一下安装使用体验. 1,卸载visual studio 2015 虽然可以同时安装visual studio 2015和2017,考虑个人电脑性能加空间有限还是先卸载一个吧.要想完全卸载visual studio2015,得下载微软团队开源得一个简单工具才行,开源项目地址https://github.com/Microsoft/VisualStudioUninstaller,工具下载地址TotalUnins…
总共列出了12点,耐心点慢慢看! 1,添加了不少[代码样式]的设置项目. 通过合理的设置每个人都能写出优美的代码,而且团队项目也可以达到统一代码风格. this首选项:可以设置[字段,属性,方法,事件]的this是否需要,错误列表会列出[建议,警告,错误]等信息. 预定义的类型首选项:Int32还是int等类似设置. Var首选项:内置类型时是Var定义还是类型定义等设置. Object属性初始化:C#7.0特性,对象声明和属性设置同时实现多方便. 方法内部初始化变量:C#7.0特性,这样就不用…
目录 0. 前言 1. 第一篇 2. 第二篇 3. 第三篇keras实现 4. 一篇关于U-Net的改进 0. 前言   今天读了U-Net觉得很不错,同时网上很多很好很详细的讲解,因此就不再自己写一个overview了,互联网的意义就是给了我们相互学习,相互借鉴的黄金机会(懒惰完美的接口). 1. 第一篇 1. 按论文章节回顾具体内容 1. Abstract   在本文中我们提出了一种网络结构和训练策略,它依赖于充分利用数据增强技术来更高效地使用带有标签的数据.在U-net的结构中,包括捕获一…
目录 0. Paper link 1. Overview 2. position-sensitive score maps 2.1 Background 2.2 position-sensitive score maps 3. Architecture 3.1 backbone 3.2 Position-sensitive score maps & Position-sensitive RoI pooling 3.3 Training 3.4 Inference 3.5 À trous algo…
一.Residual Attention Network 简介 这是CVPR2017的一篇paper,是商汤.清华.香港中文和北邮合作的文章.它在图像分类问题上,首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合,并取得了远超之前网络结构的准确度与参数效率.仅用与ResNet-50相当的参数量和计算量就得到了远超过ResNet-152的分类性能. 二.Residual Attention Network 的提出 视觉注意力机制是人类视觉所特有的大脑信号处理机制.人类视觉通过快速扫描全局…
论文笔记:Densely Connected Convolutional Networks(DenseNet模型详解) 2017年09月28日 11:58:49 阅读数:1814 [ 转载自http://www.yyliu.cn/post/7cabb4ff.html ] CVPR 2017上,清华大学的Zhuang Liu.康奈尔大学的Gao Huang和Kilian Q.Weinberger,以及Facebook研究员Laurens van der Maaten 所作论文Densely Con…
原文连接:http://blog.csdn.net/u014380165/article/details/75142664 参考连接:http://blog.csdn.net/u012938704/article/details/53468483 本文这里仅当学习笔记使用,具体细节建议前往原文细度. 论文:Densely Connected Convolutional Networks 论文链接:https://arxiv.org/pdf/1608.06993.pdf 代码的github链接:h…
语义分割--全卷积网络FCN详解   1.FCN概述 CNN做图像分类甚至做目标检测的效果已经被证明并广泛应用,图像语义分割本质上也可以认为是稠密的目标识别(需要预测每个像素点的类别). 传统的基于CNN的语义分割方法是:将像素周围一个小区域(如25*25)作为CNN输入,做训练和预测.这样做有3个问题: - 像素区域的大小如何确定 - 存储及计算量非常大 - 像素区域的大小限制了感受野的大小,从而只能提取一些局部特征 为什么需要FCN? 我们分类使用的网络通常会在最后连接几层全连接层,它会将原…