论文原址:https://arxiv.org/pdf/1903.06586.pdf github: https://github.com/implus/SKNet 摘要 在标准的卷积网络中,每层网络中神经元的感受野的大小都是相同的.在神经学中,视觉神经元感受野的大小是由刺激机制构建的,而在卷积网络中却很少考虑这个因素.本文提出的方法可以使神经元对于不同尺寸的输入信息进行自适应的调整其感受野的大小.building block为Selective Kernel单元.其存在多个分支,每个分支的卷积核…
今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf 三位大佬:Jonathan Long Evan Shelhamer Trevor Darrell 这个网址是网上一个大佬记录的FCN的博客,同时深深感受到了自己与大佬的差距,但还是硬着头皮把论文阅读完成,贴出网址,和大家一起学习:https://blog.csdn.net/happyer8…
论文原址:https://arxiv.org/abs/1709.01507 github:https://github.com/hujie-frank/SENet 摘要 卷积网络的关键构件是卷积操作,在每层感受野的范围内通过融合局部及channel-wise信息可以使网络构建特征.一些研究关注空间组件,通过增强空间特征等级的编码能力在增强表示力.本文重点在于通道之间的联系,提出了SENet block,通过对通道之间的独立性建模来自适应的调整通道之间的响应.可以将这些block进行堆叠得到SEN…
Introduction (1)Motivation: 当前采用CNN-RNN模型解决行人重识别问题仅仅提取单一视频序列的特征表示,而没有把视频序列匹配间的影响考虑在内,即在比较不同人的时候,根据不同的行人关注不同的部位,如下图: (2)Contribution: 将注意力模型考虑进行人重识别中,提出了时空联合注意力池化网络(jointly Attentive Spatial-Temporal Pooling Networks,ASTPN). The Proposed Model Archite…
论文原址:https://arxiv.org/abs/1409.1556 代码原址:https://github.com/machrisaa/tensorflow-vgg 摘要 本文主要分析卷积网络的深度对基于大数据集分类任务中准确率的影响,本文使用较小的卷积核(3x3), 应用至较深的网络中并进行评估,将网络中的深度增加至16至19层,可以有效改进分类效果. 介绍 卷积网络在大规模图片/视频分类任务中取得巨大成功的原因主要有,(1)大规模的图像数据,像ImageNet(2)高性能的计算资源(G…
论文原址:https://arxiv.org/abs/1707.02921 代码: https://github.com/LimBee/NTIRE2017 摘要 以DNN进行超分辨的研究比较流行,其中,残差学习较大的提高了性能.本文提出了增强的深度超分辨网络(EDST)其性能超过了当前超分辨最好的模型.本文模型性能的大幅度提升主要是移除卷积网络中不重要的模块进行优化得到的.本文模型可以在固定训练步骤的同时,进一步扩大模型的尺寸来提升模型性能.本文同时提出了一个多尺寸超分辨系统(MDSR)及训练方…
论文原址:https://arxiv.org/abs/1703.10295 github:https://github.com/lachlants/denet 摘要 本文重新定义了目标检测,将其定义为用于评估一个规模较大但较为稀疏的的边界框依赖性的概率分布.随后,作者确定了一个评价稀疏分布的机制,Directed Sparse Sampling并将其应用至end-to-end的检测模型当中.该方法扩展了以往SOTA检测模型,并提高了eval 速率同时减少了人工设计.该方法存在两个创新点, I:…
论文链接:https://arxiv.org/abs/1904.08189 github:https://github.com/Duankaiwen/CenterNet 摘要 目标检测中,基于关键点的方法经常出现大量不正确的边界框,主要是由于缺乏对相关剪裁区域的额外监督造成的.本文提出一种有效的方法,以最小的资源探索剪裁区域的视觉模式.本文提出的CenterNet是一个单阶段的关键点检测模型.CenterNet通过检测每个目标物看作是一个三个关键点,而不是一对关键点,这样做同时提高了准确率及召回…
论文源址:https://arxiv.org/abs/1612.08242 代码:https://github.com/longcw/yolo2-pytorch 摘要 本文提出YOLO9000可以检测9000多个类别.改进的YOLOv2在VOC与COCO数据集上表现较好.通过使用多尺寸的训练方法,同一个YOLOv2模型可以在多尺寸上进行实现,准确率与速度上得到很好的权衡.超过了基于ResNet的Faster R-CNN和SSD.提出了标检测及分类的联合训练方法.基于此方法,同时,在COCO检测数…
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要 本文研究了利用深度神经网络及逆行自动语音识别(ASR)的语音模型,其输入是直接输入窗口形语音波(WSW).本文首先证明了,网络要实现自动化需要具有于梅尔频谱相类似的特征,(梅尔频谱是啥?参考,https://blog.csdn.net/qq_28006327/article/details/59129110),本文研究了挖掘…