论文源址:https://arxiv.org/abs/1705.06820 tensorflow(github): https://github.com/HongyangGao/PixelDCN 基于PixelDCL分割实验:https://github.com/fourmi1995/IronsegExperiment-PixelDCL 摘要 反卷积被广泛用于深度学习的上采样过程中,包括语义分割的编码-解码网络与无监督学习的深度生成网络.反卷积的一个缺点是生成的特征图类似于棋盘状,相邻元素之间的…
Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失缺乏对label信息的考虑(???). (2)Contribution: 提出一个新的端到端网络框架,称为 CNN and RNN Fusion(CRF),结合了Siamese.Softmax 联合损失函数.分别对全身和身体局部进行模型训练,获得更有区分度的特征表示. Method (1)框架: (…
论文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet 摘要 在移动端上进行实时的像素级分割十分重要.基于分割的深度神经网络中存在大量的浮点运算而且需要经过较长的时间才可以进行投入使用.该文提出的ENet目的是减少潜在的计算.ENet相比现存的分割网络,速度快18倍,参数量要少79倍,同时分割得到的准确率不有所损失,甚至有所提高. 介绍 目前,增强现实可…
论文源址:https://arxiv.org/abs/1505.04366 tensorflow代码:https://github.com/fabianbormann/Tensorflow-DeconvNet-Segmentation 基于DenconvNet的钢铁分割实验:https://github.com/fourmi1995/IronSegExperiment-DeconvNet 摘要 通过学习一个反卷积网络来实现分割算法, 本文卷积部分基于改进的VGG-16,反卷积网络部分由反卷积层和…
论文源址:https://arxiv.org/pdf/1612.01105.pdf tensorflow代码:https://github.com/hellochick/PSPNet-tensorflow 基于PSPNet101的钢铁分割实验:https://github.com/fourmi1995/IronSegExperiment-PSPNet 摘要 对于不非特殊条件的场景解析仍十分困难.该文利用金字塔池化模型,融合了图像中不同区域的上下文信息. 介绍 分割可以预测完全理解场景,预测标签,…
论文链接:https://arxiv.org/abs/1506.04924 摘要 该文提出了基于混合标签的半监督分割网络.与当前基于区域分类的单任务的分割方法不同,Decoupled 网络将分割与分类任务分离,并为每个任务单独学习一个分离的网络.分类网络识别与图片相关的标签,然后在每个识别的标签中进行二进制的分割.Decoupled网络可以基于图像级别标签学习分类网络,基于像素级别标签学习分割网络.该网络通过桥链接层获得类别明确的激活maps来减少分割的搜索空间.该文在少量训练数据的条件下仍优于…
论文链接:https://arxiv.org/pdf/1606.00915.pdf 摘要 该文主要对基于深度学习的分割任务做了三个贡献,(1)使用空洞卷积来进行上采样来进行密集的预测任务.空洞卷积可以在不增加参数量的基础上增大filter的感受野,从而可以得到更多的语义信息.(2)空洞空间金字塔池化结构(ASPP)从而以多尺寸来分割目标物体.通过不同sample rates的filters及不同大小的感受野,来获得多尺寸下的语义信息.(3)结合DCNN与概率模型提高物体的检测边界.DCNNs+C…
论文原址:https://arxiv.org/pdf/1903.06586.pdf github: https://github.com/implus/SKNet 摘要 在标准的卷积网络中,每层网络中神经元的感受野的大小都是相同的.在神经学中,视觉神经元感受野的大小是由刺激机制构建的,而在卷积网络中却很少考虑这个因素.本文提出的方法可以使神经元对于不同尺寸的输入信息进行自适应的调整其感受野的大小.building block为Selective Kernel单元.其存在多个分支,每个分支的卷积核…
Introduction (1)Motivation:在现实场景中,摄像头会因为故障呈现灰白色,或者为了节省视频的存储空间而人工设置为灰白色.灰度图像(grayscale images)由8位存储,而彩色图像由24位存储.在节省存储空间的同时,也带来了信息丢失的问题,增加了行人重识别的难度. 通过对同一张照片的彩色版和灰度版进行余弦相似度(cosine similarity)计算,发现两者相似度在0.8左右,即灰度图像损失了约20%的有效信息. 定义本文彩色-灰度视频间行人重识别的问题:Colo…
论文链接:https://arxiv.org/abs/1802.02611 tensorflow 官方实现: https: //github.com/tensorflow/models/tree/master/research/deeplab 实验代码:https://github.com/fourmi1995/IronSegExperiment-Deeplabv3_PLUS.git 摘要 分割任务中常见的结构有空间池化模型与编码-解码结构,前者主要通过不同的卷积和不同rate的池化操作和感受野…