​ 论文:Rethinking Spatial Dimensions of Vision Transformers 代码:https://github.com/naver-ai/pit 获取:在CV技术指南后台回复"0006" 点个关注,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. 前言: 由于基于transformers的架构在计算机视觉建模方面具有创新性,因此对有效架构的设计约定的研究还较少.从 CNN 的成功设计原则出发,我们研究了空间维度转换的作用及其对基于tran…
​ 论文:Rethinking Counting and Localization in Crowds:A Purely Point-Based Framework 代码:https://github.com/TencentYoutuResearch/CrowdCounting-P2PNet 获取:在公众号CV技术指南中回复关键字"0007"可下载此论文 ​欢迎关注公众号 CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. 前言: 在人群中定位个体更符合后续高级人…
​  前言  本文解读的论文是ICCV2021中的最佳论文,在短短几个月内,google scholar上有388引用次数,github上有6.1k star. 本文来自公众号CV技术指南的论文分享系列 关注公众号CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. ​ 论文: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 代码:https://github. com/micro…
​  前言  本文介绍了一个端到端的用于视觉跟踪的transformer模型,它能够捕获视频序列中空间和时间信息的全局特征依赖关系.在五个具有挑战性的短期和长期基准上实现了SOTA性能,具有实时性,比Siam R-CNN快6倍. 本文来自公众号CV技术指南的论文分享系列 关注公众号CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. ​ 论文:Learning Spatio-Temporal Transformer for Visual Tracking 代码:https:/…
​ 前言 公众号在前面发过三篇分别对BatchNorm解读.分析和总结的文章(文章链接在文末),阅读过这三篇文章的读者对BatchNorm和归一化方法应该已经有了较深的认识和理解.在本文将介绍一篇关于BatchNorm举足轻重的论文,这篇论文对进行了很多实验,非常全面地考虑了BatchNorm中的Batch. 欢迎关注公众号 CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. Motivation BatchNorm 区别于其他深度学习算子的关键因素是它对批量数据而不是单个…
​前言:这篇论文旨在以极低的计算成本解决性能大幅下降的问题.提出了微分解卷积,将卷积矩阵分解为低秩矩阵,将稀疏连接整合到卷积中.提出了一个新的动态激活函数-- Dynamic Shift Max,通过最大化输入特征图与其循环通道移位之间的多个动态融合来改善非线性. 在这两个新操作的基础上,得到了一个名为 MicroNet 的网络系列,它在低 FLOP 机制中实现了比现有技术显着的性能提升.在 12M FLOPs 的约束下,MicroNet 在 ImageNet 分类上达到了 59.4% 的 to…
​前言  在计算机视觉中,相对位置编码的有效性还没有得到很好的研究,甚至仍然存在争议,本文分析了相对位置编码中的几个关键因素,提出了一种新的针对2D图像的相对位置编码方法,称为图像RPE(IRPE). 本文来自公众号CV技术指南的论文分享系列 关注公众号CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. ​ 代码:https://github.com/microsoft/Cream/tree/main/iRPE Background Transformer的核心是self-…
​前言 本文介绍了现有实例分割方法的一些缺陷,以及transformer用于实例分割的困难,提出了一个基于transformer的高质量实例分割模型SOTR. 经实验表明,SOTR不仅为实例分割提供了一个新的框架,还在MS Coco数据集上超过了SOTA实例分割方法. 本文来自公众号CV技术指南的论文分享系列 关注公众号CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. ​ 论文:SOTR: Segmenting Objects with Transformers 代码:h…
​  前言  ViT通过简单地将图像分割成固定长度的tokens,并使用transformer来学习这些tokens之间的关系.tokens化可能会破坏对象结构,将网格分配给背景等不感兴趣的区域,并引入干扰信号. 为了缓解上述问题,本文提出了一种迭代渐进采样策略来定位区分区域.在每次迭代中,当前采样步骤的嵌入被馈送到transformer编码层,并预测一组采样偏移量以更新下一步的采样位置.渐进抽样是可微的.当与视觉transformer相结合时,获得的PS-ViT网络可以自适应地学习到哪里去看.…
​  前言  本文介绍一种新的tokens-to-token Vision Transformer(T2T-ViT),T2T-ViT将原始ViT的参数数量和MAC减少了一半,同时在ImageNet上从头开始训练时实现了3.0%以上的改进.通过直接在ImageNet上进行训练,它的性能也优于ResNet,达到了与MobileNet相当的性能. 本文来自公众号CV技术指南的论文分享系列 关注公众号CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. ​ 论文:Tokens-to-…
​  前言  由于内存和计算资源有限,在嵌入式设备上部署卷积神经网络 (CNN) 很困难.特征图中的冗余是那些成功的 CNN 的一个重要特征,但在神经架构设计中很少被研究. 论文提出了一种新颖的 Ghost 模块,可以从廉价操作中生成更多的特征图.提出的 Ghost 模块可以作为即插即用的组件来升级现有的卷积神经网络.堆叠Ghost Module建立了轻量级的 GhostNet. GhostNet 可以实现比 MobileNetV3 更高的识别性能(例如 75.7% 的 top-1 准确率),并…
​ 前言 这篇文章非常全面细致地介绍了Batch Size的相关问题.结合一些理论知识,通过大量实验,文章探讨了Batch Size的大小对模型性能的影响.如何影响以及如何缩小影响等有关内容. 本文来自公众号CV技术指南的技术总结系列 欢迎关注公众号CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. 在本文中,我们试图更好地理解批量大小对训练神经网络的影响.具体而言,我们将涵盖以下内容: 什么是Batch Size? 为什么Batch Size很重要? 小批量和大批量如何凭…
​  前言  本文介绍一篇CVPR2020的论文,它在paperswithcode上获得了16887星,谷歌学术上有261的引用次数. 论文主要介绍了目标检测现有的研究进展.anchor-based和anchor-free的背景和各自的方法差异,并提出了一种新的正负样本选择方案,用于消除这两者之间的差距. 注:论文讲述了很多关于anchor方面的知识,这篇文章保留了较多原论文中的内容,在介绍新方法的同时,可作为深入理解anchor的文章. 论文:Bridging the Gap Between…
前言  本文汇总了过去本公众号原创的.国外博客翻译的.从其它公众号转载的.从知乎转载的等一些比较重要的文章,并按照论文分享.技术总结三个方面进行了一个简单分类.点击每篇文章标题可阅读详细内容 欢迎关注公众号 CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. ​ 今年是进入计算机视觉领域的第四年,做公众号的第一年,写了不少原创文章,从国外博客上翻译了不少我认为比较不错的文章,也从知乎上找了不少不错的文章在经作者授权后转载到公众号. 整体上来说,这一年基本保持初心,始终在做一…
​  前言  DETR首创了使用transformer解决视觉任务的方法,它直接将图像特征图转化为目标检测结果.尽管很有效,但由于在某些区域(如背景)上进行冗余计算,输入完整的feature maps的成本会很高. 在这项工作中,论文将减少空间冗余的思想封装到一个新的轮询和池(Poll and Pool, PnP)采样模块中,该模块具有通用和即插即用的特点,利用该模块构建了一个端到端的PnP-DETR体系结构,该体系结构可以自适应地在空间上分配计算,以提高计算效率. 本文来自公众号CV技术指南的…
​  前言 本文主要探究了轻量模型的设计.通过使用 Vision Transformer 的优势来改进卷积网络,从而获得更好的性能. 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读.CV招聘信息. ​ 论文:https://arxiv.org/abs/2203.03952 代码:https://github.com/hkzhang91/EdgeFormer 核心内容 本文主要探究了轻量模型的设计.通过使用 Vision Transformer 的优势来改进卷积…
本期内容 : JobScheduler内幕实现 JobScheduler深度思考 JobScheduler 是整个Spark Streaming调度的核心,需要设置多线程,一条用于接收数据不断的循环,另外一条是处理线程,同时需要把调度与执行分离开. 一. 作业流程源码 : 首先只要定义了BatchDuration后就规定了按照什么样的频率生成具体的Job ,也就是Job生成的频率: 按照一定的频率操作ForeachRDD : 我们设置每隔5秒钟都会生成一个Spark 的Job ,Job其实其内部…
本节主要内容: 一.SparkStreaming Job生成深度思考 二.SparkStreaming Job生成源码解析 JobScheduler的地位非常的重要,所有的关键都在JobScheduler,它的重要性就相当于是Spark Core当中的DAGScheduler,因此,我们要花重点在JobScheduler上面. 我们在进行sparkstreaming开发的时候,会对Dstream进行各种transform和action级别的操作,这些操作就构成Dstream graph,也就是D…
Paper:https://arxiv.org/abs/1711.07971v1 Author:Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He (CMU, FAIR) 1 创新点 这篇文章非常重要,个人认为应该算是cv领域里面的自注意力机制的核心文章,语义分割里面引入的各种自注意力机制其实都可以认为是本文的特殊化例子.分析本文的意义不仅仅是熟悉本文,而是了解其泛化思想. 不管是cv还是NLP任务,都需要捕获长范围依赖.在时序任务中,…
引言 我们可能会有这样的一种需求,像是打车软件中呼叫附近的车来接送自己,或者是在qq中查看附近的人.我们都需要知道距离自己一定范围内的其它目标的集合.如果将上面举例的功能抽象出来,就是要实现以某个点为中心,以一定的距离为半径,在空间中查找其它点所构成的集合.诚然,当空间中点的数目较少时,我们可以采用遍历所有点的方式来计算出当前点与其它点之间的距离的方式来得到对应的结果集,但是空间中的点数目较多(假如达到千万级别),且存在多个点要计算出距离当前点一定范围内的点所构成的集合时,这个计算的时间复杂度便…
作者: 朱春茂(知明) 技术 Leader 是一个对综合素质要求非常高的岗位,不仅要有解具体技术问题的架构能力,还要具备团队管理的能力,更需要引领方向带领团队/平台穿越迷茫进阶到下一个境界的能力.所以通常来说技术 Leader 的技能是虚实结合的居多,繁杂的工作偏多.为此我把自己在工作中经常用到的思考技巧也做了一个整理,算是对<谈谈技术能力>中提及第三阶段的补充. 技术常用思考方法 向前思考,向后倒推 这个思考方法的含义是: 在思考一个命题时可以采取未来视角,先对未来发展做个预判,然后基于你的…
Inception V3网络(注意,不是module了,而是network,包含多种Inception modules)主要是在V2基础上进行的改进,特点如下: 将滤波器尺寸(Filter Size)较大的卷积分解成若干滤波器尺寸较小的卷积.根据作者在论文中提出的optimization ideas,大卷积总可以被分解成3*3卷积层序列,而且需要的话还可以进一步分解成更小的卷积,如n*1卷积,事实上,这比2*2卷积层更好.对大卷积层进行分解的好处显而易见,既可以加速计算(多余的计算能力可以用来加…
直观理解深度学习的卷积 探索使他们工作的强大视觉层次   近年来强大且多功能的深度学习框架的出现使得可以将卷积层应用到深度学习模型中,这是一项非常简单的任务,通常可以在一行代码中实现. 然而,理解卷积,特别是第一次理解卷积常常会让人感到有些不安,诸如内核,滤波器,通道等都是相互堆叠在一起的.然而,卷积作为一个概念是非常强大和高度可扩展的,在这篇文章中,我们将逐步分解卷积操作的机制,将它与标准的完全连接的网络相关联,并探索它们是如何建立强大的视觉层次结构,使其成为图像的强大特征提取器. 2D卷积:…
1. Abstract 本文旨在简单介绍下各种轻量级网络,纳尼?!好吧,不限于轻量级 2. Introduction 2.1 Inception 在最初的版本 Inception/GoogleNet,其核心思想是利用多尺寸卷积核去观察输入数据.举个栗子,我们看某个景象由于远近不同,同一个物体的大小也会有所不同,那么不同尺度的卷积核观察的特征就会有这样的效果.于是就有了如下的网络结构图: 图1: Inception module, naive version 于是我们的网络就变胖了,通过增加网络的…
论文标题:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 标题翻译:OverFeat:使用卷积神经网络集成识别,定位和检测 论文作者:Pierre Sermanet  David Eigen  Xiang Zhang  Michael Mathieu  Rob Fergus  Yann LeCun 论文地址:https://arxiv.org/pdf/1312.62…
前言   在学计算机视觉的这段时间里整理了不少的笔记,想着就把这些笔记再重新整理出来,然后写成Blog和大家一起分享.目前的计划如下(以下网络全部使用Pytorch搭建): 专题一:计算机视觉基础 介绍CNN网络(计算机视觉的基础) 浅谈VGG网络,介绍ResNet网络(网络特点是越来越深) 介绍GoogLeNet网络(网络特点是越来越宽) 介绍DenseNet网络(一个看似十分NB但是却实际上用得不多的网络) 整理期间还会分享一些自己正在参加的比赛的Baseline 专题二:GAN网络 搭建普…
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-detail/265 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 本系列为 斯坦福CS231n <深度学习与计算机视觉(Deep Learning for Computer Vision)>的全套学习笔记,对应的课程视频可以在 这里 查看.更多资料获取方式见文末…
论文题目:<Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition> 论文作者:Qibin Hou, Zihang Jiang, Li Yuan et al. 论文发表年份:2022.2 模型简称:ViP 发表期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence Abstract 在本文中,我们提出了一种概念简单.数据…
从吃透到通透 有种说法,吃透一本书,才算好好读过.然而比吃透境界更高,是通透.吃透仅限于书中内容,通透则是将书中内容与正反上下.古今中外背景知识相互关联. 当你做到读书通透,收获将远远大于手头那一本书.那么,怎样将书读得通透?试看读书八字诀:"正反上下,古今中外". 读书的反与古 读书通透第一步是"反"与"古",就是故意进行思想实验. 比如"反",哲学家波普尔在上个世纪提出"可证伪原则",今天成为科学界通用…
兵无常势,水无常形,读书亦无法.彼之砒霜,我之佳肴.然读书无法却有道.你我都是使用同一颗大脑在读书.这颗大脑受制于那千千万万年以来,星辰起落,狩猎采集,演化大道. Q1:读物如何分级? 坏书.可用的书.力作.杰作与神作. 世人皆知精读略读,却不知冷读热读.你的大脑习惯用数字来锚定一切.既然都是书这种载体,价格.页数成了你的挑选标准.你总是习惯赋予神作与垃圾读物一样的阅读时间.须不知,人有好坏,书有高下.因此爱书之人均有自己的读物分级系统.我将图书分为:坏书.可用的书.力作.杰作与神作.多数图书,…