人体姿态和形状估计的视频推理:CVPR2020论文解析 VIBE: Video Inference for Human Body Pose and Shape Estimation 论文链接:https://arxiv.org/pdf/1912.05656.pdf Code and pretrained models are available at: https://github.com/mkocabas/VIBE 摘要 人体运动是理解行为的基础.尽管在单图像三维位姿和形状估计方面取得了进展,…
慢镜头变焦:视频超分辨率:CVPR2020论文解析 Zooming Slow-Mo:  Fast and Accurate One-Stage Space-Time Video Super-Resolution 论文链接:https://arxiv.org/pdf/2002.11616.pdf The source code is released in:https://github.com/Mukosame/ZoomingSlowMo-CVPR-2020 摘要 本文探讨了一种时空视频超分辨率解…
分层条件关系网络在视频问答VideoQA中的应用:CVPR2020论文解析 Hierarchical Conditional Relation Networks for Video Question Answering 论文链接:https://arxiv.org/pdf/2002.10698.pdf 摘要 视频问答(VideoQA)具有挑战性,因为它需要建模能力来提取动态视觉伪影和远距离关系,并将它们与语言概念相关联.本文介绍了一种通用的可重复使用的神经单元,称为条件关系网络(CRN),它作为…
视频教学动作修饰语:CVPR2020论文解析 Action Modifiers: Learning from Adverbs in Instructional Videos 论文链接:https://arxiv.org/pdf/1912.06617.pdf 摘要 我们提出了一种从结构视频中学习副词表达的方法,该方法使用对伴随叙述的弱监督.我们的方法的关键是,副词的视觉表现高度依赖于它所适用的动作,尽管同一个副词会以类似的方式修改多个动作.例如,虽然"快速传播"和"快速混合&qu…
CVPR2020论文解析:视频语义检索 Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning 论文链接:https://arxiv.org/pdf/2003.00392.pdf 摘要 随着视频在网络上的迅速出现,视频与文本的跨模式检索越来越受到人们的关注.目前解决这个问题的主要方法是学习一个联合嵌入空间来测量跨模态相似性.然而,简单的联合嵌入不足以表示复杂的视觉和文本细节,如场景.对象.动作及其构图.为了改进细粒度…
CVPR2020论文解析:实例分割算法 BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation 论文链接:https://arxiv.org/pdf/2001.00309.pdf 摘要 实例分割是基本的视觉任务之一.近年来,全卷积实例分割方法因其比Mask R-CNN等两阶段方法简单.高效而备受关注.迄今为止,当模型具有相似的计算复杂度时,几乎所有这些方法在掩模精度上都落后于两级掩模R-CNN方法,留下了很大的改进空间.在这项工…
CVPR2020论文解析:视觉算法加速 GPU-Accelerated Mobile Multi-view Style Transfer 论文链接:https://arxiv.org/pdf/2003.00706.pdf 摘要 据估计,2018年售出的智能手机中,有60%配备了多个后置摄像头,从而实现了3D照片等多种支持3D的应用.3D照片平台(Facebook 3D Photo.Holopix ,等等)的成功依赖于用户生成内容的稳定流量.这些平台必须提供简单的图像处理工具,以促进内容创建,类似…
CVPR2020论文解析:视频分类Video Classification Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications 论文链接:https://arxiv.org/pdf/2003.01455.pdf 摘要 深度学习(deep learning,DL)是在大型数据集上进行训练的,它可以将视频准确地分为数百个不同的类.然而,视频数据的注释是昂贵的.Zero-sh…
CVPR2019超分领域出现多篇更接近于真实世界原理的低分辨率和高分辨率图像对应的新思路.具体来说,以前论文训练数据主要使用的是人为的bicubic下采样得到的,网络倾向于学习bicubic下采样的逆过程,这与现实世界原理不太相符.为了得到重建结果,要么采用psnr-oriented方式获得更高的psnr,要么采用perceptual-oriented获得更好的主观效果,但这与现实世界的图像系统并不吻合,有可能会造成deterioration. 下面便对CVPR2019中的超分论文做一些介绍和剖…
压缩图像超分辨率重建算法学习 超分辨率重建是由一幅或多幅的低分辨率图像重构高分辨率图像,如由4幅1m分辨率的遥感图像重构分辨率0.25m分辨率图像.在军用/民用上都有非常大应用. 眼下的超分辨率重建方法主要分为3类:基于插值.基于学习.基于重建的方法.现在已经研究得比較多.可是大多数算法都是对普通图像进行研究,针对压缩图像/视频超分辨率重建的研究比較少.近期查阅部分文献.进行了学习.在此做些总结. 相关的文献: 1.Super-resolution from compressed video 2…
经典超分辨率重建论文,基于稀疏表示.下面首先介绍稀疏表示,然后介绍论文的基本思想和算法优化过程,最后使用python进行实验. 稀疏表示 稀疏表示是指,使用过完备字典中少量向量的线性组合来表示某个元素.过完备字典是一个列数大于行数的行满秩矩阵,也就是说,它的列向量有无数种线性组合来表达列向量空间中的任意点.由于它的列数通常远大于行数,可以使用占比很小的列向量来表示特定的向量,我们称这种表示为稀疏表示. 那么如何获得这个字典呢?它在特定的任务下有特定的取值.和炼丹类似,我们先要用大量数据来训练这个…
模糊视频帧插值:CVPR2020论文点评 Blurry Video Frame Interpolation 论文链接:https://arxiv.org/pdf/2002.12259.pdf 摘要 现有的工作主要通过帧去模糊和帧内插两种方法来降低运动模糊和上变频帧率.然而,很少有研究涉及到联合视频增强问题,即从低帧速率的模糊输入中合成高帧速率的清晰结果.本文提出了一种模糊视频帧内插方法,可以同时降低运动模糊和上变频帧速率.具体地说,本文开发了一个金字塔模块来周期性地合成清晰的中间帧.金字塔模块具…
视频动作定位的分层自关注网络:ICCV2019论文解析 Hierarchical Self-Attention Network for Action Localization in Videos 论文链接: http://openaccess.thecvf.com/content_ICCV_2019/papers/Pramono_Hierarchical_Self-Attention_Network_for_Action_Localization_in_Videos_ICCV_2019_pape…
面部表情视频中进行远程心率测量:ICCV2019论文解析 Remote Heart Rate Measurement from Highly Compressed Facial Videos: an End-to-end Deep Learning Solution with Video Enhancement 论文链接: http://openaccess.thecvf.com/content_ICCV_2019/papers/Yu_Remote_Heart_Rate_Measurement_…
图像超分辨率算法:CVPR2020 Unpaired Image Super-Resolution using Pseudo-Supervision 论文地址: http://openaccess.thecvf.com/content_CVPR_2020/papers/Maeda_Unpaired_Image_Super-Resolution_Using_Pseudo-Supervision_CVPR_2020_paper.pdf 摘要 在大多数基于学习的图像超分辨率(SR)研究中,成对训练数据…
深度学习与传统方法结合的超分辨率:Kai Zhang 1. (CVPR, 2019) Deep Plug-and-Play Super-Resolution for Arbitrary https://github.com/cszn/DPSR 2. (CVPR, 2017) Learning Deep CNN Denoiser Prior for Image Restoration https://github.com/cszn/IRCNN 论文 Learning Deep CNN Denois…
泛娱乐应用成为主流,社交与互动性强是共性,而具备这些特性的产品往往都集中在直播.短视频.图片分享社区等社交化娱乐产品,而在这些产品背后的黑科技持续成为关注重点,网易云信在网易MCtalk 泛娱乐创新峰会上重点介绍了超越像素的AI视频黑科技“超分”. 超分辨率(Super-Resolution)通过硬件或软件方法提高原有图像的分辨率,通过一幅或者多幅低分辨率的图像来得到一幅高分辨率的图像过程就是超分辨率重建,可以通过人工智能深度学习将低分辨率视频重建成高分辨率视频模糊图像.视频瞬间变高清,为移动端…
将视频插入视频:CVPR2019论文解析 Inserting Videos into Videos 论文链接: http://openaccess.thecvf.com/content_CVPR_2019/papers/Lee_Inserting_Videos_Into_Videos_CVPR_2019_paper.pdf 摘要 在本文中,本文引入了一个新的问题,即通过插入其他视频来操作给定的视频.本文的主要任务是,给定一个对象视频和一个场景视频,在场景视频中用户指定的位置插入对象视频,以使生成…
前言 最近有一个idea需要去验证,比较忙,看完Mask R-CNN论文了,最近会去研究Mask R-CNN的代码,论文解析转载网上的两篇博客 技术挖掘者 remanented 文章1 论文题目:Mask R-CNN 论文链接:论文链接 论文代码:Facebook代码链接:Tensorflow版本代码链接:] to compute the exact values of the input features at four regularly sampled locations in each…
一.相关概念 1.分辨率 图像分辨率指图像中存储的信息量,是每英寸图像内有多少个像素点,分辨率的单位为PPI(Pixels Per Inch),通常叫做像素每英寸.一般情况下,图像分辨率越高,图像中包含的细节就越多,信息量也越大.图像分辨率分为空间分辨率和时间分辨率.通常,分辨率被表示成每一个方向上的像素数量,例如64*64的二维图像.但分辨率的高低其实并不等同于像素数量的多少,例如一个通过插值放大了5倍的图像并不表示它包含的细节增加了多少.图像超分辨率重建关注的是恢复图像中丢失的细节,即高频信…
CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation  for 3D Semantic Segmentation 摘要 无监督域自适应(UDA)对于解决新域中缺少注释的问题至关重要.有许多多模态数据集,但大多数UDA方法都是单模态的.在这项工作中,我们探索如何从多模态学*,并提出跨模态UDA(xMUDA),其中我们假设存在二维图像和三维点云进行三维语义分割.这是一…
人脸真伪验证与识别:ICCV2019论文解析 Face Forensics++: Learning to Detect Manipulated Facial Images 论文链接: http://openaccess.thecvf.com/content_ICCV_2019/papers/Rossler_FaceForensics_Learning_to_Detect_Manipulated_Facial_Images_ICCV_2019_paper.pdf 摘要 合成图像生成和处理技术的迅速…
超分辨率重建技术(Super-Resolution)是指从观测到的低分辨率图像重建出相应的高分辨率图像.SR可分为两类:    1. 从多张低分辨率图像重建出高分辨率图像    2. 从单张低分辨率图像重建出高分辨率图像.基于深度学习的SR,主要是基于单张低分辨率的重建方法,即Single Image Super-Resolution (SISR) 一.基于深度学习的超分辨率重建方法整理 1.SRCNN Super-Resolution Convolutional Neural Network(…
腾讯QQ空间超分辨率技术TSR:为用户节省3/4流量,处理效果和速度超谷歌RAISR 雷锋网AI科技评论: 随着移动端屏幕分辨率越来越高,甚至像iPhone更有所谓的“视网膜屏”,人们对高清图片的诉求也随之越来越大.在QQ .QQ空间.微博.微信等社交平台,人们常乐于发送和浏览数兆的高清图片,以获得更佳的视觉体验.但这也给用户造成了一定的困扰——要看高清大图也就意味着要占用大量带宽,一来是数据成本增加,二来加载速度会变慢,导致用户体验不佳.在时间就是金钱的时代,怎么能把这么宝贵的时间用在等待lo…
每天都有数以百万计的图片在网络上被分享.储存,用户借此探索世界,研究感兴趣的话题,或者与朋友家人分享假期照片.问题是,大量的图片要嘛被照相设备的像素所限制,要嘛在手机.平板或网络限制下被人为压缩,降低了画质. 如今高分辨率显示屏幕正在家庭和移动设备上普及,因此,把低分辨率图片转化为高清晰版本,并可在多种设备上查看和分享,正在成为一项巨大的需求.日前,Google 推出了一项新技术 RAISR,其全称是“Rapid and Accurate Image Super-Resolution”,意为“快…
CVPR2020论文解读:CNN合成的图片鉴别 <CNN-generated images are surprisingly easy to spot... for now> 论文链接:https://arxiv.org/abs/1912.11035 代码链接:https://peterwang512.github.io/CNNDetection/ 该文章被CVPR2020录用,Arxiv公开于2019年12月,作者来自 UC Berkeley 和 Adobe Research. CNN 生成…
大型图像数据聚类匹配:ICCV2019论文解析 Jointly Aligning Millions of Images with Deep Penalised Reconstruction Congealing 论文链接: http://openaccess.thecvf.com/content_ICCV_2019/papers/Annunziata_Jointly_Aligning_Millions_of_Images_With_Deep_Penalised_Reconstruction_Co…
摄像头定位:ICCV2019论文解析 SANet: Scene Agnostic Network for Camera Localization 论文链接: http://openaccess.thecvf.com/content_ICCV_2019/papers/Yang_SANet_Scene_Agnostic_Network_for_Camera_Localization_ICCV_2019_paper.pdf The code is available at: https://githu…
目标形体形状轮廓重建:ICCV2019论文解析 Shape Reconstruction using Differentiable Projections and Deep Priors 论文链接: http://openaccess.thecvf.com/content_ICCV_2019/papers/Gadelha_Shape_Reconstruction_Using_Differentiable_Projections_and_Deep_Priors_ICCV_2019_paper.pd…
最近发现一个特别强的视频超分算法----BasicVSR,在真实世界数据集中,实现了前所未有的视觉重建效果,最近它还拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022. 视频超分,假设低分辨率视频是从高分辨率的视频经过一系列的退化操作而得到,超分算法就是将该退化操作进行求逆,从而可以将低分辨率视频恢复成高分辨率视频. 对算法细节感兴趣的同学可以先研究一下论文『Investigating Tradeoffs in Real-World Video Super-Resol…