MoCo V1：视觉领域也能自监督啦

何凯明从 CVPR 2020 上发表的 MoCo V1(Momentum Contrast for Unsupervised Visual Representation Learning),到前几天挂在arxiv上面的 MoCo V3(An Empirical Study of Training Self-Supervised Visual Transformers),MoCo一共走过了三个版本. 今天介绍 MoCo 系列第一版 MoCo v1 就是在 SimCLR 发表前经典的图像自监督学习方…

paper 94：视觉领域博客资源1之中国部分

这是收录的图像视觉领域的博客资源的第一部分,包含:中国内地.香港.台湾这些名人大家一般都熟悉,本文仅收录了包含较多资料的个人博客,并且有不少更新,还有些名人由于分享的paper.code或者数据集不多,暂时没收录了. 说明: 1)主要罗列有资源分享的博客,如果是该领域专家但资源分享较少,则未收录 2)排名按照字母顺序 3)主要按照博客的域名进行分类,不代表作者当前工作所在机构 4)欢迎补充更多的资源. 1 中国内地 1.1 程明明清华大学程明明博士,南开大学媒体计算实验室 http:…

paper 14 : 图像视觉领域部分开源代码

做图像处理,没有一定的知识储备是不可能的,但是一定要学会“借力打力”,搜集一些很实用的开源代码,你们看看是否需要~~ 场景识别: SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling https://github.com/alexgkendall/caffe-segnet Tracking: Learning to Track: Online Multi…

Valse2019笔记——弱监督视觉理解

程明明(南开大学):面向开放环境的自适应视觉感知 (图片来自valse2019程明明老师ppt) 面向识别与理解的神经网络共性技术深度神经网络通用架构 -- VggNet(ICLR'15).ResNet(CVPR'16).DenseNet(CVPR'17).DLA(CVPR'18).Res2Net()富尺度空间的深度神经网络通用架构富尺度空间的深度神经网络通用架构网络结构: 应用:检测任务.分类任务.分割任务通用视觉基元属性感知显著性物体检测技术 A Simple Pooling-Ba…

(转) SLAM系统的研究点介绍与 Kinect视觉SLAM技术介绍

首页视界智尚算法技术每日技术来打我呀注册 SLAM系统的研究点介绍本文主要谈谈SLAM中的各个研究点,为研究生们(应该是博客的多数读者吧)作一个提纲挈领的摘要.然后,我们再就各个小问题,讲讲经典的算法与分类. 1. 前言在<SLAM for Dummy>中,有一句话说的好:”SLAM并不是一种算法,而是一个概念.(SLAM is more like a concept than a single algorithm.)”所以,你可以和导师.师兄弟(以及师妹,如…

LUSE: 无监督数据预训练短文本编码模型

LUSE: 无监督数据预训练短文本编码模型 1 前言本博文本应写之前立的Flag:基于加密技术编译一个自己的Python解释器,经过半个多月尝试已经成功,但考虑到安全性问题就不公开了,有兴趣的朋友私聊讨论吧. 从本篇博客开始,本人将转化写作模式,由话痨模式转为极简模式,力求三言两语让各位看的明白. 2 工作简介受到MOCO和SimCSE的启发, 基于自监督,使用海量无监督数据(nlp_chinese_corpus),预训练了一个专门用于短文本表征的编码器.该编码器在分类任务尤其是短文本相似度…

论文解读《Momentum Contrast for Unsupervised Visual Representation Learning》俗称 MoCo

论文题目:<Momentum Contrast for Unsupervised Visual Representation Learning> 论文作者: Kaiming He.Haoqi Fan. Yuxin Wu. Saining Xie. Ross Girshick 论文来源:arXiv 论文来源:https://github.com/facebookresearch/moco 1 主要思想文章核心思想是使用基于 Contrastive learning 的方式自监督的训练一个图片表…

(转) OpenCV学习笔记大集锦与图像视觉博客资源2之MIT斯坦福CMU

首页视界智尚算法技术每日技术来打我呀注册 OpenCV学习笔记大集锦整理了我所了解的有关OpenCV的学习笔记.原理分析.使用例程等相关的博文.排序不分先后,随机整理的.如果有好的资源,也欢迎介绍和分享. 1:OpenCV学习笔记作者:CSDN数量:55篇博文网址:http://blog.csdn.net/column/details/opencv-manual.html 2:部分OpenCV的函数解读和原理解读作者:梦想腾飞数量:20篇博文网址:http:/…

如何从零开始系统化学习视觉SLAM？

由于显示格式问题,建议阅读原文:如何从零开始系统化学习视觉SLAM? 什么是SLAM? SLAM是 Simultaneous Localization And Mapping的英文首字母组合,一般翻译为:同时定位与建图.同时定位与地图构建.虽然听起来比较拗口,但SLAM却是三维视觉的核心技术,广泛应用于AR.自动驾驶.智能机器人.无人机等前沿热门领域.可以说凡是具有一定行动能力的智能体都拥有某种形式的SLAM系统.关于SLAM的具体应用场景介绍可以看<SLAM有什么用?> SLAM是计算机视…

转：SLAM算法解析：抓住视觉SLAM难点，了解技术发展大趋势

SLAM(Simultaneous Localization and Mapping)是业界公认视觉领域空间定位技术的前沿方向,中文译名为“同步定位与地图构建”,它主要用于解决机器人在未知环境运动时的定位和地图构建问题.本次阅面科技资深研究员赵季也将从SLAM方向着手,为大家展现更深层次的技术干货. 赵季:阅面科技资深研究员.2012年获华中科技大学博士学位,2012年至2014年在CMU机器人研究所做博士后.曾在三星研究院从事深度相机.SLAM.人机交互方面的研究.目前专注于空间感知技术的研发…

paper 16 : 计算机视觉领域博客资源

这是收录的图像视觉领域的博客资源的第一部分,包含:中国内地.香港.台湾这些名人大家一般都熟悉,本文仅收录了包含较多资料的个人博客,并且有不少更新,还有些名人由于分享的paper.code或者数据集不多,暂时没收录了.择优选择自己关注的吧! 说明: 1)主要罗列有资源分享的博客,如果是该领域专家但资源分享较少,则未收录 2)排名按照字母顺序 3)主要按照博客的域名进行分类,不代表作者当前工作所在机构 4)欢迎补充更多的资源. 1 中国内地 1.1 程明明清华大学程明明博士,南开大学媒体计算实验…

面向视频的全新AI架构 —— 阿里云智能视觉技术全解

我们都知道,AI技术正在以可见的速度被应用于各行各业,然而绝大部分业务场景想应用AI技术,都需要算法工程师根据自身业务的标注数据,来进行单独训练,才能打磨出合适的AI模型.如此一来,如何以最低的门槛和成本,实现AI技术落地变成了行业急需解决的问题. 市场上的AI服务非常多,但是在视觉领域,通用的AI服务主要是基于图像的架构来做的,视频时代已经到来,基于图像的AI架构是否还能被广泛应用?阿里云视频云团队专注于视频领域,所以在针对视频的AI处理方面也有独特的思考和实践.3月27日下午,第51期阿里云…

高德地图首席科学家任小枫QA答疑汇总丨视觉+地图技术有哪些新玩法？

上周,阿里巴巴高德地图首席科学家任小枫在#大咖学长云对话#的在线直播活动上就计算机视觉相关技术发展以及在地图出行领域的应用与大家做技术交流,直播间互动火爆,尤其在QA环节,学弟学妹们纷纷就感兴趣的视觉应用.AR导航.定位技术.5G.职业发展等话题提问,任小枫做了精彩回答.我们整理了问答内容,分享给大家. 视频回放地址: https://vku.youku.com/live/ilproom?id=8064786 任小枫博士,现任阿里巴巴高德地图首席科学家,研究员,主要负责视觉技术在地图和出行领域的…

ICCV2021 | Swin Transformer: 使用移位窗口的分层视觉Transformer

前言本文解读的论文是ICCV2021中的最佳论文,在短短几个月内,google scholar上有388引用次数,github上有6.1k star. 本文来自公众号CV技术指南的论文分享系列关注公众号CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. 论文: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 代码:https://github. com/micro…

Deep Learning论文翻译（Nature Deep Review）

原论文出处:https://www.nature.com/articles/nature14539 by Yann LeCun, Yoshua Bengio & Geoffrey Hinton Nature volume521, pages436–444 (28 May 2015) 译者:这篇论文性质为深度学习的综述,原本只是想做做笔记,但找到的翻译都不怎么通顺.既然要啃原文献,索性就做个翻译,尽力准确通畅.转载使用请注明本文出处,当然实在不注明我也并没有什么办法. 论文中大量使用貌似作者默认术…

北大博士生提出CAE，下游任务泛化能力优于何恺明MAE

大家好,我是对白. 何恺明时隔两年发一作论文,提出了一种视觉自监督学习新范式-- 用掩蔽自编码器MAE,为视觉大模型开路. 这一次,北大博士生提出一个新方法CAE,在其下游任务中展现的泛化能力超过了MAE. 来看看这是一项什么样的研究? 这是一项什么研究? 自何恺明提出MAE以来,基于MIM,Masked Image Modeling,这一自监督学习表征算法就越来越引发关注. 它的主要思路,就是对输入图像进行分块和随机掩码操作,然后对掩码区域做预测. 预测的目标可以是Token ID(如微软提出…

Video Target Tracking Based on Online Learning—深度学习在目标跟踪中的应用

摘要近年来,深度学习方法在物体跟踪领域有不少成功应用,并逐渐在性能上超越传统方法.本文先对现有基于深度学习的目标跟踪算法进行了分类梳理,后续会分篇对各个算法进行详细描述. 看上方给出的3张图片,它们分别是同一个视频的第1,40,80帧.在第1帧给出一个跑步者的边框(bounding-box)之后,后续的第40帧,80帧,bounding-box依然准确圈出了同一个跑步者.以上展示的其实就是目标跟踪(visual object tracking)的过程.目标跟踪(特指单目标跟踪)是指:给出目标在…

face recognition[翻译][深度人脸识别:综述]

这里翻译下<Deep face recognition: a survey v4>. 1 引言由于它的非侵入性和自然特征,人脸识别已经成为身份识别中重要的生物认证技术,也已经应用到许多领域,如军事,进入,公共安全和日常生活.FR自然在CVPR会议中也占据了十分长的时间.早在1990年代,随着特征脸的提出[157],FR就成为了一个比较热门的研究领域.过去基于特征进行FR的里程碑方法在图1中有所展示如图1所示,其中介绍了4个主流技术的发展过程: holistic 方法:通过某种分布假设去直接…

机器学习之线性回归---logistic回归---softmax回归

在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签可以取两个以上的值. Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字.Softmax回归是有监督的,不过后面也会介绍它与深度学习/无监督学习方法的结合.(译者注: MNIST 是一个手写数字识别库,由NYU 的Yann LeCun 等人维护.http://yann.lecun.com/exdb/mnist/ ) 回想…

《转》Logistic回归多分类问题的推广算法--Softmax回归

转自http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92 简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签可以取两个以上的值. Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字.Softmax回归是有监督的,不过后面也会介绍它与深度学习/无监督学习方法的结合.(译者注: MNIST…

[Understanding] Compressive Sensing and Deep Model

低维模型与深度模型的殊途同归有助理解核心,陌生概念需要加强理解. 对于做机器学习,和做图像视觉的研究者来说,过去的十年是非常激动人心的十年.以我个人来讲,非常有幸接触了两件事情: 第一件是压缩感知(compressive sensing),高维空间的低维模型,利用其稀疏低秩的性质,带来一场图像处理的革命. 第二件就是大家非常熟悉的深度学习.今天我以视觉为例,探讨低维模型和深度模型如何为了一个共同的目的从两个完全对立的方向走到了一起. 从结果来看,压缩感知和深度学习都让我们能在像素级别处理图像的…

StanFord ML 笔记第三部分

第三部分: 1.指数分布族 2.高斯分布--->>>最小二乘法 3.泊松分布--->>>线性回归 4.Softmax回归指数分布族: 结合Ng的课程,在看这篇博文:http://blog.csdn.net/acdreamers/article/details/44663091 泊松分布: 这里是一个扩展,看不看都可以:http://www.ruanyifeng.com/blog/2015/06/poisson-distribution.html Softmax回归:…

论文笔记：Mastering the game of Go with deep neural networks and tree search

Mastering the game of Go with deep neural networks and tree search Nature 2015 这是本人论文笔记系列第二篇 Nature 的文章了,第一篇是 DQN.好紧张!好兴奋! 本文可谓是在世界上赚够了吸引力! 围棋游戏被看做是 AI 领域最有挑战的经典游戏,由于其无穷的搜索空间和评价位置和移动的困难.本文提出了一种新的方法给计算机来玩围棋游戏,即:利用 "value network" 来评价广泛的位置和 “p…

softmax与logistic关系

Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签可以取两个以上的值. Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字.Softmax回归是有监督的,(译者注: MNIST 是一个手写数字识别库,由NYU 的Yann LeCun 等人维护.http://yann.lecun.com/exdb/mnist/ ) 回想一下在 logistic 回归中,我们的训练集由个已标记的样本构…

从Softmax回归到Logistic回归

Softmax回归是Logistic回归在多分类问题上的推广,是有监督的. 回归的假设函数(hypothesis function)为,我们将训练模型参数,使其能够最小化代价函数: 在Softmax回归中,我们解决的是多分类问题,类标y可以取k个不同的值.对于给定的测试输入x,我们想用假设函数针对每一个类别j估算出概率值.也就是说,我们想估计x的每一种分类结果的概率.因此,我们的假设函数将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值.具体地说,我们的假设函数形式如下: 其中,…

Softmax回归 softMax回归与logistic回归的关系

简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签可以取两个以上的值. Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字.Softmax回归是有监督的,不过后面也会介绍它与深度学习/无监督学习方法的结合.(译者注: MNIST 是一个手写数字识别库,由NYU 的Yann LeCun 等人维护.http://yann.lecun.com/exdb/mnist/ …

GAN综述

生成式对抗模型GAN (Generativeadversarial networks) 是Goodfellow等[1]在 2014年提出的一种生成式模型,目前已经成为人工智能学界一个热门的研究方向,著名学者Yann Lecun甚至将其称为“过去十年间机器学习领域最让人激动的点子".GAN的基本思想源自博弈论的二人零和博弈,由一个生成器和一个判别器构成,通过对抗学习的方式来训练,目的是估测数据样本的潜在分布并生成新的数据样本.在图像和视觉计算.语音和语言处理.信息安全.棋类比赛等领域,GAN正在被…

Softmax回归——logistic回归模型在多分类问题上的推广

Softmax回归 Contents [hide] 1 简介 2 代价函数 3 Softmax回归模型参数化的特点 4 权重衰减 5 Softmax回归与Logistic 回归的关系 6 Softmax 回归 vs. k 个二元分类器 7 中英文对照 8 中文译者转自:http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92 简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上…

Audio Bit Depth Super-Resolution with Neural Networks

Audio Bit Depth Super-Resolution with Neural Networks 作者:Thomas Liu.Taylor Lundy.William Qi 摘要 Audio Bit Depth Super-Resolution是一个尚未通过深度学习的视角来研究的问题,目前使用的有效方法很少.在本文中,我们提出了一种基于WavaNet结构来实现低分辨率8位音频输入的升级,从而产生高保真16位输出,(将语音从8kHz音频,转化为16kHz音频).消除了过程中的噪声和art…

深度学习笔记（十一）网络 Inception, Xception, MobileNet, ShuffeNet, ResNeXt, SqueezeNet, EfficientNet, MixConv

1. Abstract 本文旨在简单介绍下各种轻量级网络,纳尼?!好吧,不限于轻量级 2. Introduction 2.1 Inception 在最初的版本 Inception/GoogleNet,其核心思想是利用多尺寸卷积核去观察输入数据.举个栗子,我们看某个景象由于远近不同,同一个物体的大小也会有所不同,那么不同尺度的卷积核观察的特征就会有这样的效果.于是就有了如下的网络结构图: 图1: Inception module, naive version 于是我们的网络就变胖了,通过增加网络的…

【MoCo V1：视觉领域也能自监督啦】的更多相关文章