EVA: Visual Representation Fantasies from BAAI
本文做个简单总结,博主不是做自监督领域的,如果错误,欢迎指正。
链接
Code:
Official:baaivision/EVA
MMpretrain:open-mmlab/mmpretrain/tree/main/configs/eva02
Paper:
EVA01:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
EVA02:EVA-02: A Visual Representation for Neon Genesis
EVA01
成就:
EVA 是第一个开源的十亿级视觉基础模型,在广泛的下游任务上实现了最先进的性能。
改进:
EVA是基于CLIP的预训练,而不是MIM预训练。
MIM(Masked Image Modeling)预训练,即MAE做的事情,随机mask掉图片中一部分,生成原图。
缺点:MIM预训练只包含底层细节信息,没有高层语义信息。
CLIP预训练,用“图像-文本”进行对比学习训练,
使用场景:根据文本搜索相关图片,根据图片生成相关描述。
优点:文本补充了MIM缺乏的高层语义信息,CLIP预训练细节和语义信息都有。CLIP预训练中的高层语义信息能够给下游任务提供更大的帮助。
EVA 不需要昂贵的监督训练阶段,仅利用来自开源数据集的图像就可以。
EVA 的迁移学习性能强。
EVA 可以充当以视觉为中心的多模态支点
EVA02
成就:
使用可公开访问的训练数据,仅具有 304M 参数的 EVA-02 在 ImageNet-1K 验证集上实现了惊人的 90.0 微调 top-1 精度。
EVA-02-CLIP 在 ImageNet-1K 上可以达到高达 80.4 的零样本 top-1,优于之前最大、最好的开源 CLIP,仅需要约 1/6 的参数和约 1/6 的图像文本训练数据。
改进:
EVA02对原始ViT改进了结构(借鉴NLP上的一些改进Tricks)
EVA V1使用CLIP模型的视觉Encoder作为Teacher,EVA V2使用EVA-CLIP作为Teacher。EVA-CLIP 与之前的 CLIP 模型相比性能更强大,参数数量相同,但训练成本显著降低
EVA V2使用了更多的数据,多个开源公开的数据集合并到一起组成 Merged-38M,累计3800万张图片。
训练分为多阶段,
在Merged-38M上进行MIM预训练,
在ImageNet21K上进行finetuning,
在ImageNet1K上做最后的finetuning。
EVA V2还支持微调多项下游任务,如目标检测,语义分割、实例分割等。
EVA: Visual Representation Fantasies from BAAI的更多相关文章
- 论文笔记:Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association
Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language ...
- 【CV】ICCV2015_Unsupervised Visual Representation Learning by Context Prediction
Unsupervised Visual Representation Learning by Context Prediction Note here: it's a learning note on ...
- Paper Reading - Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation ( CVPR 2015 )
Link of the Paper: https://ieeexplore.ieee.org/document/7298856/ A Correlative Paper: Learning a Rec ...
- Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)
Momentum Contrast for Unsupervised Visual Representation Learning 一.Methods Previously Proposed 1. E ...
- Momentum Contrast for Unsupervised Visual Representation Learning
Momentum Contrast for Unsupervised Visual Representation Learning 一.Methods Previously Proposed 1. E ...
- 论文解读《Momentum Contrast for Unsupervised Visual Representation Learning》俗称 MoCo
论文题目:<Momentum Contrast for Unsupervised Visual Representation Learning> 论文作者: Kaiming He.Haoq ...
- Visual Representation of SQL Joins
原文:http://www.codeproject.com/Articles/33052/Visual-Representation-of-SQL-Joins 从视图上介绍了7种不同类型的JOIN ...
- Posterior visual bounds retrieval for the Plato framework
Plato is a MVVM compliant 2D on-canvas graphics framework I've been designing and implementing for d ...
- Visual Studio 2010 Shortcut
General Shortcut Description Ctrl-X or Shift-Delete Cuts the currently selected item to the clipboar ...
- Self-Supervised Representation Learning
Self-Supervised Representation Learning 2019-11-11 21:12:14 This blog is copied from: https://lilia ...
随机推荐
- 10、mysql的锁
锁概述 锁是计算机协调多个进程或线程并发访问某一资源的机制(避免争抢). 在数据库中,除传统的计算资源(如 CPU.RAM.I/O 等)的争用以外,数据也是一种供许多用户共享的资源.如何保证数据并发访 ...
- 俄罗斯套娃 (Matryoshka) 嵌入模型概述
在这篇博客中,我们将向你介绍俄罗斯套娃嵌入的概念,并解释为什么它们很有用.我们将讨论这些模型在理论上是如何训练的,以及你如何使用 Sentence Transformers 来训练它们. 除此之外,我 ...
- 设计原则 --- SOLID
引言 SOLID是五个常见的面向对象设计原则的缩写,其目的是帮助开发者设计易于维护和扩展的软件系统 其中包含单一职责原则(SRP),开闭原则(OCP),里氏替换原则(LSP),接口隔离原则(ISP), ...
- 在Visual Studio 中使用git系列文章目录
在Visual Studio 中使用git--什么是Git(一) 在Visual Studio 中使用git--给Visual Studio安装 git插件(二) 在Visual Studio 中使用 ...
- tomcat报错Exception loading sessions from persistent storage解决方案
现象:项目在重启时报错:严重: Exception loading sessions from persistent storage的问题.该问题的原因是tomcat的session持久化机制引起的, ...
- 如何在UE4中播放本地视频文件?
在UE4中有一套媒体框架方法,它根据视频源的不同,对应的播放方式也不一样,支持的视频源有本地视频文件.影像序列.视频流.实时视频截图.播放形式可选择在场景内的静态网格上播放或者以UI的形式播放.本文主 ...
- 5G+实时云渲染:交互实时云看车革新购车体验
随着科技的发展,用户的购车方式已然发生了改变. 传统的购车过程中,用户需要亲自去4S店看车.选车.预约试驾,最后完成交易. 互联网的发展和突如其来的疫情,让看车.选车.预约试驾这三个过程,逐步被搬到线 ...
- 学习笔记-安装kafka集群
官网地址:https://kafka.apache.org/ 1.下载解压 #下载 wget https://mirror.bit.edu.cn/apache/kafka/2.6.0/kafka_2. ...
- KingbaseES Clusterware 高可用案例之---构建iSCSI共享存储
案例说明: 在KingbaseES Clusterware高可用的架构中,集群节点需要访问共享的存储设备,可以使用FC SAN.iscsi SAN.NAS等存储设备.本案例详细描述了,在Linux系统 ...
- 跳转到制定Sheet页及提交指定sheet页内容
一.跳转到指定Sheet的实现 话不多说,先上效果图 两个按钮的事件分别如下: _g().loadSheetByName("sheet1") # 跳转至sheet1按钮事件 _g( ...