EVA: Visual Representation Fantasies from BAAI
本文做个简单总结,博主不是做自监督领域的,如果错误,欢迎指正。
链接
Code:
Official:baaivision/EVA
MMpretrain:open-mmlab/mmpretrain/tree/main/configs/eva02
Paper:
EVA01:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
EVA02:EVA-02: A Visual Representation for Neon Genesis
EVA01
成就:
EVA 是第一个开源的十亿级视觉基础模型,在广泛的下游任务上实现了最先进的性能。
改进:
EVA是基于CLIP的预训练,而不是MIM预训练。
MIM(Masked Image Modeling)预训练,即MAE做的事情,随机mask掉图片中一部分,生成原图。
缺点:MIM预训练只包含底层细节信息,没有高层语义信息。
CLIP预训练,用“图像-文本”进行对比学习训练,
使用场景:根据文本搜索相关图片,根据图片生成相关描述。
优点:文本补充了MIM缺乏的高层语义信息,CLIP预训练细节和语义信息都有。CLIP预训练中的高层语义信息能够给下游任务提供更大的帮助。
EVA 不需要昂贵的监督训练阶段,仅利用来自开源数据集的图像就可以。
EVA 的迁移学习性能强。
EVA 可以充当以视觉为中心的多模态支点
EVA02
成就:

使用可公开访问的训练数据,仅具有 304M 参数的 EVA-02 在 ImageNet-1K 验证集上实现了惊人的 90.0 微调 top-1 精度。
EVA-02-CLIP 在 ImageNet-1K 上可以达到高达 80.4 的零样本 top-1,优于之前最大、最好的开源 CLIP,仅需要约 1/6 的参数和约 1/6 的图像文本训练数据。
改进:

EVA02对原始ViT改进了结构(借鉴NLP上的一些改进Tricks)
EVA V1使用CLIP模型的视觉Encoder作为Teacher,EVA V2使用EVA-CLIP作为Teacher。EVA-CLIP 与之前的 CLIP 模型相比性能更强大,参数数量相同,但训练成本显著降低
EVA V2使用了更多的数据,多个开源公开的数据集合并到一起组成 Merged-38M,累计3800万张图片。
训练分为多阶段,
在Merged-38M上进行MIM预训练,
在ImageNet21K上进行finetuning,
在ImageNet1K上做最后的finetuning。
EVA V2还支持微调多项下游任务,如目标检测,语义分割、实例分割等。
EVA: Visual Representation Fantasies from BAAI的更多相关文章
- 论文笔记:Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association
Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language ...
- 【CV】ICCV2015_Unsupervised Visual Representation Learning by Context Prediction
Unsupervised Visual Representation Learning by Context Prediction Note here: it's a learning note on ...
- Paper Reading - Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation ( CVPR 2015 )
Link of the Paper: https://ieeexplore.ieee.org/document/7298856/ A Correlative Paper: Learning a Rec ...
- Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)
Momentum Contrast for Unsupervised Visual Representation Learning 一.Methods Previously Proposed 1. E ...
- Momentum Contrast for Unsupervised Visual Representation Learning
Momentum Contrast for Unsupervised Visual Representation Learning 一.Methods Previously Proposed 1. E ...
- 论文解读《Momentum Contrast for Unsupervised Visual Representation Learning》俗称 MoCo
论文题目:<Momentum Contrast for Unsupervised Visual Representation Learning> 论文作者: Kaiming He.Haoq ...
- Visual Representation of SQL Joins
原文:http://www.codeproject.com/Articles/33052/Visual-Representation-of-SQL-Joins 从视图上介绍了7种不同类型的JOIN ...
- Posterior visual bounds retrieval for the Plato framework
Plato is a MVVM compliant 2D on-canvas graphics framework I've been designing and implementing for d ...
- Visual Studio 2010 Shortcut
General Shortcut Description Ctrl-X or Shift-Delete Cuts the currently selected item to the clipboar ...
- Self-Supervised Representation Learning
Self-Supervised Representation Learning 2019-11-11 21:12:14 This blog is copied from: https://lilia ...
随机推荐
- Codeforces Round 920 (Div. 3)(A~F)
目录 A B C D E F A 按题意模拟即可 #include <bits/stdc++.h> #define int long long #define rep(i,a,b) for ...
- (二)Git 学习之基础篇
一.理论基础 1.1 Git 记录的是什么? Git 和其它版本控制系统(如 SVN)的主要差别在于 Git 对待数据的方式. 1.1.1 SVN 记录差异比较 从概念上来说,SVN 以文件变更列表的 ...
- Python 初学者容易踩的坑
哈喽大家好,我是咸鱼. 今天咸鱼列出了一些大家在初学 Python 的时候容易踩的一些坑,看看你有没有中招过. 原文:https://www.bitecode.dev/p/unexpected-pyt ...
- c语言中内存分配malloc,calloc,realloc函数的区别和联系
一 概念: A malloc() 在内存的动态存储区中分配一块长度为size字节的连续区域,参数size为需要内存空间的长度,返回该区域的首地址 B calloc() 与malloc相似,参数size ...
- 记本地新建一个gradle方式springboot项目过程
打算使用gradle在idea新建个springboot项目,然后坑很多,记录一下 原来我的idea应该是社区版,新建项目时候没有可以选择spring相关配置,然后卸载了重装,之前问题是启动是启动起来 ...
- 四种方式实现点击chrome链接在ie中显示页面
1.c++ socket通过浏览器在ie中打开指定url github源码:https://github.com/iamzken/cpp-open-ie 2.vb生成exe,url访问exe启动ie并 ...
- Java递归实现全排列改进(二)---利用ArrayList实现去重
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class Test{ priv ...
- HttpClient 详解
作者:小白豆豆5链接:https://www.jianshu.com/p/14c005e9287c来源:简书著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 1.HTTP 请求创建 ...
- FPGA的PCB设计
FPGA的PCB设计 一.FPGA的高速电路板设计 PCB板的设计规模增大,IO传输问题也就出现.为了兼容其他高速模块,必须对PCB的设计进行优化. 1️⃣电源滤波,降低系统噪声2️⃣匹配信号线3️⃣ ...
- proteus的C51仿真
Proteus的C51仿真 1.实验原理 Proteus是对C51仿真效果比较好的软件了,可以利用丰富的数字资源的外设实现比较接近实际的设计.仿真方法也比较简单,不需要下载,只需要将仿真文件导出到器件 ...
