EVA: Visual Representation Fantasies from BAAI

本文做个简单总结，博主不是做自监督领域的，如果错误，欢迎指正。

链接

Code：

Official：baaivision/EVA

MMpretrain：open-mmlab/mmpretrain/tree/main/configs/eva02

Paper：

EVA01：EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

EVA02：EVA-02: A Visual Representation for Neon Genesis

EVA01

成就：

EVA 是第一个开源的十亿级视觉基础模型，在广泛的下游任务上实现了最先进的性能。

改进：

EVA是基于CLIP的预训练，而不是MIM预训练。
1. MIM(Masked Image Modeling)预训练，即MAE做的事情，随机mask掉图片中一部分，生成原图。
  1. 缺点：MIM预训练只包含底层细节信息，没有高层语义信息。
2. CLIP预训练，用“图像-文本”进行对比学习训练，
  1. 使用场景：根据文本搜索相关图片，根据图片生成相关描述。
  2. 优点：文本补充了MIM缺乏的高层语义信息，CLIP预训练细节和语义信息都有。CLIP预训练中的高层语义信息能够给下游任务提供更大的帮助。
EVA 不需要昂贵的监督训练阶段，仅利用来自开源数据集的图像就可以。
EVA 的迁移学习性能强。
EVA 可以充当以视觉为中心的多模态支点

EVA02

成就：

使用可公开访问的训练数据，仅具有 304M 参数的 EVA-02 在 ImageNet-1K 验证集上实现了惊人的 90.0 微调 top-1 精度。
EVA-02-CLIP 在 ImageNet-1K 上可以达到高达 80.4 的零样本 top-1，优于之前最大、最好的开源 CLIP，仅需要约 1/6 的参数和约 1/6 的图像文本训练数据。

改进：

EVA02对原始ViT改进了结构（借鉴NLP上的一些改进Tricks）
EVA V1使用CLIP模型的视觉Encoder作为Teacher，EVA V2使用EVA-CLIP作为Teacher。EVA-CLIP 与之前的 CLIP 模型相比性能更强大，参数数量相同，但训练成本显著降低
EVA V2使用了更多的数据，多个开源公开的数据集合并到一起组成 Merged-38M，累计3800万张图片。
训练分为多阶段，
1. 在Merged-38M上进行MIM预训练，
2. 在ImageNet21K上进行finetuning，
3. 在ImageNet1K上做最后的finetuning。
4. EVA V2还支持微调多项下游任务，如目标检测，语义分割、实例分割等。

EVA: Visual Representation Fantasies from BAAI的更多相关文章

论文笔记：Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association
Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language ...
【CV】ICCV2015_Unsupervised Visual Representation Learning by Context Prediction
Unsupervised Visual Representation Learning by Context Prediction Note here: it's a learning note on ...
Paper Reading - Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation ( CVPR 2015 )
Link of the Paper: https://ieeexplore.ieee.org/document/7298856/ A Correlative Paper: Learning a Rec ...
Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)
Momentum Contrast for Unsupervised Visual Representation Learning 一.Methods Previously Proposed 1. E ...
Momentum Contrast for Unsupervised Visual Representation Learning
Momentum Contrast for Unsupervised Visual Representation Learning 一.Methods Previously Proposed 1. E ...
论文解读《Momentum Contrast for Unsupervised Visual Representation Learning》俗称 MoCo
论文题目:<Momentum Contrast for Unsupervised Visual Representation Learning> 论文作者: Kaiming He.Haoq ...
Visual Representation of SQL Joins
原文:http://www.codeproject.com/Articles/33052/Visual-Representation-of-SQL-Joins 从视图上介绍了7种不同类型的JOIN ...
Posterior visual bounds retrieval for the Plato framework
Plato is a MVVM compliant 2D on-canvas graphics framework I've been designing and implementing for d ...
Visual Studio 2010 Shortcut
General Shortcut Description Ctrl-X or Shift-Delete Cuts the currently selected item to the clipboar ...
Self-Supervised Representation Learning
Self-Supervised Representation Learning 2019-11-11 21:12:14 This blog is copied from: https://lilia ...

随机推荐

Ubuntu20下安装NFS
安装nfs-kernel-server apt install nfs-kernel-server 想好自己要把哪个目录作为NFS共享目录,创建目录 mkdir /mydata vim /etc/ex ...
python Ai 应用开发基础训练，字符串，字典，文件
-------------------------------------- 编程能是大模型应用的天花板............................................. ...
vscode ctrl + d 删除当前行更改快捷键
vscode 删除当前行更改快捷键
[VueJsDev] 日志 - nginxConfig 配置文件备份
[VueJsDev] 目录列表 https://www.cnblogs.com/pengchenggang/p/17037320.html nginxConfig 配置文件备份 ::: details ...
Istio中的核心资源及定义
Istio 的核心资源主要包括以下几种: 1. Gateway 用于建模边缘网关,可以为进入或离开网格的流量提供专用的入口和出口点.Gateway 定义了在网格边缘运行的负载均衡器,用于接收传入或传出 ...
Nginx的负载均衡策略(4+2)
Nginx的负载均衡策略主要包括以下几种: 轮询(Round Robin):每个请求按时间顺序逐一分配到不同的后端服务器,如果后端服务器down掉,能自动剔除.这是Nginx的默认策略,适合服务器配置 ...
Android Studio自带模拟器无法访问网络问题解决
测试APP的时候,发现Android Studio自带的模拟器访问不了百度等网站,之前一直用的好好的,觉得可能是版本的问题,也有可能是公司网络的问题(因为在家里的电脑的Android Studio的模 ...
计算机网络-DNS以及FastGitHub
前言你是否观察到过这种现象,在访问Github时,有的时候能正常访问,有的时候再次刷新就访问不了,那么能不能有什么办法能一直访问.答案是有,就是在DNS层面能保证一直稳定获取可用并且快速的IP,这就 ...
自定义Key类型的字典无法序列化的N种解决方案
当我们使用System.Text.Json.JsonSerializer对一个字典对象进行序列化的时候,默认情况下字典的Key不能是一个自定义的类型,本文介绍几种解决方案. 一.问题重现二.自定义J ...
Python 潮流周刊第 43 期（摘要），赠书 5 本《Python数据结构与算法分析（第3版）》
本周刊由 Python猫出品,精心筛选国内外的 250+ 信息源,为你挑选最值得分享的文章.教程.开源项目.软件工具.播客和视频.热门话题等内容.愿景:帮助所有读者精进 Python 技术,并增长职 ...

EVA: Visual Representation Fantasies from BAAI

链接

Code：​

Paper：

EVA01

成就：

改进：

EVA02

成就：

改进：

EVA: Visual Representation Fantasies from BAAI的更多相关文章

随机推荐

热门专题

Code：