EVA: Visual Representation Fantasies from BAAI
本文做个简单总结,博主不是做自监督领域的,如果错误,欢迎指正。
链接
Code:
Official:baaivision/EVA
MMpretrain:open-mmlab/mmpretrain/tree/main/configs/eva02
Paper:
EVA01:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
EVA02:EVA-02: A Visual Representation for Neon Genesis
EVA01
成就:
EVA 是第一个开源的十亿级视觉基础模型,在广泛的下游任务上实现了最先进的性能。
改进:
EVA是基于CLIP的预训练,而不是MIM预训练。
MIM(Masked Image Modeling)预训练,即MAE做的事情,随机mask掉图片中一部分,生成原图。
缺点:MIM预训练只包含底层细节信息,没有高层语义信息。
CLIP预训练,用“图像-文本”进行对比学习训练,
使用场景:根据文本搜索相关图片,根据图片生成相关描述。
优点:文本补充了MIM缺乏的高层语义信息,CLIP预训练细节和语义信息都有。CLIP预训练中的高层语义信息能够给下游任务提供更大的帮助。
EVA 不需要昂贵的监督训练阶段,仅利用来自开源数据集的图像就可以。
EVA 的迁移学习性能强。
EVA 可以充当以视觉为中心的多模态支点
EVA02
成就:

使用可公开访问的训练数据,仅具有 304M 参数的 EVA-02 在 ImageNet-1K 验证集上实现了惊人的 90.0 微调 top-1 精度。
EVA-02-CLIP 在 ImageNet-1K 上可以达到高达 80.4 的零样本 top-1,优于之前最大、最好的开源 CLIP,仅需要约 1/6 的参数和约 1/6 的图像文本训练数据。
改进:

EVA02对原始ViT改进了结构(借鉴NLP上的一些改进Tricks)
EVA V1使用CLIP模型的视觉Encoder作为Teacher,EVA V2使用EVA-CLIP作为Teacher。EVA-CLIP 与之前的 CLIP 模型相比性能更强大,参数数量相同,但训练成本显著降低
EVA V2使用了更多的数据,多个开源公开的数据集合并到一起组成 Merged-38M,累计3800万张图片。
训练分为多阶段,
在Merged-38M上进行MIM预训练,
在ImageNet21K上进行finetuning,
在ImageNet1K上做最后的finetuning。
EVA V2还支持微调多项下游任务,如目标检测,语义分割、实例分割等。
EVA: Visual Representation Fantasies from BAAI的更多相关文章
- 论文笔记:Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association
Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language ...
- 【CV】ICCV2015_Unsupervised Visual Representation Learning by Context Prediction
Unsupervised Visual Representation Learning by Context Prediction Note here: it's a learning note on ...
- Paper Reading - Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation ( CVPR 2015 )
Link of the Paper: https://ieeexplore.ieee.org/document/7298856/ A Correlative Paper: Learning a Rec ...
- Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)
Momentum Contrast for Unsupervised Visual Representation Learning 一.Methods Previously Proposed 1. E ...
- Momentum Contrast for Unsupervised Visual Representation Learning
Momentum Contrast for Unsupervised Visual Representation Learning 一.Methods Previously Proposed 1. E ...
- 论文解读《Momentum Contrast for Unsupervised Visual Representation Learning》俗称 MoCo
论文题目:<Momentum Contrast for Unsupervised Visual Representation Learning> 论文作者: Kaiming He.Haoq ...
- Visual Representation of SQL Joins
原文:http://www.codeproject.com/Articles/33052/Visual-Representation-of-SQL-Joins 从视图上介绍了7种不同类型的JOIN ...
- Posterior visual bounds retrieval for the Plato framework
Plato is a MVVM compliant 2D on-canvas graphics framework I've been designing and implementing for d ...
- Visual Studio 2010 Shortcut
General Shortcut Description Ctrl-X or Shift-Delete Cuts the currently selected item to the clipboar ...
- Self-Supervised Representation Learning
Self-Supervised Representation Learning 2019-11-11 21:12:14 This blog is copied from: https://lilia ...
随机推荐
- 来也科技收购Mindsay背后:新旧势力交锋智能自动化备受关注
来也科技收购Mindsay背后:新旧势力交锋智能自动化备受关注 来也科技收购Mindsay背后:历程一波三折,意义非同寻常 来也科技收购Mindsay,国产RPA正式进军国际市场 收购Mindsay来 ...
- Zabbix MQQT协议监控 loT设备
一. 项目背景 监控异地局域网主机(主机内有物联5G卡 可以单方面向特定的云服务器传输信息)这里采用 zabbix 5xx系列 agent2 -6.2 版本 主动模式,即客户端向服务端注册. 二. ...
- 基于 XAF Blazor 的规则引擎编辑器
开源项目地址:https://gitee.com/lowcodexaf/rules-engine-editor 前言 本项目是基于XAFBlazor的规则引擎编辑器,规则引擎采用的是微软开源的Rule ...
- centos 定时任务
想法 看见一个别的项目,每天扒bing的背景,然后 生成个列表,然后数据就一天天的增加,创意非常好 有时间研究下 关键字 centos 定时任务 基于centos7系统定时任务创建 https://b ...
- MYSQL 主从不一致的原因分析
数据库作为存储数据的组件,数据的一致性一定是要保证的前提,今天给出两个场景来分析数据不一致的原因. binlog同步模式导致主从不一致 在MYSQL 中主库向从库同步数据是利用binlog记录修改操作 ...
- K8S容器环境下资源限制与jvm内存回收
一.k8s中的java资源限制与可能的问题 与以前单机跑单服务的情况相比,在k8s.docker容器化环境下的宿主机内存.cpu相对更大,所以当运行java类程序的时候,就必然有必要对容器进行内存限制 ...
- Android 优雅的Activity回调代码封装
原文地址: Android 优雅的Activity回调代码封装 - Stars-One的杂货小窝 之前提到Jetpack架构组件学习(3)--Activity Results API使用 - Star ...
- ViewStub你真的了解吗
目录介绍 01.什么是ViewStub 02.ViewStub构造方法 03.inflate()方法解析 04.WeakReference使用 05.ViewStub为何无大小 06.ViewStub ...
- 07.Android之多媒体问题
目录介绍 7.0.0.1 加载bitmap图片的时候需要注意什么?为何bitmap容易造成OOM?如何计算Bitmap占用内存? 7.0.0.2 如何理解recycle释放内存问题?图片加载到内存其实 ...
- 记录--alova组件使用方法(区别axios)
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 在我们写项目代码时,应该更加专注于业务逻辑的实现,而把定式代码交给js库或工程化自动处理,而我想说的是,请求逻辑其实也是可以继续简化的. ...
