代码:https://github.com/haotian-liu/LLaVA

总览

在这篇论文中,作者首次尝试使用纯语言 GPT-4 生成多模态语言图像指令遵循数据(insruction-following data)。 通过对此类生成数据进行指令调整,推出了大型语言和视觉助手(Large Language and Vision Assistant,LLaVA)。一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。

背景等相关方法:大型语言模型(LLM)表明语言可以发挥更广泛的作用:通用助手的通用接口,各种任务指令可以用语言明确表示并指导端到端 训练有素的神经助手切换到感兴趣的任务来解决它。例如,最近 ChatGPT 和 GPT-4 的成功证明了对齐 LLM 在遵循人类指令方面的力量,并激发了人们对开发开源 LLM 的极大兴趣。 其中,LLaMA [44] 是一个与 GPT-3 性能相匹配的开源 LLM。 Alpaca [43]、Vicuna [45]、GPT-4-LLM [34]利用各种机器生成的高质量指令跟随样本来提高 LLM 的对齐能力,与专有 LLM 相比,报告了令人印象深刻的性能。 重要的是,这行工作是纯文本的。

不同于上面文本的指令微调,作者提出了视觉指令微调,第一个尝试将指令微调拓展到多模态领域调整。贡献如下:

  • 数据方面:使用ChatGPT/GPT-4来将数据转化为多模态指令遵循数据(multimodel instrustion-following data);
  • 模型方面:使用CLIP+LLaMA进行指令微调,构建了多模态大模型LLaVA,得到了较好的结果;
  • 开源,开源,还是开源!这年头大模型开源都算主要contribution了。

GPT-协助的数据生成

这部分我写的比较细,因为现在大模型论文在模型上区别并不大,主要还是数据的区别。

基于已有的大量图片对数据,利用ChatGPT/GPT-4进行多模态指令遵循数据的收集。主要问题集中在如何用 Language-only/Text-only的ChatGPT/GPT-4模型来为图片内容生成对应的指令。

最基本的方式:图片Xv和其对应的说明文字Xc,构建一个问题集合Xq来提示大模型助手对图片内容进行描述。通过提示GPT-4可以构建这样一个问题序列,如下图:

然后可以将图文对扩展成指令遵循版本的数据格式:Human: Xq Xv \n Assistant: Xc \n。

但这样构造的数据都缺乏多样性和深入推理性,为了弥补这一问题,作者将视觉内容编码送进ChatGPT来提高指令的质量,用了两类的符合表示:文字说明(通常从不同的角度描述视觉场景)和编辑框BBox(通常对场景中的物体进行定位,每个边界框对物体的概念及其空间位置进行编码),如下图:

通过这两类符合表示,将视觉内容传达给了大模型,然后手工设计了3种对话方式,利用GPT-4进行生成和扩充,分别是对话、细节描述复杂推理

这里的每种类型使用的问题(Question)也是通过GPT进行in-context-learning来模仿生成的。其中,图片/描述/边界框等信息使用COCO数据集的数据。

以对话为例,作者采用了下图的方式生成更多的对话标签。

最终累积158K的语言-图片指令遵循样本,58K对话、23K细节描述和77K复杂推理。同时在使用ChatGPT和GPT-4时,作者发现GPT-4生成的指令遵循数据质量更高,比如空间推理能力。

网络结构

与GPT-4-LLM[34], Alpaca[43], Vicuna[45]类似,作者使用LLaMA来做 指令微调任务,网络结构如下。整体比较简单,再语言模型前(LLaMA)添加了一个视觉编码器(CLIP)将图片转化为Patch features,然后这些图片特征经过一个映射层W转化为视觉Token,Vison Token与Language Token指令在同一个特征空间,一起拼接(concantate)一起送进大模型。

这里的映射层W可以替换为更复杂的网络来提升性能。

模型训练

使用如下图的方式组织输入输出,其中绿色部分为参与损失计算的部分,损失使用自回归模型的损失,即next token prediction。

作者使用了两阶段的训练方式:

  1. 预训练特征对齐模块(映射层W);
  2. 端对端的微调语言模型+映射层。

实验效果

其他可以学习的文章

miniGPT-4的同期工作: 微软LLaVa模型论文笔记https://zhuanlan.zhihu.com/p/625723805

Visual Instruction Tuninghttps://zhuanlan.zhihu.com/p/624071363

参考文献

[34] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, and Jianfeng Gao. Instruction tuning with GPT-4.

[43] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca, 2023

[44] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timo- thée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[45] Vicuna. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality. https: //vicuna.lmsys.org/, 2023.

多模态大语言模型 LlaVA 论文解读:Visual Instruction Tuning的更多相关文章

  1. 可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读

    可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读 Visual Deprojection: Probabilistic Recovery of Collapsed Dimensions 论文链接: ...

  2. CVPR2020论文解读:三维语义分割3D Semantic Segmentation

    CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation  for 3 ...

  3. 自监督学习(Self-Supervised Learning)多篇论文解读(下)

    自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...

  4. 自监督学习(Self-Supervised Learning)多篇论文解读(上)

    自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...

  5. NLP论文解读:无需模板且高效的语言微调模型(上)

    原创作者 | 苏菲 论文题目: Prompt-free and Efficient Language Model Fine-Tuning 论文作者: Rabeeh Karimi Mahabadi 论文 ...

  6. itemKNN发展史----推荐系统的三篇重要的论文解读

    itemKNN发展史----推荐系统的三篇重要的论文解读 本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度 皮尔逊相似系数 参数聚合进行推荐 根据用户 ...

  7. CVPR2019 | Mask Scoring R-CNN 论文解读

    Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读 作者 | 文永亮 研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...

  8. zz扔掉anchor!真正的CenterNet——Objects as Points论文解读

    首发于深度学习那些事 已关注写文章   扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员 ​关注他 JustDoIT 等 ...

  9. NIPS2018最佳论文解读:Neural Ordinary Differential Equations

    NIPS2018最佳论文解读:Neural Ordinary Differential Equations 雷锋网2019-01-10 23:32     雷锋网 AI 科技评论按,不久前,NeurI ...

  10. [论文解读] 阿里DIEN整体代码结构

    [论文解读] 阿里DIEN整体代码结构 目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 ...

随机推荐

  1. 成为钢铁侠!只需一块RTX3090,微软开源贾维斯(J.A.R.V.I.S.)人工智能AI助理系统

    梦想照进现实,微软果然不愧是微软,开源了贾维斯(J.A.R.V.I.S.)人工智能助理系统,贾维斯(jarvis)全称为Just A Rather Very Intelligent System(只是 ...

  2. 正则表达式、datetime

    1.正则表达式就是用来匹配字符串的 2.常用\d表示一个数字,\w表示数字或者字母,'.'表示任意字符 3.如果要匹配边长的字符串,使用*表示任意个字符,+表示至少一个字符,?表示0个或者1个字符,{ ...

  3. 关于react的Tabs组件中TabPane的bug

    今天解决了我自认为一个很不起眼的Bug. 我的Tabs下面有5个tabPane,并且这几个tabPane共用了一个search组件,今天遇到了一个bug,就是这几个组件使用公共查找组件的时候,前一个组 ...

  4. Java工作环境的配置与Eclipse的安装

    如果您觉得这篇文章有用,请点个赞呀! Eclipse是一个开放源代码的.基于Java的可扩展开发平台.就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境.Eclipse 附带了一个标 ...

  5. 2023-03-20:给定一个无向图,保证所有节点连成一棵树,没有环, 给定一个正数n为节点数,所以节点编号为0~n-1,那么就一定有n-1条边, 每条边形式为{a, b, w},意思是a和b之间的无

    2023-03-20:给定一个无向图,保证所有节点连成一棵树,没有环, 给定一个正数n为节点数,所以节点编号为0~n-1,那么就一定有n-1条边, 每条边形式为{a, b, w},意思是a和b之间的无 ...

  6. 2021-03-27:给你一个链表的头节点 head ,旋转链表,将链表每个节点向右移动 k 个位置。输入:head = 1→2→3→4→5, k = 2,输出:4→5→1→2→3。

    2021-03-27:给你一个链表的头节点 head ,旋转链表,将链表每个节点向右移动 k 个位置.输入:head = 1→2→3→4→5, k = 2,输出:4→5→1→2→3. 福大大 答案20 ...

  7. 2021-09-05:单词搜索 II。给定一个 m x n 二维字符网格 board 和一个单词(字符串)列表 words,找出所有同时在二维网格和字典中出现的单词。单词必须按照字母顺序,通过 相邻的

    2021-09-05:单词搜索 II.给定一个 m x n 二维字符网格 board 和一个单词(字符串)列表 words,找出所有同时在二维网格和字典中出现的单词.单词必须按照字母顺序,通过 相邻的 ...

  8. vue全家桶进阶之路27:Vue.js 3.0的下载和安装

    使用脚手架vue-cli创建vue3项目,创建前需要准备以下: 1.node.js环境 见:https://www.cnblogs.com/beichengshiqiao/p/17251233.htm ...

  9. vue全家桶进阶之路18:Vue Router

    Vue Router 是 Vue.js 的官方路由管理器,它可以帮助我们实现单页应用(Single Page Application,SPA)的前端路由. Vue Router 基于 Vue.js 的 ...

  10. Go开源世界主流成熟ORM框架gorm实践分享

    @ 目录 概述 定义 核心功能 声明模型与约定 gorm.Model 字段级权限 时间惯例 嵌入结构 字段标签 使用 安装 数据库链接 连接池 CRUD 接口 创建 查询 高级查询 修改 删除 原始S ...