克雷西萧箫发自凹非寺

  量子位公众号 QbitAI

  多模态王炸大模型 GPT-4V,166 页“说明书”重磅发布!而且还是微软团队出品。

  什么样的论文,能写出 166 页?

  不仅详细测评了 GPT-4V 在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;

  还传授了一整套多模态大模型提示词使用技巧——

  手把手教你从 0 到 1 学会写提示词,回答专业程度一看就懂,属实是把 GPT-4V 的使用门槛打到不存在了。

  值得一提的是,这篇论文的作者也是“全华班”,7 名作者全部是华人,领衔的是一位在微软工作了 17 年的女性首席研究经理。

  在 166 页报告发布前,他们还参与了 OpenAI 最新 DALL·E 3 的研究,对这个领域了解颇深。

  相比 OpenAI 的 18 页 GPT-4V 论文,这篇 166 页“食用指南”一发布,立刻被奉为 GPT-4V 用户必读之物:

  有网友感慨:这哪里是论文,这简直快成一本 166 页的小书了。

  还有网友看完已经感到慌了:

不要只看 GPT-4V 的回答细节,我真的对 AI 展现出来的潜在能力感到害怕。

  所以,微软这篇“论文”究竟讲了啥,又展现出了 GPT-4V 的哪些“潜力”?

  微软 166 页报告讲了啥?

  这篇论文钻研 GPT-4V 的方法,核心就靠一个字——“试”

  微软研究员们设计了涵盖多个领域的一系列输入,将它们喂给 GPT-4V,并观察和记录 GPT-4V 的输出。

  随后,他们对 GPT-4V 完成各类任务的能力进行评估,还给出了使用 GPT-4V 的新提示词技巧,具体包括 4 大方面:

  1、GPT-4V 的用法:

  5 种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。

  3 种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文少样本学习(in-context few-shot learning)。

  例如这是基于思维链变更提问方式后,GPT-4V 展现出的指令遵循能力:

  2、GPT-4V 在 10 大任务中的表现:

  开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)

  其中就包括这种,需要一些智商才能做出来的“图像推理题”:

  3、类 GPT-4V 多模态大模型的提示词技巧:

  提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。

  4、多模态大模型的研究&落地潜力:

  预测了多模态学习研究人员应该关注的 2 类领域,包括落地(潜在应用场景)和研究方向。

  例如这是研究人员发现的 GPT-4V 可用场景之一——故障检测:

  但无论是新的提示词技巧、还是 GPT-4V 的应用场景,大伙儿最关注的还是 GPT-4V 的真正实力。

  所以,这份“说明书”随后用了 150 多页来展示各种 demo,详细剧透了 GPT-4V 在面对不同回答时展现出的能力。

  一起来看看 GPT-4V 如今的多模态能力进化到哪一步了。

  精通专业领域图像,还能现学知识

  图像识别

  最基础的识别自然是不在话下,比如科技、体育界以及娱乐圈的各路名人:

  而且不仅能看出这些人是谁,还能解读他们正在做什么,比如下图中老黄正在介绍英伟达新推出的显卡产品。

  除了人物,地标建筑对于 GPT-4V 来说同样是小菜一碟,不仅能判断名称和所在地,还能给出详细的介绍。

  △左:纽约时代广场,右:京都金阁寺

  不过越是有名的人和地点,判断起来也就越容易,所以要难度更大的图才能展现 GPT-4V 的能力。

  比如医学影像,针对下面这张肺部 CT,GPT-4V 给出了这样的结论:

双肺多个区域存在实变和磨玻璃混浊,肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。

  甚至不告诉 GPT-4V 影像的种类和位置,它自己也能判断。

  这张图中,GPT-4V 成功识别出了这是一张脑部的核磁共振(MRI)影像。

  同时,GPT-4V 还发现存在大量积液,认为很可能是高级别脑胶质瘤。

  经过专业人士判断,GPT-4V 给出的结论完全正确。

  除了这些“正经”的内容之外,当代人类社会的“非物质文化遗产”表情包也被 GPT-4V 给拿捏了。

  △机器翻译,仅供参考

  不仅是解读表情包中的梗,真实世界中人类的表情所表达的情感也能被 GPT-4 看穿。

  除了这些真·图像之外,文本识别也是机器视觉中的一项重要任务。

  这方面,GPT-4V 除了可以识别拉丁文字拼写的语言之外,中文、日文、希腊文等其他文字也都认识。

  甚至是手写的数学公式:

  图像推理

  前面展示的 DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是 GPT-4V 技能的冰山一角。

  除了看懂图片中的内容,GPT-4V 还具有一定的推理能力。

  简单一些的,GPT-4V 可以发现两张图中的不同(虽然还有些错误)。

  下面的一组图中,王冠和蝴蝶结的区别都被 GPT-4V 发现了。

  如果加大难度,GPT-4V 还能解决 IQ 测试当中的图形问题。

  上面的这三道题中的特征或逻辑关系都还比较简单,但接下来就要上难度了:

  当然难度不是在于图形本身,注意图中的第 4 条文字说明,原题目中图形的排列方式不是图中展示的样子。

  图片标注

  除了用文本回答各种问题,GPT-4V 还可以在图片中执行一系列操作。

  比如我们手里有一张四位 AI 巨头的合影,要 GPT-4V 框出其中的人物并标注他们的姓名和简介。

  GPT-4V 先是用文本回答了这些问题,紧接着便给出了处理之后的图片:

  动态内容分析

  除了这些静态内容,GPT-4V 还能做动态分析,不过不是直接喂给模型一段视频。

  下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V 的任务是(在理解内容的基础上)推测这些图片出现的顺序。

  而针对同一系列的图片,可能会有不同的理解方式,这是 GPT-4V 会结合文本提示进行判断。

  比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。

  当然,通过多张图片中人物状态的变化,还可以推测出他们正在做的事情。

  甚至是预测接下来会发生什么:

  “现场学习”

  GPT-4V 不仅视觉本领强,关键是还能现学现卖。

  还是举个例子,让 GPT-4V 读汽车仪表盘,一开始得出的答案是错误的:

  紧接着把方法用文字交给 GPT-4V,但这是的答案依然不对:

  然后又把例子展示给 GPT-4V,答案倒是有样学样,可惜数字是胡编乱造出来的。

  只有一个例子的确是有点少,不过随着样本数量的提高(其实只多了一个),终于功夫不负有心人,GPT-4V 给出了正确答案。

  GPT-4V 的效果就展示这么多,当然它还支持更多的领域和任务,这里无法一一展示,感兴趣的话可以阅读原始报告。

  那么,GPT-4V 这些神器的效果背后,是怎样的一个团队呢?

  清华校友领衔

  这篇论文的作者一共有 7 位,均为华人,其中 6 位是核心作者。

  项目领衔作者 Lijuan Wang,是微软云计算与 AI 首席研究经理。

  她本科毕业于华中科技大学,在中国清华大学获得博士学位,于 2006 年加入微软亚洲研究院,并于 2016 年加入位于雷德蒙德的微软研究院。

  她的研究领域是基于多模态感知智能的深度学习和机器学习,具体又包括视觉语言模型预训练、图像字幕生成、目标检测等 AI 技术。

  原文地址:

  https://arxiv.org/abs/2309.17421

微软写了份GPT-4V说明书:166页详细讲解,提示词demo示例全都有的更多相关文章

  1. POI导出时写一份到ftp服务器,一份下载给客户端

    导语: 昨天接到项目经理这么一个需求,让我在POI导出Excel的时候写一份到我之前搭建的ftp服务器上.所以就有了这篇博客首先我们来分析下之前的业务逻辑:我们创建并构造了一个workbook,然后构 ...

  2. 用Markdown格式写一份前端简历

    1. 基本信息 姓名:xxx 手机号码:1380000xxxx 学校:南昌大学 学历:大学本科/硕士/博士 工作经验:3年以上Web前端 电子邮件:xxx@outlook.com 2. 求职意向 工作 ...

  3. 写一份简单的webpack2 的配置文件,无比简单

    这是一份自己用到的webpack2的配置写法,从看webpack2开始,发现自己越来越懒了,现在html文件都不想自己写了,直接自己生成... 哈哈,这次是可以无比完美的导入css啦 开发的时候在命令 ...

  4. 如何写一份优秀的java程序员简历

    背景:进入第一家公司已经工作将近两年了,其中闲了一年,在准备自己的简历的时候,有种江郎才尽的感觉,不知道怎么写,看来平时还是要多积累多熟悉. ps:这里面的分享看完还是很受用的. 简历看得比较认真的, ...

  5. 程序员快递请查收,来自Python黑客大佬的一份DDOS攻击说明书!

    DDoS攻击没有我们想象中的那么简单,并不是什么Python程序员都能够做到的. 若要知晓黑客利用DDOS攻击原理那么我们必须要知道是实行DDoS攻击比较难的原因是什么? 很简单的一句话概括:&quo ...

  6. 手写一个更好用的performSelector/msgSend(详细修改版)

    这其实是一个NSInvocation练习作业 GitHub源码 vk_msgSend 引子 工作中难免会遇到一些场景,开发的时候不想引入整个头文件,但是又想调用一些方法 动态创建,动态调用看起来比较酷 ...

  7. jQuery Validate 表单验证插件----利用jquery.metadata.js将校验规则直接写在class属性里面并定义错误信息的提示

    一.下载依赖包 网盘下载:https://yunpan.cn/cryvgGGAQ3DSW  访问密码 f224 二. 添加一个另外一个插件jquery.metadata.js 并把校验规则写在控件里面 ...

  8. 吴恩达深度学习第1课第4周-任意层人工神经网络(Artificial Neural Network,即ANN)(向量化)手写推导过程(我觉得已经很详细了)

    学习了吴恩达老师深度学习工程师第一门课,受益匪浅,尤其是吴老师所用的符号系统,准确且易区分. 遵循吴老师的符号系统,我对任意层神经网络模型进行了详细的推导,形成笔记. 有人说推导任意层MLP很容易,我 ...

  9. BOE系统与BW系统间的单点登录(注:这里先简单写一下,改天有时间再进行详细的描述)

    1,在BOE系统内进行配置,将BW系统内的用户信息导入BOE 2,在BOE系统内定义这些导入用户对BOE对象有哪些权限 3,用户使用BW系统的用户名密码登录BOE系统:BOE将登录凭证转发给BW系统让 ...

  10. 写个关于使用cocostudio Armature实现动画自由切换的小demo

    这是一个关于使用cocostudio实现动画自由切换的小demo auto sprite =Sprite::create("background.png"); sprite-> ...

随机推荐

  1. 函数使用十六:BAPI_GOODSMVT_CREATE

    *&---------------------------------------------------------------------* *& Report ZBAPI_GOO ...

  2. UFT Wscripts.Shell & Mercury.DeviceReplay

  3. zip文件下载

    记录一下zip压缩文件下载 下载的内容有些大 ,通过变成.zip的文件的话会小很多,response是HttpServletResponse,记得关闭流 //文件压缩下载 ZipOutputStrea ...

  4. Kafka入门实战教程:学习总结目录索引

    0 Kafka学习路径 在学习Kafka的途中,我总结了一个系列的Kafka学习征途系列教程,它只选取了我认为最实用的部分整理出来,以及结合我最熟悉的.NET技术栈进行了演示. 而一些我觉得在实际中用 ...

  5. jenkins部署后端SpringBoot

    安装和配置java 安装java就不介绍了,因为到这一步,java环境肯定是已经安装完了. 这里多介绍给jekins配置java环境,方便编译后端项目. 全局工具配置>JDK>新增 安装和 ...

  6. SpringBoot--如何给项目添加配置属性及读取属性

    SpringBoot允许使用配置文件对应用程序进行配置,支持以下不同形式的配置源: 属性文件(比如application.properties) yaml文件(后缀可以是yml或者yaml) 环境变量 ...

  7. CF1990D Grid Puzzle 题解

    CF1990D Grid Puzzle DP 好题.考虑分析两种操作的性质,不难发现操作 \(1\) 至多只能涂白 \(4\) 个方格,而操作 \(2\) 可以涂白的方格取决于这一行的方格数,几乎无上 ...

  8. 【6】ST表学习笔记

    前言 学习ST表,主要是倍增思想,可以理解为倍增优化后的DP.写在这里,一方面方便自己以后复习,另一方面给其他人参考. UPD on 2023/3/21 :修改了格式,使格式与其他的学习笔记统一. 倍 ...

  9. openwrt 烧录rootfs的大小

    make menuconfig 里面有一个 target Image的选项,然后进去可以在rootfs修改烧录sd卡的大小

  10. 使用字符串创建java 对象

    简介 RT code String s = "java.util.Random"; Object m = Class.forName(s).newInstance();