多模态 GPT-V 出世!36 种场景分析 ChatGPT Vision 能力,LMM 将全面替代大语言模型?
LMM将会全面替代大语言模型?人工智能新里程碑GPT-V美国预先公测,医疗领域/OCR实践+166页GPT-V试用报告首发解读
ChatGPT Vision,亦被广泛称为GPT-V或GPT-4V,代表了人工智能技术的新里程碑。作为LMM (Large Multimodal Model) 的代表,它不仅继承了LLM (Large Language Model) 的文本处理能力,还加入了图像处理的功能,实现了文本与图像的多模态交互。与传统的LLM相比,GPT-V更加强大和灵活,能够更深入地理解和生成与图像相关的内容。这种进化打开了无数新的应用可能性,从图像描述、创意设计到复杂的图文结合任务,GPT-4V都展现出了卓越的性能和广泛的潜力。
使用方法:GPT-V目前对于美国区ChatGPT Plus账户开放。
相关链接:ChatGPT can now see, hear, and speak
相关介绍:GPTV_System_Card.pdf
166页GPT-V试用报告:Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
性能:对于ChatGPT4,速度比纯文本中文Prompt慢40%左右。(注意,当从GPT4切换到GPT-V后,纯文本中文Prompt速度提升了大概200%)
花费:$20美元一月,限速3小时25条,尚未开放API
调研版本:10-12 ChatGPT Vision(图片聊天/GPT多模态功能) ChatGPT September 25 Version
本文图片部分为实践(OCR/医学等),部分来自网络(推特/Arxiv试用报告),题图由ChatGPT DALL-E 3生成。
本文尝试从以下案例,对AI新里程碑LMM进行探索:
TLDR总结:
ChatGPT Vision更偏向于有创造性的图片理解,而非机器性细节识别。
ChatGPT Vision试图以大模型的涌现能力,从高层次理解整个图片,将图片如同文字一般对待,而非是OCR式的匹配识别。ChatGPT Vision和OCR的区别,与语义搜索和关键词搜索的区别类似。
ChatGPT Vision具有较大幻觉问题,Few-shot/CoT等Prompting方法也无法改善这一点(涌现能力不足),说明ChatGPT Vision仍处于像当年ChatGPT v3一样的初期阶段。预计未来几年随着参数规模的进一步提升,多模态大模型可能会复现文本大模型的发展路径。
(图1:Few-shot方法不能提高GPT-4V获取仪表板信息的准确性,红色代表回答错误)
(图2:CoT方法不能稳定质变提高GPT-4V数苹果的准确性,红色代表回答错误,绿色代表正确)
适用场景:
上下文概念性工作,如文章头图的自动审核初筛、皮肤病的照片辅助筛选,DR/CT照片影像学诊断,提供HTML alt text等。
图片创意性工作,如1.3节 商品销售文案生成、商品使用建议生成、商品创意名称生成等。
不适用场景:
有精确性要求的文字工作:如1.1节 患者诊疗单等OCR场景。
主体过多的复杂图片,如1.3节 前端网页代码复刻。
有潜力的场景:
清晰图片/截图的总结性工作,包括1.3节 图片的复杂理性/感性分析,如网络热图解释、教育场景
高纬度大模型推理,如1.3节 辨别电影/景点、客服、气候分析、设计图/网站设计建议等
1.0 基础功能
多图片上下文识别能力
(图3:研究者输入了多张购物账单小票/菜单图片,GPT-4V做出了正确回答)
理解图中标识(如箭头)和强调(如红圈标红)
(图4:对于使用箭头/画圈标识的图片,GPT-4V能做出了正确理解和回答)
1.1 OCR功能(幻觉严重,中文效果差)
中文:电脑截图(准确)
中文:清晰中文表格图片(幻觉严重)
中文:有复杂信息的真实患者诊疗单(幻觉严重)
患者诊疗单(给GPT的是原图,以下图片经过二次处理模糊了患者信息)
英文:准确:强对比度、轻微镜头畸变、中等像素噪声图片
阿拉伯语:部分准确:手写体转译英文
muin on X: "GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans. https://t.co/K6y6WffLvz" / X
1.2 医学诊断(高准确率)
肺部X光:肺炎判断(准确)
图像来源:GitHub - linhandev/dataset: 医学影像数据集列表 『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia
图片输入
GPT-V判别结果:(肺炎, 0.7)
1.肺炎:
◦置信度: 0.7
◦原因: X光片上下肺区的密度增加可能提示肺炎的存在,但根据图片无法明确确定。
2.肺水肿:
◦置信度: 0.6
◦原因: 下肺区的密度增加可能与液体积聚有关,如心力衰竭导致的肺水肿。
3.间质性肺病:
◦置信度: 0.5
◦原因: 有一些间质改变的迹象,但需要与先前的影像进行比较。
4.支气管炎:
◦置信度: 0.4
◦原因: 慢性支气管炎可能导致一些观察到的不透明度。
5.结核病:
◦置信度: 0.3
◦原因: 尽管结核病可表现为不透明和可能的固实化,但该图像并不强烈地表现出结核病的典型特征。
6.肺癌:
◦置信度: 0.2
◦原因: 虽然没有明确的结节或肿块,但由于X光在显示其他结构后面的小结节时的局限性,肺癌不能完全排除。
皮肤病:黑色素瘤判断(部分准确)
数据源:ISIC Archive
https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=[]
图片输入
GPT-V判别结果(常见痣 0.6,黑色素瘤 0.3)
- 黑色素细胞痣 (常见痣)
◦ 信心分数: 0.6
原因: 该皮损表现出与常见痣相似的特征,中央有深色区域。50岁左右的人群中很常见。
- 老年性角化病
◦ 信心分数: 0.4
原因: 老年性角化病是老年人中常见的非癌性皮肤生长,颜色可能会有所不同。
- 异型痣
◦ 信心分数: 0.5
原因: 这类痣与常见痣有所不同,通常较大。鉴于大小 (1.4mm) 和位置 (下肢),需要考虑此诊断。
- 黑色素瘤
◦ 信心分数: 0.3
原因: 黑色素瘤是一种皮肤癌,虽然所提供的图像有可能与黑色素瘤一致的特征,但需要皮肤科医生进行全面评估才能确诊。
- 基底细胞癌
◦ 信心分数: 0.2
原因: 它是最常见的皮肤癌形式,但所提供的图像没有基底细胞癌的典型迹象。但鉴于患者的年龄,仍需考虑。
- 血管瘤
◦ 信心分数: 0.2
原因: 血管瘤是由血管组成的良性肿瘤。图像中的红色可能暗示这一点,但从整体外观看,可能性较小。
老年疣(0.7)
数据源:ISIC Archive
图片输入
GPT-V判别结果(老年疣 0.7)
老年疣 - 置信度:0.7
黑色素痣 - 置信度:0.5
基底细胞癌 - 置信度:0.4
日光角化症 - 置信度:0.4
鳞状细胞癌 - 置信度:0.3
该图像显示了皮肤的放大视图,老年疣在头部和颈部区域较为常见,且经常出现在中老年人群中,因此我给予了较高的置信度。
其他脑部/胸部X光诊断(高准确率)
(绿色代表正确,红色代表错误,黄色代表幻觉)
1.3 高纬度识别能力(高质量,虽有幻觉问题)
大众点评/小红书文案
商品使用建议(左),商品销售文案(右)
车祸车辆识别
红色代表错误
理解流程图
解释笑话
商品新颖命名
电路图描述
地标描述
菜谱生成
分析球类运动局势/运动员姿势(存在幻觉)
Abran Maldonado on X: "One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words. https://t.co/uUYhsKpEGh" / X
幻觉(该运动员使用的是反手Backhand,而非正手forehand):
识别电影/相机/景点等
给予用户产品安装/摄像等的建议和帮助
X: "ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm https://t.co/paG0hMshXb" / X
辅导扑克(存在幻觉)
网页截图到HTML代码(理解不足)
结果:
白板骨架到前端项目
Mckay Wrigley on X: "You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane. https://t.co/bGWT5bU8MK" / X
https://twitter.com/mckaywrigley/status/1707101465922453701
清晰图片的复杂理性/感性分析
Pietro Schirano on X: "This is absolutely wild. I am completely speechless. https://t.co/wGTAx1hFgS" / X
https://twitter.com/skirano/status/1706874309124194707?
Mckay Wrigley on X: "ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education. https://t.co/L0Za0ZB5rs" / X
主体多的复杂图片的复杂理性分析
Alex Northstar on X: "Thanks ChatGPT, that can read & understand better than humans! https://t.co/TgVSuHgf8j" / X
https://twitter.com/NorthstarBrain/status/1707668600281063514
1.4 不足与风险
图片(含人眼不可见文字)的注入风险
(图中,用户以不可见的浅色字添加了Sephora化妆品促销水印,人眼无法察觉,但GPT-V可感知)
(图中,用户以不可见的浅色字使GPT-4V一定对这份简历会给出雇佣建议)
不能使用于人脸识别
当 GPT-4 在2023年3月首次发布时,GPT-4V面部识别功能可能存在安全和隐私问题,因此 GPT-4V(具备视觉功能的 GPT-4)被暂缓发布。
在早期的模型中,用户本可以理论上上传人物照片,并要求识别他们,这显然是对隐私的侵犯。根据技术论文,GPT-4V(为 ChatGPT Vision 提供支持)现在拒绝此类请求的时间达到了98%。
GPT-4V(ision) technical work and authors
作者:京东健康 李卓伦
来源:京东云开发者社区 转载请注明来源
多模态 GPT-V 出世!36 种场景分析 ChatGPT Vision 能力,LMM 将全面替代大语言模型?的更多相关文章
- Android5.0L下因sensorservice crash导致systemserver重新启动的第二种场景分析
一.出问题的场景 1.Sensorservice线程正在处理compass sensor事件的过程中.检查了一次buffer的指针的有效性,并在稍后会传递到AKM获取数据的函数接口中使用 2.Sens ...
- C#保留2位小数几种场景总结 游标遍历所有数据库循环执行修改数据库的sql命令 原生js轮盘抽奖实例分析(幸运大转盘抽奖) javascript中的typeof和类型判断
C#保留2位小数几种场景总结 场景1: C#保留2位小数,.ToString("f2")确实可以,但是如果这个数字本来就小数点后面三位比如1.253,那么转化之后就会变成1.2 ...
- 4种Kafka网络中断和网络分区场景分析
摘要:本文主要带来4种Kafka网络中断和网络分区场景分析. 本文分享自华为云社区<Kafka网络中断和网络分区场景分析>,作者: 中间件小哥. 以Kafka 2.7.1版本为例,依赖zk ...
- ActiveMQ、RabbitMQ、RocketMQ、Kafka四种消息中间件分析介绍
ActiveMQ.RabbitMQ.RocketMQ.Kafka四种消息中间件分析介绍 我们从四种消息中间件的介绍到基本使用,以及高可用,消息重复性,消息丢失,消息顺序性能方面进行分析介绍! 一.消息 ...
- Redis集群案例与场景分析
1.背景 Redis的出现确实大大地提高系统大并发能力支撑的可能性,转眼间Redis的最新版本已经是3.X版本了,但我们的系统依然继续跑着2.8,并很好地支撑着我们当前每天5亿访问量的应用系统.想当年 ...
- iOS容易造成循环引用的三种场景
iOS容易造成循环引用的三种场景 ARC已经出来很久了,自动释放内存的确很方便,但是并非绝对安全绝对不会产生内存泄露.导致iOS对象无法按预期释放的一个无形杀手是--循环引用.循环引用可以简单理解为 ...
- 数据结构之链表C语言实现以及使用场景分析
牢骚:本篇博客两个星期前已经存为草稿,鉴于发生一些糟糕的事情,今天才基本完成.本人6月份应届毕业生一枚,毕业后当天来到帝都,之后也非常顺利,面试了俩家公司都成功了.一家做C++方面电商ERP,一家做w ...
- ThreadLocal的理解与应用场景分析
对于Java ThreadLocal的理解与应用场景分析 一.对ThreadLocal理解 ThreadLocal提供一个方便的方式,可以根据不同的线程存放一些不同的特征属性,可以方便的在线程中进行存 ...
- Java 常用List集合使用场景分析
Java 常用List集合使用场景分析 过年前的最后一篇,本章通过介绍ArrayList,LinkedList,Vector,CopyOnWriteArrayList 底层实现原理和四个集合的区别.让 ...
- 068——VUE中vuex的使用场景分析与state购物车实例
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
随机推荐
- 想了解Python中的super 函数么
摘要:经常有朋友问,学 Python 面向对象时,翻阅别人代码,会发现一个 super() 函数,那这个函数的作用到底是什么? 本文分享自华为云社区<Python 中的 super 函数怎么学, ...
- 如何配置Apple推送证书 push证书
转载:如何配置Apple推送证书 push证书 想要制作push证书,就需要使用快捷工具appuploader工具制 作证书,然后使用Apple的推送功能配置push证书,就可以得到了.PS:pu ...
- 开心档之C++ 数据封装
C++ 数据封装 所有的 C++ 程序都有以下两个基本要素: **程序语句(代码):**这是程序中执行动作的部分,它们被称为函数. **程序数据:**数据是程序的信息,会受到程序函数的影响. 封装是面 ...
- 字节跳动基于Doris的湖仓分析探索实践
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 Doris简介 Doris是一种MPP架构的分析型数据库,主要面向多维分析,数据报表,用户画像分析等场景.自带分析 ...
- WebService autoconfigure.web.servlet.DispatcherServletPath
SpringBoot WebService 源代码:https://gitee.com/VipSoft/VipWebService SpringBoot 整合 WebService cxf 报错 Co ...
- 深挖 Rundll32.exe 的多种“滥用方式”以及其“独特”之处
恶意软件作者通常会编写恶意软件模仿合法的Windows进程.因此,我们可能会看到恶意软件伪装成svchost.exe.rundll32.exe或lsass.exe进程,攻击者利用的就是大多数Windo ...
- GitLab--简单使用
1 创建项目组 项目组说明 Private 私有 只有所有者 组内成员或已分配的用户有查看权限(同GitHub收费版的私有仓库) Internal 内部 拥有GitLab账号的成员可以查看 无账号用户 ...
- 使用nginx代理emqx的TCP、WS、WSS连接请求
项目代理关系: 注:主机上已存在名为:nginx-proxy 的一级 nginx 的代理,将监听了主机的 80.443端口 docker-compose.yml version: "3.7& ...
- #2102:A计划(DFS和BFS剪枝搜索)
题意: 有几个比较坑的地方总结一下, 很容易误解: 遇到#就必须走 #不消耗时间 #对面如果也是#也不能走, 要不然无限循环了 最短路径剪枝时, 发现不能走的#是要把两步都标注为-1并跳出 题解: 一 ...
- 0x69 图论-二分图的覆盖与独立集
A:Machine Schedule 输入 5 5 10 0 1 1 1 1 2 2 1 3 3 1 4 4 2 1 5 2 2 6 2 3 7 2 4 8 3 3 9 4 3 0 输出 3 在二分图 ...