说在前面的话：

一个月前，OpenAI向外界展示了GPT-4如何通过手绘草图直接生成网站，令当时的观众瞠目结舌。

在GPT-4发布会之后，相信大家对ChatGPT的对话能力已有所了解。圈内的朋友们应该已经亲身体验过无论是文本生成、编写代码，还是上下文关联对话能力，这些功能都一次又一次地震撼着我们。

还记得发布会上，GPT-4展示的多模态能力，输入不仅仅局限于文字，还可以包括文本和图像，让我大开眼界。

例如：画个网站的草图，GPT4 就可以立马生成网站的 HTML 代码。

然而，时光荏苒！OpenAI至今尚未提供发布会上展示的多模态处理能力！

原本以为我们还需要再等上一段时间才能看到这一功能的更新，然而意想不到的是，我发现了这样一个项目。

这个项目被称为MiniGPT-4，由著名的阿卜杜拉国王科技大学的几位博士研究生共同完成。

更为重要的是，该项目完全开源！效果如视频中所展示的那样：

MiniGPT-4在线体验DEMO

MiniGPT-4能够支持文本和图像输入，成功实现了多模态输入功能，实在令人叹为观止！

GitHub项目地址：https://github.com/Vision-CAIR/MiniGPT-4

在线体验链接：https://minigpt-4.github.io

另外作者还提供了网页 Demo，可以直接体验（这酸爽？）：

MiniGPT-4介绍

MiniGPT-4利用一个投影层将BLIP-2的冻结视觉编码器与冻结的LLM（Vicuna）对齐。
我们分两个阶段训练MiniGPT-4。第一个传统预训练阶段使用大约500万个图像-文本对，在4个A100显卡上训练10小时。在第一阶段之后，Vicuna能够理解图像。但是，Vicuna的生成能力受到严重影响。
为解决这个问题并提高可用性，我们提出了一种新颖的方法，通过模型本身和ChatGPT共同创建高质量的图像-文本对。基于此，我们创建了一个小型（总共3500对）但高质量的数据集。
第二个微调阶段在该数据集的会话模板上进行训练，以显著提高其生成可靠性和整体可用性。令我们惊讶的是，这个阶段在计算上非常高效，仅使用单个A100花费约7分钟。
MiniGPT-4展现出许多类似于GPT-4演示的视觉-语言能力。

官方案例演示：

接下来，我将为大家展示几个示例。

实验结果表明，GPT-4的这些先进能力理论上可以归因于它采用了更加先进的大型语言模型。

这意味着，未来在图像、声音、视频等领域，基于这些大型语言模型所开发的应用，在实际效果上都将表现不俗。

这个项目验证了大型语言模型在图像领域的可行性。接下来，预计会有更多开发者加入，将GPT-4的能力扩展至音频、视频等领域，从而让我们得以欣赏到更多有趣且令人惊艳的AI应用。

近日，我深入研究了许多关于ChatGPT注册和变现的实用干活信息。为了方便我自己以后的学习和阅读，我整理了一些ChatGPT的操作技巧和实用工具：https://y3if3fk7ce.feishu.cn/docx/QBqwdyde7omVf4x69paconlgnAc

有兴趣的朋友们可以借此学习。

What...MiniGPT-4居然开源了,提前感受 GPT-4 的图像对话能力！的更多相关文章

利用开源程序（ImageMagick+tesseract-ocr）实现图像验证码识别
--------------------------------------------------低调的分割线-------------------------------------------- ...
[Swift通天遁地]八、媒体与动画-(5)使用开源类库绘制文字、图形、图像、图表、SVG（可缩放矢量图形）
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(shanqingyongzhi)➤博客园地址:山青咏芝(https://www.cnblogs. ...
微博开源框架Motan初体验
前两天,我在开源中国的微信公众号看到新浪微博的轻量Rpc框架--Motan开源了.上网查了下,才得知这个Motan来头不小,支撑着新浪微博的千亿调用,曾经在2014年的春晚中有着千亿次的调用,对抗了春 ...
【Alpaca】.Net版开源配置中心 - 技术选型 Vue 3.0
是否可以用 Vue 3.0 现有的Vue 2.* 不推荐,坐等Vue 3.0出迁移工具吧,手动改的话工作量还是不小的新项目考虑下团队内对Vue + TS + VS Code的熟练程度.过程中你会遇 ...
阿里开源 OpenJDK 发行版 Dragonwell
日有消息显示,阿里将于 21 日重磅发布其 OpenJDK 发行版 Alibaba Dragonwell. 我们知道 OpenJDK 是基于 GPL v2/Classpath Exception 的 ...
The Data Way Vol.4｜开源是创造软件诸多方法中最好的一种形式
关于「The Data Way」「The Data Way」是由 SphereEx 公司出品的一档播客节目.这里有开源.数据.技术的故事,同时我们关注开发者的工作日常,也讨论开发者的生活日常:我们聚 ...
如何参与开源项目 - 细说 GitHub 上的 PR 全过程
目录一.概述二.为什么要参与开源项目三.为什么我想介绍如何 PR 四.我想参与开源项目,怎么开始? 4.1.寻找一个合适的开源项目 4.2.寻找贡献点五.我要提交 PR,怎么上手? 5.1.第 ...
Android中Universal Image Loader开源框架的简单使用
UIL (Universal Image Loader)aims to provide a powerful, flexible and highly customizable instrument ...
开源IMDG之GridGain
作为另一款主流的开源数据网格产品,GridGain是Hazelcast的强有力竞争者.同样提供了社区版和商业版,近日GridGain的开源版本已经进入Apache孵化器项目Ignite(一款开源的内存 ...
iOS开发-常用第三方开源框架介绍(你了解的ios只是冰山一角)--(转)
图像: 1.图片浏览控件MWPhotoBrowser 实现了一个照片浏览器类似 iOS 自带的相册应用,可显示来自手机的图片或者是网络图片,可自动从网络下载图片并进行缓存.可对图片进行缩放等操作. 下 ...

随机推荐

distinct()去重
distinct()去重 Student.objects.all().distinct()
SpringBoot 使用 Sa-Token 完成路由拦截鉴权
一.需求分析在前文,我们详细的讲述了在 Sa-Token 如何使用注解进行权限认证,注解鉴权虽然方便,却并不适合所有鉴权场景. 假设有如下需求:项目中所有接口均需要登录认证校验,只有 "登 ...
2021年蓝桥杯C／C++大学B组省赛真题(路径)
题目描述: 小蓝学习了最短路径之后特别高兴,他定义了一个特别的图,希望找到图中的最短路径. 小蓝的图由2021 个结点组成,依次编号1 至2021. 对于两个不同的结点a, b,如果a 和b 的差的绝 ...
有管django使用orm 字段报错问题
直接删除表,重新生成,首先删除:migrations 中,上传记录,然后django_migrations,
解读与用户一起“跳动”的开源实时监控工具 HertzBeat
摘要:开源项目遇上华为云,会擦出怎样的火花? 在本期<开源实时监控工具HertzBeat如何与用户一起"跳动?>的主题直播中,HertzBeat & TanCloud 创 ...
如何批量修改 GitHub 代码提交作者
批量修改 GitHub 代码提交作者需要进行以下步骤: 首先,你需要 clone 远程仓库到本地,使用以下命令: git clone <repository-url> ``` 将 `< ...
基于Microsoft SEAL 同态加密场景特性
基于Microsoft SEAL 同态加密场景特性同态加密是一种特殊的加密技术,它允许在加密状态下进行计算操作而无需解密数据.在传统的加密算法中,对加密的数据进行运算操作通常需要先解密数据,然后再进 ...
曲线艺术编程 coding curves 第十一章玫瑰花形（ ROSES）
第十一章玫瑰花形 ROSES 原作:Keith Peters https://www.bit-101.com/blog/2022/11/coding-curves/ 译者:池中物王二狗(sheldo ...
ChatGPT的ABAP能力如何？
ChatGPT是最近的热门话题,作为语言模型,它擅长处理各种语言相关的问题.显然,ABAP也是一种语言,ABAP开发者的很大一部分工作就是把自然语言和ABAP语言做互相转换,这应该也是在ChatGPT ...
Maven资源大于配置问题
资源大于配置问题  <build> <resources> < ...