最近看到一个好玩的开源项目:MiniGPT-4。

看名字像 GPT-4 的小老弟,其实没啥关系。

简单说,它可以识别图像,基于图像你可以和它对话,它能生成图片描述、网站、诗歌。

先看看官方给出的例子截图。

给图写一段广告词

还能教做饭

根据图配上一段故事

卧槽,AI 长眼睛了!

除此之外,它还能找到图中的笑点、生成诗歌…… 还有更牛的,可以根据一张设计草图,生成站代码

看的我是目瞪口呆…… 上一次这么目瞪口呆,还是看 GPT-4 的演示。

估计看到这里,你和我一样都被惊到了,那接下来的内容,可以让你压压惊了。

这么强的工具,说什么我也得试试啊。

首先我找了一张 911 撞大楼的图片,试试 MiniGPT-4 的识图和描述。

下面是我传给它图片,和我俩的问答。

嗯,它回答的看着还行,像模像样的。

像模像样也就到此为止了,接下来 MiniGPT-4 的表现就有点让我失望。

我找了一个宫保鸡丁的图片,让它教我做饭。

MiniGPT-4 看成了炸鸡肉?!

葱段、辣椒:我俩不配被识别?

我提示一下

经过提示,它倒是知道了是宫保鸡丁了。但是做法没改过来…… 还是芥末、香菜……

可能它不擅长中国菜吧,不难为它了,换一道题,据说它能 get 图像的笑点。

我用的这张图

问它笑点在哪

没有解释笑点,只是单纯的描述了图,而且还描述错了,把手机看成了电脑。

我换了问法,又进行了提示,结果还是不太行。

再换个题,来个简单的。

哎,又逃避问题,没回答电影名也就算了,图的描述也有点胡说八道了,“白衬衣黑裤子”,“看起来很休闲”。

心累!每一次提问完等回答,都要等好几分钟,等了半天就等到了这么不正经的回答。

当初看完官方例子之后,我心里还窃喜,MiniGPT-4 可以帮我一个大忙:每次发朋友圈,给图配文字我都费劲想半天,到底文字怎么写才能显得我有才华。

试了一下,结果你们自己看吧。

已经无力吐槽了……

不应该啊,是我的问题?用法不对?

那我用官方例子的图片,试试图片生成代码。我就不信了。

还是老样子,MiniGPT-4 还是无视问题,闷头自己描述……

又问了一次,代码总算写出来了。

但是,这代码看起来也不对啊。

这时候,和官方截图一对比,我有一种的感觉:
红烧牛肉面里没看到牛肉。

以上就是我的体验过程。

因为每次提问之后,等答案都要好久,再加上有点失望,有些想法就没再尝试了。

总的来说,这次体验有点一言难尽:我带着好奇心和不明觉厉玩了半天,结果感觉我被玩了。

但是,静下来想想,MiniGPT-4 这种交互形式还是挺让人眼前一亮的,或许我的用法不对,或许它需要时间来不断迭代进化,或许我们应该给它更多耐心。

就冲着它的团队里有好几个华人名字,怎么着也得支持一下。

希望它以后能速度更快,功能更强大,MiniGPT-4 早日不 Mini。

最后,附上它的几个地址,感兴趣的小伙伴可以去看看。

官网和演示:https://minigpt-4.github.io/

github:https://github.com/Vision-CAIR/MiniGPT-4

论文:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

我建了一个免费 ChatGPT 学习群,在群里就可以免费使用 ChatGPT,入群扫码:

如果上面的群二维码过期了,你可以加我微信,我拉你入群:

体验了一把 MiniGPT-4,一言难尽的更多相关文章

  1. 迫不及待地体验了一把 C#8.0 中的可空引用类型(Nullable Reference)

    在我之前的一篇博客 NullReferenceException,就不应该存在! 中,我吐槽了 C# 中 null 的弊端以及避免 null 的方法:事实上这本都是现代高级语言中极力推崇的做法.Kot ...

  2. 体验了一把最近很火的开源项目-MASA Blazor

    前言 很惭愧直到去年底才接触到Blazor.那什么是Blazor呢?相信大家都看过官方文档的详细说明,另外MASA团队也有不错的说明介绍 .用官方的话说Blazor是一个交互式客户端Web UI的框架 ...

  3. 移动端之Android开发的几种方式的初步体验

    目前越来越多的移动端混合开发方式,下面列举的大多数我都略微的尝试过,就初步的认识写个简单的心得: 开发方式 开发环境 是否需要AndroidSDK 支持跨平台 开发语言&技能 MUI Win+ ...

  4. visual studio for mac的安装初体验

    微软2016 Connect 大会发布了visuo studio for mac的pre版本,由于工作原因,现在工作环境是mac,虽然开发现在是在用python,但一直关注着.net的发展,于是自己很 ...

  5. 用户故事地图(User Story Mapping)之初体验

    北京这几日的天儿真是好的出奇,白天风和日丽,晚上繁星漫天:在这样一个周六的下午,小编参加了一次北京敏捷社区(微信号:Agile1001)组织的活动:<用户故事地图User Story Mappi ...

  6. dotnet core 开发体验之Routing

    开始 回顾上一篇文章:dotnet core开发体验之开始MVC 里面体验了一把mvc,然后我们知道了aspnet mvc是靠Routing来驱动起来的,所以感觉需要研究一下Routing是什么鬼. ...

  7. dotnet core开发体验之开始MVC

    开始 在上一篇文章:dotnet core多平台开发体验 ,体验了一把dotnet core 之后,现在想对之前做的例子进行改造,想看看加上mvc框架是一种什么样的体验,于是我就要开始诞生今天的这篇文 ...

  8. React-Native OpenGL体验一

    昨天初体验了一把SVG一个并不是多么复杂的动画,我在iOS模拟器上体验的是流畅的,但是在Android真机上体验,还是比较卡的. 下面来介绍一个OpenGL的第三方库: 下面是我运行的里面Demo的效 ...

  9. vs2013使用初体验

    刚安装好vs2013 , 初步体验了一把, 下面是我目前感受到的改变(对比vs2012) 1. 任务栏图标变了 (左边vs2013, 右边vs2012)    2. 开始界面 (vs2012有ligh ...

  10. Xmind 体验分享

    Xmind 8 体验 初识思维脑图 这两天在学习使用思维脑图(xmind是其中一款软件)ing,在体验了一把思维脑图的使用后,深深感受到了脑洞大开的魔力. 从昨晚开始研究使用,到今天晚上截止,自己试着 ...

随机推荐

  1. Golang 挑战:编写函数 walk(x interface{}, fn func(string)),参数为结构体 x,并对 x 中的所有字符串字段调用 fn 函数。难度级别:递归。

    golang 挑战:编写函数 walk(x interface{}, fn func(string)),参数为结构体 x,并对 x 中的所有字符串字段调用 fn 函数.难度级别:递归. 为此,我们需要 ...

  2. R语言包和中文乱码解决方案

    常用R语言包 --数据处理:lubridata ,plyr ,reshape2,stringr,formatR,mcmc: --机器学习:nnet,rpart,tree,party,lars,boos ...

  3. JUC(六)堵塞队列与线程池

    堵塞队列 简介 def:在多线程中实现高效.安全的数据传输,主要是通过一个共享的队列,使得数据能够从一端输入,从另一端输出 当队列是空的,取数据的线程就会被堵塞,直到其他线程往空的队列中添加数据 当队 ...

  4. RDIFramework.NET开发框架用户字典助力Saas数据字典应用

    1.概述 在某些特殊应用(如:SaaS)中,系统内置的字典项有可能不能完全满足用户的需求,他们需要自己定义相应的数据项,我们框架完全支持这类应用,用户字典管理主界面如下图所示. 2.功能展示 需要说明 ...

  5. RDIFramework.NET敏捷开发框架助力企业BPM业务流程系统的开发与落地

    现如今,很多企事业单位集团都自己有一套独特严密的业务生产经营流程,各个环节紧密相连.前后对应,一旦某个环节疏忽,整个流程就会出现问题.如何保证业务流程的标准化和规范化运营.减少人为差错,这就需要用到B ...

  6. c语言趣味编程(3)打鱼还是筛网

    一.问题描述 中国有句俗语叫"三天打鱼两天晒网".某人从1990年1月1日起开始"三天打鱼两天晒网",问这个人在以后的以后的某一天中是打鱼还是晒网. 二.设计思 ...

  7. OpenAI的子词标记化神器--tiktoken 以及 .NET 支持库SharpToken

    OpenAI在其官方GitHub上公开了一个开源Python库:tiktoken,这个库主要是用力做字节编码对的. 字节编码对(Byte Pair Encoder,BPE)是一种子词处理的方法.其主要 ...

  8. 【故障公告】被放出的 Bing 爬虫,又被爬宕机的园子

    这些巨头爬虫们现在怎么了?记忆中2022年之前的十几年,园子没有遇到过被巨头爬虫们爬宕机的情况,巨头们都懂得爱护,都懂得控制节奏,都懂得在爬网时控制并发连接数以免给目标网站造成过大压力. 从去年开始, ...

  9. 笔记七:进程间的通信(IPC通信之信号灯)

    信号量 定义信号变量:  sem_t sem1 sem2 初始化信号量 P操作           V操作    功能 信号量(POSOX) 信号量灯(IPC) 定义信号变量 sem_t  sem1 ...

  10. for of 和 for in 的区别

    1 var arr = ["f", "6", 3, "a", 7]; 2 var obj = { name: "shun" ...