(赠书)国产开源视觉语言模型CogVLM2在线体验:竟能识别黑悟空
CogVLM2是一款视觉语言模型(Visual Language Model),由智谱AI和清华KEG潜心打磨。这款模型是CogVLM的升级版本,支持高达 1344 * 1344 的图像分辨率,提供支持 中英文双语 的开源模型版本。
这类模型可以做很多跨领域的活儿,比如给图片配上描述文字、回答关于图片的问题(这叫VQA,就是视觉问答)、或者根据描述去找对应的图片等等。为了更好地完成这些任务,CogVLM2用了更高级的设计和技术,比如用更大的数据量来训练、更深的神经网络结构,还有更聪明的训练方法。
CogVLM 的进步主要归功于一个核心理念:“视觉优先”。以前的多模态模型常常把图像特征简单地放到和文本特征一样的层面上处理,而且用来处理图像的那部分通常比较简单,这样一来,图像就像是文本的“配角”,所以效果也就一般。而CogVLM则让视觉信息占据了更重要的位置。
环境准备
本地部署
CogVLM在Github上发布了开源的程序代码,可以做图片推理、视频推理,甚至进行模型的微调(不过GPU资源需求很大),Github地址:https://github.com/THUDM/CogVLM2
建议使用Linux系统,搭配 NVIDIA GPU,显存最少需16G以上。
具体的安装使用方法,大家可以看官方的这篇介绍:
https://github.com/THUDM/CogVLM2/blob/main/basic_demo/README_zh.md
使用云环境
如果你本地没有足够的GPU资源,对编程也是一窍不通,或者只是想先看看效果,可以使用我打包的云平台镜像,一键启动,直接运行,不浪费时间。
云平台对新用户有一定的赠送额度,足够体验这个应用,平台注册地址:
仅体验图片推理,无需任何技术操作,请打开这个网址:https://www.haoee.com/applicationMarket/applicationDetails?appId=39&IC=XLZLpI7Q

应用创建成功后,即可在“控制台”->“我的应用”中打开这个应用。

因为平台限制,如果还想使用API或者做视频推理,请打开这个网址:https://bbs.haoee.com/postDetail/656
点击页面右下方的“创建实例”:

注意如果你要做视频推理,因为需要的资源比较多,这里需要选择2张卡才能跑的起来:

实例启动成功后,我们可以在“控制台”->“容器实例”中打开对应实例的 JupyterLab 交互工具。

在 JupyterLab 中可以在左边选择要使用的功能,右边启动应用,查看运行日志。

然后回到容器实例页面,点击“公网访问”获取对应程序的外网访问地址。
图片推理WebUI使用说明
1、容器实例启动成功后,在实例列表页面找到对应的实例,点击操作中的“JupyterLab”。

2、在打开的页面中点击“基础页面启动器”,然后继续点击页面中的重启按钮,启动对应的程序,如下图所示:

3、待程序启动成功后,回到实例列表页面,点击“公网访问”:

复制其中的第一个链接,然后在浏览器中打开。

4、在浏览器打开应用后,页面下方:
(1)首先上传一张图片;
(2)然后针对这张图片提出你的问题。

这里用黑悟空的一张照片来演示,效果如下:

如果要开启新的会话,请点击页面右上角的这个按钮:

图片推理API使用说明
1、容器实例启动成功后,在实例列表页面找到对应的实例,点击操作中的“JupyterLab”。

2、在打开的页面中点击“基础API启动器”,然后继续点击页面中的重启按钮,启动对应的程序,如下图所示:

3、待程序启动成功后,回到实例列表页面,点击“公网访问”:

其中的第2个链接就是API的访问地址。

访问API的代码请参考:
https://github.com/THUDM/CogVLM2/blob/main/basic_demo/openai_api_request.py
注意:图片推理API是单独的程序,使用单显卡时会关闭页面推理程序。如需同时启动,需要双显卡,并修改 CogVLM2/startup/start_basic_api.sh 中的 CUDA_VISIBLE_DEVICES=1。
视频推理使用说明
1、视频推理需要的显存比较多,在好易平台上需要2个4090D的显卡,所以创建实例的时候需要选择2卡,如下图所示:

2、容器实例启动成功后,在实例列表页面找到对应的实例,点击操作中的“JupyterLab”。

3、在打开的页面中点击“视频识别启动器”,然后继续点击页面中的重启按钮,启动对应的程序,如下图所示:

4、待程序启动成功后,回到实例列表页面,点击“公网访问”:

其中的两个连接分别提供了网页和API的访问地址。

5、在浏览器打开网页后,页面中:
(1)首先上传一个视频(1分钟以内的);
(2)然后针对这个视频提出你的问题。

6、使用视频推理API
参考代码如下,请注意替换其中的API地址和本地视频文件路径。
import requests
url = 'http://127.0.0.1:7861/video_qa'
video_file = "../resources/videos/lion.mp4"
question = "Describe this video in detail."
temperature=0.2
files = {'video': open(video_file, 'rb')}
data = {'question': question,'temperature': temperature}
response = requests.post(url, files=files, data=data)
print(response.json()["answer"])
参加赠书活动
为了回馈各位读者,萤火君和机械工业出版社搞了一个赠书活动,就是下边这本机器学习四大名著之一的『机器学习实战』全新升级第3版!中文版豆瓣评分9.6!读者公认对入门和实践极其友好的机器学习书籍之一!

- 读者公认对入门和实践极其友好的机器学习书籍之一!
- 具体的示例+简单的理论+可用于生产环境的Python框架
- 帮助你直观地理解并掌握构建智能系统所需要的概念和工具
- 配备大量代码示例,帮助你学以致用!
想要领书的同学,请给公/众/号 “萤火遛AI” 发消息 “机器学习实战”,即可参与抽奖,9月9日上午10点开奖!
(赠书)国产开源视觉语言模型CogVLM2在线体验:竟能识别黑悟空的更多相关文章
- 【转】10款GitHub上最火爆的国产开源项目
将开源做到极致,提高效率方便更多用户 接触开源时间虽然比较短但是后续会努力为开源社区贡献自己微薄的力量 衡量一个开源产品好不好,看看产品在 GitHub 的 Star 数量就知道了.由此可见,GitH ...
- Pytorch快速入门及在线体验
本文搭配了Pytorch在线环境,可以直接在线体验. Pytorch是Facebook 的 AI 研究团队发布了一个基于 Python的科学计算包,旨在服务两类场合: 1.替代numpy发挥GPU潜能 ...
- 点评10款Github上最火爆的国产开源项目
衡量一个开源产品好不好,看看产品在Github的Star数量就知道了.由此可见,Github已经沦落为开源产品的“大众点评”了. 一个开源产品希望快速的被开发者知道.快速的获取反馈,放到Github上 ...
- 10款GitHub上最火爆的国产开源项目
衡量一个开源产品好不好,看看产品在 GitHub 的 Star 数量就知道了.由此可见,GitHub 已经沦落为开源产品的“大众点评”了.一个开源产品希望快速的被开发者知道.快速的获取反馈,放到 Gi ...
- GitHub 上最热的10款国产开源软件
衡量一个开源产品好不好,看看产品在 GitHub 的 Star 数量就知道了.由此可见,GitHub 已经沦落为开源产品的“大众点评”了.一个开源产品希望快速的被开发者知道.快速的获取反馈,放到 Gi ...
- 2015年热门的国产开源软件TOP 50
2015年热门的国产开源软件TOP 50 开源中国在 2015 年得到了快速的发展,单开源软件收藏量就接近 40000 款,其中不乏优质的国产开源项目.本文从软件的收藏.下载.访问等多角度挑选出了 2 ...
- 在线体验 Windows 11「GitHub 热点速览 v.21.30」
作者:HelloGitHub-小鱼干 有什么比无需安装系统,检测硬件兼容度,只要打开一个浏览器,输入某个神秘的地址回车,即可体验 Windows 11 更棒的呢?windows11 就是这么一个小工具 ...
- 2016国产开源软件TOP100(Q1)
随着互联网的发展.开放标准的普及和虚拟化技术的应用等诸多IT新领域的创新及拓展,开源技术凭借其开放性.低成本.稳定性.灵活性.安全性和技术创新性等特点迅速走向成熟,逐步发展成为一种主流模式,日益改变着 ...
- 奥威power-BI 在线体验平台
奥威Power-BI比你想象的更简单!完全可视化绿色开发平台.奥威Power-BI在线体验平台,欢迎大家体验,了解更多产品知识.奥威Power-BI为您达成信息化最后一公里!在线体验网址:http:/ ...
- 在线体验K2 BPM微信审批
“微信审批”在江湖中传言已久,但很多人依然“只闻其声,未见其人”,这传说中的手感到底有多好?今天,我们就一起来揭开它的真面目吧. 故事发生在上周六傍晚,我接到了加班电话. 晚上21:30终于加完班了, ...
随机推荐
- IBM Rational Rose Enterprise Edition 2007安装和破解
系统分析设计阶段:建模工具Rose使用比较广泛. 1.解压安装包,并双击setup.exe 2.安装Rose 3.选择Desktop installation from CD image 4.&quo ...
- 基于微信小程序+Springboot校园二手商城系统设计和实现
\n文末获取源码联系 感兴趣的可以先收藏起来,大家在毕设选题,项目以及论文编写等相关问题都可以给我加好友咨询 一. 前言介绍: 在当今社会的高速发展过程中,产生的劳动力越来越大,提高人们的生活水平和质 ...
- [oeasy]教您玩转linux0001 - 先跑起来 🥊
Python 什么是 Python? Python 很好用 适合初学者 而且在各个领域都很强大 添加图片注释,不超过 140 字(可选) 后来居上 下图可以点开 添加图片注 ...
- 前端太卷了,不玩了,写写node.js全栈涨工资,赶紧学起来吧!!!!!
首先聊下node.js的优缺点和应用场景 Node.js的优点和应用场景 Node.js作为后端开发的选择具有许多优点,以下是其中一些: 高性能: Node.js采用了事件驱动.非阻塞I/O模型,使得 ...
- SMU Summer 2024 Contest Round 3(7.10)zhaosang
打的最菜一次,最惨一次,题读假了 A-A http://162.14.124.219/contest/1007/problem/A 签到题 要解决这道题,素数对,数据量不是很大,所以我们可以先预处理素 ...
- java面试一日一题:rabbitMQ如何保证消息不丢失
问题:请讲下rabbitMQ如何保证消息不丢失 分析:该问题属于概念题,同时也是一个设计方面的题,牵扯到部分设计层面的东西: 回答要点: 主要从以下几点去考虑, 1.rabbitMQ在保证消息不丢失方 ...
- docker 具名和匿名挂载
具名和匿名挂载 -v 容器路径! docker run -d -P --name nginx01 -v /etc/nginx nginx -P 随机使用 端口号 docker volume ls 查看 ...
- PHP转Go系列 | Carbon 时间处理工具的使用姿势
大家好,我是码农先森. 在日常的开发过程中经常会遇到对时间的处理,比如将时间戳进行格式化.获取昨天或上周或上个月的时间.基于当前时间进行加减等场景的使用.在 PHP 语言中有一个针对时间处理的原生函数 ...
- 《最新出炉》系列初窥篇-Python+Playwright自动化测试-62 - 判断元素是否可操作
1.简介 有些页面元素的生命周期如同流星一闪,昙花一现.我们也不知道这个元素在没在页面中出现过,为了捕获这一美好瞬间,让其成为永恒.我们就来判断元素是否显示出现过. 在操作元素之前,可以先判断元素的状 ...
- Cesium 实现可视域分析
*前言:尝试了网上好多个版本的可视域分析,感觉都有一些问题,我这个也可能不是最完美的,但是我觉得对我来说够用了,实现效果如下* 此示例基于vue3上实现,cesium版本1.101.0 ,vite-p ...