(赠书)国产开源视觉语言模型CogVLM2在线体验:竟能识别黑悟空
CogVLM2是一款视觉语言模型(Visual Language Model),由智谱AI和清华KEG潜心打磨。这款模型是CogVLM的升级版本,支持高达 1344 * 1344 的图像分辨率,提供支持 中英文双语 的开源模型版本。
这类模型可以做很多跨领域的活儿,比如给图片配上描述文字、回答关于图片的问题(这叫VQA,就是视觉问答)、或者根据描述去找对应的图片等等。为了更好地完成这些任务,CogVLM2用了更高级的设计和技术,比如用更大的数据量来训练、更深的神经网络结构,还有更聪明的训练方法。
CogVLM 的进步主要归功于一个核心理念:“视觉优先”。以前的多模态模型常常把图像特征简单地放到和文本特征一样的层面上处理,而且用来处理图像的那部分通常比较简单,这样一来,图像就像是文本的“配角”,所以效果也就一般。而CogVLM则让视觉信息占据了更重要的位置。
环境准备
本地部署
CogVLM在Github上发布了开源的程序代码,可以做图片推理、视频推理,甚至进行模型的微调(不过GPU资源需求很大),Github地址:https://github.com/THUDM/CogVLM2
建议使用Linux系统,搭配 NVIDIA GPU,显存最少需16G以上。
具体的安装使用方法,大家可以看官方的这篇介绍:
https://github.com/THUDM/CogVLM2/blob/main/basic_demo/README_zh.md
使用云环境
如果你本地没有足够的GPU资源,对编程也是一窍不通,或者只是想先看看效果,可以使用我打包的云平台镜像,一键启动,直接运行,不浪费时间。
云平台对新用户有一定的赠送额度,足够体验这个应用,平台注册地址:
仅体验图片推理,无需任何技术操作,请打开这个网址:https://www.haoee.com/applicationMarket/applicationDetails?appId=39&IC=XLZLpI7Q

应用创建成功后,即可在“控制台”->“我的应用”中打开这个应用。

因为平台限制,如果还想使用API或者做视频推理,请打开这个网址:https://bbs.haoee.com/postDetail/656
点击页面右下方的“创建实例”:

注意如果你要做视频推理,因为需要的资源比较多,这里需要选择2张卡才能跑的起来:

实例启动成功后,我们可以在“控制台”->“容器实例”中打开对应实例的 JupyterLab 交互工具。

在 JupyterLab 中可以在左边选择要使用的功能,右边启动应用,查看运行日志。

然后回到容器实例页面,点击“公网访问”获取对应程序的外网访问地址。
图片推理WebUI使用说明
1、容器实例启动成功后,在实例列表页面找到对应的实例,点击操作中的“JupyterLab”。

2、在打开的页面中点击“基础页面启动器”,然后继续点击页面中的重启按钮,启动对应的程序,如下图所示:

3、待程序启动成功后,回到实例列表页面,点击“公网访问”:

复制其中的第一个链接,然后在浏览器中打开。

4、在浏览器打开应用后,页面下方:
(1)首先上传一张图片;
(2)然后针对这张图片提出你的问题。

这里用黑悟空的一张照片来演示,效果如下:

如果要开启新的会话,请点击页面右上角的这个按钮:

图片推理API使用说明
1、容器实例启动成功后,在实例列表页面找到对应的实例,点击操作中的“JupyterLab”。

2、在打开的页面中点击“基础API启动器”,然后继续点击页面中的重启按钮,启动对应的程序,如下图所示:

3、待程序启动成功后,回到实例列表页面,点击“公网访问”:

其中的第2个链接就是API的访问地址。

访问API的代码请参考:
https://github.com/THUDM/CogVLM2/blob/main/basic_demo/openai_api_request.py
注意:图片推理API是单独的程序,使用单显卡时会关闭页面推理程序。如需同时启动,需要双显卡,并修改 CogVLM2/startup/start_basic_api.sh 中的 CUDA_VISIBLE_DEVICES=1。
视频推理使用说明
1、视频推理需要的显存比较多,在好易平台上需要2个4090D的显卡,所以创建实例的时候需要选择2卡,如下图所示:

2、容器实例启动成功后,在实例列表页面找到对应的实例,点击操作中的“JupyterLab”。

3、在打开的页面中点击“视频识别启动器”,然后继续点击页面中的重启按钮,启动对应的程序,如下图所示:

4、待程序启动成功后,回到实例列表页面,点击“公网访问”:

其中的两个连接分别提供了网页和API的访问地址。

5、在浏览器打开网页后,页面中:
(1)首先上传一个视频(1分钟以内的);
(2)然后针对这个视频提出你的问题。

6、使用视频推理API
参考代码如下,请注意替换其中的API地址和本地视频文件路径。
import requests
url = 'http://127.0.0.1:7861/video_qa'
video_file = "../resources/videos/lion.mp4"
question = "Describe this video in detail."
temperature=0.2
files = {'video': open(video_file, 'rb')}
data = {'question': question,'temperature': temperature}
response = requests.post(url, files=files, data=data)
print(response.json()["answer"])
参加赠书活动
为了回馈各位读者,萤火君和机械工业出版社搞了一个赠书活动,就是下边这本机器学习四大名著之一的『机器学习实战』全新升级第3版!中文版豆瓣评分9.6!读者公认对入门和实践极其友好的机器学习书籍之一!

- 读者公认对入门和实践极其友好的机器学习书籍之一!
- 具体的示例+简单的理论+可用于生产环境的Python框架
- 帮助你直观地理解并掌握构建智能系统所需要的概念和工具
- 配备大量代码示例,帮助你学以致用!
想要领书的同学,请给公/众/号 “萤火遛AI” 发消息 “机器学习实战”,即可参与抽奖,9月9日上午10点开奖!
(赠书)国产开源视觉语言模型CogVLM2在线体验:竟能识别黑悟空的更多相关文章
- 【转】10款GitHub上最火爆的国产开源项目
将开源做到极致,提高效率方便更多用户 接触开源时间虽然比较短但是后续会努力为开源社区贡献自己微薄的力量 衡量一个开源产品好不好,看看产品在 GitHub 的 Star 数量就知道了.由此可见,GitH ...
- Pytorch快速入门及在线体验
本文搭配了Pytorch在线环境,可以直接在线体验. Pytorch是Facebook 的 AI 研究团队发布了一个基于 Python的科学计算包,旨在服务两类场合: 1.替代numpy发挥GPU潜能 ...
- 点评10款Github上最火爆的国产开源项目
衡量一个开源产品好不好,看看产品在Github的Star数量就知道了.由此可见,Github已经沦落为开源产品的“大众点评”了. 一个开源产品希望快速的被开发者知道.快速的获取反馈,放到Github上 ...
- 10款GitHub上最火爆的国产开源项目
衡量一个开源产品好不好,看看产品在 GitHub 的 Star 数量就知道了.由此可见,GitHub 已经沦落为开源产品的“大众点评”了.一个开源产品希望快速的被开发者知道.快速的获取反馈,放到 Gi ...
- GitHub 上最热的10款国产开源软件
衡量一个开源产品好不好,看看产品在 GitHub 的 Star 数量就知道了.由此可见,GitHub 已经沦落为开源产品的“大众点评”了.一个开源产品希望快速的被开发者知道.快速的获取反馈,放到 Gi ...
- 2015年热门的国产开源软件TOP 50
2015年热门的国产开源软件TOP 50 开源中国在 2015 年得到了快速的发展,单开源软件收藏量就接近 40000 款,其中不乏优质的国产开源项目.本文从软件的收藏.下载.访问等多角度挑选出了 2 ...
- 在线体验 Windows 11「GitHub 热点速览 v.21.30」
作者:HelloGitHub-小鱼干 有什么比无需安装系统,检测硬件兼容度,只要打开一个浏览器,输入某个神秘的地址回车,即可体验 Windows 11 更棒的呢?windows11 就是这么一个小工具 ...
- 2016国产开源软件TOP100(Q1)
随着互联网的发展.开放标准的普及和虚拟化技术的应用等诸多IT新领域的创新及拓展,开源技术凭借其开放性.低成本.稳定性.灵活性.安全性和技术创新性等特点迅速走向成熟,逐步发展成为一种主流模式,日益改变着 ...
- 奥威power-BI 在线体验平台
奥威Power-BI比你想象的更简单!完全可视化绿色开发平台.奥威Power-BI在线体验平台,欢迎大家体验,了解更多产品知识.奥威Power-BI为您达成信息化最后一公里!在线体验网址:http:/ ...
- 在线体验K2 BPM微信审批
“微信审批”在江湖中传言已久,但很多人依然“只闻其声,未见其人”,这传说中的手感到底有多好?今天,我们就一起来揭开它的真面目吧. 故事发生在上周六傍晚,我接到了加班电话. 晚上21:30终于加完班了, ...
随机推荐
- Codeforces Round 935 (Div. 3)
A. Setting up Camp 题目描述 The organizing committee plans to take the participants of the Olympiad on a ...
- 洛谷P3009
#include<iostream> #include<utility> using namespace std; typedef long long ll; #define ...
- git 更新某个目录或文件
不多说直接贴代码 更新文件 $ git fetch remote: Counting objects: 8, done. remote: Compressing objects: 100% (3/3) ...
- Known框架实战演练——进销存框架搭建
本文介绍如何使用Known开发框架搭建进销存管理系统的项目结构,以及开发前的一些配置和基础代码. 项目代码:JxcLite 开源地址: https://gitee.com/known/JxcLite ...
- 再读vue
app.vue是项目的主组件,页面的入口文件 main.js是项目的入口文件 vue.config.js是vue-cli的配置文件//用这个配置代理,端口号 例如 const { defineConf ...
- Fiddler使用界面介绍-右侧面板
右侧面板是对左侧请求进行解析的面板,点击左侧的请求右侧面板就会出现分析数据 1.Statistics关于HTTP请求的性能 2.Inspectors请求内容,包含请求数据和响应数据 3. AutoRe ...
- 3、SpringBoot2之配置文件
3.1.环境搭建 3.1.1.在project创建新module 3.1.2.选择maven 3.1.3.设置module名称和路径 3.1.4.module初始状态 3.1.5.引入springbo ...
- 【SpringBoot】09 日志集成
原来日志还分抽象层和实现层... 抽象层被称为是日志门面,实现层被称为是日志实现 门面的有: - JCL[Jakarta Commons Logging] 远古门面 - SLF4J[Simple ...
- 【Java】逗号拼接的取巧处理
需求如图: 这是表的关键处理数据,页面上的输入框要做分开展示,也就是要写业务逻辑来处理 逗号拼接的取巧处理,使用了List集合toString方法来实现,然后移除括号 final String emp ...
- 制作Linux系统的启动盘
我不是没有试过软碟通制作启动盘 在写入U盘的选项确认的时候,盘区不支持NTFS!? 另外什么大白菜和老毛桃这样的根本就不支持Linux镜像加载 还是百度的这个靠谱 https://jingyan.ba ...