SmolVLM2轻量级视频多模态模型，应用效果测评

1. 前言... 2

2. 应用部署... 2

3. 应用效果... 4

1.1 风景图像理解... 4

1.2 事故现场理解... 5

1.3 仿真图像理解... 6

1.4 数量统计描述... 7

1.5 图像文字理解... 8

1.6 物体识别理解... 10

4. 待解决问题... 11

5. 结论... 11

1. 前言

　　SmolVLM2 是由 Hugging Face 开发的一系列紧凑型但功能强大的大型模型，旨在为资源受限的设备（如智能手机和嵌入式系统）带来先进的语言和视觉语言处理能力。这些模型以其小型化设计著称，适合在设备上运行，填补了大型模型与小型设备性能差距的空白。本文将详细介绍这两个系列的背景、技术细节、性能和应用，旨在为研究者和开发者提供全面的理解。

　　SmolVLM2 扩展了 Smol 系列的能力，专注于视觉语言任务，可处理视频、图像和文本输入，生成文本输出。模型提供三种参数规模：2.2B、500M 和 256M，旨在实现高效的多模态处理。相较于前代产品，新版 22 亿模型在图像数学解题、图片文字识别、复杂图表解析和科学视觉问答方面表现显著提升。

2. 应用部署

模型下载：HuggingFaceTB/SmolVLM2-2.2B-Instruct · Hugging Face。

from transformers import AutoProcessor, AutoModelForImageTextToText

import torch

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

print(DEVICE)

model_path = "models/SmolVLM2-2.2B-Instruct"

processor = AutoProcessor.from_pretrained(model_path)

model = AutoModelForImageTextToText.from_pretrained(

    model_path,

    torch_dtype=torch.bfloat16,

    _attn_implementation="flash_attention_2" if DEVICE == "cuda" else "eager",

   device_map="cuda").to(DEVICE)

#model = AutoModelForImageTextToText.from_pretrained(

#    model_path,

#    torch_dtype=torch.bfloat16,

#   _attn_implementation="flash_attention_2" if DEVICE == "cuda" else "eager").to(DEVICE)

messages = [

    {

        "role": "user",

        "content": [

            {"type": "image", "url": "5.png"},

            {"type": "text", "text": "结合图像上的内容，请问简单iNeuOS是什么？"},

        ]

    },

]

inputs = processor.apply_chat_template(

    messages,

    add_generation_prompt=True,

    tokenize=True,

    return_dict=True,

    return_tensors="pt",

).to(model.device, dtype=torch.bfloat16)

generated_ids = model.generate(**inputs, do_sample=False, max_new_tokens=5000)

generated_texts = processor.batch_decode(

    generated_ids,

    skip_special_tokens=True,

)

print(generated_texts[0])

3. 应用效果

1.1 风景图像理解

User:请描述这张图像？

Assistant: 这张图片是一张美丽的花朵照片，其中主要的是一棵树的枝条和花朵。树枝的颜色是深红色，而花朵的颜色是白色和红色。树枝上有一层雪，雪的颜色是白色，这使得树枝和花朵的颜色显得更加美丽。花朵的颜色是红色和白色，这使得花朵的颜色显得更加独特。这张图片的背景是白色的，这使得树枝和花朵的颜色更加显得突出。这张图片的风格是美丽和美感的，它让人感受到花朵的美丽和树枝的美丽。

1.2 事故现场理解

User:请描述这个事故现场？

Assistant: 这是一次火灾事故的事实场景，其中包含一个大型的炉子和一个高的柱子。炉子的外壁是灰色的，而柱子的外壁是黑色的。（注：后面有冗余的回复）

1.3 仿真图像理解

User:这是温度场仿真，请描述温度变化趋势？

Assistant: 温度变化趋势可以从图像中看出，温度在右侧高于左侧，这表明右侧的温度更高，左侧的温度更低。（注：后面有冗余和重复数据）

1.4 数量统计描述

User:这是虾苗养殖图像，请分析虾苗数量？

Assistant: 虾苗数量为1000多个。

1.5 图像文字理解

User:结合图像上的内容，请问简单iNeuOS是什么？

Assistant: iNeuOS是一种操作系统，它是一种高级的操作系统，它可以被用来管理和管理计算机的系统，包括内存、硬盘和网络等。（注：后面是冗余和重复的数据）

User:图像上的文字是什么？

Assistant: 这是一个英文和中文的图像，其中包含一些文字和图片。图像的左侧有一些英文文字，包括"iNeuOS"、"OS"和"NeuOS"。（注：毕竟不是OCR，所以文字识别和提取有限）

1.6 物体识别理解

User:图像上的铅笔有多长？

Assistant: 铅笔的长度是约10厘米。（注：实际长度为14.7厘米）

4. 待解决问题

问题：模型在回复的时候有冗余和重复的内容。

可能的原因：（1）提示词需求进行优化;（2）程序参数设置的问题。暂时还没有进一步测试。

5. 结论

　　测试比我预想的要好很多，但是针对特定应用场景，特别是工业领域，需要进一步调优。

物联网&大数据技术 QQ群：54256083

物联网&大数据项目 QQ群：727664080

QQ：504547114

微信：wxzz0151

博客：https://www.cnblogs.com/lsjwq

SmolVLM2轻量级视频多模态模型，应用效果测评(风景、事故、仿真、统计、文字、识物)的更多相关文章

又一个高性能轻量级的iOS模型框架YYModel
前言 iOS的模型框架其实有很多了,去年研究过Mantle,也了解过JSONModel.MJExtension,最近的项目项目优化的时候,再次考虑,基于轻量级.高性能的考虑,最终选择了YYModel. ...
蓝松短视频SDK支持AE模板, 可做类似微商视频, 小柿饼的效果等
AE模板: 是指设计师用Adobe After Effect做好各种视频动画,比如炫酷视频,文艺/搞笑的场景,相册效果等,根据我们的指导文件导出.蓝松SDK会解析导出的文件,自动还原成AE设计时的动画 ...
后盾网lavarel视频项目---模型一对多关联简单实例
后盾网lavarel视频项目---模型一对多关联简单实例一.总结一句话总结: 在模型中定义一个方法来设置一对多关联:return $this->hasMany(Video::class); ...
微课制作软件Camtasia，来为视频添加预设动画效果
之前已介绍过使用微课制作软件Camtasia为视频添加"缩放和平移"动画的教程以及"效果按钮"的使用. 此篇内容,我们就来介绍使用录像编辑软件--Camtasi ...
iNeuOS工业互联网操作系统，三维（3D）模型在线编辑应用和实时数据统计（和值、均值、众数、方差、中位数等）
目录 1. 概述... 1 2. 三维(3D)模型在线编辑与应用... 2 3. 实时数据统计... 4 1. 概述此次,iNeuOS工业互联网操作系 ...
jQuery制作视频网站的展示效果
效果:如图所示,用户可以单击左上角的左右箭头,来控制视频展示的左右滚动. 当单击向右箭头时下面的展示视频会向左滚动隐藏,同时新的视频展示会以滚动方式显示出来.向左同理. css: ;; word-br ...
HTML 常用小技巧【标题图标】【锚点】【插入音乐，视频】【滚动效果】【嵌入网页】
一在原页面嵌入其他页面使用iframe框架 < iframe >------ < / iframe > <iframe src="要放在框架里面的网址或文 ...
红米手机拍照效果测评(对比小米2A)
小米相关的产品一向都很很受用户的欢迎,一个就是实惠,另一个就是配置还不错.近期小米推出的红米手机可谓是先声夺人,关注度异常火爆.今天刚抢的红米快递寄到了,来测试下红米手机的拍照表现,800万像素怎么样 ...
android6.0以上权限动态申请，有视频链接可以看效果。
android6.0以上某些权限需要动态申请,虽然现在大多的手机系统版本在6.0,但是升级到6.0及以上是迟早的事,所以如何能够更好的控制动态申请权限时能有好的提示用户,及给用户带去更好的体验,是需要 ...
JQuery插件，轻量级表单模型验证（续二）
好不容易,有心思,那就把没做完的JQuery轻量级表单验证做完吧之前做到了空参数验证的,现在增加带参数的验证. 附上html <form id="ValidataForm" ...

随机推荐

HTTP 和 RPC
TCP 是传输层的协议,而基于 TCP 造出来的 HTTP 和各类 RPC 协议,它们都只是定义了不同消息格式的应用层协议而已. RPC(Remote Procedure Call),又叫做远程过程调 ...
基础指令:sudo提权、通配符、特殊符号、stat命令、id命令、正则表达式
目录 4.4 sudo提权授权的两种方法 4.4 通配符-查文件 4.5 特殊符号 4.6 stat输出文件的详细内容 4.7 id命令查看用户基本信息 4.8 正则表达式 4.8.1 符号 ^ 4 ...
基础指令:mkdir、ls、cd、pwd、touch、rm、mv、cp、echo、cat、关机与重启
目录 1. 创建目录 2. 查看目录内容 3. 进入指定目录(传送) 4. 显示当前所在位置 5. 创建文件 6. 删除文件或目录 7. 移动文件 8. 复制文件或目录 9. echo输出信息到屏幕 ...
Windows 10右键添加 "在此处打开命令窗口" 菜单
1.添加右键菜单的两种效果: 第一种是在桌面/文件夹窗口中/选中文件夹上直接点击右键,显示"在此处打开命令窗口"选项,如图: 第二种是在桌面/文件夹窗口中/选中文件夹上按住Sh ...
CAS和OAuth2.0区别
CAS和OAuth2.0区别 CAS (Central Authentication Service) 和 OAuth 2.0 都是身份验证和授权技术,但它们在工作原理和适用场景上有明显的差异. CA ...
ThreeJs-16智慧城市项目（重磅以及未来发展ai）
![GIF](https://img2023.cnblogs.com/blog/2680817/202503/2680817-20250303164902745-1619665311.gif) 项目源 ...
《机器人SLAM导航核心技术与实战》第1季：第11章_自主导航中的数学基础
<机器人SLAM导航核心技术与实战>第1季:第11章_自主导航中的数学基础视频讲解 [第1季]11.第11章_自主导航中的数学基础-视频讲解 [第1季]11.1.第11章_自主导航中的数 ...
浅谈Ubuntu中的软件包
1. 前言还记得大学第一次接触Ubuntu和Linux的时候,觉得用apt安装想要的软件非常方便.但是有时候出现了问题,各种报错,自己又不懂原理,就会非常抓狂.现在稍微理解一点了,故以较为容易理解的 ...
洛谷P4198 楼房重建题解
Part1.自己一开始是怎么想的我一开始的想法是先考虑什么情况下是看不见的. 如果是 $i < j$ 的话可以直接看 $j$ 的斜率和 $i$ 的斜率就是比较 \(\frac{h_ ...
Linux halt命令
若系统的 runlevel 为 0 或 6 ,则Linux halt命令关闭系统,否则以 shutdown 指令(加上 -h 参数)来取代. 使用权限:系统管理者. 语法 halt [-n] [-w] ...

SmolVLM2轻量级视频多模态模型，应用效果测评(风景、事故、仿真、统计、文字、识物)