初探本地DeepSeek VL + Typescript + FFMPEG：提取视频关键帧分析内容

graywen 2025-02-28 08:44:28 原文

初探本地DeepSeek VL + Typescript + FFMPEG：提取视频关键帧分析内容

前言

随着人工智能和计算机视觉技术的发展，利用图像识别来分析视频内容已经成为现实。本文的主要目标是：

使用 ffmpeg 从视频中提取关键帧图片；
基于 DeepSeek VL 1.3B 本地大模型对视频帧进行目标检测与识别（例如特定物体或人物）；
实现流式传输分析结果，确保实时反馈；
提供终止分析操作的机制，防止资源浪费；

环境要求

Typescirpt 5+
Nodejs 20+
Python 3.8+
安装FFMPEG
部署DeepSeek VL本地大模型

项目演示（视频未加速）

使用的显卡是英伟达RTX 4070Ti-O12G

技术实现

前端部分

实现思路

用户在界面上传视频
后端分析视频然后逐一提取视频的每一帧保存为本地图片
准备好参数，发送请求给DeepSeek VL API
获取DeepSeek VL API数据，返回到前端

视频关键帧提取

本项目中视频的关键帧提取是视频分析的基础。关键帧是指视频中能够代表某一时间段内容的图像。通过提取关键帧，可以将视频处理的复杂度降低到图像处理的层面，从而显著提高处理效率。

在我们的实现中，使用了FFmpeg库来提取视频的关键帧。

具体步骤如下：

视频时长获取：通过FFmpeg获取视频的总时长，确定需要提取的关键帧数量。
关键帧提取：按固定时间间隔（例如每秒提取一帧）从视频中提取关键帧，并将其保存到指定路径。

相关代码如下：



async function getVideoDuration(videoFilePath: string): Promise<number | undefined> {

  return new Promise((resolve, reject) => {

    ffmpeg.ffprobe(videoFilePath, (error, metadata) => {

      if (error) reject(error);

      const format = metadata.format;

      resolve(format.duration);

    });

  });

}



async function getVideoKeyframeImg(params: GetVideoKeyframeImgParams): Promise<string> {

  const { videoFilePath, seek, imgOutputPath } = params;

  const imgFileOutputPath = `${imgOutputPath}/${seek}.png`;

  return new Promise((resolve, reject) => {

    ffmpeg(videoFilePath)

      .seekInput(seek)

      .output(imgFileOutputPath)

      .outputOptions(['-frames:v 1'])

      .on('end', () => resolve(imgFileOutputPath))

      .on('error', err => reject(err))

      .run();

  });

}

接口部分

使用开源深度视觉语言（VL）模型：DeepSeek-VL

DeepSeek VL 是一个支持图像分析和目标检测的深度学习模型。它能够对输入的图像进行分析，并返回检测到的目标及其位置信息。在实现中，DeepSeek VL 用于分析提取的关键帧，判断其中是否包含特定的物体或人物。

由于DeepSeek-VL没有提供API接口访问，如有需要请到DeepSeek-VL-Fork自取

按照DeepSeek-VL说明部署完成

修改app_deepseek_rest_api.py文件图片访问路径：



filePath = "C:\\Users\\Administrator\\Code\\video-finder\\public\\images\\"

运行脚本



python .\deepseek_vl\serve\app_deepseek_rest_api.py

实际应用场景与扩展

通过视频我们可以看到DeepSeek-VL分析图片的速度还是非常之快的，由于DeepSeek-VL暂不支持特定格式返回，所以有很多应用场景是无法做到的。比如：

监控视频中的异常行为检测；
视频内容的自动摘要及标签提取；
实时视频流的内容检索；
等等

总结

本项目简单初探一下如何利用 ffmpeg 与 DeepSeek VL 技术，对视频文件进行关键帧提取和图片的分析。希望本文能为大家提供灵感，在实际项目中更好地应用视频分析技术。

初探本地DeepSeek VL + Typescript + FFMPEG：提取视频关键帧分析内容的更多相关文章

基于C#利用ffmpeg提取视频帧
利用ffmepg提取视频帧实际上是利用C#调用ffmepg命令行进行处理对应的视频,然后输出出视频帧 GetPicFromVideo("); static public string Get ...
交叉编译多平台 FFmpeg 库并提取视频帧
原文地址: 交叉编译多平台 FFmpeg 库并提取视频帧交叉编译多平台 FFmpeg 库并提取视频帧本文档适用于 x86 平台编译 armeabi.armeabi-v7a.arm64-v8a.x8 ...
交叉编译多平台 FFmpeg 库并提取视频帧(转）
交叉编译多平台 FFmpeg 库并提取视频帧转 https://www.cnblogs.com/leviatan/p/11142579.html 本文档适用于 x86 平台编译 armeabi.a ...
FFmpeg进行视频帧提取&音频重采样-Process.waitFor()引发的阻塞超时
由于产品需要对视频做一系列的解析操作,利用FFmpeg命令来完成视频的音频提取.第一帧提取作为封面图片.音频重采样.字幕压缩等功能: 前一篇文章已经记录了FFmpeg在JAVA中的使用-音频提取&am ...
Windows下 ffmpeg + labelImg 提取视频帧得到图片集并标注图片来构造数据集
构造数据集的流程视频文件 >> ffmpeg处理 >> 图片集 >> labelImg进行标注 >> 标注好的数据集准备ffmpeg ...
FFmpeg解码视频帧为jpg图片保存到本地
FFmpeg解码视频帧为jpg图片保存到本地 - CSDN博客 https://blog.csdn.net/qq_28284547/article/details/78151635
NET 2.0(C#)调用ffmpeg处理视频的方法
另外:ffmpeg的net封装库 http://www.intuitive.sk/fflib/ NET 2.0 调用FFMPEG,并异步读取输出信息的代码...public void ConvertV ...
Java使用FFmpeg处理视频文件指南
Java使用FFmpeg处理视频文件指南本文主要讲述如何使用Java + FFmpeg实现对视频文件的信息提取.码率压缩.分辨率转换等功能: 之前在网上浏览了一大圈Java使用FFmpeg处理音视频 ...
Java使用FFmpeg处理视频文件的方法教程
这篇文章主要给大家介绍了关于Java使用FFmpeg处理视频文件的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧前言本文主要 ...
windows下使用ffmpeg进行视频转换和截图。
author:fanfq(xiaoban) Email:fangqing.fan#gmail.comlink:http://fanfq.iteye.com/admin/blogs/655569chan ...

随机推荐

"一基双台三智" 中电金信智慧监督解决方案构筑国央企风控堡垒
近年来,国务院国资委先后下发<关于进一步排查中央企业融资性贸易业务风险的通知>.<关于规范中央企业贸易管理严禁各类虚假贸易的通知>等各类监管法规,并在2024年初中央企业工作会 ...
CompilerGenerated与GeneratedCode区别
前言最近在捣鼓代码生成器,基于 Roslyn,我们可以让生成器项目生成我们的目标 C# 代码,这个也是MVVM Toolkit的实现方式,在查看生成代码的过程中,我们经常会遇到一些特殊的特性,如 G ...
【MyBatis】学习笔记04：配置文件模板
[Mybatis]学习笔记01:连接数据库,实现增删改 [Mybatis]学习笔记02:实现简单的查 [MyBatis]学习笔记03:配置文件进一步解读(非常重要) 目录 IDEA配置模板的地方核心 ...
x509.MarshalSm2PrivateKey
根据搜索结果,x509.MarshalSm2PrivateKey 函数需要两个参数:一个 *sm2.PrivateKey 和一个 []byte 类型的密码.以下是使用 x509.MarshalSm2P ...
实现一个分布式调用（OkHttp+SpringBoot)
很多情况,trace是分布在不同的应用中的,最常用的远程调用方式就是Http. 在这种情况下,我们通常通过增加额外的Http Header传递Trace信息,然后将其组织起来. 本部分通过构建一个目前 ...
Qt音视频开发34-不同库版本不同位数的库和头文件的引用
一.前言做开发过程中难免遇到需要引入第三方库的时候,而且需要在不同库版本.不同系统.不同位数下都需要.第三方的库版本众多,一般在大版本中的小版本都是兼容的,但是大版本不兼容,比如ffmpeg目前就有 ...
Qt开源作品34-qwt无需插件源码
一.前言 QWT,全称是Qt Widgets for Technical Applications,是一个基于LGPL版权协议的开源项目,可生成各种统计图.为具有技术专业背景的程序提供GUI组件和一组 ...
Python读取栅格图像并对像元数据处理后导出到表格文件中
本文介绍基于Python语言中的gdal模块,读取一景.tif格式的栅格遥感影像文件,提取其中每一个像元的像素数值,对像素值加以计算(辐射定标)后,再以一列数据的形式将计算后的各像元像素数据保存在 ...
编译WorldWindJavav2.1.0中的ApplicationTemplate.java文件时有时报出“Exception in thread "main" java.lang.AbstractMethodError: javax.xml.parsers.DocumentBuilderFactory.setFeature(Ljava/lang/String;Z)V”错误的解决办法
1 问题编译WorldWindJavav2.1.0中的ApplicationTemplate.java文件时有时报出如下错误: Exception in thread "main" ...
Python 潮流周刊#84：2024 年 Python 的最佳实践（摘要）
本周刊由 Python猫出品,精心筛选国内外的 250+ 信息源,为你挑选最值得分享的文章.教程.开源项目.软件工具.播客和视频.热门话题等内容.愿景:帮助所有读者精进 Python 技术,并增长职 ...