前言

上一篇文章TesseractOCR-GUI:基于WPF/C#构建TesseractOCR简单易用的用户界面中我们构建了一个方便使用TesseractOCR的用户界面,今天构建一个类似的界面,使用Semantic Kernel接入视觉模型,测试一下用视觉模型做OCR任务的效果。在之前的文章使用Tesseract进行图片文字识别的总结中说了使用VLM做这个任务的缺点,经过测试之后,发现确实存在。

效果

在进行下一步之前,先大概了解一下效果。

测试图片1:

查看效果:

测试图片2:

查看效果:

在写好提示词的情况下,识别的效果还不错。

但是还是不免会出现幻觉:

需要自己调整到效果最好的模型。

普通用户使用

跟之前的软件一样,我已经在GitHub发布了压缩包,点击下载,然后解压即可。

GitHub地址:https://github.com/Ming-jiayou/VLM-OCR-Demo

这里我选择依赖框架的版本:

下载解压之后如下所示:

有一个.env文件,用于配置VLM的API Key。这是因为我电脑的配置不太行,无法本地用Ollama跑视觉模型,因此只能使用大模型服务商的。由于SiliconCloud还有额度,并且兼容了OpenAI格式,因此我这里选择接入SiliconCloud。现在注册有送2000万token的活动,最nice的一点是送的token没有时间期限。想试试的朋友可以点击链接:https://cloud.siliconflow.cn/i/Ia3zOSCU,注册使用。

注册之后,复制一个API Key:

打开.env填入API Key,注意API Key不要随意泄露,放心这是存储在自己的电脑上,我不会知道。

如下所示,不要留空格:

然后打开VLM-OCR-Demo.exe即可使用啦!!

我已经写好了一个用于OCR的Prompt:

缺点还是会存在,这里自动翻译成了中文,可以再试一下:

又正常了,也可以重新调整一下Prompt。

当然VLM如果只是用于OCR有点太奢侈了,OCR只是VLM的一个基础功能,还可以执行其他与图像有关的任务。

描述图片:

分析图表:

更多功能可由读者自行探索。

WPF/C# 程序员使用

将项目Fork到自己账号下,git clone 到本地,打开解决方案,项目结构如下:

由于.env文件包含API Key这个敏感信息,因此我没有上传到GitHub上,自己在同样的位置新建一个.env文件,格式如下所示:

SILICON_CLOUD_API_KEY=sk-xxx

填入自己的SILICON_CLOUD_API_KEY,如下所示:

设置.env文件的属性:

这样设置一下,应该就可以启动了。

开发工具:Visual Studio 2022

.NET版本:.NET 8

使用SemanticKernel很方便我们接入大语言模型到我们自己的应用中,之前只接入过对话模型,还没有试过接入视觉模型,其实接入也很简单,SemanticKernel大大简化了接入操作。

核心代码:

 private async Task ExecuteAskAICommand()
{
if (AskAIResponse != "")
{
AskAIResponse = "";
}
if (SelectedVLM == null)
{
SelectedVLM = "Pro/OpenGVLab/InternVL2-8B";
}
IKernelBuilder kernelBuilder = Kernel.CreateBuilder();
kernelBuilder.AddOpenAIChatCompletion(
modelId: SelectedVLM,
apiKey: SiliconCloudAPIKey,
endpoint: new Uri("https://api.siliconflow.cn/v1")
);
Kernel kernel = kernelBuilder.Build(); var chatCompletionService = kernel.GetRequiredService<IChatCompletionService>(); if (SelectedFilePath == null)
{
return;
} byte[] bytes = File.ReadAllBytes(SelectedFilePath); // Create a chat history with a system message instructing
// the LLM on its required role.
var chatHistory = new ChatHistory("你是一个描述图片的助手,全程使用中文回答"); // Add a user message with both the image and a question
// about the image.
chatHistory.AddUserMessage(
[
new TextContent(AskAIText),
new ImageContent(bytes, "image/jpeg"),
]); // Invoke the chat completion model.
var response = chatCompletionService.GetStreamingChatMessageContentsAsync(
chatHistory: chatHistory,
kernel: kernel
);
await foreach (var chunk in response)
{
AskAIResponse += chunk;
}
}

这只是一个简单的Demo,可供学习使用,具体的最佳使用方式,可根据自己的项目需求调整,其他代码可自行探索。

最后

本项目是一个使用VLM用于OCR任务与使用SemanticKernel将VLM接入自己应用的简单Demo,对WPF/C#新手程序员,也可以当作一个简单的练手小项目。

如果对你有所帮助,点颗star,就是最大的支持!!

VLM-OCR-Demo:一个使用VLM用于OCR任务的示例的更多相关文章

  1. 在Web.Config文件中使用configSource,避免动态修改web.config导致asp.net重启(另添加一个Config文件用于管理用户数据)

    原文:在Web.Config文件中使用configSource,避免动态修改web.config导致asp.net重启(另添加一个Config文件用于管理用户数据) 我们都知道,在asp.net中修改 ...

  2. 自己封装的一个js方法用于获取显示的星期和日期时间

    自己封装的一个js方法用于获取显示的星期和日期时间 /** * 获取用于显示的星期和日期时间 * @param date * @returns {string} */ function getWeek ...

  3. 写一个 setter 方法用于完成 @property (nonatomic, retain) NSString *name,

    写一个 setter 方法用于完成 @property (nonatomic, retain) NSString *name 写一个 setter 方法用于完成 @property (nonatomi ...

  4. 实现一个名为Person的类和它的子类Employee,Manager是Employee的子类,设计一个方法add用于涨工资,普通员工一次能涨10%,经理能涨20%。

    1.实现一个名为Person的类和它的子类Employee,Manager是Employee的子类,设计一个方法add用于涨工资,普通员工一次能涨10%,经理能涨20%.具体要求如下:(1)Perso ...

  5. Python之小测试:用正则表达式写一个小爬虫用于保存贴吧里的所有图片

    很简单的两步: 1.获取网页源代码 2.利用正则表达式提取出图片地址 3.下载 #!/usr/bin/python #coding=utf8 import re # 正则表达式 import urll ...

  6. eShopOnContainers 是一个基于微服务的.NET Core示例框架

    找到一个好的示例框架很难,但不是不可能.大多数是小型Todo风格的应用程序,通常基于SimpleCRUD.值得庆幸的是,Microsoft已经为eShopOnContainers创建了一个基于微服务的 ...

  7. 腾讯云技术专家卢萌凯手把手教你Demo一个人脸识别程序!

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文来自腾讯云技术沙龙,本次沙龙主题为Serverless架构开发与SCF部署实践 卢萌凯:毕业于东南大学,曾就职于华为,熟悉云行业解决方案 ...

  8. IOS开发之小实例--创建一个简单的用于视频录制和回放的应用程序

    前言:还是看了一下国外的入门IOS文章:<Create a Simple App for Video Recording and Playback>,主要涉及视频录制和回放的功能的基本实现 ...

  9. Android学习小Demo一个显示行线的自定义EditText

    今天在处理一个EditText的时候,想着把EditText做成像一本作业本上的纸一样,每一行都可以由线条隔开,具体效果如下: 1)最开始的思路 一开始的想法是很简单的,找出每一行的高度,然后一行一行 ...

  10. ios进度条Demo一个

    一个很简单的Dmo.就拿出来分享一下. 一个简单的阴影效果 _progressView.frame = CGRectMake(size.width * progress-size.width, H_H ...

随机推荐

  1. [USACO1.5] 八皇后 Checker Challenge 题解

    [USACO1.5] 八皇后 Checker Challenge 题目描述 一个如下的 \(6 \times 6\) 的跳棋棋盘,有六个棋子被放置在棋盘上,使得每行.每列有且只有一个,每条对角线(包括 ...

  2. 《Spring Data JPA从入门到精通》内容简介、前言

    内容简介 本书以Spring Boot为技术基础,从入门到精通,由浅入深地介绍Spring Data JPA的使用.有语法,有实践,有原理剖析. 本书分为12章,内容包括整体认识JPA.JPA基础查询 ...

  3. 《Vue.js 设计与实现》读书笔记 - 第15章、编译器核心技术概览

    第15章.编译器核心技术概览 15.1 模板 DSL 的编译器 完整的编译包括 [源代码] -->词法分析-->语法分析-->语义分析(编译前端) -->中间代码生成--> ...

  4. 模板声明的两种形式:template<int N> 和 template<N>

    template<int N>:非类型模板参数 template<int N> 是一个典型的非类型模板参数的例子.这里的 N 是模板的参数,但它不是一个类型,而是一个具体的整数 ...

  5. Linux-USB驱动笔记-Gadget Function驱动

    1.前言 在Linux-USB驱动笔记(四)–USB整体框架中有説到Gadget Function驱动,下面我们来具体看一下. Gadget Function就是指设备的功能,比如作为U盘,需要文件存 ...

  6. 统一携带 token

    tokne 可以使用 vuex 和 本地存储处理 : 一些接口需要携带token为了避免代码的重复性,可以在请求拦截器统一加入token ,每次请求都会携带token参数,不需要token参数的接口也 ...

  7. 33. mvvm理解

    MVVM 是module view view-module 数据驱动视图开发模型,是MVC的改进版,采用业务逻辑和页面解构分离的开发思想: MVVM 实现了 view 和 module 的双向绑定,我 ...

  8. apisix~按域名进行请求转发

    路由route 路由(Route)是请求的入口点,它定义了客户端请求与服务之间的匹配规则.路由可以与服务(Service).上游(Upstream)关联,一个服务可对应一组路由,一个路由可以对应一个上 ...

  9. fastjson序列化导致prometheus返回监控数据格式错乱

    在springboot 中集成prometheus的监控时遇见问题. 因为项目里在StaticResourceConfig配置了fastjson 序列化,导致prometheus接口返回数据被转化为j ...

  10. 基于 KubeSphere 部署 KubeBlocks 实现数据库自由

    作者:尹珉, KubeSphere Contributor & Ambassador,KubeSphere 社区用户委员会杭州站站长. KubeSphere 是什么? KubeSphere 是 ...