Kernel Memory 中使用 PaddleSharp OCR

Kernel Memory 中进行文档处理的时候可以上传图片作为文档，这时候就需要使用到 OCR 技术来识别图片中的文字。

官方默认的库中，提供了 Azure Document Intelligence 的扩展服务，可以通过 Azure 的服务来进行 OCR。

方法也非常简单，只需要在构建 Kernel Memory 的时候，调用 WithAzureAIDocIntel 方法，提供相应的参数即可。

var _ = new KernelMemoryBuilder(appBuilder.Services)

    //...

    .WithAzureAIDocIntel(new AzureAIDocIntelConfig()) // <- register azure document intelligence

    .Build();

如果没有Azure 服务的话，也可以使用自定义的 OCR 服务，例如 PaddleSharp OCR。

实现自定义的 OCR 服务，需要实现 IOcrEngine 接口，该接口的定义相对比较简单，其中只有一个ExtractTextFromImageAsync方法。



public interface IOcrEngine

{

    Task<string> ExtractTextFromImageAsync(Stream imageContent, CancellationToken cancellationToken = default(CancellationToken));

}

使用 PaddleSharp 我们需要安装以下 Nuget 包：

Sdcb.PaddleInference

Sdcb.PaddleOCR

Sdcb.PaddleInference.runtime.win64.mkl

OpenCvSharp4.runtime.win

Sdcb.PaddleOCR.Models.Local

然后实现 IOcrEngine 接口：



    public class PaddleSharpOcrEngine(FullOcrModel model) : IOcrEngine

    {

        private readonly FullOcrModel _model = model;

        public async Task<string> ExtractTextFromImageAsync(Stream imageContent, CancellationToken cancellationToken = default)

        {

            using var all = new PaddleOcrAll(_model, PaddleDevice.Mkldnn());

            using var memoryStream = new MemoryStream();

            await imageContent.CopyToAsync(memoryStream);

            using Mat src = Cv2.ImDecode(memoryStream.ToArray(), ImreadModes.Color);

            PaddleOcrResult result = all.Run(src);

            return result.Text;

        }

    }

在构建 Kernel Memory 的时候，注册自定义的 OCR 服务：

var model = LocalFullModels.EnglishV3;

var memory = new KernelMemoryBuilder(appBuilder.Services)

    //...

    .AddSingleton<IOcrEngine>(new PaddleSharpOcrEngine(model))// <- register paddle ocr

    .Build();

注册完成之后，后续处理图片文件的过程中，就会自动调用 PaddleSharp OCR 服务了。

await memory.ImportDocumentAsync("./kernel_memory_readme.png");

var question = "What's Kernel Memory?";

var answer = await memory.AskAsync(question);

Console.WriteLine($"Q: {question}");

Console.WriteLine($"A: {answer.Result}");

以上代码实现已经上传至 GitHub.

参考

PaddleSharp Ocr

Kernel Memory 中使用 PaddleSharp OCR的更多相关文章

[Oralce][InMemory]如何确定一个表已经被Populate 到In Memory 中？
[Oralce][InMemory]如何确定一个表已经被Populate 到In Memory 中? 以如下方法来查看 POPULATE_STATUS 是不行的. SQL> select ins ...
Kernel Memory Layout on ARM Linux
这是内核自带的文档,讲解ARM芯片的内存是如何布局的!比较简单,对于初学者可以看一下!但要想深入理解Linux内存管理,建议还是找几本好书看看,如深入理解Linux虚拟内存,嵌入系统分析,Linux内 ...
kernel memory code learn
mem alloc page Noticeble: 1. there are two kind of page: virtual page, physical page. 2. the page st ...
#define barrier() __asm__ __volatile__("": : :"memory") 中的memory是gcc的东西
gcc内嵌汇编简介在内嵌汇编中,可以将C语言表达式指定为汇编指令的操作数,而且不用去管如何将C语言表达式的值读入哪个寄存器,以及如何将计算结果写回C 变量,你只要告诉程序中C语言表达式与汇编指令操作 ...
【CCS仿真】如何将CCS仿真时memory中的数据以Hex、Integer、 Long 、Float、 Addressable Unit类型保存到PC
2013-12-04 19:07:05 将在CCS中仿真的数据导入电脑上时,可以选择不同的数据类型,以便分析,具体方法如下: 在CCS菜单中,选择File—>Data—>Save,弹出以下 ...
RPA中房产证的 OCR 识别
客户需求,识别一些证件内容,包括身份证.户口本.营业执照.银行卡以及房产证,前四个比较容易实现,不管是艺赛旗的 RPA 还是百度的 OCR 都有接口,直接调用即可,但是都没有房产证的 OCR 识别,只 ...
在Mac上 python中使用tesseract OCR (Pytesser) 识别图片中的文字
仓库地址:https://github.com/RobinDavid/Pytesser brew install tesseract sudo pip install opencv-python 安装 ...
laravel App\Kernel.php中的middleware、middlewareGroups、routeMiddleware
万事万物总逃不出一个理字,程序尤其如此,你之所以活得轻松,是因为有人替你负重前行,帮你屏蔽掉了很多乱七八糟的事情,但总有一天你要直面这些事情.程序亦是如此,某个框架你用的很轻松,那是因为底层逻辑已经有 ...
【语义分割】large kernel matters中GCN模块的pytorch实现
GCN模块的实现比较简单,在giuhub上看到两种实现,轻微不同实现一:https://github.com/ycszen/pytorch-segmentation/blob/master/gcn. ...
Linux Context , Interrupts 和 Context Switching 说明
一. 进程Context 定义当一个进程在执行时, CPU的所有寄存器中的值.进程的状态以及堆栈中的内容,比如各个变量和数据,包括所有的寄存器变量.进程打开的文件.内存信息等.这些信息被称为该进程的 ...

随机推荐

MPI转以太网Plus模块Modbus连接两台变频器通信案例
MPI转以太网Plus模块Modbus主站连接两台变频器通信案例 MPI转以太网Plus模块连接200PLC无需编程实现Modbus主从站功能与2台变频器modbus通信:以下就是MPI转以太网模块作 ...
oracle 验证流水存在性火箭试优化
在生产中经常遇到"select * from tbl_IsExist where date=?"的SQL,经与开发人员沟通得知此SQL是验证流水存在性,若不存在则插入,若存在退出 ...
ElasticSearch系列——文档操作
文章目录 Elasticsearch的增删查改(CURD) 一 CURD之Create 二 CURD之Update 三 CURD之Delete 四 CURD之Retrieve Elasticsearc ...
python第一章学习笔记计算机基础知识 Sublime Text 3
## 计算机是什么在现实生活中,越来越无法离开计算机了电脑.笔记本.手机.游戏机.汽车导航.智能电视 ... 计算机就是一个用来计算的机器! 目前来讲,计算机只能根据人类的指令来完成各种操作,人让 ...
FFmpeg H.264编码器指南[译]
H264 视频编码器指南本指引着眼于x264编码器,这里假设你的FFmpeg 编译了--enable-libx264支持.如果你需要编译支持的帮助请看这篇文档:https://trac.ffmpeg ...
C静态库的创建与使用--为什么要引入静态库？
C源程序需要经过预处理.编译.汇编几个阶段,得到各自源文件对应的可重定位目标文件,可重定位目标文件就是各个源文件的二进制机器代码,一般是.o格式.比如:util1.c.util2.c及main.c三个 ...
如何基于three.js(webgl)引擎架构，研发一套通过配置就能自动生成的3D机房系统
序: 这几年观察下来,大部分做物联网三维可视化解决方案的企业或个人, 基本都绕不开3D机房.包括前面也讲过这样的案例<使用webgl(three.js)创建自动化抽象化3D机房,3D机房模块详细 ...
从链接器的角度详细分析g++报错: (.text+0x24): undefined reference to `main'
/usr/bin/ld: /usr/lib/gcc/x86_64-linux-gnu/9/../../../x86_64-linux-gnu/Scrt1.o: in function `_start' ...
二、RHEL8操作系统安装
一.如何安装rhel的操作系统? 必要的前提条件:硬件(CPU.内存.硬盘--) + 安装介质(操作系统的安装文件) 会不会把自己的笔记本装成rhel的操作系统呢? 不会使用虚拟机软 ...
递归与分治思想：n的阶乘 && 逆序任意长度字符串（递归）
1 //n的阶乘 2 #include<stdio.h> 3 4 int fun(int n); 5 int main(void) 6 { 7 int n; 8 scanf("% ...

Kernel Memory 中使用 PaddleSharp OCR

Kernel Memory 中使用 PaddleSharp OCR

参考

Kernel Memory 中使用 PaddleSharp OCR的更多相关文章

随机推荐

热门专题