在 .NET 中使用 Tesseract 识别图片文字

1. 什么是 Tesseract

Tesseract 是一个强大的字符识别 (OCR) 工具。它最初由 HP 发布，现在由 Google 和学术社区共同维护和开发。 Tesseract 支持多种语言和格式，能够高效地识别图片中的文字。

2. 如何安装 Tesseract

要在 .NET 项目中使用 Tesseract，需要安装相关的 NuGet 包和基础依赖。步骤如下：

在项目中通过 NuGet 安装 Tesseract 包：
```
dotnet add package Tesseract
```
安装 SkiaSharp 来处理图片：
```
dotnet add package SkiaSharp
```

3. 训练数据从哪里下载

Tesseract 需要训练数据文件来识别图片中的文字。这些训练数据文件可以从 Tesseract OCR GitHub https://github.com/tesseract-ocr/tessdata下载。选择您需要的语言文件，并放置在项目相关目录中。

4. 如何使用 Tesseract

使用 Tesseract 识别图片中的文字，可以通过以下步骤完成：

创建一个 HttpClient 和 Logger ，用于下载图片和记录日志。
使用 SkiaSharp 来处理图片。
使用 Tesseract 完成 OCR 识别。

例子如下：

using SkiaSharp;

using Tesseract;

namespace AutoGetOrder.WebAPI.Services.TesseractService

{

    public class TesseractOCRService

    {

        private readonly HttpClient _httpClient;

        private readonly ILogger<TesseractOCRService> _logger;

        public TesseractOCRService(HttpClient httpClient, ILogger<TesseractOCRService> logger)

        {

            _httpClient = httpClient;

            _logger = logger;

        }

        public async Task<string> Do(string imageUrl)

        {

            try

            {

                byte[] imageBytes = await DownloadImageAsync(imageUrl);

                using (var skBitmap = SKBitmap.Decode(imageBytes))

                {

                    var processedBitmap = PreprocessImage(skBitmap);

                    using (var pix = ConvertSKBitmapToPix(processedBitmap))

                    {

                        string captchaText = RecognizeText(pix);

                        return captchaText;

                    }

                }

            }

            catch (Exception ex)

            {

                _logger.LogError(ex.ToString());

                return string.Empty;

            }

        }

        private async Task<byte[]> DownloadImageAsync(string url)

        {

            return await _httpClient.GetByteArrayAsync(url);

        }

        private SKBitmap PreprocessImage(SKBitmap bitmap)

        {

            return bitmap;

        }

        private Pix ConvertSKBitmapToPix(SKBitmap skBitmap)

        {

            using (var image = SKImage.FromBitmap(skBitmap))

            using (var data = image.Encode(SKEncodedImageFormat.Png, 100))

            {

                return Pix.LoadFromMemory(data.ToArray());

            }

        }

        private string RecognizeText(Pix pix)

        {

            using (var engine = new TesseractEngine(@"./Services/TesseractService", "eng", EngineMode.Default))

            {

                using (var page = engine.Process(pix))

                {

                    return page.GetText();

                }

            }

        }

    }

}

5. Docker 环境中安装依赖

如果您在 Docker 环境中使用 Tesseract，需要确保基础依赖已经安装。参考PR https://github.com/charlesw/tesseract/issues/675 可以参考下面的 Dockerfile：

RUN apt-get update && apt-get install -y \

    libfontconfig1 \

    libfreetype6 \

    libpng16-16 \

    libjpeg62-turbo \

    libx11-6 \

    libxext6 \

    libxrender1 \

    tesseract-ocr \

    libtesseract-dev \

    libleptonica-dev

RUN ln -s /usr/lib/x86_64-linux-gnu/libdl.so.2 /usr/lib/x86_64-linux-gnu/libdl.so

WORKDIR /app/x64

RUN ln -s /usr/lib/x86_64-linux-gnu/liblept.so.5 /app/x64/libleptonica-1.82.0.so

RUN ln -s /usr/lib/x86_64-linux-gnu/libtesseract.so.5 /app/x64/libtesseract50.so

这些依赖确保 Tesseract 和其依赖库在 Docker 中正常运行。

6.一个例子

识别结果

在 .NET 中使用 Tesseract 识别图片文字的更多相关文章

python识别图片文字
因为学校要求要刷一门叫<包装世界>的网课,而课程里有200多道选择题,而且只能在手机完成,网页版无法做题,而看视频是不可能看视频的,这辈子都不可能看...所以写了几行代码来进行百度搜答案. ...
Tesseract识别图片提取文字&字库训练
文中测试了3.0和4.0两个版本.发现3.0识别效率不准确,需要训练词库.4.0识别效率就比较高了,而且支持结果生成pdf.txt等格式.所以推荐使用4.0版本. 这个工具可以用在爬虫的时候获取验证码 ...
浅析点对点(End-to-End)的场景文字识别(图片文字)
一.背景随着智能手机的广泛普及和移动互联网的迅速发展,通过手机等移动终端的摄像头获取.检索和分享资讯已经逐步成为一种生活方式.基于摄像头的 (Camera-based)的应用更加强调对拍摄场景的理解 ...
python3 识别图片文字
1.下载相关组件安装:pip install Pillow 或下载:https://pypi.org/project/Pillow/5.2.0/ ,https://pypi.org/project ...
【图片识别】Java中使用tess4J进行图片文字识别（支持中文）（转）
http://blog.csdn.net/wsk1103/article/details/54173282 java中识别文字比较简单,使用的软件是tesseractocr(使用的版本是3.02,3以 ...
基于Tesseract实现图片文字识别
一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[l ...
Python识别验证码，基于Tesseract实现图片文字识别
一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[li ...
C#调用OCR组件识别图片文字
图片识别的技术到几天已经很成熟了,只是相关的资料很少,为了方便在此汇总一下(C#实现),方便需要的朋友查阅,也给自己做个记号. 图片识别的用途:很多人用它去破解网站的验证码,用于达到自动刷票或者是批量 ...
python 识别图片文字
今天群里有兄弟问如何把图片的文字给识别出来对于python来说这不是小菜一碟吗,于是乎让pupilheart狠狠的吹了一波(哈哈,竟然没懂),下面将整个实现过程给大家实现下: 方法一:自己搞定ORC ...
python下以api形式调用tesseract识别图片验证码
一.背景之前在博文中介绍在python中如何调用tesseract ocr引擎,当时主要介绍了shell模式,shell模式需要安装tesseract程序,并且效率相对略低. 今天介绍api形式的调 ...

随机推荐

dotnet core微服务框架Jimu介绍
jimu是一个基于.Net6.0 简单易用的微服务框架,参考了很多开源库以及想法,使用了大量的开源库(如 DotNetty, consul.net, Flurl.Http, Json.net, Log ...
LLM论文研读: GraphRAG的替代者LightRAG
1. 背景最近有一个很火的开源项目LightRAG,Github6.4K+星※,北邮和港大联合出品,是一款微软GraphRAG的优秀替代者,因此本qiang~得了空闲,读读论文.跑跑源码,遂有了这篇 ...
Nuxt.js 应用中的 components：extend 事件钩子详解
title: Nuxt.js 应用中的 components:extend 事件钩子详解 date: 2024/11/1 updated: 2024/11/1 author: cmdragon exc ...
题解：USACO23OPEN-Silver
题解:USACO23OPEN-Silver T1 Milk Sum 给定一个长度为 \(N\) 的序列 \(a_1,a_2,...,a_n\),现在给出 \(Q\) 次操作每次将 \(a_x\) 修改 ...
C++进阶知识汇总
知识来源:https://www.imooc.com/learn/1305 二进制在计算机中的意义: 计算机如何存负整数: 原码:符号位变为1 反码:除符号位其余取反补码:=反码+1 是-7的表示方 ...
docker连不上私有仓库Harbor
解决办法: # 配置多个host(配置本地域名映射) [root@vm10-11-0-38 ~]# cat /etc/hosts 127.0.0.1 localhost localhost.local ...
鸿蒙NEXT开发案例：随机密码生成
[引言] 本案例将实现一个随机密码生成器.用户可以自定义密码的长度以及包含的字符类型(大写字母.小写字母.数字.特殊字符),最后通过点击按钮生成密码,并提供一键复制功能. [环境准备] •操作系统:W ...
PbRL | Christiano 2017 年的开山之作，以及 Preference PPO / PrefPPO
PrefPPO 首次(?)出现在 PEBBLE,作为 pebble 的一个 baseline,是用 PPO 复现 Christiano et al. (2017) 的 PbRL 算法. For eva ...
2.TP6的入门-分页类的改写
看了看推荐的分页类的使用,还是很简单的,可是自己去尝试改写生成的分页类结构就会很麻烦,总是不成功,后来发现手册里面还有这个就说你想重写分页类,就需要这样做赶紧实践了一下,先改这里的provider ...
VLAN技术
VLAN是虚拟局域网的缩写,它是一种将网络设备(如交换机.路由器等)分割成多个虚拟网络的技术.每个VLAN都是一个独立的广播域,使得可以在同一物理网络上创建多个逻辑网络,从而提高网络的安全性和灵活性. ...