在 .NET 中使用 Tesseract 识别图片文字

1. 什么是 Tesseract

Tesseract 是一个强大的字符识别 (OCR) 工具。它最初由 HP 发布，现在由 Google 和学术社区共同维护和开发。 Tesseract 支持多种语言和格式，能够高效地识别图片中的文字。

2. 如何安装 Tesseract

要在 .NET 项目中使用 Tesseract，需要安装相关的 NuGet 包和基础依赖。步骤如下：

在项目中通过 NuGet 安装 Tesseract 包：
```
dotnet add package Tesseract
```
安装 SkiaSharp 来处理图片：
```
dotnet add package SkiaSharp
```

3. 训练数据从哪里下载

Tesseract 需要训练数据文件来识别图片中的文字。这些训练数据文件可以从 Tesseract OCR GitHub https://github.com/tesseract-ocr/tessdata下载。选择您需要的语言文件，并放置在项目相关目录中。

4. 如何使用 Tesseract

使用 Tesseract 识别图片中的文字，可以通过以下步骤完成：

创建一个 HttpClient 和 Logger ，用于下载图片和记录日志。
使用 SkiaSharp 来处理图片。
使用 Tesseract 完成 OCR 识别。

例子如下：

using SkiaSharp;

using Tesseract;

namespace AutoGetOrder.WebAPI.Services.TesseractService

{

    public class TesseractOCRService

    {

        private readonly HttpClient _httpClient;

        private readonly ILogger<TesseractOCRService> _logger;

        public TesseractOCRService(HttpClient httpClient, ILogger<TesseractOCRService> logger)

        {

            _httpClient = httpClient;

            _logger = logger;

        }

        public async Task<string> Do(string imageUrl)

        {

            try

            {

                byte[] imageBytes = await DownloadImageAsync(imageUrl);

                using (var skBitmap = SKBitmap.Decode(imageBytes))

                {

                    var processedBitmap = PreprocessImage(skBitmap);

                    using (var pix = ConvertSKBitmapToPix(processedBitmap))

                    {

                        string captchaText = RecognizeText(pix);

                        return captchaText;

                    }

                }

            }

            catch (Exception ex)

            {

                _logger.LogError(ex.ToString());

                return string.Empty;

            }

        }

        private async Task<byte[]> DownloadImageAsync(string url)

        {

            return await _httpClient.GetByteArrayAsync(url);

        }

        private SKBitmap PreprocessImage(SKBitmap bitmap)

        {

            return bitmap;

        }

        private Pix ConvertSKBitmapToPix(SKBitmap skBitmap)

        {

            using (var image = SKImage.FromBitmap(skBitmap))

            using (var data = image.Encode(SKEncodedImageFormat.Png, 100))

            {

                return Pix.LoadFromMemory(data.ToArray());

            }

        }

        private string RecognizeText(Pix pix)

        {

            using (var engine = new TesseractEngine(@"./Services/TesseractService", "eng", EngineMode.Default))

            {

                using (var page = engine.Process(pix))

                {

                    return page.GetText();

                }

            }

        }

    }

}

5. Docker 环境中安装依赖

如果您在 Docker 环境中使用 Tesseract，需要确保基础依赖已经安装。参考PR https://github.com/charlesw/tesseract/issues/675 可以参考下面的 Dockerfile：

RUN apt-get update && apt-get install -y \

    libfontconfig1 \

    libfreetype6 \

    libpng16-16 \

    libjpeg62-turbo \

    libx11-6 \

    libxext6 \

    libxrender1 \

    tesseract-ocr \

    libtesseract-dev \

    libleptonica-dev

RUN ln -s /usr/lib/x86_64-linux-gnu/libdl.so.2 /usr/lib/x86_64-linux-gnu/libdl.so

WORKDIR /app/x64

RUN ln -s /usr/lib/x86_64-linux-gnu/liblept.so.5 /app/x64/libleptonica-1.82.0.so

RUN ln -s /usr/lib/x86_64-linux-gnu/libtesseract.so.5 /app/x64/libtesseract50.so

这些依赖确保 Tesseract 和其依赖库在 Docker 中正常运行。

6.一个例子

识别结果

在 .NET 中使用 Tesseract 识别图片文字的更多相关文章

python识别图片文字
因为学校要求要刷一门叫<包装世界>的网课,而课程里有200多道选择题,而且只能在手机完成,网页版无法做题,而看视频是不可能看视频的,这辈子都不可能看...所以写了几行代码来进行百度搜答案. ...
Tesseract识别图片提取文字&字库训练
文中测试了3.0和4.0两个版本.发现3.0识别效率不准确,需要训练词库.4.0识别效率就比较高了,而且支持结果生成pdf.txt等格式.所以推荐使用4.0版本. 这个工具可以用在爬虫的时候获取验证码 ...
浅析点对点(End-to-End)的场景文字识别(图片文字)
一.背景随着智能手机的广泛普及和移动互联网的迅速发展,通过手机等移动终端的摄像头获取.检索和分享资讯已经逐步成为一种生活方式.基于摄像头的 (Camera-based)的应用更加强调对拍摄场景的理解 ...
python3 识别图片文字
1.下载相关组件安装:pip install Pillow 或下载:https://pypi.org/project/Pillow/5.2.0/ ,https://pypi.org/project ...
【图片识别】Java中使用tess4J进行图片文字识别（支持中文）（转）
http://blog.csdn.net/wsk1103/article/details/54173282 java中识别文字比较简单,使用的软件是tesseractocr(使用的版本是3.02,3以 ...
基于Tesseract实现图片文字识别
一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[l ...
Python识别验证码，基于Tesseract实现图片文字识别
一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[li ...
C#调用OCR组件识别图片文字
图片识别的技术到几天已经很成熟了,只是相关的资料很少,为了方便在此汇总一下(C#实现),方便需要的朋友查阅,也给自己做个记号. 图片识别的用途:很多人用它去破解网站的验证码,用于达到自动刷票或者是批量 ...
python 识别图片文字
今天群里有兄弟问如何把图片的文字给识别出来对于python来说这不是小菜一碟吗,于是乎让pupilheart狠狠的吹了一波(哈哈,竟然没懂),下面将整个实现过程给大家实现下: 方法一:自己搞定ORC ...
python下以api形式调用tesseract识别图片验证码
一.背景之前在博文中介绍在python中如何调用tesseract ocr引擎,当时主要介绍了shell模式,shell模式需要安装tesseract程序,并且效率相对略低. 今天介绍api形式的调 ...

随机推荐

洛谷 P1540 [NOIP2010 提高组] 机器翻译
题目概括给定 N 个整数,和一个容量为 M 的"字典",从头到尾依次翻译,每次翻译先看自家字典,没有的话再看别人的字典并存到自家字典,如果自家字典满了,当前单词的翻译会代替最早进 ...
NES 模拟器中音画同步问题
背景模拟器是与游戏和播放器都有相似之处的系统.模拟器与游戏的相似之处,在于都需要一个采集输入--执行逻辑--然后按一定帧率(通常是 60 FPS)把画面显示出来的循环.但是模拟器又需要模拟音频设备, ...
buck电路 & boost电路
buck电路 buck电路是直流的降压电路,我们下面给大家讲下,如何把12V的直流电压降压成5V的直流电压 1.buck电路拓扑:12V----->5V 2.降压原理 a.开关闭合,电流走向电 ...
CUDA编程学习 (2)——CUDA并行性模型
1. 基于 kernel 的 SPMD 并行编程 1.1 向量加法 kernel(device 代码) // Device Code // Compute vector sum C = A + B / ...
zkw 线段树-原理及其扩展
前言许多算法的本质是统计.线段树用于统计,是沟通原数组与前缀和的桥梁. <统计的力量>清华大学-张昆玮关于线段树前置知识:线段树 OIWiki. 线段树是一种专门维护区间问题的数据结 ...
探索 USB 上网模组，Air780ER 当仁不让
今天探索的是USB上网模组,我推荐的是Air780ER模组,本文从用户实际使用的角度,解答大家对Air780ER最关心的一些问题,内容不深入探究技术细节,更多从选型.应用等非技术维度展开. 一.Air ...
C# 入门深度学习：万字长文讲解微积分和梯度下降
教程名称:使用 C# 入门深度学习作者:痴者工良地址: https://torch.whuanle.cn 目录微积分极限导数求导公式乘除求导例题复合函数求导的链式法则 Sigmoid ...
java，属性覆盖，方法覆盖
class Rootb {int x = 1;public Rootb(int i){}public int getI(){return x;}public void setI(int x){this ...
CudaSPONGE之Python接口
技术背景在上一篇博客中我们介绍了CudaSPONGE的基本安装和使用方法.为了性能考虑,CudaSPONGE是基于纯CUDA C开发的,但是现在很多轮子都是Python开发的.为兼容更多的框架和平台 ...
PythonDay3Advance
PythonDay3Advance 运算符位运算符进制: 将整数分了几种进制表示法二进制:由0,1构成,逢2进1,以0b开头八进制:由0,1,2,3,4,5,6,7构成,逢8进1,以0开头十 ...