C# 调用Tesseract实现OCR
介绍
Tesseract是一个基于Apache2.0协议开源的跨平台ocr引擎,支持多种语言的识别,在Windows和Linux上都有良好的支持.
创建工程
创建一个C#的控制台工程

添加System.Drawing引用
因为在操作过程中我们会需要读取图片,所以这里需要这个


nuget里添加Tesseract引用


准备资源
这里共4个文件,2个目录
首先下载这个eng.traineddata
度盘下载 密码: 5xfs
在工程目录里,建立一个tessdata文件夹(切记:文件夹一定要叫这名字!)放进去,文件属性设置"如果较新则复制"


另外建立个images,放以下3张测试图片(你可以直接在这右键下载):
1.png

2.png

3.png

如果你在VS里看不到这3张图,那么你可能需要把它们添加到项目里:


记得把3张图片设为"如果较新则复制"
编辑代码
using引用:
using System;
using System.Drawing;
using Tesseract;
Main:
static void Main(string[] args)
{
var tess = new TesseractEngine($"{AppDomain.CurrentDomain.BaseDirectory}/", "eng", EngineMode.Default);//构建对象并加载训练好的数据
Console.WriteLine($"Tesseract版本:{tess.Version}");
tess.DefaultPageSegMode = PageSegMode.SingleLine;//设为单行识别
{//图片1
var page = tess.Process((Bitmap)Image.FromFile("images/1.png"));//处理图片
Console.WriteLine($"识别到的内容:{page.GetText()}");//输出识别内容
page.Dispose();
}
{//图片2
var page = tess.Process((Bitmap)Image.FromFile("images/2.png"));//处理图片
Console.WriteLine($"识别到的内容:{page.GetText()}");//输出识别内容
page.Dispose();
}
{//图片3
var page = tess.Process((Bitmap)Image.FromFile("images/3.png"));//处理图片
Console.WriteLine($"识别到的内容:{page.GetText()}");//输出识别内容
page.Dispose();
}
tess.Dispose();
Console.ReadKey(true);
}

运行试试

结束
可以看到大部分字符都是能够识别的,不过有个别数字识别错误了,我们需要训练自己的数据来提高正确率.
关于如何训练,可参考我的另一篇文章:
https://www.cnblogs.com/DragonStart/p/9418053.html
另外我把文中的例子发布到了gitee,可以从这里获取到整个工程:
https://gitee.com/o70078/tesseract_sample.git
C# 调用Tesseract实现OCR的更多相关文章
- python下以api形式调用tesseract识别图片验证码
一.背景 之前在博文中介绍在python中如何调用tesseract ocr引擎,当时主要介绍了shell模式,shell模式需要安装tesseract程序,并且效率相对略低. 今天介绍api形式的调 ...
- [转]Tesseract-OCR (Tesseract的OCR引擎最先由HP实验室于1985年开始研发)
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行 ...
- 解决ecplise+phthon2.7中使用pytesser和tesseract进行ocr,出现报错的问题
网上很多使用ecplise+phthon2.7中使用pytesser或者tesseract进行OCR网站验证码的案例,但配置起来实在让人崩溃. 通用步骤:1.下载了pytesser_v0.0.1: 2 ...
- 基于Tesseract的OCR识别小程序
一.背景 先说下开发背景,今年有次搬家找房子(2020了应该叫去年了),发现每天都要对着各种租房广告打很多电话.(当然网上也找了实地也找),每次基本都是对着墙面看电话号码然后拨打,次数一多就感觉非常麻 ...
- 使用Python基于OpenCV和Tesseract的OCR
OCR OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形 ...
- 使用C#版Tesseract库
上一篇介绍了Tesseract库的使用(OCR库Tesseract初探),文末提到了Tesseract是用c/c++开发的,也有C#的开源版本,本篇介绍一下如何使用C#版的Tesseract. C#版 ...
- Tesseract Ocr引擎
Tesseract Ocr引擎 1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/t ...
- 开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
- Python下Tesseract Ocr引擎及安装介绍
1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...
随机推荐
- day051 Django创建
Django的下载安装 下载Django: pip3 install django==1.11.14 创建Django project(项目) 步骤1: 步骤2: 步骤3: 配置settings属性 ...
- HDFS二.HDFS实现分布式文件存储---体系结构
单击模式(Standalone): 单机模式是Hadoop的默认模式.当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置.在这种默认模式下所有3个XML文件均为 ...
- E: Sub-process /usr/bin/dpkg returned an error code (1)错误解决
在用apt-get安装软件时出现了类似于install-info: No dir file specified; try --help for more information.dpkg:处理 get ...
- 禁止WORDPRESS站内搜索的方法
如果我们希望禁止站内搜索,毕竟会是的MYSQL负担加重,我们可以禁止掉,然后在使用第三方搜索组件.比如用百度站内搜索或者360站内搜索. function fb_filter_query( $quer ...
- postman接口测试基础知识
接口文档访问地址:http://doc.nnzhp.cn/index.php?s=/6&page_id=8 1.什么是接口:从数据库里面取数据或是插入数据 接口测试:测接口一定要有接口文档-- ...
- mysql中外键的创建与删除
外键的创建 方法1:创建表的时候设置(外键名随机生成) 1.前提条件,必须要有一个主表,这里设为persons 2.主表中必须设置主键字段primary key,这里设为id_p //创建数据库dat ...
- 6.移动端App安装包的测试用例
安装 安装手册是否规范,是否简洁,是否通俗易懂. 安装手册是否齐全,正确,有改动时,文档是否同步更新 直接复制安装程序到电脑上,能否正常安装 按安装手册给出的步骤进行安装,安装是否正确 查看在安装过程 ...
- 王者荣耀交流协会第5次Scrum立会
开会时间:2017年10月31日下午18:00-18:31 共计31分钟 开会地点:一食堂二楼靠近窗户倒数第四排 今日完成工作进度: 王超同学完成了将生成饼状图原型整合到程序中 立会内容: 添加了新 ...
- 实验 2:备份和还原IOS
SW1配置 Switch>en Switch#conf t Enter configuration commands, one per line. End with CNTL/Z. Switch ...
- JAVA高级篇(二、JVM内存模型、内存管理之第二篇)
本文转自https://zhuanlan.zhihu.com/p/25713880. JVM的基础概念 JVM的中文名称叫Java虚拟机,它是由软件技术模拟出计算机运行的一个虚拟的计算机. JVM也充 ...