pytesseract and ddddocr

余生没有余生 2024-06-08 10:38:05 原文

一.pytesseract

1.简介

Pytesseract是一个Python库，用于将图像中的文本转换为可编辑的字符串。它是基于Google的Tesseract OCR引擎开发的。Tesseract是一个开源的OCR引擎，能够识别超过100种语言的文字。Pytesseract简化了与Tesseract的集成过程，并提供了一个简单的API，使得在Python中使用OCR功能变得更加容易

2.环境配置

1）下载程序并安装，下载地址：https://digi.bib.uni-mannheim.de/tesseract/

安装的时候记得勾选下载的语言，全选即可。

2）终端下载pytesseract库

pip install pytesseract

下载安装完成之后在当前项目下找到venv\Lib\site-packages\pytesseract\pytesseract.py文件，修改tesseract_cmd值

3.基本用法

我们要识别图片文字，最常用的方法就是image_to_string，语法如下，通常使用时传两个参数即可，要识别的图片和语言类型

def image_to_string(

    image,

    lang=None,

    config='',

    nice=0,

    output_type=Output.STRING,

    timeout=0,

):

下面看下实例

result_text = pytesseract.image_to_string("./img/img_5.png", lang='chi_sim')

# 输出结果

print(result_text)

如果涉及到识别的图片中存在多种语言，可以在lang中添加多种语言，用+号连接起来

import pytesseract
from PIL import Image



img = Image.open(url)

text = pytesseract.image_to_string(img, lang='chi_sim+eng')  # 识别中文和英文

各种语言类型如下图

eng	英文
chi_sim	简体中文
chi_tra	繁体中文
ara	阿拉伯文
jpn	日文
kor	韩文
spa	西班牙文
fra	法文
deu	德文
ita	意大利文
por	葡挞文
rus	俄文
vie	越南文
tha	泰文
tur	土耳其文
dan	丹麦文
nld	荷兰文
fin	芬兰文
nor	挪威文
swe	瑞典文
hun	匈牙利文
cze	捷克文
pol	波兰文
slk	斯洛伐克文
slv	斯洛文尼亚文
bul	保加利亚文
ell	希腊文
est	爱沙尼亚文
lit	立陶宛文
lav	拉脱维亚文
ron	罗马尼亚文
srp	塞尔尼亚文
ukr	乌克兰文
hin	印地文
ben	孟加拉文
mar	马拉地文
tam	泰米尔文
tel	泰卢固问
kan	卡纳达文
mal	玛拉雅拉姆文
orl	奥里亚文
pan	旁遮普文
guj	古吉拉特文
sin	僧伽罗文
mya	缅甸文

二.ddddocr

1.简介

OCR是一种将印刷或手写文本转换为可编辑文本的技术。ddddOCR利用深度学习算法识别图像中的字符，并将其转换为可编辑的文本。它可以应用于各种场景，如扫描文档、图像识别、车牌识别等。ddddOCR具有高准确性和高效率，可以在短时间内处理大量的图像，并能够适应不同的字体和文字样式。它可以应用于各种领域，如办公自动化、数据输入、图像处理等。

2.环境配置

 pip install ddddocr

3.基本用法

import ddddocr

ocr1 = ddddocr.DdddOcr()  # 实例化

with open("./img_2.png", 'rb') as f:

    img_bytes = f.read()

result_text = ocr1.classification(img_bytes)

print(result_text)

个人觉得ddddocr识别的特不准，毕竟是免费的，要想准确识别可以参考超级鹰：https://www.cnblogs.com/lihongtaoya/p/16727694.html

pytesseract and ddddocr的更多相关文章

关于在 mac上配置pytesseract的相关问题
因为踩了两个小时坑特别是在配置依赖tesseract-ORC识别库时候的问题特别麻烦一定要用brewhome 一定要用brewhome 一定要用brewhome 重要的事情说三遍. 刚开始我在网 ...
Tesseract pytesseract的安装和使用
Tesseract是开源的OCR引擎,可以识别的图片里的文字,支持unicode(UTF-8)编码,100多种语言,需要下载相应语言的训练数据. 安装: 有两种方法,一种是通过编译源码,比较麻烦.我使 ...
pytesseract使用
1.安装pip install pytesseract 2.安装tesseract-ocr,下载地址:https://github.com/UB-Mannheim/tesseract/wiki,我安装 ...
python识别验证码——PIL,pytesser,pytesseract的安装
1.使用Python识别验证码需要安装Python的图像处理模块(PIL.pytesser.pytesseract) (安装过程需要pip,在我的Python中已经安装pip了,pip的安装就不在赘述 ...
python 验证码识别库pytesseract的使用
笔者环境 centos7 python3 pytesseract只是tesseract-ocr的一种实现接口.所以要先安装tesseract-ocr(大名鼎鼎的开源的OCR识别引擎). 依赖安装 yu ...
python下调用pytesseract识别某网站验证码
一.pytesseract介绍 1.pytesseract说明 pytesseract最新版本0.1.6,网址:https://pypi.python.org/pypi/pytesseract Pyt ...
使用pytesseract出现的问题
dyld: Library not loaded: /usr/local/opt/jpeg/lib/libjpeg.8.dylib Referenced from: /usr/local/lib/li ...
pytesseract在识别只有一个数字的图片时识别不出来
大家好,近期在做自动化测试时,遇到了一个问题需要通过识别图片来实现,遂用到了pytesseract模块和tesseract-ocr这个工具.在使用过程中发现,识别带有数字的图片时,如果这个图片上仅有一 ...
mac使用pytesseract
import locale locale.setlocale(locale.LC_ALL, 'C') import pytesseract import pathlib import tracebac ...
[python] python3.6 安装 pytesseract 出错
安装pytesseact出错, 下载 tesseract-ocr , 地址 https://github.com/tesseract-ocr/tesseract 修改pytesseract.py 设置 ...

随机推荐

Network Science：巴拉巴西网络科学学习笔记3——第二章随机网络
第二章:随机网络Erdős-Rényi Network (ER网络) 随机网络的两种定义形式: \(G(N,L)\)模型:N个节点,L条边随机链接. \(G(N,p)\)模型:N个节点,每个节点之间以 ...
世界读书日：推荐15本AI从入门到放弃的书
hi,我是熵减,见字如面. 在世界读书日即将到来的前,以及借着ChatGPT的火热,各种AI大模型的创业东风,今天给大家推荐一些AI相关的图书,希望大家能从入门到放弃,找到适合自己的热爱. 本次推荐图 ...
Django框架——静态文件配置、form表单、request对象、连接数据库、ORM简介、ORM基本操作和语句
配置文件介绍 SECRET_KEY = '0yge9t5m9&%=of**qk2m9z^7-gp2db)g!*5dzb136ys0#)*%*a' # 盐 DEBUG = True # 调试模式 ...
【有问必答】搭建uniapp项目流程手把手教学
前言缘由博友有问,狗哥必答前段时间,博友加本狗微信,询问uniapp的学习方法.本狗资历浅薄,没有专门学过uniapp,只能将自己日常开发uniapp的基本流程和步骤进行分享,希望可以略尽绵薄之 ...
深度学习04-(Tensorflow简介、图与会话、张量基本操作、Tensorboard可视化、综合案例：线性回归)
深度学习04-Tensorflow 深度学习04-(Tensorflow) Tensorflow概述 Tensorflow简介什么是Tensorflow Tensorflow的特点 Tensorfl ...
[人脸活体检测] 论文：Learn Convolutional Neural Network for Face Anti-Spoofing
[人脸活体检测] 论文:Learn Convolutional Neural Network for Face Anti-Spoofing 论文简介这是最早期CNN用于活体检测的文章,在此之前都是手 ...
Apache ShenYu 学习笔记一
1.简介这是一个异步的,高性能的,跨语言的,响应式的 API 网关. 官网文档:https://shenyu.apache.org/zh/docs/index 仓库地址:https://github ...
2022-06-03：a -＞ b，代表a在食物链中被b捕食，给定一个有向无环图，返回这个图中从最初级动物到最顶级捕食者的食物链有几条。来自理想汽车。
2022-06-03:a -> b,代表a在食物链中被b捕食, 给定一个有向无环图,返回这个图中从最初级动物到最顶级捕食者的食物链有几条. 来自理想汽车. 答案2022-06-03: 拓扑排序. ...
ICML 2017-Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
Key Gradient Descent+TRPO+policy Gradient 训练模型的初始参数,模型在新任务上只需参数通过一个或多个用新任务的少量数据计算的梯度步骤更新后,就可以最大的性能.而 ...
2021年蓝桥杯C／C++大学B组省赛真题(路径)
题目描述: 小蓝学习了最短路径之后特别高兴,他定义了一个特别的图,希望找到图中的最短路径. 小蓝的图由2021 个结点组成,依次编号1 至2021. 对于两个不同的结点a, b,如果a 和b 的差的绝 ...