python中ocr软件tesseract使用

首先要看原版的参考

直接上代码，

import pytesseract
from PIL import Image

image = Image.open(r'D:\xingjinzi\5.jfif')

result =pytesseract.image_to_string(image,config='--psm 8 -c tessedit_char_whitelist=abceefghigklmnopqrstuvwxyz')

print(result)

# result =pytesseract.image_to_string (image,lang='eng')   #英文
# result =pytesseract.image_to_string (image,lang='chi_sim') #简体中文
result =pytesseract.image_to_string(image,config='--psm 12 -c tessedit_char_whitelist=1234567890abceefghigklmnopqrstuvwxyz')

tessedit_char_whitelist=abceefghigklmnopqrstuvwxyz  相当于白名单，集可以有哪些字符

--psm 是一个识别方向引导的内容，参考

Page segmentation modes:

0 Orientation and script detection (OSD) only.

1 Automatic page segmentation with OSD.

2 Automatic page segmentation, but no OSD, or OCR.

3 Fully automatic page segmentation, but no OSD. (Default)

4 Assume a single column of text of variable sizes.

5 Assume a single uniform block of vertically aligned text.

6 Assume a single uniform block of text.

7 Treat the image as a single text line.

8 Treat the image as a single word.

9 Treat the image as a single word in a circle.

10 Treat the image as a single character.

11 Sparse text. Find as much text as possible in no particular order.

12 Sparse text with OSD.

13 Raw line. Treat the image as a single text line,

对应的中文如下

页面分割模式：

0仅限方向和脚本检测（OSD）。

1使用OSD自动分页。

2自动页面分割，但没有OSD或OCR。

3全自动页面分割，但没有OSD。（默认）

4假设一列可变大小的文本。

5假设一个垂直对齐文本的统一块。

6假设一个统一的文本块。

7将图像视为单个文本行。

8将图像视为单个单词。

9将图像视为圆形中的单个单词。

10将图像视为单个字符。

11稀疏文字。找到尽可能多的文本，没有特定的顺序。

12带OSD的稀疏文本。

13原始线。将图像视为单个文本行

总得来说还不错的

1.语言库地址：https://github.com/tesseract-ocr/tessdata

2.语言库列表

库名	语言
afr	Afrikaans(南非荷兰语)
amh	Amharic(阿姆哈拉语)
ara	Arabic(阿拉伯语)
asm	Assamese(阿萨姆)
aze	Azerbaijani(阿塞拜疆)
aze_cyrl	Azerbaijani - Cyrilic(阿塞拜疆-Cyrilic)
bel	Belarusian(白俄罗斯)
ben	Bengali(孟加拉)
bod	Tibetan(西藏)
bos	Bosnian(波斯尼亚)
bul	Bulgarian(保加利亚语)
cat	Catalan; Valencian(加泰罗尼亚语; 巴伦西亚)
ceb	Cebuano(宿务)
ces	Czech(捷克)
chi_sim	Chinese - Simplified(中国-简体)
chi_tra	Chinese - Traditional(中国-繁体)
chr	Cherokee(切诺基)
cym	Welsh(威尔士)
dan	Danish(丹麦)
dan_frak	Danish - Fraktur(丹麦-Fraktur)
deu	German(德国)
deu_frak	German - Fraktur(德国-Fraktur)
dzo	Dzongkha(不丹文)
ell	Greek, Modern （1453-）(希腊，现代（1453-）)
eng	English(英语)
enm	English, Middle (1100-1500)(英语，中东（1100-1500）)
epo	Esperanto(世界语)
equ	Math / equation detection module(数学/方程式检测模块)
est	Estonian(爱沙尼亚)
eus	Basque(巴斯克)
fas	Persian(波斯)
fin	Finnish(芬兰)
fra	French(法语)
frk	Frankish(法兰克)
frm	French, Middle (ca.1400-1600)(法国，中东（ca.1400-1600）)
gle	Irish(爱尔兰)
glg	Galician(加利西亚)
grc	Greek, Ancient (to 1453)(希腊语，古（到1453年）)
guj	Gujarati(古吉拉特语)
hat	Haitian; Haitian Creole(海天; 海地克里奥尔语)
heb	Hebrew(希伯来语)
hin	Hindi(印地文)
hrv	Croatian(克罗地亚)
hun	Hungarian(匈牙利)
iku	Inuktitut(因纽特语)
ind	Indonesian(印尼)
isl	Icelandic(冰岛)
ita	Italian(意大利语)
ita_old	Italian - Old(意大利语-旧)
jav	Javanese(爪哇)
jpn	Japanese(日本)
kan	Kannada(卡纳达语)
kat	Georgian(格鲁吉亚)
kat_old	Georgian - Old(格鲁吉亚-旧)
kaz	Kazakh(哈萨克斯坦)
khm	Central Khmer(中央高棉)
kir	Kirghiz; Kyrgyz(柯尔克孜; 吉尔吉斯)
kor	Korean(韩国)
kur	Kurdish(库尔德人)
lao	Lao(老挝)
lat	Latin(拉丁)
lav	Latvian(拉脱维亚)
lit	Lithuanian(立陶宛)
mal	Malayalam(马拉雅拉姆语)
mar	Marathi(马拉)
mkd	Macedonian(马其顿)
mlt	Maltese(马耳他)
msa	Malay(马来文)
mya	Burmese(缅甸)
nep	Nepali(尼泊尔)
nld	Dutch; Flemish(荷兰; 佛兰芒语)
nor	Norwegian(挪威)
ori	Oriya(奥里亚语)
osd	Orientation and script detection module(定位及脚本检测模块)
pan	Panjabi; Punjabi(旁遮普语; 旁遮普语)
pol	Polish(波兰)
por	Portuguese(葡萄牙语)
pus	Pushto; Pashto(普什图语; 普什图语)
ron	Romanian; Moldavian; Moldovan(罗马尼亚; 摩尔多瓦; 摩尔多瓦)
rus	Russian(俄罗斯)
san	Sanskrit(梵文)
sin	Sinhala; Sinhalese(僧伽罗语; 僧伽罗语)
slk	Slovak(斯洛伐克)
slk_frak	Slovak - Fraktur(斯洛伐克- Fraktur)
slv	Slovenian(斯洛文尼亚)
spa	Spanish; Castilian(西班牙语; 卡斯蒂利亚)
spa_old	Spanish; Castilian - Old(西班牙语; 卡斯蒂利亚-老)
sqi	Albanian(阿尔巴尼亚)
srp	Serbian(塞尔维亚)
srp_latn	Serbian - Latin(塞尔维亚语-拉丁语)
swa	Swahili(斯瓦希里语)
swe	Swedish(瑞典)
syr	Syriac(叙利亚)
tam	Tamil(泰米尔)
tel	Telugu(泰卢固语)
tgk	Tajik(塔吉克斯坦)
tgl	Tagalog(菲律宾语)
tha	Thai(泰国)
tir	Tigrinya(提格雷语)
tur	Turkish(土耳其)
uig	Uighur; Uyghur(维吾尔族; 维吾尔)
ukr	Ukrainian(乌克兰)
urd	Urdu(乌尔都语)
uzb	Uzbek(乌兹别克斯坦)
uzb_cyrl	Uzbek - Cyrilic(乌兹别克斯坦- Cyrilic)
vie	Vietnamese(越南语)
yid	Yiddish(意第绪语)

python中ocr软件tesseract使用的更多相关文章

孤荷凌寒自学python第八十三天初次接触ocr配置tesseract环境
孤荷凌寒自学python第八十三天初次接触ocr配置tesseract环境 (完整学习过程屏幕记录视频地址在文末) 学习Python我肯定不会错过图片文字的识别,当然更重要的是简单的验证码识别了,今天 ...
python中软件开发规范,模块,序列化随笔
1.软件开发规范首先: 当代码都存放在一个py文件中时会导致 1.不便于管理,修改,增加 2.可读性差 3.加载速度慢划分文件1.启动文件(启动接口)--starts文件放bin文件里2.公共文件 ...
使用Python进行OCR -- 识别图片中的文字
工具 Tesseract pytesseract tesserocr 朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使 ...
OCR库Tesseract初探
1.Tesseract 安装及使用一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Off ...
浅谈OCR之Tesseract
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印 ...
python中协程
在引出协成概念之前先说说python的进程和线程. 进程: 进程是正在执行程序实例.执行程序的过程中,内核会讲程序代码载入虚拟内存,为程序变量分配空间,建立 bookkeeping 数据结构,来记录与 ...
Python::re 模块 -- 在Python中使用正则表达式
前言这篇文章,并不是对正则表达式的介绍,而是对Python中如何结合re模块使用正则表达式的介绍.文章的侧重点是如何使用re模块在Python语言中使用正则表达式,对于Python表达式的语法和详细 ...
Python中出现的异常
简单的写几种我知道的关于Python中出现的异常含义,希望大神批评指正,我只是学软件开发的菜鸟,前面的路还很长,我会努力学习! 什么是异常? 异常既是一个事件,该事件会在程序执行过程中发生,影响了程序 ...
Python中的字符串与字符编码
本节内容: 前言相关概念 Python中的默认编码 Python2与Python3中对字符串的支持字符编码转换一.前言 Python中的字符编码是个老生常谈的话题,同行们都写过很多这方面的文章. ...

随机推荐

git 执行 git reset HEAD 报 Unstaged changes after reset
Unstaged changes after reset 解决的办法如下2中办法: 1. git add . git reset --hard 2. git stash git stash dro ...
解决git 出现 Your account has been blocked问题
使用git 出现 Your account has been blocked 无法从远程pull代码下来, 解决方案如下: $ git push origin masterGitLab: Your a ...
大数据 Hibernate
大数据 Hibernate - 国内版 Binghttps://cn.bing.com/search?FORM=U227DF&PC=U227&q=%E5%A4%A7%E6%95%B0% ...
mvn命令修改pom打包的版本号
在java项目中打包经常需要修改镜像的版本号.可以使用如下命令 mvn versions: // 如果要打包使用人如下命令,打印详细信息使用 -X mvn clean deploy -e -Dskip ...
spark 监控--WebUi、Metrics System（转载）
转载自:https://www.cnblogs.com/barrenlake/p/4364644.html Spark 监控相关的部分有WebUi 及 Metrics System; WebUi用于展 ...
fiddler抓包详解
image.png 前言 fiddler是一个很好的抓包工具,默认是抓http请求的,对于pc上的https请求,会提示网页不安全,这时候需要在浏览器上安装证书. 一.网页不安全 1.用fiddler ...
PHP MQTT 实践
MQTT介绍:http://mqtt.org 服务器端https://mosquitto.org/download/ PHP客户端https://github.com/bluerhinos/phpMQ ...
SpringBoot入门-Redis（六）
依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spri ...
Ubuntu下配置Window CIFS共享
转自:https://blog.csdn.net/wanfengzhong/article/details/52550074 1. 准备windows共享文件夹 2. 安装 cifs-utilssud ...
Elasticsearch6.2.1安装elasticsearch-sq插件
参考 https://github.com/NLPchina/elasticsearch-sql 1.下载插件 wget https://github.com/NLPchina/elasticsear ...

python中ocr软件tesseract使用

python中ocr软件tesseract使用的更多相关文章

随机推荐

热门专题