tesseract-ocr 图片文字识别

本篇记录下python识别图片中的文字所需的安装配置；

安装库：

pip install pytesseract

pip install PILLOW

安装 Tesseract-OCR软件：

Tesseract-OCR这个软件是由Google维护的开源的OCR软件。

下载地址：https://github.com/tesseract-ocr/tesseract/wiki/Downloads

下载后安装后，将Tesseract-OCR路径加入系统path；

安装时注意勾选简体中文，默认安装，安装完毕后，敲命令（看看装的怎么样了，支持什么语言）：

tesseract

tesseract -v

tesseract --list-langs　　#查看Tesseract-OCR支持语言

中文字库chi_sim.traineddata

下载地址：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

将中文字库放在\Tesseract-OCR\tessdata文件夹里面；

改文件：

C:\Python3\Lib\site-packages\pytesseract\pytesseract.py（根据实际路径修改），找到这两行：

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY

tesseract_cmd = 'tesseract'

改为这样：

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY

#tesseract_cmd = 'tesseract'

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

代码：

（写几个字，截图保存成：1.png）

import pytesseract

from PIL import Image

text = pytesseract.image_to_string(Image.open('1.png'), lang='chi_sim')

print(text)

tesseract-ocr 图片文字识别的更多相关文章

一篇文章搞定百度OCR图片文字识别API
一篇文章搞定百度OCR图片文字识别API https://www.jianshu.com/p/7905d3b12104
基于Tesseract实现图片文字识别
一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[l ...
Python识别验证码，基于Tesseract实现图片文字识别
一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[li ...
腾讯云OCR图片文字识别
一. OCR OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别 ...
PHP百度AI的OCR图片文字识别
第一步可定要获取百度的三个东西要到百度AI网站(http://ai.baidu.com/)去注册然后获得 -const APP_ID = '请填写你的appid'; -const API_KEY ...
有道自然语言翻译和文字识别OCR(图片文字识别)接口调用
官网 http://ai.youdao.com 文档地址 http://ai.youdao.com/docs/doc-ocr-api.s#p01 在Python中调用api. #/usr/bin/en ...
【图片识别】java 图片文字识别 ocr （转）
http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...
java 图片文字识别 ocr
最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为java使用的demo 在此之前,使用这个工具需要在本地安装OCR工具: 下面一个是一定要安装的 ...
小试Office OneNote 2010的图片文字识别功能（OCR）
原文:小试Office OneNote 2010的图片文字识别功能(OCR) 自Office 2003以来,OneNote就成为了我电脑中必不可少的软件,它集各种创新功能于一身,可方便的记录下各种类型 ...
【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 18—Photo OCR 应用实例:图片文字识别
Lecture 18—Photo OCR 应用实例:图片文字识别 18.1 问题描述和流程图 Problem Description and Pipeline 图像文字识别需要如下步骤: 1.文字侦测 ...

随机推荐

ubuntu12.04管理文件系统工具
ubuntu12.04管理文件系统工具以前可以自动管理系统盘和移动硬盘,刚重新安装了UBUNTU12.04LTS之后不行了,原来是这个工具: "PCMANFM" 群星_-_偏偏喜 ...
XCTF-crypto---转轮机加密
转轮密码机是由一个输入键盘和一组转轮组成的,每个转轮上标有26个字母,字母的顺序随意,转轮之间由齿轮进行连接,当一个转轮转动时,可以讲一个字母转化为另一个字母. 工作原理: 转轮机由多个转轮构成,每个 ...
PyQt5信号与槽关联的两种方式
目录通过QtDesigner 手动关联的方式通过QtDesigner 单击菜单栏切换到信号槽编辑模式单击控件并拖动鼠标到信号的接收对象上,一般为对话框自己,松开鼠标弹出信号和槽选择框选中cli ...
UNP——第五章，TCP客户/服务程序
tcpser void str_echo(int sockfd) { long arg1, arg2; ssize_t n; char line[MAXLINE]; for ( ; ; ) { if ...
ceph的pg平衡插件balancer
前言 ceph比较老的版本使用的reweight或者osd weight来调整平衡的,本篇介绍的是ceph新的自带的插件balancer的使用,官网有比较详细的操作手册可以查询使用方法查询插件的开 ...
go get以后下载的包不在src下而在pkg的问题
我的GOPATH是这样的但是当我go get下载包之后下载的却不在src,而是在 $GOPATH$/pkg 下原因可能是之前第一次go get下载, GitHub的速度太慢了,我更改了代理,使用 ...
精尽 MyBatis 源码分析 - 基础支持层
该系列文档是本人在学习 Mybatis 的源码过程中总结下来的,可能对读者不太友好,请结合我的源码注释(Mybatis源码分析 GitHub 地址.Mybatis-Spring 源码分析 GitHub ...
tp5获取当前域名
//头部引入 use think\Request; //获取当前域名 $request = Request::instance(); $domain = $request->domain();
图像分割必备知识点 | Dice损失理论+代码
本文包含代码案例和讲解,建议收藏,也顺便点个赞吧.欢迎各路朋友爱好者加我的微信讨论问题:cyx645016617. 在很多关于医学图像分割的竞赛.论文和项目中,发现 Dice 系数(Dice coef ...
Guitar Pro 7教程之打开播放文件的操作技巧
前面的章节我们讲过了很多关于Guitar Pro的相关教程,由于最近{cms_selflink page='index' text='Guitar Pro'} 7中文版刚上新没多久,很多玩吉他的小伙伴 ...

tesseract-ocr 图片文字识别

tesseract-ocr 图片文字识别的更多相关文章

随机推荐

热门专题