谷歌开源OCR,tesseract-ocr使用笔记
官方教程地址:https://github.com/tesseract-ocr/tesseract/wiki/Compiling
测试版本为
root@9a2a063f9534:/tesseract/testing# tesseract -v
tesseract 4.00.00dev--gcdc3533
leptonica-1.74.
libjpeg 8d (libjpeg-turbo 1.4.) : libpng 1.2. : libtiff 4.0. : zlib 1.2. Found AVX2
Found AVX
Found SSE
一、Docker + Ubuntu
git clone git@github.com:tesseract-ocr/tesseract.git
cd tesseract
docker pull ubuntu:latest
docker build -t google-ocr:latest .
docker run -itd --name ocr google-ocr:latest /bin/bash
docker exec -it ocr /bin/bash
进入环境后,需要训练功能要执行下面第二条
apt-get install -y g++ autoconf automake libtool autoconf-archive pkg-config libpng-dev libjpeg8-dev libtiff5-dev zlib1g-dev git
#training
apt-get install -y libicu-dev libpango1.-dev libcairo2-dev
Leptonica
Tesseract Leptonica Ubuntu
4.00 1.74. Must build from source
官网给出必须源码安装,所以去找源码安
cd /tmp
git clone https://github.com/DanBloomberg/leptonica.git
cd leptonica
autoreconf -vi
./autobuild
./configure
make
make install
安装主体ocr
cd /tesseract
./autogen.sh
LIBLEPT_HEADERSDIR=/usr/include
./configure --with-extra-libraries=/usr/local/lib
make install
测试安装是否成功
tesseract
tesseract -v
下载字库模型,选自己需要的就行了
字库地址:https://github.com/tesseract-ocr/tessdata
手册地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
将字库放入指定路径
export TESSDATA_PREFIX=/tesseract/tessdata
cp xxx.traindata /tesseract/
执行测试
cd /tesseract/testing
#english
tesseract phototest.tif result -l eng
#chinese
tesseract chi.jpg result1 -l chi_sim
检查输出
cat result.txt
cat result1.txt
可通过训练提高精度,训练方法见官方文档,这个我没试过。
附录:
python 调用接口:https://www.pyimagesearch.com/2017/07/10/using-tesseract-ocr-python/
python 官方调用依赖:https://github.com/madmaze/pytesseract
谷歌开源OCR,tesseract-ocr使用笔记的更多相关文章
- 开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
- tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
- Tesseract Ocr引擎
Tesseract Ocr引擎 1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/t ...
- Python下Tesseract Ocr引擎及安装介绍
1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...
- Tesseract–OCR 库原理探索
一,简介: Tesseract is probably the most accurate open source OCR engine available. Combined with the Le ...
- Tesseract OCR使用介绍
#Tesseract OCR使用介绍 ##目录[TOC] ##下载地址及介绍 官网介绍:http://code.google.com/p/tesseract-ocr/wiki/TrainingTess ...
- Java OCR tesseract 图像智能字符识别技术 Java实现
Java OCR tesseract 图像智能字符识别技术 Java代码实现 接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码 ...
- Tesseract——OCR图像识别 入门篇
Tesseract——OCR图像识别 入门篇 最近给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下. 我看到目前OCR技术有很多,最主要 ...
- 谷歌开源项目Google Preview Image Extractor(PIEX) (附上完整demo代码)
前天偶然看到谷歌开源项目中有一个近乎无人问津的项目Google Preview Image Extractor(PIEX) . 项目地址: https://github.com/google/piex ...
- 利用谷歌开源工具cAdvisor 结合influxdb存储+Grafana前端展示进行Docker容器的监控
一.Docker 监控方式 1.利用docker 的 docker stats API 命令: docker stats [容器ID/容器名称] [root@docker ~]# docker sta ...
随机推荐
- 第三章 列表(e)插入排序
- 文本工具 TextUtils 字符串
常用方法: isEmpty:判断字符串是否为空值 getTrimmedLength:获取字符串去除头尾空格之后的长度 isDigitsOnly:判断字符串是否全部由数字组成 ellipsize:如果字 ...
- python + selenium 学习笔记 -摘要
一.浏览器操作相关 from selenium import webdriver driver = webdriver.Chrome() driver.maximize_window() # 窗口最大 ...
- RecyclerView的点击事件添加-------接口回调的形式添加
package com.example.recyclerviewdemo; import android.support.v7.widget.RecyclerView; import android. ...
- linq to sql语句中转换数据类型和日期操作
System.Data.Entity.SqlServer.SqlFunctions.StringConvert System.Data.Entity.DbFunctions
- 一位大牛整理的Python资源
Python基本安装: * http://www.python.org/ 官方标准Python开发包和支持环境,同时也是Python的官方网站: * http://www.activestate ...
- js阻止a标签默认事件的几种方法
方法/步骤 疑问 打开编辑器,新建html并加入a标签,如图所示,小编想点击a标签时执行pop函数同时禁止a标签的默认的href跳转,该如何阻止呢? 方法一 要阻止a标签跳转,可以改变href ...
- 24.Mysql高级安装和升级
24.Mysql高级安装和升级24.1 Linux/Unix平台下的安装 24.1.1 安装包比较Linux下的Mysql安装包分为RPM包.二进制包.源码包3种.RPM包优点是安装简单,适合初学者: ...
- 用上了Godaddy的美国主机
最近把两个域名转移到Godaddy上面后,就不停地收到它的促销邮件,送一些优惠码打折. 昨天通过它的优惠链接买了一个豪华型空间,支持无限空间,无限域名绑定. 看着邮件上写的是打半折,同时还免费送一个域 ...
- grep如何进行正则表达式查找
字符类 字符类的搜索:如果我想要搜寻 test 或 taste 这两个单字时,可以发现到,其实她们有共通的 't?st' 存在-这个时候,我可以这样来搜寻: [root@www ~]# grep -n ...