官方教程地址:https://github.com/tesseract-ocr/tesseract/wiki/Compiling

测试版本为

root@9a2a063f9534:/tesseract/testing# tesseract -v
tesseract 4.00.00dev--gcdc3533
leptonica-1.74.
libjpeg 8d (libjpeg-turbo 1.4.) : libpng 1.2. : libtiff 4.0. : zlib 1.2. Found AVX2
Found AVX
Found SSE

一、Docker + Ubuntu

git clone git@github.com:tesseract-ocr/tesseract.git
cd tesseract
docker pull ubuntu:latest
docker build -t google-ocr:latest .
docker run -itd --name ocr google-ocr:latest /bin/bash
docker exec -it ocr /bin/bash

进入环境后,需要训练功能要执行下面第二条

apt-get install -y  g++ autoconf automake libtool autoconf-archive pkg-config libpng-dev libjpeg8-dev libtiff5-dev zlib1g-dev git
#training
apt-get install -y libicu-dev libpango1.-dev libcairo2-dev

Leptonica

Tesseract    Leptonica    Ubuntu
4.00    1.74.   Must build from source

官网给出必须源码安装,所以去找源码安

cd /tmp
git clone https://github.com/DanBloomberg/leptonica.git
cd leptonica
autoreconf -vi
./autobuild
./configure
make
make install

安装主体ocr

cd /tesseract
./autogen.sh
LIBLEPT_HEADERSDIR=/usr/include
./configure --with-extra-libraries=/usr/local/lib
make install

测试安装是否成功

tesseract
tesseract -v

下载字库模型,选自己需要的就行了

字库地址:https://github.com/tesseract-ocr/tessdata
手册地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

将字库放入指定路径

export TESSDATA_PREFIX=/tesseract/tessdata
cp xxx.traindata /tesseract/

执行测试

cd /tesseract/testing
#english
tesseract phototest.tif result -l eng
#chinese
tesseract chi.jpg result1 -l chi_sim

检查输出

cat result.txt
cat result1.txt

可通过训练提高精度,训练方法见官方文档,这个我没试过。

附录:

python 调用接口:https://www.pyimagesearch.com/2017/07/10/using-tesseract-ocr-python/

python 官方调用依赖:https://github.com/madmaze/pytesseract

谷歌开源OCR,tesseract-ocr使用笔记的更多相关文章

  1. 开源图片文字识别引擎——Tesseract OCR

    Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...

  2. tesseract ocr文字识别Android实例程序和训练工具全部源代码

    tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...

  3. Tesseract Ocr引擎

    Tesseract Ocr引擎 1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/t ...

  4. Python下Tesseract Ocr引擎及安装介绍

    1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...

  5. Tesseract–OCR 库原理探索

    一,简介: Tesseract is probably the most accurate open source OCR engine available. Combined with the Le ...

  6. Tesseract OCR使用介绍

    #Tesseract OCR使用介绍 ##目录[TOC] ##下载地址及介绍 官网介绍:http://code.google.com/p/tesseract-ocr/wiki/TrainingTess ...

  7. Java OCR tesseract 图像智能字符识别技术 Java实现

    Java OCR tesseract 图像智能字符识别技术 Java代码实现 接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码 ...

  8. Tesseract——OCR图像识别 入门篇

    Tesseract——OCR图像识别 入门篇 最近给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下. 我看到目前OCR技术有很多,最主要 ...

  9. 谷歌开源项目Google Preview Image Extractor(PIEX) (附上完整demo代码)

    前天偶然看到谷歌开源项目中有一个近乎无人问津的项目Google Preview Image Extractor(PIEX) . 项目地址: https://github.com/google/piex ...

  10. 利用谷歌开源工具cAdvisor 结合influxdb存储+Grafana前端展示进行Docker容器的监控

    一.Docker 监控方式 1.利用docker 的 docker stats API 命令: docker stats [容器ID/容器名称] [root@docker ~]# docker sta ...

随机推荐

  1. 189. Rotate Array(Array)

    Rotate an array of n elements to the right by k steps. For example, with n = 7 and k = 3, the array ...

  2. SpringCloud 启动时报No active profile set, falling back to default profiles default

    这在Spring程序启动时没有找到默认的配置文件所引发的错误,默认文件application.yml如下图:  一般在项目中都会有多个,如有正式环境.测试环境等.如下图: 根据上面这种多个配置的只需要 ...

  3. supervisor安装、使用详解

    supervisor是用python写的一个进程管理工具,用来启动,重启,关闭进程. 1 supervisor的安装 pip install supervisor 2 supervisor的配置文件( ...

  4. 安装doxygen(一个自动文档生成工具)+Graphviz图形可视化软件

    参考文章: http://www.fmddlmyy.cn/text21.html http://www.cnblogs.com/duguguiyu/archive/2008/06/29/1231852 ...

  5. [z]Linux下压缩与解压

    1.压缩命令: 命令格式:tar  -zcvf   压缩文件名.tar.gz   被压缩文件名 可先切换到当前目录下.压缩文件名和被压缩文件名都可加入路径. 2.解压缩命令: 命令格式:tar  -z ...

  6. Excel上传找到错误数据类型

    一:查询数据库表中字段的类型语句 SELECT CASE WHEN col.colorder = 1 THEN obj.name ELSE '' END AS 表名, col.colorder AS ...

  7. Vue Create 创建一个新项目 命令行创建和视图创建

    Vue Create 创建一个新项目 命令行创建和视图创建 开始之前 你可以先 >>:cd desktop[将安装目录切换到桌面] >>:vue -V :Vue CLI 3.0 ...

  8. devexpress WinForms MVVM

    WinForms MVVM This section is dedicated to the Model-View-ViewModel (MVVM) architectural pattern. Yo ...

  9. java异常与spring事务关系的知识点查漏补缺

    一.基础概念 java的异常结构图 从图中可知 Throwable是所有异常的根,java.lang.Throwable Error是错误,java.lang.Error Exception是异常,j ...

  10. yum 安装 php7 ,lamp ,以及安装swoole

    1 更新yum yum update 2 安装依赖 yum -y install pcre* openssl* yum -y install gcc make gd-devel libjpeg-dev ...