tesseract-ocr和tesseract.exe is not installed or it's not in your path问题解决

一、解决方案：

1、http://www.ddooo.com/softdown/94968.htm 打开下载的压缩包，找到“tesseract-ocr-setup-3.02.02.exe”，双击运行；

2、python报错的地方，有pytesseract.py的连接，点开，修改pytesseract.py。如图：

注意：要在路径前加一个r。

二、此文字识别引擎，里面有一些训练好的数据库，也可自己fit-tunning。

使用和训练：

https://www.cnblogs.com/Leo_wl/p/5556620.html

http://www.cnblogs.com/cnlian/p/5765871.html

三、准确率一直提不上去，自己训练标注不现实，时间不允许。使用腾讯云

腾讯ocr免费1000次每天，可以使用，准确率自然高！

密钥地址：https://console.cloud.tencent.com/cam/overview

# coding=UTF-8

# !/usr/bin/env python

# -*- coding: utf-8 -*-

# import docx

import requests

import hmac

import hashlib

import base64

import time

import random

import re

appid = "1257122374"#写入自己的腾讯云号码

bucket = "你的bucket"  #不要也可以

secret_id = "XXXXXXXXXXXXXXXXXX"  # 写入自己的账号里面的地址

secret_key = "EXXXXXXXXXXXXXXX"  # 同上

expired = time.time() + 2592000

onceExpired = 0

current = time.time()

rdm = ''.join(random.choice("0123456789") for i in range(10))

userid = "0"

fileid = "tencentyunSignTest"

info = "a=" + appid + "&b=" + bucket + "&k=" + secret_id + "&e=" + str(expired) + "&t=" + str(current) + "&r=" + str(

    rdm) + "&u=0&f="#去掉bucket

signindex = hmac.new(secret_key, info, hashlib.sha1).digest()  # HMAC-SHA1加密

sign = base64.b64encode(signindex + info)  # base64转码

url = "http://recognition.image.myqcloud.com/ocr/general"

headers = {'Host': 'recognition.image.myqcloud.com',

           "Authorization": sign,

           }

files = {'appid': (None, appid),

         'bucket': (None, bucket),

         'image': ('15.jpg', open('G:\\360Downloads\\15.jpg', 'rb'), 'image/jpeg')

         }

r = requests.post(url, files=files, headers=headers)

responseinfo = r.content

# 创建内存中的word文档对象

# file=docx.Document()

#r_index = r'itemstring":"(.*?)"'  # 做一个正则匹配
 r_index = r'itemstring":"(\w+)"'  #我的只匹配数字和字母

result = re.findall(r_index, responseinfo)

for i in result:

    # file.add_paragraph(i)

    print i

# file.save("D:\\writeResult.docx")

tesseract-ocr和tesseract.exe is not installed or it's not in your path问题解决的更多相关文章

孤荷凌寒自学python第八十三天初次接触ocr配置tesseract环境
孤荷凌寒自学python第八十三天初次接触ocr配置tesseract环境 (完整学习过程屏幕记录视频地址在文末) 学习Python我肯定不会错过图片文字的识别,当然更重要的是简单的验证码识别了,今天 ...
Tesseract Ocr引擎
Tesseract Ocr引擎 1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/t ...
开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
Python下Tesseract Ocr引擎及安装介绍
1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...
OCR库Tesseract初探
1.Tesseract 安装及使用一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Off ...
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
使用pytesseract识别验证码中遇到异常如下: pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installe ...
tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
Tesseract——OCR图像识别入门篇
Tesseract——OCR图像识别入门篇最近给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下. 我看到目前OCR技术有很多,最主要 ...
[PyImageSearch] Ubuntu16.04下针对OCR安装Tesseract
今天的博文是安装和使用光学字符识别(OCR)的Tesseract库的两部分系列的第一部分. 本系列的第一部分将着重于在您的机器上安装和配置Tesseract,然后使用tesseract命令将OCR应用 ...

随机推荐

【poj 2976】Dropping tests（算法效率--01分数规划模版题+二分）｛附【转】01分数规划问题｝
P.S.又是一个抽时间学了2个小时的新东西......讲解在上半部分,题解在下半部分. 先说一下转的原文:http://www.cnblogs.com/perseawe/archive/2012/05 ...
codeforces622E Ants in Leaves (dfs)
Description Tree is a connected graph without cycles. A leaf of a tree is any vertex connected with ...
Relatives POJ - 2407 欧拉函数
题意: 给你一个正整数n,问你在区间[1,n)中有多少数与n互质题解: 1既不是合数也不是质数(1不是素数) 互质是公约数只有1的两个整数,叫做互质整数.公约数只有1的两个自然数,叫做互质自然数所 ...
自动化将 word 转为 pdf，再将pdf转为图片！
参考: https://blog.csdn.net/ynyn2013/article/details/49120731 https://www.jianshu.com/p/f57cc64b9f5e 一 ...
Hexo-使用阿里iconfont图标
Hexo-使用阿里iconfont图标因为使用hexo搭建的博客中,大家并不懂都有什么图标,fa fa-xx就懵了,不知道都有什么. 首先,fa fa-xxx中的图标可以在图标库中寻找. (上面 ...
注意力(Attention)与Seq2Seq的区别
什么是注意力(Attention)? 注意力机制可看作模糊记忆的一种形式.记忆由模型的隐藏状态组成,模型选择从记忆中检索内容.深入了解注意力之前,先简要回顾Seq2Seq模型.传统的机器翻译主要基于S ...
C++11特性-右值引用
什么是左值,什么是右值常见的误区有 = 左边的是左值,右边的是右值. 左值:具有存储性质的对象,即lvalue对象,是指要实际占用内存空间.有内存地址的那些实体对象,例如:变量(variables) ...
查找命令中grep，find，which和whereis的使用及区别
在linux系统中,许多时候需要查找某些文件或者字符,如果用ls, cd 等基础命令就显得很无力了,那么Linux提供了grep,find,which 三种查找命令,在这里我记录一下: 一.grep命 ...
HDU 4746 Mophues（莫比乌斯反演）题解
题意: \(Q\leq5000\)次询问,每次问你有多少对\((x,y)\)满足\(x\in[1,n],y\in[1,m]\)且\(gcd(x,y)\)的质因数分解个数小于等于\(p\).\(n,m, ...
go modules——HelloWorld示例
go modules--HelloWorld示例 go modules 存在的意义是方便代码的共享(虽然这会使自己开发过程中有一些小小的麻烦) 开发第一步,创建一个github仓库,然后克隆到本地首 ...

tesseract-ocr和tesseract.exe is not installed or it's not in your path问题解决

tesseract-ocr和tesseract.exe is not installed or it's not in your path问题解决的更多相关文章

随机推荐

热门专题