tesseract_ocr+pytesseract图像识别

一、windows安装配置

其他系统安装配置参考github：https://github.com/tesseract-ocr/tesseract/wiki
下载tesseract-ocr参考：https://github.com/tesseract-ocr/tesseract/wiki/Downloads
下载chi_sim.traineddata参考：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

1、pip install pytesseract
2、pip install pillow
3、安装tesseract-ocr
4、找到pytesseract模块中pytesseract.py 更改 tesseract_cmd = r'F:\tesseract_ocr\tesseract-Win64\tesseract.exe'
5、添加环境变量（变量名：TESSDATA_PREFIX，变量值：F:\tesseract_ocr\tesseract-Win64,即安装目录）
6、如果识别中文，下载训练数据chi_sim.traineddata，并拷贝到 F:\tesseract_ocr\tesseract-Win64\tessdata目录下

ps:
临时在 cmd 中设置环境变量，测试：set TESSDATA_PREFIX=F:\tesseract_ocr\tesseract-Win64
命令行运行(以.txt文件格式保存)：tesseract.exe E:\python\project\mysite\media\tesseract.png C:\Users\konglingxi\Desktop\test -l chi_sim+equ+eng

二、例子

.py文件

#!/usr/bin/python
# coding:utf-8
from __future__ import unicode_literals
from django.conf import settings
import pytesseract
from PIL import Image as pillow_image
from django.shortcuts import render_to_response
from django.template import RequestContext

__author__ = "klx"

# Create your views here.

def binaryzation(threshold, image_address):
    """
    # 二值化,输入阈值和文件地址
    :param threshold:
    :param image_address:
    :return:
    """
    image = pillow_image.open(image_address)  # 打开图片
    image = image.convert('L')  # 灰度化
    table = []
    for x in range(256):  # 二值化
        if x < threshold:
            table.append(0)
        else:
            table.append(1)
    image = image.point(table, '1')
    return image

def main():
    """
    测试
    :return:
    """
    # 指定配置目录
    tessdata_dir_config = '--tessdata-dir "F:\\tesseract_ocr\\tesseract-Win64"'
    image_url = settings.MEDIA_ROOT + r"\tesseract.png"
    # image_url = settings.MEDIA_ROOT + r"\tesseract.jpg"
    image = binaryzation(200, image_url)
    image.show()  # 展示二值化后的效果,防止图片二值化效果不佳变成一片白无法识别
    result = pytesseract.image_to_string(image, config=tessdata_dir_config, lang="chi_sim+eng")  # 变图片为字符串
    return result

def test(request):
    res = main()
    return render_to_response("ocr_app/test.html", {"data": res}, context_instance=RequestContext(request))

.html模板

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>tesseract_ocr</title>
</head>
<body>
{{ data }}
</body>
</html>

tesseract_ocr+pytesseract图像识别的更多相关文章

基于Eclipse下的python图像识别菜鸟版（利用pytesseract以及tesseract）
这是我注册博客后写的第一篇博客,希望对有相关问题的朋友有帮助. 在图像识别前,首先我们要做好准备工作. 运行环境:windows7及以上版本运行所需软件:(有基础的可以跳过这一段)eclipse,p ...
使用pytesseract进行图像识别
引言对于简单验证码及一些图像的识别,我们需要使用pytesseract及相应的Tesseract引擎,它是开源的OCR引擎.帮助我们做一些简单的图像识别当然为了更好将图片识别,对一些像素比较低的图 ...
利用Python进行简单的图像识别（验证码）
这是一个最简单的图像识别,将图片加载后直接利用Python的一个识别引擎进行识别将图片中的数字通过 pytesseract.image_to_string(image)识别后将结果存入到本地的txt ...
python 简单图像识别--验证码
python 简单图像识别--验证码记录下,准备工作安装过程很是麻烦. 首先库:pytesseract,image,tesseract,PIL windows安装PIL,直接exe进行安装更方便( ...
python3光学字符识别模块tesserocr与pytesseract
OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由 ...
python 图像识别
这是一个最简单的图像识别,将图片加载后直接利用Python的一个识别引擎进行识别将图片中的数字通过 pytesseract.image_to_string(image)识别后将结果存入到本地的txt ...
Python之selenium+pytesseract 实现识别验证码自动化登录脚本
今天写自己的爆破靶场WP时候,遇到有验证码的网站除了使用pkav的工具我们同样可以通过py强大的第三方库来实现识别验证码+后台登录爆破,这里做个笔记~~~ 0x01关于selenium seleniu ...
tesserocr与pytesseract模块的使用
1.tesserocr的使用 #从文件识别图像字符 In [7]: tesserocr.file_to_text('image.png') Out[7]: 'Python3WebSpider\n\n' ...
自动化测试面试官:登录或注册时有验证码怎么处理?OCR图像识别技术大揭秘！
本节大纲读取cookie实现免登陆 pytesseract+tesseract-ocr实现图像识别 Pillow库对验证码截图 API接口实现图像识别今天的这个技术点,为什么要给大家分享一下呢? ...

随机推荐

python BitTornado P2P分发大文件
P2P分发大文件思路 1.将软件包生成种子文件 2.通过saltstack将种子文件分发至每台服务器 3.每台服务器进行种子下载推荐使用Twitter开源的murder.Twitter用它来分发大文 ...
POJ - 2299 Ultra-QuickSort（归并排序）
https://vjudge.net/problem/POJ-2299 题意求对于给定的无序数组,求出经过最少多少次相邻元素的交换之后,可以使数组从小到大有序. 分析很明显是求逆序对的数目,那就要 ...
Dubbo学习笔记4：服务消费端泛化调用与异步调用
本文借用dubbo.learn的Dubbo API方式来解释原理. 服务消费端泛化调用前面我们讲解到,基于Spring和基于Dubbo API方式搭建简单的分布式系统时,服务消费端引入了一个SDK二 ...
dedecms织梦自增索引标签
在列表中我们经常会需要动态的索引值,那么就可以用到如下标签 [field:global.autoindex/] 默认是从1开始,如果我们想从0或者从其他数开始如下: [field:autoindex ...
作业：JavaScript（数组篇-poker）给我的徒弟出个题。。。记得早点写完，然后大家3人可以早点打牌了
吐槽一下:“今天实际上我左思右想,写个什么东西好呢!手上的笔转了半天....最后还是给自己留点余地!看着他们什么酒店管理系统,呼叫中心系统之类的....简直是把自己固定死了!感觉一撸到底的感觉!!!我 ...
程序员与HR博弈之：有城府的表达你的兴趣爱好
“面试”这个过程说简单其实也能很简单.譬如急需招某种技能的单位会因为你拥有某方面的经验或特长立马录取你,哪怕你其他方面表现的很“烂”. 从广义上来讲,很多公司尤其是大中型公司的招聘,并不是因为急缺某岗 ...
乘法逆元（P3811）(四种方法)
适合单个的,费马小定理,exgcd,都是不错的选择,利用积性函数的方法和欧拉筛的方法适合批量求,但是论时间和空间的话,还是积性函数的方法比较好用,线性的. 题目链接:https://www.luogu ...
ipython的%matplotlib inline如何改写在Python
ipython notebook中有一个相当方便的语句: %matplotlib inline,可以实现运行cell即出现结果图像.但是如果想写在Python程序内,貌似直接%matplotlib i ...
Web安全测试-WebScarab
[功能] WebScarab是一个用来分析使用HTTP和HTTPS协议的应用程序框架.其原理很简单,WebScarab可以记录它检测到的会话内容(请求和应答),并允许使用者可以通过多种形式来查看记录. ...
keepalived启动不成功,状态一直是inactive(dead) 的解决办法以及keepalived高版本没有rc.d目录,虚拟VIP无法访问问题
安装配置教程我就不说了,网上很多,这里只给出我遇到的两个坑: 1 rc.d目录 ,kp在1.4版本之后rc.d要去解压之后的源码包里去找,make之后的目录里面没有了,我使用的是2.0.13最新版本, ...

tesseract_ocr+pytesseract图像识别

tesseract_ocr+pytesseract图像识别的更多相关文章

随机推荐

热门专题