pytesseract 验证码识别

以下代码，如有不懂加群讨论
# *-* coding:utf-8 *-*  #
import json
import requests
import pytesseract
import time
import datetime
from PIL import Image
from bs4 import BeautifulSoup
import urllib3
import random
import os

def binarizing(img, threshold):
    # input: gray image, get black and white images
    pixdata = img.load()
    w, h = img.size
    for y in range(h):
        for x in range(w):
            if pixdata[x, y] < threshold:
                pixdata[x, y] = 0
            else:
                pixdata[x, y] = 255
    return img

def depoint(img):
    # input: gray image, remove the noise
    pixdata = img.load()
    w, h = img.size
    for x in range(1, w - 1):
        if x > 1 and x != w - 2:
            # 获取目标像素点左右位置
            left = x - 1
            right = x + 1

        for y in range(1, h - 1):
            # 获取目标像素点上下位置
            up = y - 1
            down = y + 1

            if x <= 2 or x >= (w - 2):
                img.putpixel((x, y), 255)

            elif y <= 2 or y >= (h - 2):
                img.putpixel((x, y), 255)

            elif img.getpixel((x, y)) == 0:
                if y > 1 and y != h - 1:

                    # 以目标像素点为中心点，获取周围像素点颜色
                    # 0为黑色，255为白色
                    up_color = img.getpixel((x, up))
                    down_color = img.getpixel((x, down))
                    left_color = img.getpixel((left, y))
                    left_down_color = img.getpixel((left, down))
                    right_color = img.getpixel((right, y))
                    right_up_color = img.getpixel((right, up))
                    right_down_color = img.getpixel((right, down))
                    # 去除竖线干扰线
                    if down_color == 0:
                        if left_color == 255 and left_down_color == 255 and \
                                right_color == 255 and right_down_color == 255:
                            img.putpixel((x, y), 255)

                    # 去除横线干扰线

                    elif right_color == 0:
                        if down_color == 255 and right_down_color == 255 and \
                                up_color == 255 and right_up_color == 255:
                            img.putpixel((x, y), 255)

                # 去除斜线干扰线
                if left_color == 255 and right_color == 255 \
                        and up_color == 255 and down_color == 255:
                    img.putpixel((x, y), 255)

    return img

def get_code():
    '''
    下载验证码并pytesseract 识别验证码
    :return:
    '''
    code_file = '1.jpg'
    image = Image.open(code_file)
    image.show()
    #text = input('请输入验证码：')
    image = image.convert("L")
    binarizing(image, 110)
    depoint(image)
    image.show()

    text = pytesseract.image_to_string(image)
    return  text

def get_xsrf():
    code = get_code()
    print (code)

if __name__ == '__main__':
    get_xsrf()

pytesseract 验证码识别的更多相关文章

Python之selenium+pytesseract 实现识别验证码自动化登录脚本
今天写自己的爆破靶场WP时候,遇到有验证码的网站除了使用pkav的工具我们同样可以通过py强大的第三方库来实现识别验证码+后台登录爆破,这里做个笔记~~~ 0x01关于selenium seleniu ...
python3使用pytesseract进行验证码识别
pytesseract介绍 1.Python-tesseract是一个基于google's Tesseract-OCR的独立封装包: 2.Python-tesseract功能是识别图片文件中文字,并作 ...
Selenium&Pytesseract模拟登录+验证码识别
验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的. 验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的. 验证码识别涉及到的知识:人工智能,模式识别 ...
Selenium&Pytesseract模拟登录+验证码识别
验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的. 验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的. 验证码识别涉及到的知识:人工智能,模式识别 ...
Python 3.6 版本-使用Pytesseract 模块进行图像验证码识别
环境: (1) win7 64位 (2) Idea (3) python 3.6 (4) pip install pillow <&nbsp>pip install pytesse ...
python验证码识别
关于利用python进行验证码识别的一些想法用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章.我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后 ...
python识别验证码——一般的数字加字母验证码识别
1.验证码的识别是有针对性的,不同的系统.应用的验证码区别有大有小,只要处理好图片,利用好pytesseract,一般的验证码都可以识别 2.我在识别验证码的路上走了很多弯路,重点应该放在怎么把图片处 ...
python验证码识别接口及识别思路代码
1,验证码识别接口代码 import json import base64 import requests def shibie(): data = {} path = "./img/&qu ...
Python图像处理之验证码识别
在上一篇博客Python图像处理之图片文字识别(OCR)中我们介绍了在Python中如何利用Tesseract软件来识别图片中的英文与中文,本文将具体介绍如何在Python中利用Tesseract ...

随机推荐

gzip: stdin: not in gzip format tar: Child returned status 1 tar: Error is not recoverable: exiting now
[root@Gris- FMIS2600bak]# tar -zxvf /home/oradata/FMIS2600DMP.tar.gz gzip: stdin: not in gzip format ...
[原][osg]osg文件与osgb文件的区别
osgb是二进制文件 osg是文本文件 osgb可以通过osgconv.exe转换成osg文件 osgb可以包含纹理文件(就是贴图) osg只能连接外部纹理文件(是的,你看到的cow.osg都是用的外 ...
力扣（LeetCode）389. 找不同
给定两个字符串 s 和 t,它们只包含小写字母. 字符串 t 由字符串 s 随机重排,然后在随机位置添加一个字母. 请找出在 t 中被添加的字母. 示例: 输入: s = "abcd&quo ...
基于python Arcface 实现人脸检测和识别
虹软的人脸识别技术也是很强的,重要的是他免费提供了离线的sdk,还提供了实例,这个是目前几家研究人脸识别的大公司里面少有的.识别能力正常用还是可以的.我这个代码是调用的离线sdk实现的 ``` fro ...
学习笔记20—MATLAB特殊函数
1.qfunc就是Q函数 2.mae(平均绝对误差)函数,mae(abs(A-B)) 3.Z = zscore(x) 等价于 Z=(X-repmat(mean(X),57,1))./repmat(st ...
springBoot集成Redis遇到的坑(择库)源码分析为什么择库失败
提示: springboot提供了一套链接redis的api,也就是个jar包,用到的连接类叫做LettuceConnectionConfiguration,所以我们引入pom时是这样的 <de ...
雇佣K个工人的最小费用 Minimum Cost to Hire K Workers
2018-10-06 20:17:30 问题描述: 问题求解: 问题规模是10000,已经基本说明是O(nlogn)复杂度的算法,这个复杂度最常见的就是排序算法了,本题确实是使用排序算法来进行进行求解 ...
Axure 第一次交互实现跳转页面
Feign
Feign简介 Feign是一个声明式的Web服务客户端,使用Feign可使得Web服务客户端的写入更加方便. 它具有可插拔注释支持,包括Feign注解和JAX-RS注解.Feign还支持可插拔编码器 ...
java控制流
目录 1.引用数据类型 2.流程控制语句 2.1 条件控制语句if 2.2 if语句与三元运算符的互换 2.3 循环语句 2.4 循环嵌套 2.5 跳转语句 2.6 选择结构switch 3.猜数字案 ...

pytesseract 验证码识别

pytesseract 验证码识别的更多相关文章

随机推荐

热门专题