Scrapy学习-14-验证码识别

3种实现方案

1. 编码实现 tesseract-ocr

　　谷歌开源的识别工具，自己实现代码编码，投入精力大，回馈低。且平台验证码更换周期短，编好的代码容易失效

2. 在线打码

　　在线平台提供，识别率90%以上

　　http://www.yunzhuan.com/

3. 人工打码

　　效率低，准确率高

这里主要实现第二种，贴上代码

# 在与代码同一个目录下创建一个Images文件夹，放一些测试验证码图片，我们就可以测试了

import json

import requests

class YDMHttp(object):

    apiurl = 'http://api.yundama.com/api.php'

    username = ''

    password = ''

    appid = ''

    appkey = ''

    def __init__(self, username, password, appid, appkey):

        self.username = username

        self.password = password

        self.appid = str(appid)

        self.appkey = appkey

    def balance(self):

        data = {'method': 'balance', 'username': self.username, 'password': self.password, 'appid': self.appid, 'appkey': self.appkey}

        response_data = requests.post(self.apiurl, data=data)

        ret_data = json.loads(response_data.text)

        if ret_data["ret"] == 0:

            print("获取剩余积分", ret_data["balance"])

            return ret_data["balance"]

        else:

            return None

    def login(self):

        data = {'method': 'login', 'username': self.username, 'password': self.password, 'appid': self.appid, 'appkey': self.appkey}

        response_data = requests.post(self.apiurl, data=data)

        ret_data = json.loads(response_data.text)

        if ret_data["ret"] == 0:

            print("登录成功", ret_data["uid"])

            return ret_data["uid"]

        else:

            return None

    def decode(self, filename, codetype, timeout):

        data = {'method': 'upload', 'username': self.username, 'password': self.password, 'appid': self.appid, 'appkey': self.appkey, 'codetype': str(codetype), 'timeout': str(timeout)}

        files = {'file': open(filename, 'rb')}

        response_data = requests.post(self.apiurl, files=files, data=data)

        ret_data = json.loads(response_data.text)

        if ret_data["ret"] == 0:

            print("识别成功", ret_data["text"])

            return ret_data["text"]

        else:

            return None

def ydm(file_path):

    username = 'da_ge_da1'

    # 密码

    password = 'da_ge_da'

    # 软件ＩＤ，开发者分成必要参数。登录开发者后台【我的软件】获得！

    appid = 3129

    # 软件密钥，开发者分成必要参数。登录开发者后台【我的软件】获得！

    appkey = '40d5ad41c047179fc797631e3b9c3025'

    # 图片文件

    filename = 'image/captcha.jpg'

    # 验证码类型，# 例：1004表示4位字母数字，不同类型收费不同。请准确填写，否则影响识别率。在此查询所有类型 http://www.yundama.com/price.html

    codetype = 5000

    # 超时时间，秒

    timeout = 60

    # 检查

    yundama = YDMHttp(username, password, appid, appkey)

    if username == 'username':

        print('请设置好相关参数再测试')

    else:

        # 开始识别，图片路径，验证码类型ID，超时时间（秒），识别结果

        return yundama.decode(file_path, codetype, timeout)

if __name__ == "__main__":

    # 用户名

    username = 'da_ge_da1'

    # 密码

    password = 'da_ge_da'

    # 软件ＩＤ，开发者分成必要参数。登录开发者后台【我的软件】获得！

    appid = 3129

    # 软件密钥，开发者分成必要参数。登录开发者后台【我的软件】获得！

    appkey = '40d5ad41c047179fc797631e3b9c3025'

    # 图片文件

    filename = 'image/captcha.jpg'

    # 验证码类型，# 例：1004表示4位字母数字，不同类型收费不同。请准确填写，否则影响识别率。在此查询所有类型 http://www.yundama.com/price.html

    codetype = 5000

    # 超时时间，秒

    timeout = 60

    # 检查

    if (username == 'username'):

        print ('请设置好相关参数再测试')

    else:

        # 初始化

        yundama = YDMHttp(username, password, appid, appkey)

        # 登陆云打码

        uid = yundama.login();

        print('uid: %s' % uid)

        # 登陆云打码

        uid = yundama.login();

        print ('uid: %s' % uid)

        # 查询余额

        balance = yundama.balance();

        print ('balance: %s' % balance)

        # 开始识别，图片路径，验证码类型ID，超时时间（秒），识别结果

        text = yundama.decode(filename, codetype, timeout);

Scrapy学习-14-验证码识别的更多相关文章

Tensorflow的验证码识别
最近在弄深度学习,从网上找了一些资料.这是基于Tensorflow的深度学习的验证码识别.https://cuijiahua.com/blog/2018/01/dl_5.html http://blo ...
第三百四十三节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别第一步.首先下载,大神者也的倒立文字验证码识别程序下载地址:https://gith ...
Java 验证码识别库 Tess4j 学习
Java 验证码识别库 Tess4j 学习 [在用java的Jsoup做爬虫爬取数据时遇到了验证码识别的问题(基于maven),找了网上挺多的资料,发现Tess4j可以自动识别验证码,在这里简单记录下 ...
二十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第一步.首先下载,大神者也的倒立文字验证码识别程序下载地址:https://github.com/muchrooms/zheye 注意:此程序依赖以下模块包 Keras==2.0.1 Pillow= ...
第二十三节：scrapy爬虫识别验证码（二）图片验证码识别
图片验证码基本上是有数字和字母或者数字或者字母组成的字符串,然后通过一些干扰线的绘制而形成图片验证码. 例如:知网的注册就有图片验证码首先我们需要获取验证码图片,通过开发者工具我们可以得到验证码ur ...
字符型图片验证码识别完整过程及Python实现
字符型图片验证码识别完整过程及Python实现 1 摘要验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的防火墙功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...
验证码识别<1>
1. 引子前两天访问学校自助服务器()缴纳网费,登录时发现这系统的验证码也太过“清晰”了,突然脑袋里就蹦出一个想法:如果能够自动识别验证码,然后采用暴力破解的方式,那么密码不是可以轻易被破解吗? p ...
python验证码识别
关于利用python进行验证码识别的一些想法用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章.我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后 ...
atitit.验证码识别step3----去除边框---- 图像处理类库 attilax总结java版本
atitit.验证码识别step3----去除边框---- 图像处理类库 attilax总结java版本 1. 去除边框思路原理 1 2. Thumbnailator 是一个用来生成图像缩略图.裁切. ...
完整的验证码识别流程基于svm（若是想提升，可优化）
字符型图片验证码识别完整过程及Python实现首先很感觉这篇文章的作者,将这篇文章写的这么好.我呢,也是拿来学习,觉得太好,所以忍不住就进行了转载. 因为我个人现在手上也有个验证码识别的项目,只是难 ...

随机推荐

d3.js--02（data和datum原理）
原文链接: http://d3.decembercafe.org/pages/lessons/3.html 解析一下data和datum原理: datum():绑定一个数据到选择集上 data():绑 ...
经常用到的js函数
//获取样式 function getStyle(obj,attr){ if(obj.currentStyle){ return obj.currentStyle[attr]; }else{ retu ...
使用js将div高度设置为100%
在开发的工程中使用到了一些开源的bootstrap模板进行开发,在遇到一些需要替换的内容部分部分时,经常出现高度设置100%无法生效的问题,这里来用js强行设置一下. 思路:js监听窗口的缩放 ...
Element-ui tree组件自定义节点使用方法
工作上使用到element-ui tree 组件,主要功能是要实现节点拖拽和置顶,通过自定义内容方法(render-content)渲染树代码如下~ <template> <di ...
【贪心哈夫曼树】bzoj2923: [Poi1998]The lightest language
失去了以前用STL乱搞的能力…… 题目描述语言也是数学上经常研究的一种数据. 给出数学上关于语言的如下定义: 字母表:大小为 K 的字母表是一个由 K 不同的字符组成的集合. 单词:长度为 m 的单 ...
不使用脚手架的 vue 应用
工作中的项目不止有页面繁多的模块化项目,还会只有一两个页面的类似于填写信息参与活动的活动页.这个时候,就可以回归以前的三剑客模式,在 index.html 里引用 vue.js 进行开发. 关键点: ...
H5bulider中的微信支付配置注意事项
一.云打包安卓自定义证书的生成: 签名算法名称: SHA1withRSA主体公共密钥算法:1024 位 RSA 密钥密钥库类型:JKS 1.下载JDK1.6安装,切换到bin目录,打开命令行: 2.生 ...
destoon修改笔记
$EXT = cache_read('module-3.php'); $EXT,存放了module3的设置后台模型管理,扩展模型里设置. 1.admin.php 后台管理项目对应文件. ...
MySQL迁移至MariaDB
为什么要用MariaDB来代替MySQL MariaDB是MySQL社区开发的分支,也是一个增强型的替代品.它由MySQL前开发者们带头组织的基金会开发,使用起来和MySQL完全一样.自从Oracle ...
牛客练习赛29 B
炎热的早上,gal男神们被迫再操场上列队,gal男神们本来想排列成x∗x的正方形,可是因为操场太小了(也可能是gal男神太大了),校长安排gal男神们站成多个4∗4的正方形(gal男神们可以正好分成n ...

Scrapy学习-14-验证码识别

Scrapy学习-14-验证码识别的更多相关文章

随机推荐

热门专题