基于python语言的tensorflow的‘端到端’的字符型验证码识别

1 Abstract

验证码（CAPTCHA）的诞生本身是为了自动区分 自然人 和 机器人 的一套公开方法，但是近几年的人工智能技术的发展，传统的字符验证已经形同虚设。所以，大家一方面研究和学习此代码时，另外一方面也要警惕自己的互联网系统的web安全问题。

Keywords: 人工智能,Python,字符验证码,CAPTCHA,识别,tensorflow,CNN,深度学习

2 Introduction

全自动区分计算机和人类的公开图灵测试（英语：Completely Automated Public Turing test to tell Computers and Humans Apart，簡稱CAPTCHA），俗称验证码，是一种区分用户是计算机或人的公共全自动程序 [1]。

得益于基于卷积神经网络CNN的人工智能技术的发展，目前基于主流的深度学习框架的直接开发出 端到端不分割 的识别方式，而且在没有经过太多trick的情况下，已经可以达到95%以上的识别率。

传统的机器学习方法，对于多位字符验证码都是采用的 化整为零 的方法：先分割成最小单位，再分别识别，然后再统一。卷积神经网络方法，直接采用 端到端不分割 的方法：输入整张图片，输出整个图片的标记结果，具有更强的通用性。

具体的区别如下图：

端到端 的识别方法显然更具备优势，因为目前的字符型验证码为了防止被识别，多位字符已经完全融合粘贴在一起了，利用传统的技术基本很难实现分割了。本文重点推荐的就是 端到端 的方法。

3 引用声明

本文代码都参考自此文：

http://blog.topspeedsnail.com/archives/10858

斗大的熊猫--《WTF Daily Blog》

本项目主要解决的问题是对某一模式的字符型验证进行端到端的识别。

输入内容：

模型预测结果：

4 本文工作

解释了原作者代码注释中提到的关于sigmoid选型的困惑问题并应用到代码中
将原作者的代码进行模块工程化，成为整体项目，方便研究的同学直接进行模式套用

原作者代码中：

def train_crack_captcha_cnn():

    output = crack_captcha_cnn()

    # loss

    #loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(output, Y))

    loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=output, labels=Y))

        # 最后一层用来分类的softmax和sigmoid有什么不同？

    # optimizer 为了加快训练 learning_rate应该开始大，然后慢慢衰

    optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(loss)

    ……

作者在代码的注释中出提出了这样的疑问:

对 softmax 和 sigmoid 的使用方式有疑问。

然后在文章下面读者评论区也都提到了此问题，在此进行整体解释一下。

原文中CNN的输出的维度是 MAX_CAPTCHA*CHAR_SET_LEN ，其实这些维度并不都是完全独立分布的，但是使用sigmoid loss也是仍然可以的，相当于先用sigmoid进行了一次归一化，然后再将各个维度的值向目标值进行回归，最后loss越小，两个向量的对应的值也越接近。 其实sigmoid是可以看成是一个多分类的问题，在这个例子上也能起到比较好的收敛效果。

当然，关于分类的问题，看所有的机器学习框架里面，都是建议使用softmax进行最后的归一化操作，这其实相当于是一种 马太效应 : 让可能性大的分类的值变得更大，让可能性小的分量值变得更小。但是这有个前提，就是参与到softmax运算的一组数据，必须是 相关联 的，所以如果要使用 softmax_cross_entropy_with_logits ，只需要将网络进行简单修改即可。把输出的维度做成二维[MAX_CAPTCHA, CHAR_SET_LEN], 然后使用softmax loss。

output = crack_captcha_cnn()#36×4

predict = tf.reshape(output, [-1, MAX_CAPTCHA, CHAR_SET_LEN])  # 36行，4列

label = tf.reshape(Y, [-1, MAX_CAPTCHA, CHAR_SET_LEN])

最后使用GPU训练的实验结果对比：

sigmoid方式。训练6000个step就能达到95%的准确率。
softmax方式。训练8千个step，达到90%的准确率;训练8万个step，达到94.7%（跑了大半天）

使用tensorboard对accuracy进行监控：

sigmoid-6千个step:

softmax-8千个step:

softmax-8万个step:

整体来说，在这个例子里面，好像 sigmoid的收敛速度快些，当然这个可能是本项目里面的外界因素有利于sigmoid吧，至于具体原因，等后续再进行研究和解释吧，当然有可能根本解释不了，因为对于CNN，目前主流的意见都是：，反正效果就是好，但是不知道为啥， 科幻得近于玄幻 的一种技术。

github源码地址：

https://github.com/zhengwh/captcha-tensorflow

项目文件介绍：

cfg.py 配置信息文件
cnn_sys.py CNN网络结构
data_iter.py 可迭代的数据集
gen_captcha.py 验证码生成器，直接使用程序生成带标记的数据
predict.py 加载训练好的模型，然后对输入的图片进行预测
train.py 对模型进行训练
utils.py 一些公共使用的方法

5 小结

本文主要只写原作者没有提到的内容，想了解原文的，可以直接去原作者页面。

6 Reference

[1]	wiki-CAPTCHA https://en.wikipedia.org/wiki/CAPTCHA

7 后续交流

如果有对相关技术有持续关注的兴趣的同学，欢迎加入QQ群： 592109504

或者手机QQ扫码加入：

基于tensorflow的‘端到端’的字符型验证码识别源码整理(github源码分享)的更多相关文章

基于python语言的tensorflow的‘端到端’的字符型验证码识别源码整理(github源码分享)
基于python语言的tensorflow的‘端到端’的字符型验证码识别 1 Abstract 验证码(CAPTCHA)的诞生本身是为了自动区分自然人和机器人的一套公开方法, 但是近几年的 ...
[验证码识别技术] 字符型验证码终结者-CNN+BLSTM+CTC
验证码识别(少样本,高精度)项目地址:https://github.com/kerlomz/captcha_trainer 1. 前言本项目适用于Python3.6,GPU>=NVIDIA G ...
21个项目玩转深度学习：基于TensorFlow的实践详解06—人脸检测和识别——项目集锦
摘自:https://github.com/azuredsky/mtcnn-2 mtcnn - Multi-task CNN library language dependencies comment ...
【sqli-labs】 less3 GET - Error based - Single quotes with twist string (基于错误的GET单引号变形字符型注入)
实质上和less1没有多大区别,看懂了一样走流程提交参数加单引号 http://localhost/sqli/Less-3/?id=1' 观察报错,看near 和 at 的引号之间内容 '1'') ...
端到端图片识别 Python实现 Tensorflow
基于python语言的tensorflow的‘端到端’的字符型验证码识别 1 Abstract 验证码(CAPTCHA)的诞生本身是为了自动区分自然人和机器人的一套公开方法, 但是近几年的 ...
字符型图片验证码识别完整过程及Python实现
字符型图片验证码识别完整过程及Python实现 1 摘要验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的防火墙功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...
完整的验证码识别流程基于svm（若是想提升，可优化）
字符型图片验证码识别完整过程及Python实现首先很感觉这篇文章的作者,将这篇文章写的这么好.我呢,也是拿来学习,觉得太好,所以忍不住就进行了转载. 因为我个人现在手上也有个验证码识别的项目,只是难 ...
字符型图片验证码，使用tensorflow实现卷积神经网络，进行验证码识别CNN
本项目使用卷积神经网络识别字符型图片验证码,其基于 TensorFlow 框架.它封装了非常通用的校验.训练.验证.识别和调用 API,极大地减低了识别字符型验证码花费的时间和精力. 项目地址: ht ...
基于TensorFlow解决手写数字识别的Softmax方法、多层卷积网络方法和前馈神经网络方法
一.基于TensorFlow的softmax回归模型解决手写字母识别问题详细步骤如下: 1.加载MNIST数据: input_data.read_data_sets('MNIST_data',one ...

随机推荐

浅谈 Requests包
浅谈 Requests包一:Requests包是做什么的? 简单地说,是用python处理HTTP的一个包. 它的标志也非常有气质,是一个双蛇杖,按照官方的说法,一条蛇代表client,一条代表se ...
android源码分享1
技术博客 "碎片化"严重,安卓走向封闭?[Bus Weekly]48期阅读数:286 2017-05-08 按照NetMarketShare统计数据显示, ...
UNITY VR 视频/图片开发心得（一）
现在的VR似乎没有之前那么火热了,于是乎我居然开始了VR征程... 说起VR,对于没有接受过相关知识的人来说可能看起来比较高大上,但是VR的原理却没有想象中那么复杂.总的来说,VR之所以能够产生立体感 ...
免费MD5解密网站，轻松破解md5密码，mysql5/mysql323，ntlm,salt密码
md5解密网站:http://cmd5.la 网站语言:php 免费指数:★★★ (8位内小写数字字母免费,11位内数字免费) 解密范围:★★★★☆ (覆盖了1-12位很多常用密码和特殊 ...
百度BAE环境搭建
一.申请 1.http://bce.baidu.com/index.html 2.购买应用引擎BAE需要实名认证:http://console.bce.baidu.com/qualify/#/qual ...
Oracle强制启动和关闭实例
要启动和关闭数据库,必须要以具有Oracle 管理员权限的用户登陆,通常也就是以具有SYSDBA权限的用户登陆.一般我们常用SYS用户以SYSDBA连接来启动和关闭数据库.下面介绍Oracle数据库几 ...
jsp注册页面的省份联动（网上copy别人的，然后自己弄了一下才知道怎么用）
首先写一个js里面是所有的省份一些七七八八的东西,直接复制黏贴过去就好了. var addressInit = function(_cmbProvince, _cmbCity, _cmbArea, d ...
CSS变量variable
前面的话一直以来,CSS中是没有变量而言的,要使用 CSS 变量,只能借助 SASS 或者 LESS 这类预编译器.新的草案发布之后,直接在 CSS 中定义和使用变量不再是幻想了.本文将详细介绍CS ...
基于.NET CORE微服务框架 -surging的介绍和简单示例（开源）
一.前言至今为止编程开发已经11个年头,从 VB6.0,ASP时代到ASP.NET再到MVC, 从中见证了.NET技术发展,从无畏无知的懵懂少年,到现在的中年大叔,从中的酸甜苦辣也只有本人自知.随着 ...
浅谈web服务器的编写之http协议
本书是介绍怎么编写一个Web服务器,而Web服务器是基于HTTP(HyperText Transfer Protocol)协议实现的,所以要实现一个Web服务器就必须了解HTTP协议,本章主要介绍HT ...

基于tensorflow的‘端到端’的字符型验证码识别源码整理(github源码分享)