Tensorflow搭建CNN实现验证码识别

完整代码：GitHub

我的简书：Awesome_Tang的简书

更好的阅读体验可访问我的Kesci Lab：AwesomeTang的Kesci Lab

整个项目代码分为三部分：

Generrate_Captcha:
- 生成验证码图片（训练集，验证集和测试集）；
- 读取图片数据和标签（标签即为图片文件名）；
cnn_model:卷积神经网络；
driver:模型训练及评估。

Generate Captcha

配置项

class Config(object):

    width = 160  # 验证码图片的宽

    height = 60  # 验证码图片的高

    char_num = 4  # 验证码字符个数

    characters = range(10)	# 数字[0,9]

    test_folder = 'test'	# 测试集文件夹，下同

    train_folder = 'train'

    validation_folder = 'validation'

    tensorboard_folder = 'tensorboard'  # tensorboard的log路径

    generate_num = (5000, 500, 500)  # 训练集，验证集和测试集数量

    alpha = 1e-3  # 学习率

    Epoch = 100  # 训练轮次

    batch_size = 64     # 批次数量

    keep_prob = 0.5     # dropout比例

    print_per_batch = 20    # 每多少次输出结果

    save_per_batch = 20		# 每多少次写入tensorboard

生成验证码（`class Generate`）

验证码图片示例：

check_path():检查文件夹是否存在，如不存在则创建。
gen_captcha():生成验证码方法，写入之前检查是否以存在，如存在重新生成。

读取数据（`classs ReadData`）

read_data():返回图片数组（numpy.array格式）和标签（即文件名）；

label2vec():将文件名转为向量；

例：

label = '1327'

label_vec = [0,1,0,0,0,0,0,0,0,0,

		    0,0,0,1,0,0,0,0,0,0,

		    0,0,1,0,0,0,0,0,0,0,

		    0,0,0,0,0,0,0,1,0,0]

load_data():加载文件夹下所有图片，返回图片数组，标签和图片数量。

定义模型（`cnn_model`）

采用三层卷积，filter_size均为5，为避免过拟合，每层卷积后面均接dropout操作，最终将$16060$的图像转为$208$的矩阵。

大致结构如下：

训练&评估

next_batch()：迭代器，分批次返还数据；
feed_data()：给模型“喂”数据；
- x：图像数组；
- y：图像标签；
- keep_prob：dropout比例；
evaluate()：模型评估，用于验证集和测试集。
run_model()：训练&评估

目前效果

目前经过4000次迭代训练集准确率可达99%以上，测试集准确率93%，还是存在一点过拟合，不过现在模型是基于CPU训练的，完成一次训练耗费时间大约4个小时左右，后续调整了再进行更新。

Images for train ：10000, for validation : 1000, for test : 1000

Epoch : 1

Step     0, train_acc:   7.42%, train_loss:  1.43, val_acc:   9.85%, val_loss:  1.40, improved:*

Step    20, train_acc:  12.50%, train_loss:  0.46, val_acc:  10.35%, val_loss:  0.46, improved:*

Step    40, train_acc:   9.38%, train_loss:  0.37, val_acc:  10.10%, val_loss:  0.37, improved:

Step    60, train_acc:   7.42%, train_loss:  0.34, val_acc:  10.25%, val_loss:  0.34, improved:

Step    80, train_acc:   7.81%, train_loss:  0.33, val_acc:   9.82%, val_loss:  0.33, improved:

Step   100, train_acc:  12.11%, train_loss:  0.33, val_acc:  10.00%, val_loss:  0.33, improved:

Step   120, train_acc:   9.77%, train_loss:  0.33, val_acc:  10.07%, val_loss:  0.33, improved:

Step   140, train_acc:   8.98%, train_loss:  0.33, val_acc:  10.40%, val_loss:  0.33, improved:*

Epoch : 2

Step   160, train_acc:   8.20%, train_loss:  0.33, val_acc:  10.52%, val_loss:  0.33, improved:*

...

Epoch : 51

Step  7860, train_acc: 100.00%, train_loss:  0.01, val_acc:  92.37%, val_loss:  0.08, improved:

Step  7880, train_acc:  99.61%, train_loss:  0.01, val_acc:  92.28%, val_loss:  0.08, improved:

Step  7900, train_acc: 100.00%, train_loss:  0.01, val_acc:  92.42%, val_loss:  0.08, improved:

Step  7920, train_acc: 100.00%, train_loss:  0.00, val_acc:  92.83%, val_loss:  0.08, improved:

Step  7940, train_acc: 100.00%, train_loss:  0.01, val_acc:  92.77%, val_loss:  0.08, improved:

Step  7960, train_acc: 100.00%, train_loss:  0.01, val_acc:  92.68%, val_loss:  0.08, improved:

Step  7980, train_acc: 100.00%, train_loss:  0.00, val_acc:  92.63%, val_loss:  0.09, improved:

No improvement for over 1000 steps, auto-stopping....

Test accuracy:  93.00%, loss:  0.08

Tensorboard

每次训练之前将Tensorboard路径下的文件删除，不然趋势图上会凌乱。
- Accurracy
- loss

Tensorflow搭建CNN实现验证码识别的更多相关文章

使用tensorflow搭建自己的验证码识别系统
目录准备验证码数据保存为tfrecords文件验证码训练学习tensorflow有一段时间了,想做点东西来练一下手.为了更有意思点,下面将搭建一个简单的验证码识别系统. 准备验证码数据下面将 ...
[DL学习笔记]从人工神经网络到卷积神经网络_3_使用tensorflow搭建CNN来分类not_MNIST数据(有一些问题)
3:用tensorflow搭个神经网络出来为什么用tensorflow呢,应为谷歌是亲爹啊,虽然有些人说caffe更适合图像啊mxnet效率更高等等,但爸爸就是爸爸,Android都能那么火,一个道 ...
使用卷积神经网络CNN完成验证码识别
gen_sample_by_captcha.py 生成验证码图片 # -*- coding: UTF-8 -*- """ 使用captcha lib生成验证码(前提:pi ...
使用tensorflow实现cnn进行mnist识别
第一个CNN代码,暂时对于CNN的BP还不熟悉.但是通过这个代码对于tensorflow的运行机制有了初步的理解 ''' softmax classifier for mnist created on ...
机器学习： Tensor Flow with CNN 做表情识别
我们利用 TensorFlow 构造 CNN 做表情识别,我们用的是FER-2013 这个数据库, 这个数据库一共有 35887 张人脸图像,这里只是做一个简单到仿真实验,为了计算方便,我们用其中到 ...
强智教务系统验证码识别 Tensorflow CNN
强智教务系统验证码识别 Tensorflow CNN 一直都是使用API取得数据,但是API提供的数据较少,且为了防止API关闭,先把验证码问题解决使用Tensorflow训练模型,强智教务系统的验 ...
keras入门（三）搭建CNN模型破解网站验证码
项目介绍在文章CNN大战验证码中,我们利用TensorFlow搭建了简单的CNN模型来破解某个网站的验证码.验证码如下: 在本文中,我们将会用Keras来搭建一个稍微复杂的CNN模型来破解以上的 ...
CNN+BLSTM+CTC的验证码识别从训练到部署
项目地址:https://github.com/kerlomz/captcha_trainer 1. 前言本项目适用于Python3.6,GPU>=NVIDIA GTX1050Ti,原mast ...
tensorflow训练验证码识别模型
tensorflow训练验证码识别模型的样本可以使用captcha生成,captcha在linux中的安装也很简单: pip install captcha 生成验证码: # -*- coding: ...

随机推荐

利用python的requests和BeautifulSoup库爬取小说网站内容
1. 什么是Requests? Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库. 它比urllib更加方便,可以节约 ...
划艇：dp/组合数/区间离散化
Description 在首尔城中,汉江横贯东西.在汉江的北岸,从西向东星星点点地分布着 N 个划艇学校,编号依次为 1 到 N.每个学校都拥有若干艘划艇.同一所学校的所有划艇颜色相同,不同的学校的划 ...
转：java 看好的一些书
地址 : http://www.cnblogs.com/xrq730/p/4994545.html
Go 基础学习笔记（6）| 变量、函数使用
Go 变量定义与使用: 1.var 声明 (1)var identifier type 如:var x int =10 (2) var id ...
jquery微信浏览器阻止页面拖动
jquery微信浏览器阻止页面拖动<pre>function bodyScroll(event) { event.preventDefault();} document.body.addE ...
Java ->在mybatis和PostgreSQL Json字段作为查询条件的解决方案
Date:2019-11-15 读前思考: 你没想到解决办法? PostgreSQL 数据库本身就支持还是另有解决办法? 说明:首先这次数据库使用到Json数据类型的原因,这次因为我们在做了一个app ...
python 基础之模块
Python 基础之模块一个模块就是一个包含了python定义和声明的文件,文件名就是模块名字加上.py的后缀. 就是一个python文件中定义好了类和方法,实现了一些功能,可以被别的python文 ...
Python 基础之re 模块
Python 基础之大话 re 在使用re模块中主要会用到一下几个方法: re.match() #从头匹配一个字符串 re.search() #浏览全部字符串,匹配第一个符合规则的字符串 re.fin ...
mongodb定时删除数据（索引删除）
一简介:本文介绍创建自动删除数据的TTL索引二目的定时删除数据三创建方法 db.collection.createIndex(keys, options) options: ex ...
libpcap的下载与安装（apt-get安装unable to locate package 的解决方法（Ubantu））
因为网络安全课的实验课要求,我们得下载libcap我们得做一个类似于tcpdump的一个东西.具体要求就不贴出来了. libpcap只能在官网(www.tcpdump.org)下到,我用的os是Ubu ...

Tensorflow搭建CNN实现验证码识别

Generate Captcha

配置项

生成验证码（class Generate）

读取数据（classs ReadData）

定义模型（cnn_model）