Python Tensorflow CNN 识别验证码

Python+Tensorflow的CNN技术快速识别验证码

文章来源于： https://www.jianshu.com/p/26ff7b9075a1

验证码处理的流程是：验证码分析和处理—— tensorflow安装 —— 模型训练 —— 模型预测

需要的准备。

　　1. 安装TensorFlow

　　2. PIL

　　3. numpy

　　4. 用于训练的图片

0.文件目录：

　　红色部分有用，其他不用

1. 训练模型的图片：链接：https://pan.baidu.com/s/1kpgt7Pc-ni4WnN6qj8U-pw 密码：nzea

2. 训练模型代码：

　　训练好的模型：链接：https://pan.baidu.com/s/1dNpEtguITKBgbsUU6tCluQ 密码：j07f

from PIL import Image

import numpy as np

import tensorflow as tf

import os

os.environ['TF_CPP_MIN_LOG_LEVEL']=''

import random

IMAGE_HEIGHT = 114

IMAGE_WIDTH = 450

MAX_CAPTCHA = 6

CHAR_SET_LEN = 26

def get_name_and_image():

    all_image = os.listdir('C:\\Users\\xuchunlin\\PycharmProjects\\ML\\20180402\\captcha4\\')

    random_file = random.randint(0, 3429)

    base = os.path.basename('C:\\Users\\xuchunlin\\PycharmProjects\\ML\\20180402\\captcha4\\' + all_image[random_file])

    name = os.path.splitext(base)[0]

    image = Image.open('C:\\Users\\xuchunlin\\PycharmProjects\\ML\\20180402\\captcha4\\' + all_image[random_file])

    image = np.array(image)

    return name, image

def name2vec(name):

    vector = np.zeros(MAX_CAPTCHA*CHAR_SET_LEN)

    for i, c in enumerate(name):

        idx = i * 26 + ord(c) - 97

        vector[idx] = 1

    return vector

def vec2name(vec):

    name = []

    for i in vec:

        a = chr(i + 97)

        name.append(a)

    return "".join(name)

# 生成一个训练batch

def get_next_batch(batch_size=64):

    batch_x = np.zeros([batch_size, IMAGE_HEIGHT*IMAGE_WIDTH])

    batch_y = np.zeros([batch_size, MAX_CAPTCHA*CHAR_SET_LEN])

    for i in range(batch_size):

        name, image = get_name_and_image()

        batch_x[i, :] = 1*(image.flatten())

        batch_y[i, :] = name2vec(name)

    return batch_x, batch_y

####################################################

X = tf.placeholder(tf.float32, [None, IMAGE_HEIGHT*IMAGE_WIDTH])

Y = tf.placeholder(tf.float32, [None, MAX_CAPTCHA*CHAR_SET_LEN])

keep_prob = tf.placeholder(tf.float32)

# 定义CNN

def crack_captcha_cnn(w_alpha=0.01, b_alpha=0.1):

    x = tf.reshape(X, shape=[-1, IMAGE_HEIGHT, IMAGE_WIDTH, 1])

    # 3 conv layer

    w_c1 = tf.Variable(w_alpha * tf.random_normal([5, 5, 1, 32]))

    b_c1 = tf.Variable(b_alpha * tf.random_normal([32]))

    conv1 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(x, w_c1, strides=[1, 1, 1, 1], padding='SAME'), b_c1))

    conv1 = tf.nn.max_pool(conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

    conv1 = tf.nn.dropout(conv1, keep_prob)

    w_c2 = tf.Variable(w_alpha * tf.random_normal([5, 5, 32, 64]))

    b_c2 = tf.Variable(b_alpha * tf.random_normal([64]))

    conv2 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(conv1, w_c2, strides=[1, 1, 1, 1], padding='SAME'), b_c2))

    conv2 = tf.nn.max_pool(conv2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

    conv2 = tf.nn.dropout(conv2, keep_prob)

    w_c3 = tf.Variable(w_alpha * tf.random_normal([5, 5, 64, 64]))

    b_c3 = tf.Variable(b_alpha * tf.random_normal([64]))

    conv3 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(conv2, w_c3, strides=[1, 1, 1, 1], padding='SAME'), b_c3))

    conv3 = tf.nn.max_pool(conv3, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

    conv3 = tf.nn.dropout(conv3, keep_prob)

    # Fully connected layer

    w_d = tf.Variable(w_alpha * tf.random_normal([15 * 57 * 64, 1024]))

    b_d = tf.Variable(b_alpha * tf.random_normal([1024]))

    dense = tf.reshape(conv3, [-1, w_d.get_shape().as_list()[0]])

    dense = tf.nn.relu(tf.add(tf.matmul(dense, w_d), b_d))

    dense = tf.nn.dropout(dense, keep_prob)

    w_out = tf.Variable(w_alpha * tf.random_normal([1024, MAX_CAPTCHA * CHAR_SET_LEN]))

    b_out = tf.Variable(b_alpha * tf.random_normal([MAX_CAPTCHA * CHAR_SET_LEN]))

    out = tf.add(tf.matmul(dense, w_out), b_out)

    return out

# 训练

def train_crack_captcha_cnn():

    output = crack_captcha_cnn()

    loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=output, labels=Y))

    optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(loss)

    predict = tf.reshape(output, [-1, MAX_CAPTCHA, CHAR_SET_LEN])

    max_idx_p = tf.argmax(predict, 2)

    max_idx_l = tf.argmax(tf.reshape(Y, [-1, MAX_CAPTCHA, CHAR_SET_LEN]), 2)

    correct_pred = tf.equal(max_idx_p, max_idx_l)

    accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

    saver = tf.train.Saver()

    with tf.Session() as sess:

        sess.run(tf.global_variables_initializer())

        step = 0

        while True:

            batch_x, batch_y = get_next_batch(64)

            _, loss_ = sess.run([optimizer, loss], feed_dict={X: batch_x, Y: batch_y, keep_prob: 0.5})

            print(step, loss_)

            # 每100 step计算一次准确率

            if step % 100 == 0:

                batch_x_test, batch_y_test = get_next_batch(100)

                acc = sess.run(accuracy, feed_dict={X: batch_x_test, Y: batch_y_test, keep_prob: 1.})

                print(step, acc)

                # 如果准确率大于60%,保存模型,完成训练

                if acc > 0.6:

                    saver.save(sess, "./crack_capcha.model", global_step=step)

                    break

            step += 1

train_crack_captcha_cnn()

3. 模型测试代码：

def crack_captcha():

    output = crack_captcha_cnn()

    saver = tf.train.Saver()

    with tf.Session() as sess:

        saver.restore(sess, tf.train.latest_checkpoint('.'))

        n = 1

        while n <= 10:

            text, image = get_name_and_image()

            image = 1 * (image.flatten())

            predict = tf.argmax(tf.reshape(output, [-1, MAX_CAPTCHA, CHAR_SET_LEN]), 2)

            text_list = sess.run(predict, feed_dict={X: [image], keep_prob: 1})

            vec = text_list[0].tolist()

            predict_text = vec2name(vec)

            print("正确: {}  预测: {}".format(text, predict_text))

            n += 1

crack_captcha()

训练代码和测试代码文件：链接：https://pan.baidu.com/s/1VY9rYZizCEjHzim3-XaGyw 密码：epv2

结果展示：

你会发现识别率并不高，那是因为上面训练模型中有这几行代码

　　　　　　　　 # 如果准确率大于60%,保存模型,完成训练

                if acc > 0.6:

                    saver.save(sess, "./crack_capcha.model", global_step=step)

                    break

设定的准确率只有百分之六十，如果时间充足的话，可以设置0.99或者0.98.会得到一个不错的模型。

详细讲解请去原网址看，地址：https://www.jianshu.com/p/26ff7b9075a1

所有学习资料：链接：https://pan.baidu.com/s/19BoO5sUhLrzpL0a9_rNTRQ 密码：q4ri

Python Tensorflow CNN 识别验证码的更多相关文章

tensorflow识别验证码（2）-tensorflow 编写CNN 识别验证码
1. 导入依赖包 #coding:utf-8 from gen_captcha import gen_captcha_text_and_image from gen_captcha import nu ...
CNN识别验证码2
获得验证码图片的俩个来源: 1.有网站生成验证码图片的源码 2.通过python的requests下载验证码图片当我们的训练样本我们通过第一种方式来得到训练样本,下面是生成验证码的php程序: &l ...
python 基于机器学习识别验证码
1.背景验证码自动识别在模拟登陆上使用的较为广泛,一直有耳闻好多人在使用机器学习来识别验证码,最近因为刚好接触这方面的知识,所以特定研究了一番.发现网上已有很多基于machine learni ...
CNN识别验证码1
之前学习python的时候,想尝试用requests实现自动登陆,但是现在网站登陆都会有验证码保护,主要是为了防止暴力破解,任意用户注册.最近接触深度学习,cnn能够进行图像识别,能够进行验证码识别. ...
【python】入门级识别验证码
前情:这篇文章所提及的内容是博主上个暑假时候做的,一直没有沉下心来把自己的心得写在纸面上,所幸这个假期闲暇时候比较多,想着能写多少是多少,于是就有了此篇. 验证码?我也能破解? 关于验证码的介绍就不多 ...
python,tensorflow,CNN实现mnist数据集的训练与验证正确率
1.工程目录 2.导入data和input_data.py 链接:https://pan.baidu.com/s/1EBNyNurBXWeJVyhNeVnmnA 提取码:4nnl 3.CNN.py i ...
吴裕雄--天生自然python学习笔记：python 用 Tesseract 识别验证码
用 Selenium 包实现网页自动化操作的案例中,发现很多网页都因需输入图形验证码而导致实验无法进行 . 解决的办法就是对验证码进行识别 . 识别的方法之一是通过图形处理包将验证码的大部分背 ...
强智教务系统验证码识别 Tensorflow CNN
强智教务系统验证码识别 Tensorflow CNN 一直都是使用API取得数据,但是API提供的数据较少,且为了防止API关闭,先把验证码问题解决使用Tensorflow训练模型,强智教务系统的验 ...
tensorFlow（六）应用-基于CNN破解验证码
TensorFlow基础见前博客简介传统的验证码识别算法一般需要把验证码分割为单个字符,然后逐个识别.本教程将验证码识别问题转化为分类的问题,实现对验证码进行整体识别. 步骤简介本教程一共分为四 ...

随机推荐

在hadoop上运行java文件
hadoop 2.x版本编译:javac -d . -classpath /usr/lib/hadoop/hadoop-common-2.2.0.2.0.6.0-102.jar TestGetPat ...
开源 JSON 库解析性能对比( Jackson / Json.simple / Gson )
Json 已成为当前服务器与 web 应用之间数据传输的公认标准. 微服务及分布式架构经常会使用 Json 来传输此类文件,因为这已经是 webAPI 的事实标准. 不过正如许多我们习以为常的事情一样 ...
GIT服务器实现web代码自动部署
之前在一台vps服务器上面搭建了Git服务器,用来做代码管理,方便团队开发.但是问题也就相应的来了,使用git可以轻松的上传代码,而由于做的是web开发,每次还都得到服务器上把代码手动pull或者复制 ...
mvn test
mvn -B install -Dmaven.test.skip=true -Dautoconfig.skipmvn -B org.codehaus.mojo:cobertura-maven-plug ...
【appium】查看Android应用包名、Activity的几个方法
一.有源码情况直接打开AndroidManifest.xml文件,找到包含android.intent.action.MAIN和android.intent.category.LAUNCHER对应的 ...
关于通信的关键词UDP/(TCP/IP)/IPC/RPC/.NET Remoting/WebService/WCF/Http 系列
OSI七层和TCP/IP四层的关系 1.1 OSI引入了服务.接口.协议.分层的概念,TCP/IP借鉴了OSI的这些概念建立TCP/IP模型. 1.2 OSI先有模型,后有协议,先有标准,后进行实践: ...
SQL SERVER 2008 “阻止保存要求重新创建表的更改”
在SQL SERVER2008中,新建数据表以后,若再对该表进行更改,则会出现警告信息“不允许保存更改阻止保存要求重新创建表的更改”,等等,需要进行一下设置: 工具--->选项--->D ...
QQ登录整合/oauth2.0认证-01-申请appkey和appid
本节需要你申请appkey和appid还有绑定域名的空间首先再讲课之前你需要准备以下东西到腾讯开发平台中申请开发者获得appid 和appkey 这两个东东这两个东东就算没审核也可以 ...
db_table--Spring Security3.1 最新配置实例
2011-04-28 这几天学习了一下Spring Security3.1,从官网下载了Spring Security3.1版本进行练习,经过多次尝试才摸清了其中的一些原理.本人不才,希望能帮助大家. ...
IT软件外包行业深入分析：现状、前途、趋势、待遇什么是软件外包外包公司是怎么工作的软件外包公司的面试软件外包公司需要什么样的人
目录: [0] - 为什么要对大学生谈软件外包? [1] - 什么是软件外包? [2] - 软件为什么要外包? [3] - 为什么要承接软件外包 [4] - 做软件外包有前途吗? [5] - 外包公司 ...

Python Tensorflow CNN 识别验证码

Python+Tensorflow的CNN技术快速识别验证码

Python Tensorflow CNN 识别验证码的更多相关文章

随机推荐

热门专题