【java+selenium3】Tesseract-OCR识别图片验证码 (十六)

【java+selenium+Tesseract-OCR(图片识别)+AutoIt(windows窗口识别)】完成自动化图片验证码识别！

一、AutoIt(windows窗口识别)参考：https://www.cnblogs.com/xiaozhaoboke/p/11138548.html

二、Tesseract-OCR(图片识别)

1. 官网下载 tesseract：http://sourceforge.net/projects/tesseract-ocr/

历史版本下载：https://digi.bib.uni-mannheim.de/tesseract/

2.安装tesseract，安装成功需要配置环境变量

PATH：安装目录(C:\Program Files (x86)\Tesseract-OCR)

TESSDATA_PREFIX:C:\Program Files (x86)\Tesseract-OCR\tessdata

3.语言库地址为：https://github.com/tesseract-ocr/tessdata

将所需要的语言库下载下来，放在F:\Program Files (x86)\Tesseract-OCR\tessdata目录下

4.将tesseract.exe命令保存为bat文件，bat内容为

@echo off

tesseract.exe D:\yzm\yan.png D:\yzm\result -l

exit

或者

@echo off

tesseract.exe D:\yzm\yan.png D:\yzm\result -psm 6

exit

//注解：

//图片路径D:\yzm\yan.png 生成txt文件存放路径及文件名result

tesseract.exe D:\yzm\yan.png D:\yzm\result -l

tesseract.exe D:\yzm\yan.png D:\yzm\result -psm 6

5.java调用该bat文件

public static void main(String[] args) {

     String cmd = "cmd /k start D:/yzm/tesseract.bat";

      try {

        Runtime.getRuntime().exec(cmd);

    } catch (Exception e) {

        e.printStackTrace();

    }

}

//知识扩展

cmd命令执行窗口开闭指令

cmd /c dir 是执行完dir命令后关闭命令窗口。

cmd /k dir 是执行完dir命令后不关闭命令窗口。

cmd /c start dir 会打开一个新窗口后执行dir指令，原窗口会关闭。

cmd /k start dir 会打开一个新窗口后执行dir指令，原窗口不会关闭。

运行成功后，会生成一个result.txt文件，该文件保存了验证码的文本内容
6.java代码执行tesseract.bat文件后读取txt文件返回验证码字符串代码实现，TXT读写详细参考：https://www.cnblogs.com/xiaozhaoboke/p/11177168.html

package cn.xiaobing.util;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStreamReader;

public class ReadYZM {

    /**

     * 使用Tesseract-OCR识别图片验证码

     */

    public static String read_yzm() {

        String cmd = "cmd /c start D:/yzm/tesseract.bat";

          try {

            Runtime.getRuntime().exec(cmd);

        } catch (Exception e) {

            e.printStackTrace();

        }

        try {

            //线程阻塞3秒等待tesseract.bat执行完成

            Thread.sleep(3000);

        } catch (InterruptedException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        //执行tesseract.bat识别图片后生成result.txt文件中保存识别后验证码

        //读取result.txt文件获取验证码

//          ReadTxt

        String yzmTxt = readTxt("D:/yzm/result.txt");

        return yzmTxt;

    }

/**传入txt路径读取txt文件

 * @param txtPath

 * @return 返回读取到的内容

 */

public static String readTxt(String txtPath) {

    File file = new File(txtPath);

    if(file.isFile() && file.exists()){

        try {

            FileInputStream fileInputStream = new FileInputStream(file);

            InputStreamReader inputStreamReader = new InputStreamReader(fileInputStream);

            BufferedReader bufferedReader = new BufferedReader(inputStreamReader);

            StringBuffer sb = new StringBuffer();

            String text = null;

            while((text = bufferedReader.readLine()) != null){

                sb.append(text);

            }

            return sb.toString();

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    return null;

    }

}

7.web自动化实战演示

package cn.xiaobing.cases;

import java.io.File;

import java.io.IOException;

import org.apache.commons.io.FileUtils;

import org.openqa.selenium.By;

import org.openqa.selenium.WebElement;

import org.testng.annotations.Test;

import cn.xiaobing.util.CreateElementScreenshot;

import cn.xiaobing.util.ReadYZM;

public class TestCase01 extends BaseCase {

    @Test

    public void test() throws InterruptedException {

        driver.get("http://sh.ipyy.com:8888/logins.html");

        WebElement element = driver.findElement(By.id("yzmimg"));

        File img = CreateElementScreenshot.captureElement(element);

        try {

            //调用FileUtils工具类，复制img图片，new File保存至新的路径下

            FileUtils.copyFile(img, new File("D:/yzm/yzm.png"));

            Thread.sleep(3000);

            //使用Tesseract-OCR识别图片验证码

            String str = ReadYZM.read_yzm();

            driver.findElement(By.id("code")).sendKeys(str);

            Thread.sleep(3000);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

代码执行验证码自动输入展示：

8.总结：使用Tesseract-OCR识别图片验证码成功率太低，正在寻找更好的方法！

【java+selenium3】Tesseract-OCR识别图片验证码 (十六)的更多相关文章

【转】Python OCR识别图片验证码
转载自:博客对于某些网站登录的时候,往往需要输入验证码才能实现登录.如果要爬虫这类网站,往往总会比这个验证码导致无法爬取数据.以下介绍一种比较折中的方法,也是比较可行的方法: 实现思想: 1.通过截 ...
python 识别图片验证码报IOError
说一下困扰了我一周的问题:识别图片验证码本来我按照安装步骤(http://www.cnblogs.com/yeayee/p/4955506.html?utm_source=tuicool&u ...
Atitit java 二维码识别图片识别
Atitit java 二维码识别图片识别 1.1. 解码11.2. 首先,我们先说一下二维码一共有40个尺寸.官方叫版本Version.11.3. 二维码的样例:21.4. 定位图案21.5. 数 ...
[Java] 识别图片验证码
现在大多数网站都采用了验证码来防止暴力破解或恶意提交.但验证码真的就很安全吗?真的就不能被机器识别?? 我先讲讲我是怎么实现站外提交留言到一个网站的程序. 这个网站的留言版大致如下: 我一看这种简单的 ...
python下以api形式调用tesseract识别图片验证码
一.背景之前在博文中介绍在python中如何调用tesseract ocr引擎,当时主要介绍了shell模式,shell模式需要安装tesseract程序,并且效率相对略低. 今天介绍api形式的调 ...
python爬虫20 | 小帅b教你如何使用python识别图片验证码
当你在爬取某些网站的时候对于你的一些频繁请求对方会阻碍你常见的方式就是使用验证码验证码的主要功能就是区分你是人还是鬼(机器人) 人想法设法的搞一些手段来对付技术而技术又能对付人们的想法 ...
使用burp插件captcha-killer识别图片验证码
0x01 开发背景说起对存在验证码的登录表单进行爆破,大部分人都会想到PKav HTTP Fuzzer,这款工具在前些年确实给我们带来了不少便利.反观burp一直没有一个高度自定义通杀大部分图片验证 ...
Onenote实现OCR识别图片
OCR识别推荐两个软件: 1. Tesseract:一个开源的,由谷歌维护的OCR软件. 2. Onenote:微软Office附带或者可以自己独立安装. 3. O ...
使用Tesseract OCR识别验证码
1.下载Tessrac OCR,默认安装 2.把验证码code.jpg图片放在D盘 3.打开cmd,进入D盘,输入:tesseract code.jpg result 4.进入D盘,生成了resul ...

随机推荐

通过JMETER后置处理器JSON Path Extractor插件来获取响应结果
学生金币充值接口:该接口有权限验证,需要admin用户才可以做操作,需要添加cookie.cookie中key为登录的用户名,value从登录接口中获取,登陆成功之后会返回sign. 通常做法是在HT ...
【Golang】Go 通过结构(struct) 实现接口(interface)
一.通过结构(struct) 实现接口(interface) 1.在了解iris框架的时候,经常看到有这样去写的使用一个空结构体作为接收器,来调用方法,有点好奇这样做有什么意义. 解释:在 Go 语 ...
开放下载！2021 解锁 Serverless 从入门到实战大“橙”就
Serverless 架构即将引领云计算的下一个十年已成行业共识.处于变革中的开发者,大多已从观望状态转向尝试阶段, 越来越多 Serverless 落地场景被解锁. "Serverless ...
干货分享之Spring框架源码解析01-(xml配置解析)
记录并分享一下本人学习spring源码的过程,有什么问题或者补充会持续更新.欢迎大家指正! 环境: spring5.X + idea Spring 是一个工厂,是一个负责对象的创建和维护的工厂.它给我 ...
golang []byte和string的高性能转换
golang []byte和string的高性能转换在fasthttp的最佳实践中有这么一句话: Avoid conversion between []byte and string, since ...
uoj22 外星人（dp）
题目大意: 给定一个$n$个数的序列$a$,给定一个$x$,其中$a$数组可以进行顺序的调换,每一个$a_i$都能使$x=x \mod a_i $, 求最后经过一系列计算后的$ ...
使用CSS选择器（第一部分）
目录使用CSS选择器(第一部分) 使用CSS基本选择器选择所有元素通用选择器代码清单1 使用通用选择器根据类型选择元素元素类型选择器代码清单2 使用元素类型选择器提示根据类选择元素 ...
一个简单的单例模式Demo
/** * @author :nx014924 * @date :Created in 5/30/2021 1:09 PM * @description: * @modified By: * @ver ...
返回值优化 RVO
<深度探索C++对象模型>-- 2.3 返回值的初始化 & 在编译器层面做优化
Hadoop面试题（四）——YARN
1.简述hadoop1与hadoop2 的架构异同 1)加入了yarn解决了资源调度的问题. 2)加入了对zookeeper的支持实现比较可靠的高可用. 2.为什么会产生 yarn,它解决了什么问题, ...

【java+selenium3】Tesseract-OCR识别图片验证码 (十六)

【java+selenium3】Tesseract-OCR识别图片验证码 (十六)的更多相关文章

随机推荐

热门专题