1.项目需求描述

通过订单号获取某系统内订单的详细数据,不需要账号密码的登录验证,但有图片验证码的动态识别,将获取到的数据存到数据库。

2.整体思路

1.通过Selenium技术,无窗口模式打开浏览器

2.在输入框中动态输入订单号

3.将图片验证码截图保存到本地

4.通过Tesseract-OCR技术去本地识别验证码转化为文字

5.将获取的验证码输入输入框

6.点击查询获取列表数据

3.功能实现

1.下载并安装Google浏览器,安装Google驱动chromedriver.exe,获取安装路径,配置在项目中

2.使用Selenium进行浏览器操作

 1 System.setProperty(浏览器驱动, 浏览器驱动安装位置);
2 ChromeOptions options = new ChromeOptions();
3 options.addArguments("--headless"); // 无窗口模式
4 options.addArguments("--disable-infobars"); // 禁言消息条
5 options.addArguments("--disable-extensions"); // 禁用插件
6 options.addArguments("--disable-gpu"); // 禁用GPU
7 options.addArguments("--no-sandbox"); // 禁用沙盒模式
8 options.addArguments("--disable-dev-shm-usage");
9 options.addArguments("--hide-scrollbars"); // 隐藏滚动条
10
11 WebDriver driver = new ChromeDriver(options);
12 driver.get(爬取网站URL);
13 driver.manage().window().setSize(new Dimension(450, 260)); // 设置游览器打开后调整大小
14 try {
15 // 保存IMG图片到本地
16 saveImgToLocal(driver);
17 Thread.sleep(2000);
18 // OCR智能识别验证码
19 String codeByOCR = getCodeByOCR();
20 if (codeByOCR != null) {
21 try {
22 WebElement input1 = driver.findElement(By.id(TEXTBOX1));
23 input1.sendKeys(code);
24 WebElement input2 = driver.findElement(By.id(TEXTBOX2));
25 input2.sendKeys(codeByOCR);
26 // 获取table数据
27 WebElement addButton = driver.findElement(By.id(SELECT_BUTTON));
28 addButton.click();
29 List<WebElement> tRCollection = driver.findElement(By.id(TABLE_ID)).findElements(By.tagName("tr"));
30 for (int t = 1; t < tRCollection.size(); t++) {
31 List<WebElement> tDCollection = tRCollection.get(t).findElements(By.tagName("td"));
32 VipLogisticsMinHangDetailVo minHangDetailVo = new VipLogisticsMinHangDetailVo();
33 minHangDetailVo.setLogistics_number(code);
34 for (int i = 0; i < tDCollection.size(); i++) {
35 String text = tDCollection.get(i).getText();
36 switch (i) {
37 case 0:
38 minHangDetailVo.setTime(text);
39 case 1:
40 minHangDetailVo.setOutlet(text);
41 case 2:
42 minHangDetailVo.setOrganization(text);
43 case 3:
44 minHangDetailVo.setEvent(text);
45 case 4:
46 minHangDetailVo.setDetail(text);
47 }
48 }
49 list.add(minHangDetailVo);
50 }
51 log.info("验证码识别成功!");
52 } catch (Exception e) {
53 if (e.toString().contains("错误提示:验证码错误或已过期!")) {
54 log.error("验证码识别错误!" + e.toString());
55 } else if (e.toString().contains("错误提示:请输入验证码!")) {
56 log.error("未输入验证码!:" + e.toString());
57 } else {
58 log.error("其他异常:" + e.toString());
59 }
60 }
61 }
62 driver.quit();
63 } catch (Exception e) {
64 e.printStackTrace();
65 }

3.将图片验证码截图保存到本地(截屏法)

 1 private void saveImgToLocal(WebDriver driver) {
2 WebElement element = driver.findElement(By.id(img元素ID));
3 //创建全屏截图
4 WrapsDriver wrapsDriver = (WrapsDriver) element;
5 File screen = ((TakesScreenshot) wrapsDriver.getWrappedDriver()).getScreenshotAs(OutputType.FILE);
6 try {
7 BufferedImage image = ImageIO.read(screen);
8 //创建一个矩形使用上面的高度,和宽度
9 Point p = element.getLocation();
10 //元素坐标
11 BufferedImage img = image.getSubimage(p.getX(), p.getY(), element.getSize().getWidth(), element.getSize().getHeight());
12 ImageIO.write(img, "png", screen);
13
14 FileUtils.copyFile(screen, new File(保存本地地址 + "imgname.png"));
15 } catch (IOException e) {
16 e.printStackTrace();
17 }
18 }

4.将图片验证码保存到本地(鼠标法)

 1 private static void saveImgToLocal1(WebDriver driver) {
2 Actions action = new Actions(driver);
3 action.contextClick(driver.findElement(By.id(img元素ID))).build().perform();
4 try {
5 Robot robot = new Robot();
6 Thread.sleep(1000);
7
8 robot.keyPress(KeyEvent.VK_DOWN);
9 Thread.sleep(1000);
10
11 robot.keyPress(KeyEvent.VK_DOWN);
12 Thread.sleep(1000);
13
14 robot.keyPress(KeyEvent.VK_ENTER);
15 Thread.sleep(1000);
16 //释放向下键,不然在此之前的条目将起作用
17 robot.keyRelease(KeyEvent.VK_DOWN);
18 Thread.sleep(1000);
19 //运行保存
20 Runtime.getRuntime().exec(SAVE_IMG_EXE);
21 Thread.sleep(10000);
22 } catch (Exception e) {
23 e.printStackTrace();
24 }
25 }

 1 private static void saveImgToLocal1(WebDriver driver) {
2 Actions action = new Actions(driver);
3 action.contextClick(driver.findElement(By.id(img元素ID))).build().perform();
4 try {
5 Robot robot = new Robot();
6 Thread.sleep(1000);
7
8 robot.keyPress(KeyEvent.VK_DOWN);
9 Thread.sleep(1000);
10
11 robot.keyPress(KeyEvent.VK_DOWN);
12 Thread.sleep(1000);
13
14 robot.keyPress(KeyEvent.VK_ENTER);
15 Thread.sleep(1000);
16 //释放向下键,不然在此之前的条目将起作用
17 robot.keyRelease(KeyEvent.VK_DOWN);
18 Thread.sleep(1000);
19 //运行保存
20 Runtime.getRuntime().exec(SAVE_IMG_EXE);
21 Thread.sleep(10000);
22 } catch (Exception e) {
23 e.printStackTrace();
24 }
25 }

5.对本地验证码进行OCR识别

 1 private String getCodeByOCR() {
2 String result = null;
3 File file = new File(本地图片地址);
4 if (!file.exists()) {
5 if (systemFalg != 1) {
6 file.setWritable(true, false);
7 }
8 file.mkdirs();
9 }
10 File imageFile = new File(本地图片地址 + "imgname.png");
11 if (imageFile.exists()) {
12 ITesseract instance = new Tesseract();
13 instance.setDatapath(tessdata存放地址);
14 try {
15 String doOCR = instance.doOCR(imageFile);
16 result = replaceBlank(doOCR);
17 log.info("解析的验证码为:{}", result != null ? result : "为空!");
18 } catch (Exception e) {
19 e.printStackTrace();
20 log.error("解析验证码异常!");
21 }
22 } else {
23 log.error("解析验证码的文件不存在!");
24 }
25 return result;
26 }

综上,该网页的数据就可以获取了。

Selenium+Tesseract-OCR智能识别验证码爬取网页数据的更多相关文章

  1. 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

  2. python之爬取网页数据总结(一)

    今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests    Beautifulsoup4   lxml  三个插件 ...

  3. python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...

  4. 03:requests与BeautifulSoup结合爬取网页数据应用

    1.1 爬虫相关模块命令回顾 1.requests模块 1. pip install requests 2. response = requests.get('http://www.baidu.com ...

  5. 使用 Python 爬取网页数据

    1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...

  6. 使用puppeteer爬取网页数据实践小结

    简单介绍Puppeteer Puppeteer是一个Node库,它通过DevTools协议提供高级API来控制Chrome或Chromium.Puppeteer默认以无头方式运行,但可以配置为有头方式 ...

  7. pycharm爬取网页数据

    1 python环境的配置 1.1 安装python文件包,放到可以找到的位置 1.2 右键计算机->属性->高级环境设置->系统变量->Path->编辑->复制p ...

  8. 使用XPath爬取网页数据

    我们以我的博客为例,来爬取我所有写过的博客的标题. 首先,打开我的博客页面,右键“检查”开始进行网页分析.我们选中博客标题,再次右键“检查”即可找到标题相应的位置,我们继续点击右键,选择Copy,再点 ...

  9. jsoup简单的爬取网页数据

    /** * Project Name:JavaTest * File Name:BankOfChinaExchangeRate.java * Package Name:com.lee.javatest ...

随机推荐

  1. 【spring 注解驱动开发】spring事务处理原理

    尚学堂spring 注解驱动开发学习笔记之 - 事务处理 事务处理 1.事务处理实现 实现步骤: * 声明式事务: * * 环境搭建: * 1.导入相关依赖 * 数据源.数据库驱动.Spring-jd ...

  2. 【面试题】挑战10个最难回答的Java面试题(附答案)

    转自:https://mp.weixin.qq.com/s/Kd-2qkDfaokHU7d2nfsE6w 1.为什么等待和通知是在 Object 类而不是 Thread 中声明的? 一个棘手的 Jav ...

  3. java 方法参数的执行顺序

    java方法的参数的执行顺序是从左到右还是从右到左呢? 写出一下测试程序: 1 import java.util.*; 2 import java.io.*; 3 public class Test ...

  4. mysql 用 source 导入备份数据

    输入命令:source E:/proDB/start2.sql;

  5. SprngCloud微服务框架搭建(一)

    参照来源 :https://blog.csdn.net/forezp/article/details/70148833 1.简介 目前来说,SpringCloud是比较完整的微服务解决方案框架.不像其 ...

  6. flex布局中flex属性运用在随机发红包的算法上

    flex布局是现在前端基本上都会运用的一种布局,基本上用到比较多的是父元素设置display:flex,两个子元素,一个设置固定宽度,另一个设置为flex:1(这里都指flex-direction为r ...

  7. go GC垃圾回收原理

    目录 1.前言 2. 垃圾回收算法 3. Golang垃圾回收 3.1 垃圾回收原理 3.2 内存标记(Mark) 3.3 三色标记 3.4 Stop The World 4. 垃圾回收优化 4.1 ...

  8. indexedDB数据库完整创建流程

    1.打开数据库 使用 IndexedDB 的第一步是打开数据库,使用indexedDB.open()方法 var request = window.indexedDB.open(databaseNam ...

  9. C# - 音乐小闹钟_BetaV2.0

    时间:2017-11-21 作者:byzqy  介绍: 虽然上一版本基本实现了闹钟的功能,但是界面.功能.用户体验(简直谈不上体验^_^),以及众多的bug,所以升级,刻不容缓! 还是先看一下Beta ...

  10. CPU内部结构域寄存器

    CPU内部结构域寄存器   64位和32位系统区别: 寄存器是CPU内部最基本的存储单元. CPU对外是通过总线(地址.控制.数据)来和外部设备交互的,总线的宽度是8位,同时CPU的寄存器也是8位,那 ...