1.项目需求描述

通过订单号获取某系统内订单的详细数据,不需要账号密码的登录验证,但有图片验证码的动态识别,将获取到的数据存到数据库。

2.整体思路

1.通过Selenium技术,无窗口模式打开浏览器

2.在输入框中动态输入订单号

3.将图片验证码截图保存到本地

4.通过Tesseract-OCR技术去本地识别验证码转化为文字

5.将获取的验证码输入输入框

6.点击查询获取列表数据

3.功能实现

1.下载并安装Google浏览器,安装Google驱动chromedriver.exe,获取安装路径,配置在项目中

2.使用Selenium进行浏览器操作

 1 System.setProperty(浏览器驱动, 浏览器驱动安装位置);
2 ChromeOptions options = new ChromeOptions();
3 options.addArguments("--headless"); // 无窗口模式
4 options.addArguments("--disable-infobars"); // 禁言消息条
5 options.addArguments("--disable-extensions"); // 禁用插件
6 options.addArguments("--disable-gpu"); // 禁用GPU
7 options.addArguments("--no-sandbox"); // 禁用沙盒模式
8 options.addArguments("--disable-dev-shm-usage");
9 options.addArguments("--hide-scrollbars"); // 隐藏滚动条
10
11 WebDriver driver = new ChromeDriver(options);
12 driver.get(爬取网站URL);
13 driver.manage().window().setSize(new Dimension(450, 260)); // 设置游览器打开后调整大小
14 try {
15 // 保存IMG图片到本地
16 saveImgToLocal(driver);
17 Thread.sleep(2000);
18 // OCR智能识别验证码
19 String codeByOCR = getCodeByOCR();
20 if (codeByOCR != null) {
21 try {
22 WebElement input1 = driver.findElement(By.id(TEXTBOX1));
23 input1.sendKeys(code);
24 WebElement input2 = driver.findElement(By.id(TEXTBOX2));
25 input2.sendKeys(codeByOCR);
26 // 获取table数据
27 WebElement addButton = driver.findElement(By.id(SELECT_BUTTON));
28 addButton.click();
29 List<WebElement> tRCollection = driver.findElement(By.id(TABLE_ID)).findElements(By.tagName("tr"));
30 for (int t = 1; t < tRCollection.size(); t++) {
31 List<WebElement> tDCollection = tRCollection.get(t).findElements(By.tagName("td"));
32 VipLogisticsMinHangDetailVo minHangDetailVo = new VipLogisticsMinHangDetailVo();
33 minHangDetailVo.setLogistics_number(code);
34 for (int i = 0; i < tDCollection.size(); i++) {
35 String text = tDCollection.get(i).getText();
36 switch (i) {
37 case 0:
38 minHangDetailVo.setTime(text);
39 case 1:
40 minHangDetailVo.setOutlet(text);
41 case 2:
42 minHangDetailVo.setOrganization(text);
43 case 3:
44 minHangDetailVo.setEvent(text);
45 case 4:
46 minHangDetailVo.setDetail(text);
47 }
48 }
49 list.add(minHangDetailVo);
50 }
51 log.info("验证码识别成功!");
52 } catch (Exception e) {
53 if (e.toString().contains("错误提示:验证码错误或已过期!")) {
54 log.error("验证码识别错误!" + e.toString());
55 } else if (e.toString().contains("错误提示:请输入验证码!")) {
56 log.error("未输入验证码!:" + e.toString());
57 } else {
58 log.error("其他异常:" + e.toString());
59 }
60 }
61 }
62 driver.quit();
63 } catch (Exception e) {
64 e.printStackTrace();
65 }

3.将图片验证码截图保存到本地(截屏法)

 1 private void saveImgToLocal(WebDriver driver) {
2 WebElement element = driver.findElement(By.id(img元素ID));
3 //创建全屏截图
4 WrapsDriver wrapsDriver = (WrapsDriver) element;
5 File screen = ((TakesScreenshot) wrapsDriver.getWrappedDriver()).getScreenshotAs(OutputType.FILE);
6 try {
7 BufferedImage image = ImageIO.read(screen);
8 //创建一个矩形使用上面的高度,和宽度
9 Point p = element.getLocation();
10 //元素坐标
11 BufferedImage img = image.getSubimage(p.getX(), p.getY(), element.getSize().getWidth(), element.getSize().getHeight());
12 ImageIO.write(img, "png", screen);
13
14 FileUtils.copyFile(screen, new File(保存本地地址 + "imgname.png"));
15 } catch (IOException e) {
16 e.printStackTrace();
17 }
18 }

4.将图片验证码保存到本地(鼠标法)

 1 private static void saveImgToLocal1(WebDriver driver) {
2 Actions action = new Actions(driver);
3 action.contextClick(driver.findElement(By.id(img元素ID))).build().perform();
4 try {
5 Robot robot = new Robot();
6 Thread.sleep(1000);
7
8 robot.keyPress(KeyEvent.VK_DOWN);
9 Thread.sleep(1000);
10
11 robot.keyPress(KeyEvent.VK_DOWN);
12 Thread.sleep(1000);
13
14 robot.keyPress(KeyEvent.VK_ENTER);
15 Thread.sleep(1000);
16 //释放向下键,不然在此之前的条目将起作用
17 robot.keyRelease(KeyEvent.VK_DOWN);
18 Thread.sleep(1000);
19 //运行保存
20 Runtime.getRuntime().exec(SAVE_IMG_EXE);
21 Thread.sleep(10000);
22 } catch (Exception e) {
23 e.printStackTrace();
24 }
25 }

 1 private static void saveImgToLocal1(WebDriver driver) {
2 Actions action = new Actions(driver);
3 action.contextClick(driver.findElement(By.id(img元素ID))).build().perform();
4 try {
5 Robot robot = new Robot();
6 Thread.sleep(1000);
7
8 robot.keyPress(KeyEvent.VK_DOWN);
9 Thread.sleep(1000);
10
11 robot.keyPress(KeyEvent.VK_DOWN);
12 Thread.sleep(1000);
13
14 robot.keyPress(KeyEvent.VK_ENTER);
15 Thread.sleep(1000);
16 //释放向下键,不然在此之前的条目将起作用
17 robot.keyRelease(KeyEvent.VK_DOWN);
18 Thread.sleep(1000);
19 //运行保存
20 Runtime.getRuntime().exec(SAVE_IMG_EXE);
21 Thread.sleep(10000);
22 } catch (Exception e) {
23 e.printStackTrace();
24 }
25 }

5.对本地验证码进行OCR识别

 1 private String getCodeByOCR() {
2 String result = null;
3 File file = new File(本地图片地址);
4 if (!file.exists()) {
5 if (systemFalg != 1) {
6 file.setWritable(true, false);
7 }
8 file.mkdirs();
9 }
10 File imageFile = new File(本地图片地址 + "imgname.png");
11 if (imageFile.exists()) {
12 ITesseract instance = new Tesseract();
13 instance.setDatapath(tessdata存放地址);
14 try {
15 String doOCR = instance.doOCR(imageFile);
16 result = replaceBlank(doOCR);
17 log.info("解析的验证码为:{}", result != null ? result : "为空!");
18 } catch (Exception e) {
19 e.printStackTrace();
20 log.error("解析验证码异常!");
21 }
22 } else {
23 log.error("解析验证码的文件不存在!");
24 }
25 return result;
26 }

综上,该网页的数据就可以获取了。

Selenium+Tesseract-OCR智能识别验证码爬取网页数据的更多相关文章

  1. 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

  2. python之爬取网页数据总结(一)

    今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests    Beautifulsoup4   lxml  三个插件 ...

  3. python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...

  4. 03:requests与BeautifulSoup结合爬取网页数据应用

    1.1 爬虫相关模块命令回顾 1.requests模块 1. pip install requests 2. response = requests.get('http://www.baidu.com ...

  5. 使用 Python 爬取网页数据

    1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...

  6. 使用puppeteer爬取网页数据实践小结

    简单介绍Puppeteer Puppeteer是一个Node库,它通过DevTools协议提供高级API来控制Chrome或Chromium.Puppeteer默认以无头方式运行,但可以配置为有头方式 ...

  7. pycharm爬取网页数据

    1 python环境的配置 1.1 安装python文件包,放到可以找到的位置 1.2 右键计算机->属性->高级环境设置->系统变量->Path->编辑->复制p ...

  8. 使用XPath爬取网页数据

    我们以我的博客为例,来爬取我所有写过的博客的标题. 首先,打开我的博客页面,右键“检查”开始进行网页分析.我们选中博客标题,再次右键“检查”即可找到标题相应的位置,我们继续点击右键,选择Copy,再点 ...

  9. jsoup简单的爬取网页数据

    /** * Project Name:JavaTest * File Name:BankOfChinaExchangeRate.java * Package Name:com.lee.javatest ...

随机推荐

  1. 【springcloud】springcloud Greenwich SR4版本笔记

    springcloud Greenwich SR4版本笔记 本文只记录实际版本,配置,pom,代码以及注意事项.别的在其他springcloud 的F版本中已有详述. 示例代码地址:https://g ...

  2. 网络视频m3u8解密及ts文件合并

    网络视频m3u8解密及ts文件合并 参考了两篇博客: https://blog.csdn.net/weixin_41624645/article/details/95939510 https://bl ...

  3. 了解Prometheus

    了解Prometheus 标签(空格分隔): 监控 介绍 Prometheus是用来收集和存储服务器的实时数据(比如:CPU.硬盘.服务响应.日志等),通过其丰富的运算函数,可以计算得到很多的服务性能 ...

  4. 不用调整Nginx,SpringBoot也能解决前端访问的跨域问题

    1.什么情况下会出现跨域问题 通常,在前端工程师的开发过程中,往往在本地机器启动前端服务, 而调用的后端接口服务是在另外一台机器运行,这时就会出现跨域问题,让接口无法调通. 而到了测试环境和生产环境, ...

  5. MAC下Jetbrains编译器无法打开问题解决

    这段时间不知道怎么回事,每次打开Rider必定闪退,毫无头绪,只好暂时放弃使用Rider,试用了一段时间Visual Studio. 可惜...虽然大学时候觉得VS天下第一,但是用惯了JB的编译器,再 ...

  6. sychronized

    说一下 synchronized 底层实现原理? synchronized可以保证方法或者代码块在运行时, 同一时刻只有一个方法可以进入到临界区, 同时它还可以保证共享变量的内存可见性. Java中每 ...

  7. DFS常规解题套路

    本文为xdfApp团队成员文章,原文链接:https://blog.csdn.net/sinat_37380158/article/details/106866970 作者介绍:韩沛沛, 北京邮电大学 ...

  8. 「萌新指南」SOA vs. 微服务:What’s the Difference?

    实话实说,在我还没有实习之前,我是连 SOA 是啥都不知道的,只听说过微服务,毕竟微服务实在太火了,想不知道都难,我觉得实习的时候肯定也是微服务,进组之后发现是 SOA 架构,当时都懵了,看了很多文档 ...

  9. Python3-sqlalchemy-orm 查询、修改

    #-*-coding:utf-8-*- #__author__ = "logan.xu" import sqlalchemy from sqlalchemy import crea ...

  10. JavaScript之创建对象的模式

    使用Object的构造函数可以创建对象或者使用对象字面量来创建单个对象,但是这些方法有一个明显的缺点:使用相同的一个接口创建很多对象,会产生大量的重复代码. (一)工厂模式 这种模式抽象了创建具体对象 ...