Selenium+Tesseract-OCR智能识别验证码爬取网页数据

1.项目需求描述

通过订单号获取某系统内订单的详细数据，不需要账号密码的登录验证，但有图片验证码的动态识别，将获取到的数据存到数据库。

2.整体思路

1.通过Selenium技术，无窗口模式打开浏览器

2.在输入框中动态输入订单号

3.将图片验证码截图保存到本地

4.通过Tesseract-OCR技术去本地识别验证码转化为文字

5.将获取的验证码输入输入框

6.点击查询获取列表数据

3.功能实现

1.下载并安装Google浏览器，安装Google驱动chromedriver.exe，获取安装路径，配置在项目中

2.使用Selenium进行浏览器操作

 1 System.setProperty(浏览器驱动, 浏览器驱动安装位置);

 2 ChromeOptions options = new ChromeOptions();

 3 options.addArguments("--headless");                            // 无窗口模式

 4 options.addArguments("--disable-infobars");                    // 禁言消息条

 5 options.addArguments("--disable-extensions");                  // 禁用插件

 6 options.addArguments("--disable-gpu");                         // 禁用GPU

 7 options.addArguments("--no-sandbox");                          // 禁用沙盒模式

 8 options.addArguments("--disable-dev-shm-usage");

 9 options.addArguments("--hide-scrollbars");                     // 隐藏滚动条

10

11 WebDriver driver = new ChromeDriver(options);

12 driver.get(爬取网站URL);

13 driver.manage().window().setSize(new Dimension(450, 260));     // 设置游览器打开后调整大小

14 try {

15     // 保存IMG图片到本地

16     saveImgToLocal(driver);

17     Thread.sleep(2000);

18     // OCR智能识别验证码

19     String codeByOCR = getCodeByOCR();

20     if (codeByOCR != null) {

21         try {

22             WebElement input1 = driver.findElement(By.id(TEXTBOX1));

23             input1.sendKeys(code);

24             WebElement input2 = driver.findElement(By.id(TEXTBOX2));

25             input2.sendKeys(codeByOCR);

26             // 获取table数据

27             WebElement addButton = driver.findElement(By.id(SELECT_BUTTON));

28             addButton.click();

29             List<WebElement> tRCollection = driver.findElement(By.id(TABLE_ID)).findElements(By.tagName("tr"));

30             for (int t = 1; t < tRCollection.size(); t++) {

31                 List<WebElement> tDCollection = tRCollection.get(t).findElements(By.tagName("td"));

32                 VipLogisticsMinHangDetailVo minHangDetailVo = new VipLogisticsMinHangDetailVo();

33                 minHangDetailVo.setLogistics_number(code);

34                 for (int i = 0; i < tDCollection.size(); i++) {

35                     String text = tDCollection.get(i).getText();

36                     switch (i) {

37                         case 0:

38                             minHangDetailVo.setTime(text);

39                         case 1:

40                             minHangDetailVo.setOutlet(text);

41                         case 2:

42                             minHangDetailVo.setOrganization(text);

43                         case 3:

44                             minHangDetailVo.setEvent(text);

45                         case 4:

46                             minHangDetailVo.setDetail(text);

47                     }

48                 }

49                 list.add(minHangDetailVo);

50             }

51             log.info("验证码识别成功！");

52         } catch (Exception e) {

53             if (e.toString().contains("错误提示：验证码错误或已过期！")) {

54                 log.error("验证码识别错误！" + e.toString());

55             } else if (e.toString().contains("错误提示：请输入验证码！")) {

56                 log.error("未输入验证码！：" + e.toString());

57             } else {

58                 log.error("其他异常：" + e.toString());

59             }

60         }

61     }

62     driver.quit();

63 } catch (Exception e) {

64     e.printStackTrace();

65 }

3.将图片验证码截图保存到本地（截屏法）

 1 private void saveImgToLocal(WebDriver driver) {

 2     WebElement element = driver.findElement(By.id(img元素ID));

 3     //创建全屏截图

 4     WrapsDriver wrapsDriver = (WrapsDriver) element;

 5     File screen = ((TakesScreenshot) wrapsDriver.getWrappedDriver()).getScreenshotAs(OutputType.FILE);

 6     try {

 7         BufferedImage image = ImageIO.read(screen);

 8         //创建一个矩形使用上面的高度，和宽度

 9         Point p = element.getLocation();

10         //元素坐标

11         BufferedImage img = image.getSubimage(p.getX(), p.getY(), element.getSize().getWidth(), element.getSize().getHeight());

12         ImageIO.write(img, "png", screen);

13

14         FileUtils.copyFile(screen, new File(保存本地地址 + "imgname.png"));

15     } catch (IOException e) {

16         e.printStackTrace();

17     }

18 }

4.将图片验证码保存到本地（鼠标法）

 1 private static void saveImgToLocal1(WebDriver driver) {

 2     Actions action = new Actions(driver);

 3     action.contextClick(driver.findElement(By.id(img元素ID))).build().perform();

 4     try {

 5         Robot robot = new Robot();

 6         Thread.sleep(1000);

 7

 8         robot.keyPress(KeyEvent.VK_DOWN);

 9         Thread.sleep(1000);

10

11         robot.keyPress(KeyEvent.VK_DOWN);

12         Thread.sleep(1000);

13

14         robot.keyPress(KeyEvent.VK_ENTER);

15         Thread.sleep(1000);

16         //释放向下键，不然在此之前的条目将起作用

17         robot.keyRelease(KeyEvent.VK_DOWN);

18         Thread.sleep(1000);

19         //运行保存

20         Runtime.getRuntime().exec(SAVE_IMG_EXE);

21         Thread.sleep(10000);

22     } catch (Exception e) {

23         e.printStackTrace();

24     }

25 }

 1 private static void saveImgToLocal1(WebDriver driver) {

 2     Actions action = new Actions(driver);

 3     action.contextClick(driver.findElement(By.id(img元素ID))).build().perform();

 4     try {

 5         Robot robot = new Robot();

 6         Thread.sleep(1000);

 7

 8         robot.keyPress(KeyEvent.VK_DOWN);

 9         Thread.sleep(1000);

10

11         robot.keyPress(KeyEvent.VK_DOWN);

12         Thread.sleep(1000);

13

14         robot.keyPress(KeyEvent.VK_ENTER);

15         Thread.sleep(1000);

16         //释放向下键，不然在此之前的条目将起作用

17         robot.keyRelease(KeyEvent.VK_DOWN);

18         Thread.sleep(1000);

19         //运行保存

20         Runtime.getRuntime().exec(SAVE_IMG_EXE);

21         Thread.sleep(10000);

22     } catch (Exception e) {

23         e.printStackTrace();

24     }

25 }

5.对本地验证码进行OCR识别

 1 private String getCodeByOCR() {

 2     String result = null;

 3     File file = new File(本地图片地址);

 4     if (!file.exists()) {

 5         if (systemFalg != 1) {

 6             file.setWritable(true, false);

 7         }

 8         file.mkdirs();

 9     }

10     File imageFile = new File(本地图片地址 + "imgname.png");

11     if (imageFile.exists()) {

12         ITesseract instance = new Tesseract();

13         instance.setDatapath(tessdata存放地址);

14         try {

15             String doOCR = instance.doOCR(imageFile);

16             result = replaceBlank(doOCR);

17             log.info("解析的验证码为:{}", result != null ? result : "为空！");

18         } catch (Exception e) {

19             e.printStackTrace();

20             log.error("解析验证码异常！");

21         }

22     } else {

23         log.error("解析验证码的文件不存在！");

24     }

25     return result;

26 }

综上，该网页的数据就可以获取了。

Selenium+Tesseract-OCR智能识别验证码爬取网页数据的更多相关文章

使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
python之爬取网页数据总结（一）
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
03：requests与BeautifulSoup结合爬取网页数据应用
1.1 爬虫相关模块命令回顾 1.requests模块 1. pip install requests 2. response = requests.get('http://www.baidu.com ...
使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
使用puppeteer爬取网页数据实践小结
简单介绍Puppeteer Puppeteer是一个Node库,它通过DevTools协议提供高级API来控制Chrome或Chromium.Puppeteer默认以无头方式运行,但可以配置为有头方式 ...
pycharm爬取网页数据
1 python环境的配置 1.1 安装python文件包,放到可以找到的位置 1.2 右键计算机->属性->高级环境设置->系统变量->Path->编辑->复制p ...
使用XPath爬取网页数据
我们以我的博客为例,来爬取我所有写过的博客的标题. 首先,打开我的博客页面,右键“检查”开始进行网页分析.我们选中博客标题,再次右键“检查”即可找到标题相应的位置,我们继续点击右键,选择Copy,再点 ...
jsoup简单的爬取网页数据
/** * Project Name:JavaTest * File Name:BankOfChinaExchangeRate.java * Package Name:com.lee.javatest ...

随机推荐

jpa中使用Query判断条件查询
jpa中使用Query判断条件查询 @Query(value = " select m.* from mining_area as m " + " where 1 = 1 ...
Socket入门Demo
一.简单介绍下Socket编程申明:.net网络编程 1)什么是Socket编程? Socket编程就是常说的网络通讯编程,套接字编程.一般应用于软件聊天通讯,以及软件与硬件之间的通讯. 通熟 ...
C++类的构造函数后面加一个冒号的含义
最近在看侯捷老师讲解的C++知识,他讲到在构造函数加一个冒号初始化值的方法,会使代码更大气,在此记录一下使用方法构造函数冒号后的初始化class complex{public: complex(do ...
七：使用Session进行会话管理
一.Session简单介绍在WEB开发中,服务器可以为每个用户浏览器创建一个会话对象(session对象),注意:一个浏览器独占一个session对象(默认情况下).因此,在需要保存用户数据时,服务 ...
Spring Data JPA实体的生命周期总结
目录四种状态 API示例 persist remove merge refresh 参考链接四种状态首先以一张图,简单介绍写实体生命周期中四种状态之间的转换关系: 瞬时(New):瞬时对象,刚N ...
Vue.JS快速上手（组件生命周期）
一.什么是组件组成网页独立功能基本单元(片段), 复用.维护.性能, Vue.js中的组件就是一个Vue的实例,Vue中的组件包含data/methods/computed. 一个Vue.js的应用 ...
ajax无法返回视图
$.ajax({ url:"http://localhost:8080/wb/toUpLoad", type:"post", data:formData, pr ...
MySQL存储结构及SQL分类
MySQL目录结构 bin -- mysql执行程序 docs -- 文档 share - 各国编码信息 data -- 存放mysql 数据文件 * 每个数据库创建一个同名文件夹,.frm 存放t ...
剑指 Offer 33. 二叉搜索树的后序遍历序列
剑指 Offer 33. 二叉搜索树的后序遍历序列输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历结果.如果是则返回 true,否则返回 false.假设输入的数组的任意两个数字都互不相同. ...
freeswitch的event事件处理
概述之前的文章中,我们讲解了freeswitch的源码基本结构,如何新增一个插件式模块,以及如何在模块中新增一个命令式API接口和APP接口. freeswitch本身是事件驱动的,它可以并发响应多 ...