使用selenium爬虫抓取数据

写在前面

本来这篇文章该几个月前写的，后来忙着忙着就给忘记了。
ps:事多有时候反倒会耽误事。
几个月前，记得群里一朋友说想用selenium去爬数据，关于爬数据，一般是模拟访问某些固定网站，将自己关注的信息进行爬取，然后再将爬出的数据进行处理。
他的需求是将文章直接导入到富文本编辑器去发布，其实这也是爬虫中的一种。
其实这也并不难，就是UI自动化的过程，下面让我们开始吧。

准备工具/原料

1、java语言
2、IDEA开发工具
3、jdk1.8
4、selenium-server-standalone（3.0以上版本）

步骤

1、分解需求：

需求重点主要是要保证原文格式样式都保留：
将要爬取文章,全选并复制
将复制后的文本，粘贴到富文本编辑器中即可

2、代码实现思路：

键盘事件模拟CTRL+A全选
键盘事件模拟CTRL+C复制
键盘事件模拟CTRL+V粘贴

3、实例代码

import org.junit.AfterClass;

import org.junit.BeforeClass;

import org.junit.Test;

import org.openqa.selenium.By;

import org.openqa.selenium.WebDriver;

import org.openqa.selenium.chrome.ChromeDriver;

import java.awt.*;

import java.awt.event.KeyEvent;

import java.util.concurrent.TimeUnit;

/**

 * @author rongrong

 * Selenium模拟访问网站爬虫操作代码示例

 */

public class Demo {

    private static WebDriver driver;

    static final int MAX_TIMEOUT_IN_SECONDS = 5;

    @BeforeClass

    public static void setUpBeforeClass() throws Exception {

        driver = new ChromeDriver();

        String url = "https://temai.snssdk.com/article/feed/index?id=6675245569071383053&subscribe=5501679303&source_type=28&content_type=1&create_user_id=34013&adid=__AID__&tt_group_id=6675245569071383053";

        driver.manage().window().maximize();

        driver.manage().timeouts().implicitlyWait(MAX_TIMEOUT_IN_SECONDS, TimeUnit.SECONDS);

        driver.get(url);

    }

    @AfterClass

    public static void tearDownAfterClass() throws Exception {

        if (driver != null) {

            System.out.println("运行结束！");

            driver.quit();

        }

    }

    @Test

    public void test() throws InterruptedException {

        Robot robot = null;

        try {

            robot = new Robot();

        } catch (AWTException e1) {

            e1.printStackTrace();

        }

        robot.keyPress(KeyEvent.VK_CONTROL);

        robot.keyPress(KeyEvent.VK_A);

        robot.keyRelease(KeyEvent.VK_A);

        Thread.sleep(2000);

        robot.keyPress(KeyEvent.VK_C);

        robot.keyRelease(KeyEvent.VK_C);

        robot.keyRelease(KeyEvent.VK_CONTROL);

        driver.get("https://ueditor.baidu.com/website/onlinedemo.html");

        Thread.sleep(2000);

        driver.switchTo().frame(0);

        driver.findElement(By.tagName("body")).click();

        robot.keyPress(KeyEvent.VK_CONTROL);

        robot.keyPress(KeyEvent.VK_V);

        robot.keyRelease(KeyEvent.VK_V);

        robot.keyRelease(KeyEvent.VK_CONTROL);

        Thread.sleep(2000);

    }

}

写在后面

笔者并不是特别建议使用selenium做爬虫，原因如下：

速度慢:

每次运行爬虫都要打开一个浏览器，初始化还需要加载图片、JS渲染等等一大堆东西；

占用资源太多:

有人说，把换成无头浏览器，原理都是一样的，都是打开浏览器，而且很多网站会验证参数，如果对方看到你恶意请求访问，会办了你的请求，然后你又要考虑更换请求头的事情，事情复杂程度不知道多了多少，还得去改代码，麻烦死了。

对网络的要求会更高:

加载了很多可能对您没有价值的补充文件（如css，js和图像文件）。与真正需要的资源（使用单独的HTTP请求）相比，这可能会产生更多的流量。

使用selenium爬虫抓取数据的更多相关文章

C#使用Selenium+PhantomJS抓取数据
本文主要介绍了C#使用Selenium+PhantomJS抓取数据的方法步骤,具有很好的参考价值,下面跟着小编一起来看下吧手头项目需要抓取一个用js渲染出来的网站中的数据.使用常用的httpclie ...
基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口统一输出接口数据api.适合正在学习Vue,AngularJs框架学习开发demo,需要接口并保证接口不跨 ...
selenium+chrome抓取数据，运行js
某些特殊的网站需要用selenium来抓取数据,比如用js加密的,破解难度大的 selenium支持linux和win,前提是必须安装python3,环境配置好抓取代码: #!/usr/bin/en ...
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时, ...
Java 实现 HttpClients+jsoup，Jsoup，htmlunit，Headless Chrome 爬虫抓取数据
最近整理一下手头上搞过的一些爬虫,有HttpClients+jsoup,Jsoup,htmlunit,HeadlessChrome 一,HttpClients+jsoup,这是第一代比较low,很快就 ...
Nodejs实现爬虫抓取数据
开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请自行百度安装教程...... 1.在项目文件夹安装两个必须的依赖包 npm install superagent --save-dev ...
python爬虫抓取数据
URL管理器实现方式:1. 内存python内存待爬取URL集合:set()已爬取URL集合:set() 2. 关系数据库MySQLurls(url, is_crawled) 3. 缓存数据库(高性能 ...
[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据
接着上一遍,在用Selenium+phantomjs 抓取数据过程中发现,有时候抓取不到,所以又测试了用Selenium+浏览器驱动的方式:具体代码如下: #coding=utf-8import os ...
[Python爬虫] 之八：Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...

随机推荐

为什么不允许使用 Java 静态构造函数？
不允许使用 Java 静态构造函数,但是为什么呢?在深入探讨不允许使用静态构造函数的原因之前,让我们看看如果要使构造函数静态化会发生什么. Java 静态构造函数假设我们有一个定义为的类: pu ...
一次业务网关用ASP.NET Core 2.1重构的小结
目录前言统一鉴权服务限流路由转发参数重组链路跟踪熔断降级服务计次业务指标监控日志记录迭代更新总结前言对于API网关,业界貌似对它进行下划分,有下面几个分类/场景. 面向We ...
用go-module作为包管理器搭建go的web服务器
本篇博客主要介绍了如何从零开始,使用Go Module作为依赖管理,基于Gin来一步一步搭建Go的Web服务器.并使用Endless来使服务器平滑重启,使用Swagger来自动生成Api文档. 源码在 ...
LinqMethod 实现 LeftJoin
LinqMethod 实现 LeftJoin Intro 有时候我们想实现 leftJoin 但是 Linq 提供的 Join 相当于是 INNER JOIN,于是就打算实现一个 LeftJoin 的 ...
Spring5源码解析4-refresh方法之invokeBeanFactoryPostProcessors
invokeBeanFactoryPostProcessors(beanFactory);方法源码如下: protected void invokeBeanFactoryPostProcessors( ...
【干货】SqlServer 总结几种存储过程分页的使用
就我而言写代码最烦的就是处理数据,其中之一就是分页的使用. 有的代码写多了,总结出一套适用自己的分页方法:有的查一下资料借鉴一下套用起来也达到目的. 那么小编在这里给大家总结几个方法供大家做一下参考. ...
C#使用Emgu CV来进行图片人脸检测
项目需求:某市级组织考试,在考试前需审核考生采集表中的考生照片是否合格,由于要审核的考生信息采集表有很多,原先进行的是手动人工审核,比较费时费力,审核的要求也很简单,并不判断考生是否是图片本人(身份验 ...
JavaScript中break、continue和return的区别
break function myBreak() { for(var i = 0; i < 5; i++) { if(i == 3) { break; } console.log(i); } } ...
阿里Java完整学习资料
最近有很多读者问我如何系统的进行 Java 学习,于是我就翻阅一下之前收集的资料,分享给大家. 这份资料是我在市面上众多的 Java 学习资料中挑选出来的,相信肯定是精品.而且这份资料是出自阿里,具有 ...
web网页利用JavaScript实现对摄像头的调用
实现效果: 代码如下: <!DOCTYPE html> <html lang="zh"> <head> <meta charset=&qu ...