使用selenium爬虫抓取数据

写在前面

本来这篇文章该几个月前写的，后来忙着忙着就给忘记了。
ps:事多有时候反倒会耽误事。
几个月前，记得群里一朋友说想用selenium去爬数据，关于爬数据，一般是模拟访问某些固定网站，将自己关注的信息进行爬取，然后再将爬出的数据进行处理。
他的需求是将文章直接导入到富文本编辑器去发布，其实这也是爬虫中的一种。
其实这也并不难，就是UI自动化的过程，下面让我们开始吧。

准备工具/原料

1、java语言
2、IDEA开发工具
3、jdk1.8
4、selenium-server-standalone（3.0以上版本）

步骤

1、分解需求：

需求重点主要是要保证原文格式样式都保留：
将要爬取文章,全选并复制
将复制后的文本，粘贴到富文本编辑器中即可

2、代码实现思路：

键盘事件模拟CTRL+A全选
键盘事件模拟CTRL+C复制
键盘事件模拟CTRL+V粘贴

3、实例代码

import org.junit.AfterClass;

import org.junit.BeforeClass;

import org.junit.Test;

import org.openqa.selenium.By;

import org.openqa.selenium.WebDriver;

import org.openqa.selenium.chrome.ChromeDriver;

import java.awt.*;

import java.awt.event.KeyEvent;

import java.util.concurrent.TimeUnit;

/**

 * @author rongrong

 * Selenium模拟访问网站爬虫操作代码示例

 */

public class Demo {

    private static WebDriver driver;

    static final int MAX_TIMEOUT_IN_SECONDS = 5;

    @BeforeClass

    public static void setUpBeforeClass() throws Exception {

        driver = new ChromeDriver();

        String url = "https://temai.snssdk.com/article/feed/index?id=6675245569071383053&subscribe=5501679303&source_type=28&content_type=1&create_user_id=34013&adid=__AID__&tt_group_id=6675245569071383053";

        driver.manage().window().maximize();

        driver.manage().timeouts().implicitlyWait(MAX_TIMEOUT_IN_SECONDS, TimeUnit.SECONDS);

        driver.get(url);

    }

    @AfterClass

    public static void tearDownAfterClass() throws Exception {

        if (driver != null) {

            System.out.println("运行结束！");

            driver.quit();

        }

    }

    @Test

    public void test() throws InterruptedException {

        Robot robot = null;

        try {

            robot = new Robot();

        } catch (AWTException e1) {

            e1.printStackTrace();

        }

        robot.keyPress(KeyEvent.VK_CONTROL);

        robot.keyPress(KeyEvent.VK_A);

        robot.keyRelease(KeyEvent.VK_A);

        Thread.sleep(2000);

        robot.keyPress(KeyEvent.VK_C);

        robot.keyRelease(KeyEvent.VK_C);

        robot.keyRelease(KeyEvent.VK_CONTROL);

        driver.get("https://ueditor.baidu.com/website/onlinedemo.html");

        Thread.sleep(2000);

        driver.switchTo().frame(0);

        driver.findElement(By.tagName("body")).click();

        robot.keyPress(KeyEvent.VK_CONTROL);

        robot.keyPress(KeyEvent.VK_V);

        robot.keyRelease(KeyEvent.VK_V);

        robot.keyRelease(KeyEvent.VK_CONTROL);

        Thread.sleep(2000);

    }

}

写在后面

笔者并不是特别建议使用selenium做爬虫，原因如下：

速度慢:

每次运行爬虫都要打开一个浏览器，初始化还需要加载图片、JS渲染等等一大堆东西；

占用资源太多:

有人说，把换成无头浏览器，原理都是一样的，都是打开浏览器，而且很多网站会验证参数，如果对方看到你恶意请求访问，会办了你的请求，然后你又要考虑更换请求头的事情，事情复杂程度不知道多了多少，还得去改代码，麻烦死了。

对网络的要求会更高:

加载了很多可能对您没有价值的补充文件（如css，js和图像文件）。与真正需要的资源（使用单独的HTTP请求）相比，这可能会产生更多的流量。

使用selenium爬虫抓取数据的更多相关文章

C#使用Selenium+PhantomJS抓取数据
本文主要介绍了C#使用Selenium+PhantomJS抓取数据的方法步骤,具有很好的参考价值,下面跟着小编一起来看下吧手头项目需要抓取一个用js渲染出来的网站中的数据.使用常用的httpclie ...
基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口统一输出接口数据api.适合正在学习Vue,AngularJs框架学习开发demo,需要接口并保证接口不跨 ...
selenium+chrome抓取数据，运行js
某些特殊的网站需要用selenium来抓取数据,比如用js加密的,破解难度大的 selenium支持linux和win,前提是必须安装python3,环境配置好抓取代码: #!/usr/bin/en ...
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时, ...
Java 实现 HttpClients+jsoup，Jsoup，htmlunit，Headless Chrome 爬虫抓取数据
最近整理一下手头上搞过的一些爬虫,有HttpClients+jsoup,Jsoup,htmlunit,HeadlessChrome 一,HttpClients+jsoup,这是第一代比较low,很快就 ...
Nodejs实现爬虫抓取数据
开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请自行百度安装教程...... 1.在项目文件夹安装两个必须的依赖包 npm install superagent --save-dev ...
python爬虫抓取数据
URL管理器实现方式:1. 内存python内存待爬取URL集合:set()已爬取URL集合:set() 2. 关系数据库MySQLurls(url, is_crawled) 3. 缓存数据库(高性能 ...
[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据
接着上一遍,在用Selenium+phantomjs 抓取数据过程中发现,有时候抓取不到,所以又测试了用Selenium+浏览器驱动的方式:具体代码如下: #coding=utf-8import os ...
[Python爬虫] 之八：Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...

随机推荐

数据库——数据库设计 E-R图向关系模型的转换
1.将下列物资管理E-R图转换为关系模式: 转换原则 ⒈ 一个实体型转换为一个关系模式.关系的属性:实体型的属性关系的码:实体型的码 ⒉ 一个m:n联系转换为一个关系模式(初步,以后可能调整). ...
死磕 java同步系列之ReentrantLock VS synchronized——结果可能跟你想的不一样
问题 (1)ReentrantLock有哪些优点? (2)ReentrantLock有哪些缺点? (3)ReentrantLock是否可以完全替代synchronized? 简介 synchroniz ...
python-execjs(调用js)
一.安装 pip3 install PyExecJS 电脑上要有nodejs环境二.使用一.获取js字符串首先将js保存至于本地文件或者你可以可以直接读到内存,必须让js以字符串的形式展示注意 ...
int[]里数的个数怎么由输入决定？-----动态数组。
java中如何创建动态数组?(摘自百度知道) Java动态数组是一种可以任意伸缩数组长度的对象,在Java中比较常用的是ArrayList,ArrayList是javaAPI中自带的java.util ...
python数据挖掘之数据探索第一篇
目录数据质量分析当我们得到数据后,接下来就是要考虑样本数据集的数据和质量是否满足建模的要求?是否出现不想要的数据?能不能直接看出一些规律或趋势?每个因素之间的关系是什么? 通过检验数据集的 ...
Dynamics 365 Customer Engagement中使用JavaScript和C#调用操作Action示例
微软动态CRM专家罗勇 ,回复334或者20190509可方便获取本文,同时可以在第一间得到我发布的最新博文信息,follow me! Action (操作)是流程的一种,可以在工作流中调用,可以使用 ...
多个浏览器下应用前端JS实现一键导出excel表
自己试验了几种方法,找到一种较为全面的一种方式一键输出Excel表格,代码如下 <!DOCTYPE html> <html> <head lang="en&qu ...
DIY客户端框架
C/S类型的客户端做过好多轮了,在架构上每次都调整优化一部分,慢慢的形成了DIY的框架性东西. 可是最近这一看呢,已经不像MVC了,然后有一天看到了MVP概念,咦!很像.再一看,嗯,就该是MVP. M ...
安卓开发笔记（三十二）:banner轮播图的实现
一.activity.xml 我这里主要爬取的爱奇艺首页的图片进行轮播,应用了两个github上的开源库,一个banner的库,一个加载网络图片的库,用开源库能够极大地节省我们编写代码的时间. < ...
JavaScriptCore
在移动的混合开发中经常用到OC与JS的交互,就涉及iOS中的JavaScriptCore类,下面终结如下 JavaScriptCore中的类在项目中引入JavaScriptCore后,链到头文件中, ...