Selenium+PhantomJs 爬取网页内容

利用Selenium和PhantomJs 可以模拟用户操作，爬取大多数的网站。下面以新浪财经为例，我们抓取新浪财经的新闻版块内容。

1.依赖的jar包。我的项目是普通的SSM单间的WEB工程。最后一个jar包是用来在抓取到网页dom后做网页内容解析的。

<!-- https://mvnrepository.com/artifact/org.seleniumhq.selenium/selenium-java -->

        <dependency>

            <groupId>org.seleniumhq.selenium</groupId>

            <artifactId>selenium-java</artifactId>

            <version>3.2.0</version>

        </dependency>

        <dependency>

            <groupId>javax</groupId>

            <artifactId>javaee-web-api</artifactId>

            <version>7.0</version>

            <scope>provided</scope>

        </dependency>

        <!-- https://mvnrepository.com/artifact/com.google.guava/guava -->

        <dependency>

            <groupId>com.google.guava</groupId>

            <artifactId>guava</artifactId>

            <version>20.0</version>

        </dependency>

        <dependency>

            <groupId>cn.wanghaomiao</groupId>

            <artifactId>JsoupXpath</artifactId>

            <version>2.2</version>

        </dependency>

2.获取网页dom内容

package com.nsjr.grab.util;

import java.util.List;

import java.util.concurrent.TimeUnit;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.openqa.selenium.phantomjs.PhantomJSDriver;

import org.openqa.selenium.phantomjs.PhantomJSDriverService;

import org.openqa.selenium.remote.DesiredCapabilities;

import cn.wanghaomiao.xpath.model.JXDocument;

@SuppressWarnings("deprecation")

public class SeleniumUtil {

    public static JXDocument getDocument(String driverUrl,String pageUrl){

        JXDocument jxDocument = null;

        PhantomJSDriver driver = null;

        try{

            System.setProperty("phantomjs.binary.path", driverUrl);

            System.setProperty("webdriver.chrome.driver", driverUrl);

            DesiredCapabilities dcaps = new DesiredCapabilities();

            //ssl证书支持

            dcaps.setCapability("acceptSslCerts", true);

            //截屏支持

            dcaps.setCapability("takesScreenshot", true);

            //css搜索支持

            dcaps.setCapability("cssSelectorsEnabled", true);

            //js支持

            dcaps.setJavascriptEnabled(true);

            //驱动支持

            dcaps.setCapability(PhantomJSDriverService.PHANTOMJS_EXECUTABLE_PATH_PROPERTY,driverUrl);

            //创建无界面浏览器对象

            driver = new PhantomJSDriver(dcaps);

            //WebDriver driver = new ChromeDriver(dcaps);

            driver.get(pageUrl);

            driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);

            Document document = Jsoup.parse(driver.getPageSource());

            jxDocument = new JXDocument(document);

        }catch(Exception e){

            e.printStackTrace();

        }finally{

            if(driver != null){

                driver.quit();

            }

        }

        return jxDocument;

    }

    public static String getProperty(List<Object> list){

        if(list.isEmpty()){

            return "";

        }else{

            return list.get(0).toString();

        }

    }

}

3.解析并保存内容

JXDocument jxDocument = SeleniumUtil.getDocument(captureUrl.getDriverUrl(), captureUrl.getSinaNews());

        //保存第一部分加粗新闻

        List<Object> listh3 = jxDocument.sel("//div[@id='impNews1']/div[@id='fin_tabs0_c0']/div[@id='blk_hdline_01']/h3/a");

        for(Object a :listh3){

                JXDocument doc = new JXDocument(a.toString());

                //System.out.println("地址："+doc.sel("//a/@href"));

                //System.out.println("标题："+doc.sel("//text()"));

                saveNews(SeleniumUtil.getProperty(doc.sel("//text()")), SeleniumUtil.getProperty(doc.sel("//a/@href")), Constant.NEWS_TYPE_BOTTOM, Constant.NEWS_SOURCE_SINA);

        }

        //保存其余新闻

        List<Object> listP = jxDocument.sel("//div[@id='impNews1']/div[@id='fin_tabs0_c0']/div[@id='blk_hdline_01']/p/a");

        for(Object a :listP){

            JXDocument doc = new JXDocument(a.toString());

            //System.out.println("地址："+doc.sel("//a/@href"));

            //System.out.println("标题："+doc.sel("//text()"));

            saveNews(SeleniumUtil.getProperty(doc.sel("//text()")), SeleniumUtil.getProperty(doc.sel("//a/@href")), Constant.NEWS_TYPE_BOTTOM, Constant.NEWS_SOURCE_SINA);

        }

        //保存第二部分新闻

        List<Object> listpart2 = jxDocument.sel("//div[@id='impNews1']/div[@id='fin_tabs0_c0']/div[2]/ul");

        for(Object a :listpart2){

            JXDocument doc = new JXDocument(a.toString());

            List<Object> alist = doc.sel("//li/a");

            for(Object a2 :alist){

                JXDocument doc2 = new JXDocument(a2.toString());

                //System.out.println("地址："+doc2.sel("//a/@href"));

                //System.out.println("标题："+doc2.sel("//text()"));

                saveNews(

                        SeleniumUtil.getProperty(doc2.sel("//text()")),

                        SeleniumUtil.getProperty(doc2.sel("//a/@href")),

                        Constant.NEWS_TYPE_BOTTOM,

                        Constant.NEWS_SOURCE_SINA

                    );

            }

        }

4.解释

captureUrl.getDriverUrl(), captureUrl.getSinaNews() 这两个地址分别是PhantomJs工具的地址和要爬取的网站的地址，其中

sina_news = https://finance.sina.com.cn/

driverUrl= D:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe

关于PhantomJs 工具的下载可以直接去官网下载 http://phantomjs.org/download.html，有windows 和Linux版供下载。关于网页结构的解析使用JsoupXpath ，是一个国人写的html文档解析工具包，挺好用的。语法可以参考Xpath的相关语法进行节点的选取。

5.爬取结果。由于项目需求较为简单，对实时性和性能要求不高，所以只做到入库，即可满足需求。

最后，刚开始接触爬虫类的东西，有的需求webmagic 可以满足，有的需要其他方式，需要具体问题具体分析。尚在摸索阶段，本文仅仅是提供一种解决思路。

Selenium+PhantomJs 爬取网页内容的更多相关文章

Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页
Python3.x:Selenium+PhantomJS爬取带Ajax.Js的网页前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
selenium+phantomjs爬取bilibili
selenium+phantomjs爬取bilibili 首先我们要下载phantomjs 你可以到 http://phantomjs.org/download.html 这里去下载下载完之后解压到 ...
python+selenium+PhantomJS爬取网页动态加载内容
一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览 ...
selenium + PhantomJS 爬取js页面
from selenium import webdriver import time _url="http://xxxxxxxx.com" driver = webdriver.P ...
selenium + phantomjs 爬取落网音乐
题记: 作为一个业余程序猿,最大的爱好就是电影和音乐了,听音乐当然要来点有档次的.落网的音乐的逼格有点高,一听听了10年.学习python一久了,于是想用python技术把落网的音乐爬下来随便听. 目 ...
Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页及获取JS返回值
前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但是网页的DOM元素内容却可以动态的变化.如果处理这种网页是还用requests库或者 ...
看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）
这里只是学习一下动态加载页面内容的抓取,并不适用于所有的页面. 使用到的工具就是python selenium和phantomjs,另外调试的时候还用了firefox的geckodriver.exe. ...
selenium+phantomjs爬取动态页面数据
1.安装selenium pip/pip3 install selenium 注意依赖关系 2.phantomjs for windows 下载地址:http://phantomjs.org/down ...

随机推荐

Qt修改图片的背景色及设置背景色为透明的方法
先上干货. Qt下修改图片背景色的方法: 方法一: QPixmap CKnitWidget::ChangeImageColor(QPixmap sourcePixmap, QColor origCol ...
计算机网络（十一），HTTP和HTTPS区别
目录 1.SSL(Security Sockets Layer,安全套接层) 2.加密方式 3.HTTPS数据传输流程 4.HTTP和HTTPS的区别 5.HTTP真的很安全吗十一.HTTP和HTT ...
在对 Angular 的文档 aio 进行编译的时候提示错误
error angular-examples-master@1.0.0: The engine "yarn" is incompatible with this module. E ...
51 Nod 1066 Bash游戏
1066 Bash游戏基准时间限制:1 秒空间限制:131072 KB 分值: 0 难度:基础题收藏关注有一堆石子共有N个.A B两个人轮流拿,A先拿.每次最少拿1颗,最多拿K颗,拿到 ...
学习笔记：python3，代码。小例子习作
http://www.cnblogs.com/qq21270/p/7634025.html 学习笔记:python3,一些基本语句(一些基础语法的代码,被挪到这里了) 日期和时间操作 http://b ...
python学习之路（4）
使用list和tuple Python内置的一种数据类型是列表:list.list是一种有序的集合,可以随时添加和删除其中的元素. 比如,列出班里所有同学的名字,就可以用一个list表示: >& ...
Struts2拦截器和过滤器的区别？
①过滤器依赖于Servlet容器,而拦截器不依赖于Servlet容器. ②Struts2 拦截器只能对Action请求起作用,而过滤器则可以对几乎所有请求起作用. ③拦截器可以访问 Action上下 ...
LeetCode 300. 最长上升子序列（Longest Increasing Subsequence）
题目描述给出一个无序的整形数组,找到最长上升子序列的长度. 例如, 给出 [10, 9, 2, 5, 3, 7, 101, 18], 最长的上升子序列是 [2, 3, 7, 101],因此它的长度是 ...
redis哨兵集群搭建
下载redis jar包redis-4.0.11.tar.gz放在/data/redis目录下解压命令:tar -zxvf redis-4.0.11.tar.gz 解压后如图所示在/usr/lo ...
Boston House Price with Scikit-Learn
Boston House Price with Scikit-Learn Data Description >>> from sklearn.datasets import load ...

Selenium+PhantomJs 爬取网页内容

Selenium+PhantomJs 爬取网页内容的更多相关文章

随机推荐

热门专题