java爬虫系列第三讲-获取页面中绝对路径的各种方法

在使用webmgiac的过程中，很多时候我们需要抓取连接的绝对路径，总结了几种方法，示例代码放在最后。

以和讯网的一个页面为例：

xpath方式获取

log.info("{}", page.getHtml().xpath("//div[@id='cyldata']").links().all());

log.info("{}", page.getHtml().xpath("//div[@id='cyldata']//a//@abs:href").all());

xpath+css选择器方式获取

log.info("{}", page.getHtml().xpath("//div[@id='cyldata']").css("a", "abs:href").all());

css选择器方式获取

log.info("{}", page.getHtml().css("div[id='cyldata']").css("a", "abs:href").all());

log.info("{}", page.getHtml().css("div[id='cyldata']").links().all());

log.info("{}", page.getHtml().css("div[id='cyldata'] a").links().all());

log.info("{}", page.getHtml().css("div[id='cyldata'] a", "abs:href").all());

jsoup方式获取

for (Element element : Jsoup.parse(page.getRawText(), page.getRequest().getUrl()).select("#cyldata a")) {

    log.info("{}", element.attr("abs:href"));

    log.info("{}", element.absUrl("href"));

}

jsoup中stringutil工具类方式获取

for (Element element : Jsoup.parse(page.getRawText(), page.getRequest().getUrl()).select("#cyldata a")) {

    log.info("{}", StringUtil.resolve(page.getRequest().getUrl(), element.attr("href")));

}

示例代码

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <parent>

        <groupId>org.springframework.boot</groupId>

        <artifactId>spring-boot-starter-parent</artifactId>

        <version>2.1.4.RELEASE</version>

        <relativePath/> <!-- lookup parent from repository -->

    </parent>

    <groupId>com.ady01</groupId>

    <artifactId>java-pachong</artifactId>

    <version>0.0.1-SNAPSHOT</version>

    <name>java-pachong</name>

    <description>java爬虫项目</description>

    <properties>

        <java.version>1.8</java.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.springframework.boot</groupId>

            <artifactId>spring-boot-starter</artifactId>

        </dependency>

        <dependency>

            <groupId>org.projectlombok</groupId>

            <artifactId>lombok</artifactId>

            <optional>true</optional>

        </dependency>

        <dependency>

            <groupId>org.springframework.boot</groupId>

            <artifactId>spring-boot-starter-test</artifactId>

            <scope>test</scope>

        </dependency>

        <!-- webmagic start -->

        <dependency>

            <groupId>us.codecraft</groupId>

            <artifactId>webmagic-core</artifactId>

            <version>0.7.3</version>

            <exclusions>

                <exclusion>

                    <artifactId>fastjson</artifactId>

                    <groupId>com.alibaba</groupId>

                </exclusion>

                <exclusion>

                    <artifactId>commons-io</artifactId>

                    <groupId>commons-io</groupId>

                </exclusion>

                <exclusion>

                    <artifactId>commons-io</artifactId>

                    <groupId>commons-io</groupId>

                </exclusion>

                <exclusion>

                    <artifactId>fastjson</artifactId>

                    <groupId>com.alibaba</groupId>

                </exclusion>

                <exclusion>

                    <artifactId>fastjson</artifactId>

                    <groupId>com.alibaba</groupId>

                </exclusion>

                <exclusion>

                    <artifactId>log4j</artifactId>

                    <groupId>log4j</groupId>

                </exclusion>

                <exclusion>

                    <artifactId>slf4j-log4j12</artifactId>

                    <groupId>org.slf4j</groupId>

                </exclusion>

            </exclusions>

        </dependency>

        <dependency>

            <groupId>us.codecraft</groupId>

            <artifactId>webmagic-extension</artifactId>

            <version>0.7.3</version>

        </dependency>

        <dependency>

            <groupId>us.codecraft</groupId>

            <artifactId>webmagic-selenium</artifactId>

            <version>0.7.3</version>

        </dependency>

        <dependency>

            <groupId>net.minidev</groupId>

            <artifactId>json-smart</artifactId>

            <version>2.2.1</version>

        </dependency>

        <!-- webmagic end -->

        <dependency>

            <groupId>com.alibaba</groupId>

            <artifactId>fastjson</artifactId>

            <version>1.2.49</version>

        </dependency>

        <dependency>

            <groupId>commons-lang</groupId>

            <artifactId>commons-lang</artifactId>

            <version>2.6</version>

        </dependency>

        <dependency>

            <groupId>commons-io</groupId>

            <artifactId>commons-io</artifactId>

            <version>2.6</version>

        </dependency>

        <dependency>

            <groupId>commons-codec</groupId>

            <artifactId>commons-codec</artifactId>

            <version>1.11</version>

        </dependency>

        <dependency>

            <groupId>commons-collections</groupId>

            <artifactId>commons-collections</artifactId>

            <version>3.2.2</version>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <plugin>

                <groupId>org.springframework.boot</groupId>

                <artifactId>spring-boot-maven-plugin</artifactId>

            </plugin>

        </plugins>

    </build>

</project>

package com.ady01.demo3;

import lombok.extern.slf4j.Slf4j;

import org.jsoup.Jsoup;

import org.jsoup.helper.StringUtil;

import org.jsoup.nodes.Element;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Request;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

/**

 * <b>description</b>：webmagic中获取绝对路径 <br>

 * <b>time</b>：2019/4/22 10:42 <br>

 * <b>author</b>：微信公众号：路人甲Java，专注于java技术分享（带你玩转 爬虫、分布式事务、异步消息服务、任务调度、分库分表、大数据等），喜欢请关注！

 */

@Slf4j

public class AbsHrefPageProcessor implements PageProcessor {

    Site site = Site.me().setSleepTime(1000);

    @Override

    public void process(Page page) {

        //获取超链接绝对路径的方式

        log.info("----------------------xpath方式获取------------------------");

        //xpath方式获取

        log.info("{}", page.getHtml().xpath("//div[@id='cyldata']").links().all());

        log.info("{}", page.getHtml().xpath("//div[@id='cyldata']//a//@abs:href").all());

        //xpath+css选择器方式获取

        log.info("----------------------xpath+css选择器方式获取------------------------");

        log.info("{}", page.getHtml().xpath("//div[@id='cyldata']").css("a", "abs:href").all());

        //css选择器方式获取

        log.info("----------------------css选择器方式获取------------------------");

        log.info("{}", page.getHtml().css("div[id='cyldata']").css("a", "abs:href").all());

        log.info("{}", page.getHtml().css("div[id='cyldata']").links().all());

        log.info("{}", page.getHtml().css("div[id='cyldata'] a").links().all());

        log.info("{}", page.getHtml().css("div[id='cyldata'] a", "abs:href").all());

        //jsoup方式获取

        log.info("----------------------jsoup方式获取------------------------");

        for (Element element : Jsoup.parse(page.getRawText(), page.getRequest().getUrl()).select("#cyldata a")) {

            log.info("{}", element.attr("abs:href"));

            log.info("{}", element.absUrl("href"));

        }

        //jsoup中stringutil工具类方式获取

        log.info("----------------------jsoup中stringutil工具类方式获取------------------------");

        for (Element element : Jsoup.parse(page.getRawText(), page.getRequest().getUrl()).select("#cyldata a")) {

            log.info("{}", StringUtil.resolve(page.getRequest().getUrl(), element.attr("href")));

        }

    }

    @Override

    public Site getSite() {

        return site;

    }

    public static void main(String[] args) {

        Request request = new Request("http://industry.hexun.com/c193_59.shtml");

        Spider.create(new AbsHrefPageProcessor()).addRequest(request).run();

    }

}

执行结果：

java爬虫系列第三讲-获取页面中绝对路径的各种方法的更多相关文章

java爬虫系列目录
1. java爬虫系列第一讲-爬虫入门(爬取动作片列表) 2. java爬虫系列第二讲-爬取最新动作电影<海王>迅雷下载地址 3. java爬虫系列第三讲-获取页面中绝对路径的各种方法 4 ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址
1. 目标使用webmagic爬取动作电影列表信息爬取电影<海王>详细信息[电影名称.电影迅雷下载地址列表] 2. 爬取最新动作片列表获取电影列表页面数据来源地址访问http:// ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
Java爬虫系列三：使用Jsoup解析HTML
在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...
java爬虫系列第一讲-爬虫入门
1. 概述 java爬虫系列包含哪些内容? java爬虫框架webmgic入门使用webmgic爬取 http://ady01.com 中的电影资源(动作电影列表页.电影下载地址等信息) 使用web ...
js获取页面中图片的总数
查看效果:http://keleyi.com/keleyi/phtml/image/9.htm 下面是完整代码: <html><body><div id="ke ...
jQuery基础学习5——JavaScript方法获取页面中的元素
给网页中的所有<p>元素添加onclick事件 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN& ...
获取页面中任意一个元素距离body的偏移量
//offSet:等同于jQuery中的offSet方法,获取页面中任意一个元素距离body的偏移量function offSet(curEle) { var totalLeft = null; va ...

随机推荐

node.js与ThreadLocal
ThreadLocal变量的说法来自于Java,这是在多线程模型下出现并发问题的一种解决方案. ThreadLocal变量作为线程内的局部变量,在多线程下可以保持独立,它存在于线程的生命周期内,可以 ...
干货，分享一次完整的CentOS升级内核脚本。
一.安装常用包 yum install wget vim screen net-tools lrzsz -y wget -O /etc/yum.repos.d/epel.repo http://mir ...
.NET Core微服务系列基础文章索引（目录导航Final版）
一.为啥要总结和收集这个系列? 今年从原来的Team里面被抽出来加入了新的Team,开始做Java微服务的开发工作,接触了Spring Boot, Spring Cloud等技术栈,对微服务这种架构有 ...
ab性能测试工具的使用
一.什么是ab ab,即Apache Benchmark,是一种用于测试Apache超文本传输协议(HTTP)服务器的工具. ab命令会创建很多的并发访问线程,模拟多个访问者同时对某一URL地址进行访 ...
Jedis异常解决：NOAUTH Authentication required
引言之前项目能够正常运行,因为默认选择db0,后来新的需求来了,不是默认db0,而是给参数选择db. 修改后代码如下,却报错NOAUTH Authentication required. 解决方法 ...
为什么range不是迭代器？range到底是什么类型？
迭代器是 23 种设计模式中最常用的一种(之一),在 Python 中随处可见它的身影,我们经常用到它,但是却不一定意识到它的存在.在关于迭代器的系列文章中(链接见文末),我至少提到了 23 种生成迭 ...
token:NLP之词形还原
已迁移到我新博客,阅读体验更佳token:NLP之词形还原完整代码实现放在我的github上:click me 一.任务描述形态还原算法: 输入一个单词如果词典里有该词,输出该词及其属性,转4, ...
实战web前端之：Bootstrap框架windows下安装与使用
Bootstrap是前端开发中比较受欢迎的框架,简洁且灵活.它基于HTML.CSS和JavaScript,HTML定义页面元素,CSS定义页面布局,而JavaScript负责页面元素的响应.Boots ...
MySQL和SQLyog的配置-安装及遇到的问题
1. 安装MySQL 我先是参考了菜鸟教程上的#Windows 上安装 MySQL #版块的安装教程,不过经历了种种磨难,我最后是按照#此篇博客#安装成功的. 这两篇教程最大的差别是在于下载的版本不同 ...
windows系统以及linux系统的优缺点以及区别
一.Linux以及Windows系统的优缺点对比 Windows Linux 优点 Windows Server系统相对于其他服务器系统而言,极其易用,极大降低使用者的学习成本. Linux系统是 ...

java爬虫系列第三讲-获取页面中绝对路径的各种方法

xpath方式获取

xpath+css选择器方式获取

css选择器方式获取

jsoup方式获取

jsoup中stringutil工具类方式获取

示例代码

java爬虫系列第三讲-获取页面中绝对路径的各种方法的更多相关文章

随机推荐

热门专题