Java爬虫系列三：使用Jsoup解析HTML

在上一篇随笔《Java爬虫系列二：使用HttpClient抓取页面HTML》中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html，今天接着来看下爬虫的第二步--解析抓取到的html。

有请第二步的主角：Jsoup粉墨登场。下面我们把舞台交给Jsoup，让他完成本文剩下的内容。

============华丽的分割线=============

一、Jsoup自我介绍

大家好，我是Jsoup。

我是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，用Java写爬虫的同行们十之八九用过我。为什么呢？因为我在这个方面功能强大、使用方便。不信的话，可以继续往下看，代码是不会骗人的。

二、Jsoup解析html

上一篇中，HttpClient大哥已经抓取到了博客园首页的html，但是一堆的代码，不是程序员的人们怎么能看懂呢？这个就需要我这个html解析专家出场了。

下面通过案例展示如何使用Jsoup进行解析，案例中将获取博客园首页的标题和第一页的博客文章列表

请看代码（在上一篇代码的基础上进行操作，如果还不知道如何使用httpclient的朋友请跳转页面进行阅读）：

引入依赖

<dependency>

    <groupId>org.jsoup</groupId>

    <artifactId>jsoup</artifactId>

    <version>1.12.1</version>

</dependency>

实现代码。实现代码之前首先要分析下html结构。标题是<title>不用说了，那文章列表呢？按下浏览器的F12，查看页面元素源码，你会发现列表是一个大的div，id="post_list",每篇文章是小的div,class="post_item"

接下来就可以开始代码了，Jsoup核心代码如下（整体源码会在文章末尾给出）：

/**

                 * 下面是Jsoup展现自我的平台

                 */

                //6.Jsoup解析html

                Document document = Jsoup.parse(html);

                //像js一样，通过标签获取title

                System.out.println(document.getElementsByTag("title").first());

                //像js一样，通过id 获取文章列表元素对象

                Element postList = document.getElementById("post_list");

                //像js一样，通过class 获取列表下的所有博客

                Elements postItems = postList.getElementsByClass("post_item");

                //循环处理每篇博客

                for (Element postItem : postItems) {

                    //像jquery选择器一样，获取文章标题元素

                    Elements titleEle = postItem.select(".post_item_body a[class='titlelnk']");

                    System.out.println("文章标题:" + titleEle.text());;

                    System.out.println("文章地址:" + titleEle.attr("href"));

                    //像jquery选择器一样，获取文章作者元素

                    Elements footEle = postItem.select(".post_item_foot a[class='lightblue']");

                    System.out.println("文章作者:" + footEle.text());;

                    System.out.println("作者主页:" + footEle.attr("href"));

                    System.out.println("*********************************");

                }

根据以上代码你会发现，我通过Jsoup.parse(String html)方法对httpclient获取到的html内容进行解析获取到Document，然后document可以有两种方式获取其子元素：像js一样可以通过getElementXXXX的方式和像jquery 选择器一样通过select()方法。无论哪种方法都可以，我个人推荐用select方法处理。对于元素中的属性，比如超链接地址，可以使用element.attr(String)方法获取，对于元素的文本内容通过element.text()方法获取。

执行代码，查看结果（不得不感慨博客园的园友们真是太厉害了，从上面分析首页html结构到Jsoup分析的代码执行完，这段时间首页多了那么多文章）
由于新文章发布的太快了，导致上面的截图和这里的输出有些不一样。

三、Jsoup的其他用法

我，Jsoup，除了可以在httpclient大哥的工作成果上发挥作用，我还能自己独立干活，自己抓取页面，然后自己分析。分析的本领已经在上面展示过了，下面来展示自己抓取页面，其实很简单，所不同的是我直接获取到的是document，不用再通过Jsoup.parse()方法进行解析了。

除了能直接访问网上的资源，我还能解析本地资源：

代码：

public static void main(String[] args) {

        try {

            Document document = Jsoup.parse(new File("d://1.html"), "utf-8");

            System.out.println(document);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

四、Jsoup另一个值得一提的功能

你肯定有过这种经历，在你的页面文本框中，如果输入html元素的话，保存后再查看很大概率会导致页面排版乱七八糟，如果能对这些内容进行过滤的话，就完美了。

刚好我Jsoup就能做到。

public static void main(String[] args) {

        String unsafe = "<p><a href='网址' onclick='stealCookies()'>博客园</a></p>";

        System.out.println("unsafe: " + unsafe);

        String safe = Jsoup.clean(unsafe, Whitelist.basic());

        System.out.println("safe: " + safe);

    }

通过Jsoup.clean方法，用一个白名单进行过滤。执行结果：

unsafe: <p><a href='网址' onclick='stealCookies()'>博客园</a></p>

safe: <p><a rel="nofollow">博客园</a></p>

五、结束语

通过以上大家相信我很强大了吧，不仅可以解析HttpClient抓取到的html元素，我自己也能抓取页面dom，我还能load并解析本地保存的html文件。

此外，我还能通过一个白名单对字符串进行过滤，筛掉一些不安全的字符。

最最重要的，上面所有功能的API的调用都比较简单。

============华丽的分割线=============

码字不易，点个赞再走呗~~

最后，附上案例中解析博客园首页文章列表的完整源码：

package httpclient_learn;

import java.io.IOException;

import org.apache.http.HttpEntity;

import org.apache.http.HttpStatus;

import org.apache.http.client.ClientProtocolException;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.client.utils.HttpClientUtils;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class HttpClientTest {

    public static void main(String[] args) {

        //1.生成httpclient，相当于该打开一个浏览器

        CloseableHttpClient httpClient = HttpClients.createDefault();

        CloseableHttpResponse response = null;

        //2.创建get请求，相当于在浏览器地址栏输入 网址

        HttpGet request = new HttpGet("https://www.cnblogs.com/");

        //设置请求头，将爬虫伪装成浏览器

        request.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36");

//        HttpHost proxy = new HttpHost("60.13.42.232", 9999);

//        RequestConfig config = RequestConfig.custom().setProxy(proxy).build();

//        request.setConfig(config);

        try {

            //3.执行get请求，相当于在输入地址栏后敲回车键

            response = httpClient.execute(request);

            //4.判断响应状态为200，进行处理

            if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

                //5.获取响应内容

                HttpEntity httpEntity = response.getEntity();

                String html = EntityUtils.toString(httpEntity, "utf-8");

                System.out.println(html);

                /**

                 * 下面是Jsoup展现自我的平台

                 */

                //6.Jsoup解析html

                Document document = Jsoup.parse(html);

                //像js一样，通过标签获取title

                System.out.println(document.getElementsByTag("title").first());

                //像js一样，通过id 获取文章列表元素对象

                Element postList = document.getElementById("post_list");

                //像js一样，通过class 获取列表下的所有博客

                Elements postItems = postList.getElementsByClass("post_item");

                //循环处理每篇博客

                for (Element postItem : postItems) {

                    //像jquery选择器一样，获取文章标题元素

                    Elements titleEle = postItem.select(".post_item_body a[class='titlelnk']");

                    System.out.println("文章标题:" + titleEle.text());;

                    System.out.println("文章地址:" + titleEle.attr("href"));

                    //像jquery选择器一样，获取文章作者元素

                    Elements footEle = postItem.select(".post_item_foot a[class='lightblue']");

                    System.out.println("文章作者:" + footEle.text());;

                    System.out.println("作者主页:" + footEle.attr("href"));

                    System.out.println("*********************************");

                }

            } else {

                //如果返回状态不是200，比如404（页面不存在）等，根据情况做处理，这里略

                System.out.println("返回状态不是200");

                System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));

            }

        } catch (ClientProtocolException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        } finally {

            //6.关闭

            HttpClientUtils.closeQuietly(response);

            HttpClientUtils.closeQuietly(httpClient);

        }

    }

}

Java爬虫系列三：使用Jsoup解析HTML的更多相关文章

【Java集合系列三】Vector-Stack解析
2017-07-29 12:59:14 一.简介 1.Vector继承关系 2.Vector类扩容 Vector类的实现和ArrayList极其相似,都使用数组存储元素,但是扩容策略不一样,Array ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址
1. 目标使用webmagic爬取动作电影列表信息爬取电影<海王>详细信息[电影名称.电影迅雷下载地址列表] 2. 爬取最新动作片列表获取电影列表页面数据来源地址访问http:// ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
爬虫系列(三) urllib的基本使用
一.urllib 简介 urllib 是 Python3 中自带的 HTTP 请求库,无需复杂的安装过程即可正常使用,十分适合爬虫入门 urllib 中包含四个模块,分别是 request:请求处理模 ...
java‘小秘密’系列(三)---HashMap
java'小秘密'系列(三)---HashMap java基础系列 java'小秘密'系列(一)---String.StringBuffer.StringBuilder java'小秘密'系列(二)- ...
java爬虫系列第一讲-爬虫入门
1. 概述 java爬虫系列包含哪些内容? java爬虫框架webmgic入门使用webmgic爬取 http://ady01.com 中的电影资源(动作电影列表页.电影下载地址等信息) 使用web ...
java爬虫系列目录
1. java爬虫系列第一讲-爬虫入门(爬取动作片列表) 2. java爬虫系列第二讲-爬取最新动作电影<海王>迅雷下载地址 3. java爬虫系列第三讲-获取页面中绝对路径的各种方法 4 ...
Java爬虫系列一：写在开始前
最近在研究Java爬虫,小有收获,打算一边学一边跟大家分享下,在干货开始前想先跟大家啰嗦几句. 一.首先说下为什么要研究Java爬虫 Python已经火了很久了,它功能强大,其中很擅长的一个就是写爬虫 ...

随机推荐

【linux】【CPU】【x86】平台说明
节选自 <鸟哥的linux私房菜> http://cn.linux.vbird.org/linux_basic/0520rpm_and_srpm_1.php 操作硬件平台:这是个很好玩的地 ...
【laravel】【转发】laravel 导入导出excel文档
1.简介 Laravel Excel 在 Laravel 5 中集成 PHPOffice 套件中的 PHPExcel ,从而方便我们以优雅的.富有表现力的代码实现Excel/CSV文件的导入和导出 ...
EditPlus 比较完整的快捷键记录
FileFtpUpload Ctrl+Shift+S 上传文件到FTP 服务器 FileNew Ctrl+N 新建普通的文本文档 FileNewHtml Ctrl+Shift+N 创建一个空白的 HT ...
GoF23种设计模式之行为型模式之责任链模式
一.概述使多个对象都有机会处理请求,从而避免请求的发送者和接收者之间的耦合关系.将这些对象连成一条链,并且沿着这条链传递请求,直到有一个对象处理它为止.其设计思想是:给对多个对象处理一个请求的机会, ...
让Python带你看一场唯美的横飘雪!
“北国风光,千里冰封,万里雪飘”,这句诗描写了一句美丽肃静的风光图,恰逢昨天笔者这边也下了一场比较大的雪,要不今天就用Python带大家也来领略一次美丽的雪景? 开发环境版本:Python3.6 系 ...
Linux编程中链接库的使用
链接库本质上是一段可执行的二进制代码,可以被操作系统载入内存执行.按加载的时机不同,链接库可以分为静态链接库和动态链接库. 静态链接库:编译过程中加载进可执行文件的库(静态库省去了运行时加载的消耗,但 ...
python基础学习笔记——反射
对编程语言比较熟悉的朋友,应该知道“反射”这个机制.Python作为一门动态语言,当然不会缺少这一重要功能.然而,在网络上却很少见到有详细或者深刻的剖析论文.下面结合一个web路由的实例来阐述pyth ...
配置LAMP环境
对我这种Linux小菜鸡来说,集成环境是最好的选择. 一,下载wget --no-check-certificate https://github.com/teddysun/lamp-yum/arch ...
tomcat6-endpoint设计
之前写的一个ppt 搬到博客来
ubuntu linux下各种格式软件包的安装卸载
http://www.cnblogs.com/mo-beifeng/archive/2011/08/14/2137954.html

Java爬虫系列三：使用Jsoup解析HTML

Java爬虫系列三：使用Jsoup解析HTML的更多相关文章

随机推荐

热门专题