Jsoup

当我们成功抓取到页面数据了之后，还需要对抓取的数据进行解析，而刚好，Jsoup 是一款专门解析 html 页面的技术。Jsoup是一款基于 Java 的HTML 解析器，可直接解析某个 URL 地址、HTML 、文本内容。可以通过DOM、CSS以及类似于JQuery的操作方法来取出和操作数据。

DOM 方式遍历文档

元素获取

根据id查询元素getElementById
```
document.getElementById("id");
```

根据标签获取元素getElementsByTag

document.getElementsByTag("title").first();

根据class获取元素getElementsByClass

document.getElementsByClass("item_name").last();

根据属性获取元素getElementsByAttribute

document.getElementsByAttribute("abc").first();

使用选择器语法查找元素

Jsoup elements 对象支持类似于CSS (或JQuery)的选择器语法，来实现非常强大和灵活的查找功能。这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果。

Selector选择器概述

tagname: 通过标签查找元素，比如：li
```
 Elements span = document.select("li");
```
#id: 通过 ID 查找元素，比如：# id
```
 document.select("#id").text();
```
.class: 通过 class 名称查找元素，比如：.class_a (class标签前面有个点别忘记)
```
 document.select(".class_a").text();
```
[attribute]: 利用属性查找元素，比如：[abc]
```
 document.select("[abc]").text();
```
[attr=value]: 利用属性值来查找元素，比如：[class=item_name]
```
 document.select("[class=item_name]").text();
```

Selector选择器组合使用

el#id : 元素 + ID，例如 p#id

el.class : 元素 + class，例如 div.class_a

el[attr] : 元素 + 属性名，例如 span[abc]

任意组合 : span[abc].class_a

查找某个元素下子元素：比如；.class_a li  就是查找 .class_a 下的所有 li 标签的内容

查找某个父元素下的直接子元素：比如  div#J_goodsList > ul > li  查找 div id为 J_goodsList  第一级（直接子元素）的ul，再找所有ul下的第一级li

父元素>*:  比如 ul > *   查找 ul 标签下所有直接子元素

Java网络爬虫技术《二》Jsoup的更多相关文章

Java网络爬虫技术《一》 HttpClient
HttpClient HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的.最新的.功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP ...
网络爬虫技术实现java依赖库整理输出
网络爬虫技术实现java依赖库整理输出目录 1 简介... 2 1.1 背景介绍... 2 1.2 现有方法优缺点对比... 2 2 实现方法... 2 ...
学 Java 网络爬虫，需要哪些基础知识？
说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...
Java 网络爬虫，就是这么的简单
这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看学 Java 网络爬虫,需要哪些基础知识.第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑 ...
Java网络爬虫笔记
Java网络爬虫笔记 HttpClient来代替浏览器发起请求. select找到的是元素,也就是elements,你想要获取具体某一个属性的值,还是要用attr("")方法.标签 ...
java网络爬虫基础学习（三）
尝试直接请求URL获取资源豆瓣电影 https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort= ...
java网络爬虫基础学习（一）
刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好. 一.爬虫介绍网络爬虫是一个自动提 ...
企业级Python开发大佬利用网络爬虫技术实现自动发送天气预告邮件
前天小编带大家利用Python网络爬虫采集了天气网的实时信息,今天小编带大家更进一步,将采集到的天气信息直接发送到邮箱,带大家一起嗨~~拓展来说,这个功能放在企业级角度来看,只要我们拥有客户的邮箱,之 ...
Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...

随机推荐

SSM整合二
总结  <delete id="deleteAll"> delete from tbl_emp where emp_id in & ...
基于mysql和Java Swing的简单课程设计
摘要现代化的酒店组织庞大.服务项目多.信息量大.要想提高效率.降低成本.提高服务质量和管理水平,进而促进经济效益,必须利用电脑网络技术处理宾馆酒店经营数据,实现酒店现代化的信息管理.本次课程设计运用 ...
Spring中常用重要的接口
Spring (ApplicationContext 初始化Bean的方法 refresh()) public void refresh() throws BeansException, Illega ...
刷题-力扣-230. 二叉搜索树中第K小的元素
230. 二叉搜索树中第K小的元素题目链接来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/kth-smallest-element-in-a ...
CentOS7部署SSH服务
1 ssh服务部署输入命令 yum list | grep ssh 查看可安装的软件包,选择openssh-service.x86_64 输入下面命令进行安装openssh服务 yum instal ...
12-SpringCloud GateWay
GateWay和Zuul说明 Zuul开发人员窝里斗,实属明日黄花重点关注Gate Way GateWay是什么上一代zuul 1.x官网 Gateway官网概述 Cloud全家桶中有个很重要的 ...
Supervisor服务开机自启动
要解决的问题在机器上部署自己编写的服务时候,我们可以使用Supervisor作为进程检活工具,用来自动重启服务. 但是当机器重启后,Supervisor却不能自动重启,那么谁来解决这个问题呢? 答案 ...
Core3.1WebApi使用MongoDB
好久没有使用MongoDB了,重新测试使用,版本不一样之前很多方法都使用不了了,下面为部分测试,下次再来更新测试测试中使用的命令 // 新增读写的用户 db.createUser({ user:'f ...
MySQL基础2——常用命令
注意:MySQL在centos中安装的是5.7版本的,编辑MySQL时会有个报错,需要执行: set @@global.sql_mode='STRICT_TRANS_TABLES,NO_ZERO_IN ...
Onenote实现OCR识别图片
OCR识别推荐两个软件: 1. Tesseract:一个开源的,由谷歌维护的OCR软件. 2. Onenote:微软Office附带或者可以自己独立安装. 3. O ...