jsoup:解析HTML用法小结
1.解析方式
(1)从字符串解析
|
1
2
3
|
String html = "<html><head><title>First parse</title></head>" + "<body><p>Parse HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html); |
(2)从URL获取解析
|
1
2
|
Document doc = Jsoup.connect("http://example.com/").get();String title = doc.title(); |
|
1
2
3
4
5
6
|
Document doc = Jsoup.connect("http://example.com") .data("query", "Java") .userAgent("Mozilla") .cookie("auth", "token") .timeout(3000) .post(); |
(3)从文件解析
|
1
2
|
File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); |
2.DOM方式遍历元素
(1)搜索元素
|
1
2
3
4
5
6
|
getElementById(String id)getElementByTag(String tag)getElementByClass(String className)getElementByAttribute(String key)siblingElements(), firstElementSibling(), lastElementSibling(), nextElementSibling(), previousElementSibling()parent(), children(), child(int index) |
(2)获取元素数据
|
1
2
3
4
5
6
7
8
|
attr(String key) – 获取key属性attributes() – 获取属性id(), className(), classNames()text() – 获取文本内容html() – 获取元素内部HTML内容outerHtml() – 获取包括此元素的HTML内容data() – 获取<srcipt>或<style>标签中的内容tag(), tagName() |
3.选择器语法(jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素)
(1)基本选择器
|
1
2
3
4
5
6
7
8
9
10
|
tagname: 搜索tag标签的元素ns|tag: 搜索命名空间内tag标签的元素,如fb|name:<fb:name>#id: 搜索有指定id的元素.class: 搜索有指定class的元素[attribute]: 搜索有attrribute属性的元素[^attri]: 搜索有以attri开头的属性的元素[attr=value]: 搜索有指定属性及其属性值的元素[attr^=value], [attr$=value], [attr*=value]: 搜索有指定attr属性,且其属性值是以value开头、结尾或包括value的元素,如[href*=/path/][attr~=regex]: 搜索有指定attr属性,且其属性值符合regex正则表达式的元素*: 搜索所有元素 |
(2)选择器组合
|
1
2
3
4
5
6
7
8
9
|
el#id: 同时指定标签名称和idel.class: 同时指定标签名称和classel[attr]: 同时指定标签名称和及其中所含属性的名称上述3项的任意组合,如a[href].highlightancestor child: 包含,如div.content p,即搜索<div class=”content”>下含有<p>标签的元素ancestor > child: 直接包含,如div.content > p,即搜索直属<div class="content">节点下的<p>标签元素;div.content > *,即搜索<div class="content">下的所有元素siblingA + siblingB: 直接遍历,如div.head + div,即搜索<div class="head"><div>的元素,其中不再包含子元素siblingA ~ siblingX: 遍历,如h1 ~ p,即<h1>下直接或间接有<p>的元素el, el, el: 组合多个选择器,搜索满足其中一个选择器的元素 |
(3)伪选择器(条件选择器)
|
1
2
3
4
5
6
7
8
9
10
|
:lt(n): 搜索n号元素之前的元素:gt(n): 搜索n号元素之后的元素:eq(n): 搜索n号元素:has(seletor): 搜索符合指定选择器的元素:not(seletor): 搜索不符合指定选择器的元素:contains(text): 搜索包含指定文本的元素,区分大小写:containsOwn(text): 搜索直接指包含指定文本的元素:matches(regex): 搜索符合指定正则表达式的元素:matchesOwn(regex): 搜索本元素文本中符合指定正则表达式的元素注意:以上伪选择器的索引中,第一个元素位于索引0,第二个元素位于索引1,…… |
4.获取元素的属性、文本和HTML
|
1
2
3
|
获取元素的属性值:Node.attr(String key)获取元素的文本,包括与其组合的子元素:Element.text()获取HTML:Element.html()或Node.outerHtml() |
5.操作URL
|
1
2
|
Element.attr("href") – 直接获取URLElement.attr("abs:href")或Element.absUrl("href") – 获取完整URL。如果HTML是从文件或字符串解析过来的,需要调用Jsoup.setBaseUri(String baseUri)来指定基URL,否则获取的完整URL只会是空字符串 |
6.测试例子
|
1
2
|
li[class=info] a[class=Author] - 空格前后表示包含关系,即表示li里的adiv[class=mod mod-main mod-lmain]:contains(教学反思) - div中包含"教学反思",适合同时有多个同名DIV的情况 |
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
/* previousSibling()获取某标签前面的代码 nextSibling()获取某标签后的代码 如: <form id=form1> 第一名:Lily <br/> 第二名:Tom <br/> 第三名:Peter <br/> </form>*/Elements items = doc.select("form[id=form1]");Elements prevs = items.select("br");for(Element p : prevs){ String prevStr = p.previousSibling().toString().trim());} |
|
1
2
3
4
5
6
7
8
9
10
11
12
13
|
/* 最常用的链接抓取*/String itemTag = "div[class=mydiv]";String linkTag = "a"Elements items = doc.select(itemTag);Elements links = items.select(linkTag);for(Element l : links){ String href = l.attr("abs:href");//完整Href String absHref = l.attr("href");//相对路径 String text = l.text(); String title = l.attr("title");} |
7.jsoup在线API
http://jsoup.org/apidocs/
jsoup:解析HTML用法小结的更多相关文章
- jsoup解析HTML及简单实例
jsoup 中文参考文献 http://www.open-open.com/jsoup/ 本文将利用jsoup,简单实现网络抓取的功能,并给出一个小实例,该实例效果为:获取作者本人在博客园写的所 ...
- [No000010]Ruby 中一些百分号(%)的用法小结
#Ruby 中一些百分号(%)的用法小结 #这篇文章主要介绍了Ruby 中一些百分号(%)的用法小结,需要的朋友可以参考下 what_frank_said = "Hello!"#% ...
- TinyXML用法小结
TinyXML用法小结 1. 介绍 Tinyxml的官方网址:http://www.grinninglizard.com 官方介绍文档:http://www.grinninglizard.c ...
- TinyXML用法小结2
参考:http://www.cnblogs.com/hgwang/p/5833638.html TinyXML用法小结 1. 介绍 Tinyxml的官方网址:http://www.grinn ...
- Java爬虫系列三:使用Jsoup解析HTML
在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...
- 转载:Hadoop排序工具用法小结
本文转载自Silhouette的文章,原文地址:http://www.dreamingfish123.info/?p=1102 Hadoop排序工具用法小结 发表于 2014 年 8 月 25 日 由 ...
- Android利用Jsoup解析html 开发网站客户端小记。
这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容.好了废话不多说,用到的工具为 jsoup-1.7.2.jar包,具体 ...
- [java] jsoup 解析网页获取省市区域信息
到国家统计局抓取数据, 到该class下解析数据 /** * jsoup解析网页 * @author xwolf * @date 2016-12-13 18:11 * @since V1.0.0 */ ...
- C++ typedef用法小结 (※不能不看※)
C++ typedef用法小结 (※不能不看※) 第一.四个用途 用途一: 定义一种类型的别名,而不只是简单的宏替换.可以用作同时声明指针型的多个对象.比如:char* pa, pb; // 这多数不 ...
随机推荐
- Unity3D之多个fbx导入场景, 合并多个动画
1:先导入到合适的文件夹, Unity自动刷新, 生成相应的文件. 2:在Project视图中选中单个fbx, 在Inspector中选择"Rig", 更改"Animat ...
- ETL构建数据仓库五步法
原文:http://huangy82.blog.163.com/blog/static/49069827200923034638409/ ETL构建企业级数据仓库五步法 在数据仓库构建中,ETL贯穿于 ...
- hive中sql解析出对应表和字段的实现
import java.io.IOException; import java.util.HashMap; import java.util.HashSet; import java.util.Map ...
- [转]Angular, Backbone, or Ember: Which is Best for your Build?
In order to choose which framework is right for your build, we've asked four important questions of ...
- Test2014-3-1 魅力值比较
魅力值比较 [问题描述] 大学生恋爱的问题造成了数量众多的异地恋,有许多J大的女生早早被Q大男生追走,这导致了J大男生的强烈不满.就在吐血高调地向一位J大美女展开攻势的之后,J大男生终于爆发了. 为了 ...
- 兼容的placeholder属性
作为一个.net后台开发的程序猿,博客里既然大多都是前端相关的博文.是不是该考虑换方向了,转前端开发得了 ... 小小吐槽一下,近期受该不该跳槽所困惑,我有选择困难症! 继续前端,这次说一下输入框 p ...
- Django中的ORM进阶操作
Django中的ORM进阶操作 Django中是通过ORM来操作数据库的,通过ORM可以很easy的实现与数据库的交互.但是仍然有几种操作是非常绕也特别容易混淆的.于是,针对这一块,来一个分类总结吧. ...
- 获取手机root的方法
- jQuery之动画效果show()......animate()
jQuery之动画效果 1.show()显示效果 语法:show(speed,callback) Number/String,Function speend为动画执行时间,单位为毫秒.也可以为slow ...
- GWT 实现文件上传和下载
首先下载两个包 commons-fileupload-?.jar和commons-io-?.jar 将他们配置到你的项目中 先把它们放在 "项目名/war/WEB-INF/lib" ...