jsoup:解析HTML用法小结

1.解析方式
（1）从字符串解析

String html = "<html><head><title>First parse</title></head>"

+ "<body><p>Parse HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);

（2）从URL获取解析

1 2	`Document doc = Jsoup.connect("http://example.com/").get();` `String title = doc.title();`

Document doc = Jsoup.connect("http://example.com")

.data("query", "Java")

.userAgent("Mozilla")

.cookie("auth", "token")

.timeout(3000)

.post();

（3）从文件解析

1 2	`File input =` `new` `File("/tmp/input.html");` `Document doc = Jsoup.parse(input,` `"UTF-8",` `"http://example.com/");`

2.DOM方式遍历元素
（1）搜索元素

getElementById(String id)

getElementByTag(String tag)

getElementByClass(String className)

getElementByAttribute(String key)

siblingElements(), firstElementSibling(), lastElementSibling(), nextElementSibling(), previousElementSibling()

parent(), children(), child(int index)

（2）获取元素数据

attr(String key) – 获取key属性

attributes() – 获取属性

id(), className(), classNames()

text() – 获取文本内容

html() – 获取元素内部HTML内容

outerHtml() – 获取包括此元素的HTML内容

data() – 获取<srcipt>或<style>标签中的内容

tag(), tagName()

3.选择器语法（jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素）
（1）基本选择器

tagname: 搜索tag标签的元素

ns|tag: 搜索命名空间内tag标签的元素，如fb|name：<fb:name>

#id: 搜索有指定id的元素

.class: 搜索有指定class的元素

[attribute]: 搜索有attrribute属性的元素

[^attri]: 搜索有以attri开头的属性的元素

[attr=value]: 搜索有指定属性及其属性值的元素

[attr^=value], [attr$=value], [attr*=value]: 搜索有指定attr属性，且其属性值是以value开头、结尾或包括value的元素，如[href*=/path/]

[attr~=regex]: 搜索有指定attr属性，且其属性值符合regex正则表达式的元素

*: 搜索所有元素

（2）选择器组合

el#id: 同时指定标签名称和id

el.class: 同时指定标签名称和class

el[attr]: 同时指定标签名称和及其中所含属性的名称

上述3项的任意组合，如a[href].highlight

ancestor child: 包含，如div.content p，即搜索<div class=”content”>下含有<p>标签的元素

ancestor > child: 直接包含，如div.content > p，即搜索直属<div class="content">节点下的<p>标签元素；div.content > *，即搜索<div class="content">下的所有元素

siblingA + siblingB: 直接遍历，如div.head + div，即搜索<div class="head"><div>的元素，其中不再包含子元素

siblingA ~ siblingX: 遍历，如h1 ~ p，即<h1>下直接或间接有<p>的元素

el, el, el: 组合多个选择器，搜索满足其中一个选择器的元素

（3）伪选择器（条件选择器）

:lt(n): 搜索n号元素之前的元素

:gt(n): 搜索n号元素之后的元素

:eq(n): 搜索n号元素

:has(seletor): 搜索符合指定选择器的元素

:not(seletor): 搜索不符合指定选择器的元素

:contains(text): 搜索包含指定文本的元素，区分大小写

:containsOwn(text): 搜索直接指包含指定文本的元素

:matches(regex): 搜索符合指定正则表达式的元素

:matchesOwn(regex): 搜索本元素文本中符合指定正则表达式的元素

注意：以上伪选择器的索引中，第一个元素位于索引0，第二个元素位于索引1，……

4.获取元素的属性、文本和HTML

获取元素的属性值：Node.attr(String key)

获取元素的文本，包括与其组合的子元素：Element.text()

获取HTML：Element.html()或Node.outerHtml()

5.操作URL

1 2	`Element.attr("href") – 直接获取URL` `Element.attr("abs:href")或Element.absUrl("href") – 获取完整URL。如果HTML是从文件或字符串解析过来的，需要调用Jsoup.setBaseUri(String baseUri)来指定基URL，否则获取的完整URL只会是空字符串`

6.测试例子

1 2	`li[class=info] a[class=Author] - 空格前后表示包含关系，即表示li里的a` `div[class=mod mod-main mod-lmain]:contains(教学反思) - div中包含"教学反思"，适合同时有多个同名DIV的情况`

/*

previousSibling()获取某标签前面的代码

nextSibling()获取某标签后的代码

如：

<form id=form1>

第一名：Lily <br/>

第二名：Tom <br/>

第三名：Peter <br/>

</form>

*/

Elements items = doc.select("form[id=form1]");

Elements prevs = items.select("br");

for(Element p : prevs){

String prevStr = p.previousSibling().toString().trim());

}

/*

最常用的链接抓取

*/

String itemTag = "div[class=mydiv]";

String linkTag = "a"

Elements items = doc.select(itemTag);

Elements links = items.select(linkTag);

for(Element l : links){

String href = l.attr("abs:href");//完整Href

String absHref = l.attr("href");//相对路径

String text = l.text();

String title = l.attr("title");

}

7.jsoup在线API
http://jsoup.org/apidocs/

jsoup:解析HTML用法小结的更多相关文章

jsoup解析HTML及简单实例
jsoup 中文参考文献 http://www.open-open.com/jsoup/ 本文将利用jsoup,简单实现网络抓取的功能,并给出一个小实例,该实例效果为:获取作者本人在博客园写的所 ...
[No000010]Ruby 中一些百分号（%）的用法小结
#Ruby 中一些百分号(%)的用法小结 #这篇文章主要介绍了Ruby 中一些百分号(%)的用法小结,需要的朋友可以参考下 what_frank_said = "Hello!"#% ...
TinyXML用法小结
TinyXML用法小结 1. 介绍 Tinyxml的官方网址:http://www.grinninglizard.com 官方介绍文档:http://www.grinninglizard.c ...
TinyXML用法小结2
参考:http://www.cnblogs.com/hgwang/p/5833638.html TinyXML用法小结 1. 介绍 Tinyxml的官方网址:http://www.grinn ...
Java爬虫系列三：使用Jsoup解析HTML
在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...
转载：Hadoop排序工具用法小结
本文转载自Silhouette的文章,原文地址:http://www.dreamingfish123.info/?p=1102 Hadoop排序工具用法小结发表于 2014 年 8 月 25 日由 ...
Android利用Jsoup解析html 开发网站客户端小记。
这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容.好了废话不多说,用到的工具为 jsoup-1.7.2.jar包,具体 ...
[java] jsoup 解析网页获取省市区域信息
到国家统计局抓取数据, 到该class下解析数据 /** * jsoup解析网页 * @author xwolf * @date 2016-12-13 18:11 * @since V1.0.0 */ ...
C++ typedef用法小结（※不能不看※）
C++ typedef用法小结 (※不能不看※) 第一.四个用途用途一: 定义一种类型的别名,而不只是简单的宏替换.可以用作同时声明指针型的多个对象.比如:char* pa, pb; // 这多数不 ...

随机推荐

HDU-2711 Lost Cows
Lost Cows Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total ...
再也不用担心ie下console.log报错了。。。
习惯了在ff或者chrome下暴力调试的你会不会忘记注释掉而在ie下报错呢,那么可以加这个代码: if (typeof console == "undefined") { this ...
HDOJ/HDU 2203 亲和串(简单的判断~Java的indexOf()方法秒)
Problem Description 人随着岁数的增长是越大越聪明还是越大越笨,这是一个值得全世界科学家思考的问题,同样的问题Eddy也一直在思考,因为他在很小的时候就知道亲和串如何判断了,但是发现 ...
特性扩展：WebActivatorEx
WebActivator: PreApplicationStartMethod 属性,用于标记作为东西您获取 Web 应用程序启动时调用的方法,在Application_Start前. PostApp ...
bzoj 2761 [JLOI2011]不重复数字（哈希表）
2761: [JLOI2011]不重复数字 Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 3210 Solved: 1186[Submit][Sta ...
bzoj3224 Tyvj 1728 普通平衡树（名次树+处理相同）
3224: Tyvj 1728 普通平衡树 Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 5354 Solved: 2196[Submit][Sta ...
linux下avr单片机开发：中断服务程序
不管是什么单片机程序,中断总是非常重要的一部分 ,linux 下的avr开发,主要是依靠avr-gcc,以及avr-libc,它们对中断程序的格式要求,与window下的icc-avr以及win-av ...
我的ubuntu配置
每次装系统都是非常蛋疼的过程,新装的系统还是要配置一下的首先安装google拼音 sudo apt-get install fcitx fcitx-googlepinyin 然后按装numix主题 ...
getaccesstoken方法
通过appid和appsecret获取access_token的定义函数这里用的是memcache缓存存储用户信息7000秒 <?php function getAccessToken($ap ...
.net core 使用DES加密字符串
找了很久,都是用的第三方的插件处理,但是第三方的插件不兼容.net core中内置包. 接下来分享自己的方法: 1.创建一个加密方法类:SecurityHelper. public class Sec ...

jsoup:解析HTML用法小结

jsoup:解析HTML用法小结的更多相关文章

随机推荐

热门专题