XML解析之Jsoup

操作xml文件

解析（读取）：将文档中的数据解读到内存中
写入：将内存中的数据保存到XML文档中。持久化的存储

解析xml的方式

DOM：将标记语言文档一次性加载进内存，在内存中形成一颗dom树
- 优点：
  
  操作方便，可以对文档进行CRUD(增删改查)的所有操作
- 缺点：
  
  占内存
SAX:逐行读取，基于事件驱动
- 优点
  
  不占内存
- 缺点
  
  只能读取

常用的解析器：

JAXP:sum公司提供的解析器，支持dom和sax两种思想
DOM4J：优秀的解析器
Jsoup:一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
PULL：android系统内置解析器

Jsoup

快速入门

从URL，文件或字符串中刮取并解析HTML

查找和提取数据，使用DOM遍历或CSS选择器

操纵HTML元素，属性和文本

根据安全的白名单清理用户提交的内容，以防止XSS攻击

输出整洁的HTML

参考

步骤：

导入jar包
获取Document对象
获取对应的标签Element对象
获取数据

代码：

xml文件：

<?xml version="1.0" encoding="UTF-8" ?>

 <students>

 	<student number="heima_0001">

 		<name id="cat">tom</name>

 		<age>18</age>

 		<sex>male</sex>

 	</student>

	<student number="heima_0002">

		<name>jack</name>

		<age>12</age>

		<sex>male</sex>

	</student>

 </students>

测试代码:

public class JsoupTest {

    public static void main(String[] args) throws IOException {

        //获得路径path

        String path = JsoupTest.class.getClassLoader().getResource("student.xml").getPath();

        //解析

        Document document = Jsoup.parse(new File(path), "utf-8");

        //获取元素

        Elements elements = document.getElementsByTag("name");

        System.out.println(elements.size());

        //获取数据

        for (int i = 0; i < elements.size(); i++) {

            System.out.println(elements.get(i).text());

        }

    }

}

对象的使用

Jsoup:工具类，可以解析html或xml文档，返回Document
1. parse方法
  1. 解析xml或html对象
```
public static Document parse(File in,String charsetName)throws IOException
```
    Parse the contents of a file as HTML. The location of the file is used as the base URI to qualify relative URLs.
  2. 解析xml或html字符串
```
 public static Document parse(String html)
```
    Parse HTML into a Document. As no base URI is specified, absolute URL detection relies on the HTML including a <base href> tag.
  3. 通过网络路径获取指定的html或xml的文档对象
```
  public static Document parse(URL url,int timeoutMillis)throws IOException
```
    Fetch a URL, and parse it as HTML. Provided for compatibility; in most cases use [connect(String)](file:///C:/Users/ada/AppData/Local/Temp/360zip$Temp/360$3/day32_xml/03_参考/jsoup/jsoup-1.11.2-javadoc/org/jsoup/Jsoup.html#connect-java.lang.String-)
    
    The encoding character set is determined by the content-type header or http-equiv meta tag, or falls back to UTF-8.
    等；
Document ：文档对象。代表内存中的dom树
1. 获取Element对象
  1. 根据标签名获取对象集合
```
public Elements getElementsByTag(String tagName)
```
  Finds elements, including and recursively under this element, with the specified tag name.
  1. 根据属性名称获取对象集合
```
public Elements getElementsByAttribute(String key)
```
  Find elements that have a named attribute set. Case insensitive.
  1. 根据对应的属性名和值获取元素对象集合
```
public Elements getElementsByAttributeValue(String key, String value)
```
  Find elements that have an attribute with the specific value. Case insensitive.
  1. 根据ID属性获取唯一的element
```
public Element lastElementSibling()
```
  Gets the last element sibling of this element
Elements ：Element对象的集合。可以当作ArrayList来使用
Element ：元素对象
1. 获取子元素对象
2. 获取属性值
  1. String attr(String key):根据属性名称获取属性值
3. 获取文本内容
  1. String text():获取文本内容
  2. String html();获取标签体的所有内容
Node ：节点对象
- Document和Element的父类

快速查询方式

selector:选择器

使用的方法：Elements select(String cssQuery)

样例：

public class JsoupTest {

    public static void main(String[] args) throws IOException {

        //获得路径path

        String path = JsoupTest.class.getClassLoader().getResource("student.xml").getPath();

        //解析

        Document document = Jsoup.parse(new File(path), "utf-8");

        //查询name标签

        Elements elements = document.select("name");

        System.out.println(elements.get(0).text());

        //查询id

        Elements id = document.select("#cat");

        System.out.println(elements.get(0).select("name").text());

        System.out.println("******************");

        //查找student中number等于heima_0001

        Elements select = document.select("student[number=\"heima_0001\"]");

        System.out.println(select);

        System.out.println("******************");

        //查找student中number等于heima_0001中的age子标签

        Elements select1 = document.select("student[number=\"heima_0001\"]>age");

        System.out.println(select1);

    }

}

XPath:

解释：

XPath 是一门在 XML 文档中查找信息的语言。

XPath 是 XSLT 中的主要元素。

XQuery 和 XPointer 均构建于 XPath 表达式之上

使用Jsoup的xpath需要额外导入jar包

查询w3cschool参考手册，使用xpath语法完成

public class JsoupXpath {

    public static void main(String[] args) throws IOException, XpathSyntaxErrorException {

        //获得路径path

        String path = JsoupTest.class.getClassLoader().getResource("student.xml").getPath();

        //解析

        Document document = Jsoup.parse(new File(path), "utf-8");

        //剧创建JXDocumnet对象

        JXDocument jxDocument=new JXDocument(document);

        //结合xpath语法查询

        List<JXNode> jxNodes = jxDocument.selN("//student");

        System.out.println(jxNodes);

        System.out.println("__________________________");

        List<JXNode> jxNode = jxDocument.selN("//student[@number='heima_0001']");

        System.out.println(jxNode);

    }

}

XML解析之Jsoup的更多相关文章

xml解析技术
本文总结Dom,sax解析, 使用Java作为工具解析xml文档. 1 Dom 综述:Dom解析xml通常也称为xmlDom (和htmlDom技术差不多),将xml文档封装成树,好处就是xml中的 ...
Duilib源码分析(三)XML解析器—CMarkup
上一节介绍了控件构造器CDialogBuilder,接下来将分析其XML解析器CMarkup: CMarkup:xml解析器,目前内置支持三种编码格式:UTF8.UNICODE.ASNI,默认为UTF ...
JSON解析和XML解析对比
JSON解析和XML解析是较为普遍的两种解析方式,其中JSON解析的市场分额更大.本文系统的分析两种解析方式的区别,为更好地处理数据作准备.由于目前阶段主要是做移动开发,所以本文所描述的JSON解析和 ...
【Android】实现XML解析的几种技术
本文介绍在Android平台中实现对XML的三种解析方式. XML在各种开发中都广泛应用,Android也不例外.作为承载数据的一个重要角色,如何读写XML成为Android开发中一项重要的技能. 在 ...
定位和xml解析和gson解析加上拉加载，下拉刷新
这里的上拉加载,下拉刷新用到是依赖包 Mainactivity,xml解析和定位 package com.exmple.autolayout; import java.util.List; impor ...
tinyxml一个优秀的C++ XML解析器
读取和设置xml配置文件是最常用的操作,试用了几个C++的XML解析器,个人感觉TinyXML是使用起来最舒服的,因为它的API接口和Java的十分类似,面向对象性很好. TinyXML是一个开源的解 ...
PERL/LEX/YACC技术实现文本解析--XML解析
继周六的p_enum.pl后,再来一篇说说我用perl做的lex,yacc工具.之前说了,我学习lex和yacc的最初动机是为了做个C语言解释器的SHELL:但后来工作中的实际需要也是制作perl版l ...
基本XML解析---编写
#import "ViewController.h" #import "DDXML.h" @interface ViewController () @end @ ...
iOS-数据解析XML解析的多种平台介绍
在iPhone开发中,XML的解析有很多选择,iOS SDK提供了NSXMLParser和libxml2两个类库,另外还有很多第三方类库可选,例如TBXML.TouchXML.KissXML.Tiny ...

随机推荐

Real Beauty真正的美丽
[1]Beauty is only skin-deep. Physical beauty can only be held fleetingly. Real beauty is much deeper ...
Github 高级搜索功能
参考文章链接:https://zhuanlan.zhihu.com/p/55294261 GitHub 提供高级搜索方式. 一.明确搜索仓库标题.仓库描述.README 1.只想查找仓库名称包含XX的 ...
opencv实践::对象的提取
问题描述真实案例,对图像中对象进行提取,获取这样对象,去掉其它干扰和非目标对象. 解决思路二值分割 + 形态学处理 +横纵比计算 #include <opencv2/opencv.hpp&g ...
02jmeter-函数助手使用
示例:__Random函数 1.打开函数助手,并按提示写入value 2.引用.复制出${__Random(1,99,gp)}放到需要引用的地方 3.请求成功后可通过debug sampler查看变量 ...
insert into select 引起的 "子查询返回的值不止一个。当子查询跟随在**之后，或子查询用作表达式时，这种情况是不允许的"
目录 1.事故现场 1.1 在使用 Insert into Table2 select * from Table1 将表1的数据插入到表2时,报错如下: 1.2 sql 语句 2.推测 3.解决方案 ...
19.Tomcat集群架构
1.Nginx+Tomcat集群架构介绍 2.Nginx+Tomcat集群架构实战 [root@lb01 conf.d]# cat proxy_zrlog.cheng.com.conf upstrea ...
MFC中如何分割CString类型的数据
[才疏学浅,难免有纰漏,若有不正确的地方,欢迎指教] MFC中有一个库函数 Tokenize(); 函数原型:CStringT Tokenize( PCXSTR pszTokens , int& ...
Linux用到的常用命令
Linux常用命令
SpringBoot-Mysql模板多数据源加载
SpringBoot-Mysql模板多数据源加载 qq交流群: 812321371 微信交流群: MercyYao 简介在 java 项目里常用到 mysql 多数据源操作.结合 springboo ...
CentOS6-Linux内核编译详细步骤
CentOS6-Linux内核编译详细步骤背景 Win10用VMwareWorkstation搭的虚拟机 CentOS6.5,内核版本2.6.32-431.el6.x86_64 在该环境下升级至4 ...

XML解析之Jsoup

操作xml文件

解析xml的方式

Jsoup

快速查询方式

XML解析之Jsoup的更多相关文章

随机推荐

热门专题