Jsoup解析Xml{详解}

1: 概述

* 代码：

//2.1获取student.xml的path

String path = JsoupDemo1.class.getClassLoader().getResource("student.xml").getPath();

//2.2解析xml文档，加载文档进内存，获取dom树--->Document

Document document = Jsoup.parse(new File(path), "utf-8");

//3.获取元素对象 Element

Elements elements = document.getElementsByTag("name");

System.out.println(elements.size());

//3.1获取第一个name的Element对象

Element element = elements.get(0);

//3.2获取数据

String name = element.text();

System.out.println(name);

* 对象的使用：
1. Jsoup：工具类，可以解析html或xml文档，返回Document

* parse：解析html或xml文档，返回Document
* parse(File in, String charsetName)：解析xml或html文件的。
* parse(String html)：解析xml或html字符串
* parse(URL url, int timeoutMillis)：通过网络路径获取指定的html或xml的文档对象

2. Document：文档对象。代表内存中的dom树
* 获取Element对象

* getElementById(String id)：根据id属性值获取唯一的element对象
* getElementsByTag(String tagName)：根据标签名称获取元素对象集合
* getElementsByAttribute(String key)：根据属性名称获取元素对象集合
* getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合
3. Elements：元素Element对象的集合。可以当做 ArrayList<Element>来使用

4. Element：元素对象
1. 获取子元素对象

* getElementById(String id)：根据id属性值获取唯一的element对象
* getElementsByTag(String tagName)：根据标签名称获取元素对象集合
* getElementsByAttribute(String key)：根据属性名称获取元素对象集合
* getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合

2. 获取属性值

* String attr(String key)：根据属性名称获取属性值

3. 获取文本内容

* String text():获取文本内容
* String html():获取标签体的所有内容(包括字标签的字符串内容)

所用到的数据:

<?xml version="1.0" encoding="UTF-8"?>

<users>

    <user id='1'>

        <name>zhangsan</name>

        <age>23</age>

        <gender>male</gender>

        <address>环湖中路36</address>

    </user>

    <user id='2'>

        <name>lisi</name>

        <age>24</age>

        <gender>female</gender>

    </user>

</users>

层次关系:

1:Document 是一个xml文件的dom树,表示一个xml文件

2:Elements 表示多个元素(ELEMENT)的集合 findElementXXX() selectot() SetN() 系列API 返回的都是一个集合

3:Element 表示一个元素,xml理解为一个闭合的标签

2: 应用场景

　　2.1 有类封装的强制性解析 , 1: 类只需要三个属性, 但是xml属性多了所以不能获取跟节点直接使用text()进行解析, 2: 按照常规遍历的方式进行解析

public class ParseFromStudent {

    public static void main(String[] args) throws IOException {

        String path = "E:\\GItHubRepository\\Lear-Java\\java-growing\\src\\main\\java\\xml_jsoup\\Student.xml";

        Document dom = Jsoup.parse(new File(path), "UTF-8");

        class Student {

            String name;

            int age;

            String gender;

            public Student(String name, int age, String gender) {

                super();

                this.name = name;

                this.age = age;

                this.gender = gender;

            }

            @Override

            public String toString() {

                return "Student [name=" + name + ", age=" + age + ", gender=" + gender + "]";

            }

        }

        Elements element = dom.getElementsByTag("user");

        ArrayList<Student> slist = new ArrayList<>();

        // element.forEach(v->System.out.println(v));

        Iterator<Element> it = element.iterator();

        while (it.hasNext()) {

            Element next = it.next();

            Elements childrens = next.children();

            Iterator<Element> it_child = childrens.iterator();

            String name = null;

            int age = 0;

            String gender = null;

            while (it_child.hasNext()) {

                Element child_node = it_child.next();

                switch (child_node.nodeName()) {

                case "name":

                    name=child_node.text();

                    break;

                case "age":

                    age=Integer.parseInt(child_node.text());

                    break;

                case "gender":

                    gender=child_node.text();

                    break;

                }

            }

            slist.add(new Student(name, age, gender));

        }

        System.out.println(slist);

    }

}

　有限制的用法:

public class ParseFromStudent2 {

    public static void main(String[] args) throws IOException {

        String path = "E:\\GItHubRepository\\Lear-Java\\java-growing\\src\\main\\java\\xml_jsoup\\Student.xml";

        Document dom = Jsoup.parse(new File(path), "UTF-8");

        class Student {

            String name;

            int age;

            String gender;

            public Student(String name, int age, String gender) {

                super();

                this.name = name;

                this.age = age;

                this.gender = gender;

            }

            @Override

            public String toString() {

                return "Student [name=" + name + ", age=" + age + ", gender=" + gender + "]";

            }

        }

        ArrayList<Student> list = new ArrayList<>();

        Elements element = dom.getElementsByTag("user");

        Iterator<Element> it = element.iterator();

        Student stu=null;

        /**

         * 1: 这里是有局限性的 如果我们要的数据 中间穿插几个不需要的数据,或者xml文档以后变化 了 那么我们还得需要改代码

         * 2: 最好的方式就行是使用匹配的方式, 无论 xml源文件 怎么发生变化, 最初的解析版本还是能够使用的

         */

        while(it.hasNext()) {

            Element next = it.next();

            String[] split = next.text().split(" ");

            stu=new Student(split[0], Integer.parseInt(split[1]), split[2]);

            list.add(stu);

        }

        System.out.println(list);

    }

}

最好的方式:前面提到的问题,都解决了

public class ParseFromStudent3 {

    public static void main(String[] args) throws IOException {

        String path = "E:\\GItHubRepository\\Lear-Java\\java-growing\\src\\main\\java\\xml_jsoup\\Student.xml";

        Document dom = Jsoup.parse(new File(path), "UTF-8");

        class Student {

            String name;

            int age;

            String gender;

            public Student(String name, int age, String gender) {

                super();

                this.name = name;

                this.age = age;

                this.gender = gender;

            }

            @Override

            public String toString() {

                return "Student [name=" + name + ", age=" + age + ", gender=" + gender + "]";

            }

        }

        ArrayList<Student> list = new ArrayList<>();

        Elements element = dom.getElementsByTag("user");

        Iterator<Element> it = element.iterator();

        Student stu=null;

        /**

         *  使用selector 语法

         */

        while(it.hasNext()) {

            Element next = it.next();

            Elements name = next.select("name");

            Elements age = next.select("age");

            Elements gender = next.select("gender");

            stu=new Student(name.text(), Integer.parseInt(age.text()), gender.text());

            list.add(stu);

        }

         System.out.println(list);

         BigInteger bigi = new BigInteger("1");

         for(int i=1;i<=100;i++){

              bigi=bigi.multiply(new BigInteger(i+""));

         }

         System.out.println(bigi);

    }

}

3: Xpath 应用

2. XPath：XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言

            * 使用Jsoup的Xpath需要额外导入jar包。

            * 查询w3cshool参考手册，使用xpath的语法完成查询

            * 代码：

                //1.获取student.xml的path

                String path = JsoupDemo6.class.getClassLoader().getResource("student.xml").getPath();

                //2.获取Document对象

                Document document = Jsoup.parse(new File(path), "utf-8");

                //3.根据document对象，创建JXDocument对象

                JXDocument jxDocument = new JXDocument(document);

                //4.结合xpath语法查询

                //4.1查询所有student标签

                List<JXNode> jxNodes = jxDocument.selN("//student");

                for (JXNode jxNode : jxNodes) {

                    System.out.println(jxNode);

                }

                System.out.println("--------------------");

                //4.2查询所有student标签下的name标签

                List<JXNode> jxNodes2 = jxDocument.selN("//student/name");

                for (JXNode jxNode : jxNodes2) {

                    System.out.println(jxNode);

                }

                System.out.println("--------------------");

                //4.3查询student标签下带有id属性的name标签

                List<JXNode> jxNodes3 = jxDocument.selN("//student/name[@id]");

                for (JXNode jxNode : jxNodes3) {

                    System.out.println(jxNode);

                }

                System.out.println("--------------------");

                //4.4查询student标签下带有id属性的name标签 并且id属性值为itcast

                List<JXNode> jxNodes4 = jxDocument.selN("//student/name[@id='itcast']");

                for (JXNode jxNode : jxNodes4) {

                    System.out.println(jxNode);

                }

Jsoup解析Xml{详解}的更多相关文章

C#解析XML详解（XPath以及带命名空间NameSpace）
<?xml version="1.0" encoding="utf-8" ?> <bookstore> <book> < ...
17.JAVA-Dom、Sax解析XML详解
在JAVA中,解析有三种方式: Dom解析(支持改删,耗内存). Sax解析(不支持改删,不耗内存). Pull解析(在Android中推荐使用的一种解析XML的方式,在下章学习). 1.支持Dom与 ...
JavaEE实战——XML文档DOM、SAX、STAX解析方式详解
原 JavaEE实战--XML文档DOM.SAX.STAX解析方式详解 2016年06月22日 23:10:35 李春春_ 阅读数:3445 标签: DOMSAXSTAXJAXPXML Pull 更多 ...
Web.xml详解(转)
这篇文章主要是综合网上关于web.xml的一些介绍,希望对大家有所帮助,也欢迎大家一起讨论. ---题记一. Web.xml详解: (一) web.xml加载过程(步骤) 首 ...
Maven-pom.xml详解
(看的比较累,可以直接看最后面有针对整个pom.xml的注解) pom的作用 pom作为项目对象模型.通过xml表示maven项目,使用pom.xml来实现.主要描述了项目:包括配置文件:开发者需要遵 ...
【maven】 pom.xml详解
pom.xml详解 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www ...
Tomcat配置(二)：tomcat配置文件server.xml详解和部署简介
*/ .hljs { display: block; overflow-x: auto; padding: 0.5em; color: #333; background: #f8f8f8; } .hl ...
Tomcat(二)：tomcat配置文件server.xml详解和部署简介
Tomcat系列文章:http://www.cnblogs.com/f-ck-need-u/p/7576137.html 1. 入门示例:虚拟主机提供web服务该示例通过设置虚拟主机来提供web服务 ...
logback的使用和logback.xml详解，在Spring项目中使用log打印日志
logback的使用和logback.xml详解一.logback的介绍 Logback是由log4j创始人设计的另一个开源日志组件,官方网站: http://logback.qos.ch.它当前分 ...

随机推荐

LInux内核配置过程
内核版本 linux 2.6.32.2 配置内核的过程配置内核可以通过执行 make menuconfig 来进行,下面分析该命令的执行流程执行该目标 %config: scripts_basic ...
JSP请求是如何被处理的？jsp的执行原理
客户端通过浏览器发送jsp请求,服务器端接受到请求后,判断是否是第一次请求该页面,或者该页面是否改变,若是,服务器将jsp页面翻译为servlet,jvm将servlet编译为.class文件,字节码 ...
Java 判断密码是否是大小写字母、数字、特殊字符中的至少三种
public class CheckPassword { //数字 public static final String REG_NUMBER = ".*\\d+.*"; //小写 ...
安装完PyCharm，启动时弹出Failed to load JVM DLLbinserverjvm
安装完PyCharm,启动时弹出"Failed to load JVM DLL\bin\server\jvm.dll"解决方案问题描述:打开PyCharm时,弹出"Fa ...
python——模块（Module）的概念、使用以及安装第三方模块
一.模块定义 python中,一个.py文件就是一个模块(Module). 使用模块的好处:1.提高了代码的可维护性.我们把函数进行分组,分别放在不同的模块中.2.编写代码不必要从0开始,当一个模块编 ...
转载全角字符unicode码对应表
http://www.mytju.com/classcode/tools/encode_utf8.asp 对应关系查询网站 Uni. GB Uni. GB Uni. GB Uni. GB Uni. G ...
关于选用ccflow你所担心的问题都在这里为您解答
致ccflow客户感谢大家ccbpm的认可,我们会一如既往的以踏实的技术来回应大家的支持. 针对大家疑问最多的几个问题,在这里我我为大家一一解答. 代码一直在更新,不稳定问题版本控制我们做的差,是 ...
达梦7入门技术总结--DCA级别
说明: 1)该实验所有过程均是本人亲自敲命令完成,所有代码运行正确 2)安装过程使用的是suse11 sp3操作系统,后续的实验过程换成了麒麟中标,因此部分路径可能存在差异 3)安装过程使用了命令行安 ...
Jsonp的js实现，跨域请求，同源策略机制
Jsonp的js实现,跨域请求,同源策略机制1.跨域请求:请求URL的协议,域名,端口三者之间任意一个与当前页面地址不同即为跨域存在跨域的情况: 网络协议不同,端口不通,域名不同,子域名不同,域名和 ...
ZKWeb网页框架2.2.1正式发布
2.2.1 更新的内容有改进 EFCore 支持支持自动 json 序列化字段 (通过 WithSerialization 选项) 支持懒加载更新后 EFCore 可以使用所有默认插件 (ZKW ...