JSoup——用Java解析html网页内容

当需要从网页上获取信息时，需要解析html页面。筛选指定标签，并获取其值是必不可少的操作，解析html页面这方面的利器，Python有BeautifulSoup，Java一直没有好的工具，之前的HtmlParser非常难用，虽能解析，但不能过滤，只能从头到尾地遍历各个节点，非常不便，而Jsoup是甚至比BeautifulSoup更加方便的工具,Jsoup支持类似于CSS(或jquery)的选择器语法，来实现非常强大和灵活的查找功能。

下面说说其基本用法：

1)Jsoup.parse(html)//建立一个html文本指定的html文档，返回一个Document对象

2)Document.select(filter)//按照过滤器指定条件，筛选满足条件的所有元素（或称为标签），返回一个Elements对象，表示一组Element对象。

3)Elements.first()//返回Elements的第一个Element对象

4)Element.text()//获取一个标签首尾之间的内容，如

String html="<div>我是一个div</div>";

Document doc=Jsoup.parse(html);

doc.getElementsByTag("div").first().text();//输出"我是一个div"

5)Element.attr(attrname),获取标签某个属性的值，如

String html="<div>我是一个div</div>";

Document doc=Jsoup.parse(html);

doc.getElementsByTag("div").first().attr("class")的值为"divStyle"

给出一个综合示例：

public static HashMap<String, Object> getDetails(String html)

    {

        HashMap<String, Object> details = new HashMap<String, Object>();

　　　　　//解析开始

        Document doc = Jsoup.parse(html);

　　　　 //获取形如<div class="result_info ...">something</div>的第一个div元素，class^=result_info表示class以result_info开头，^是正则表达式的开始

　　　　 Element divAll = doc.select("div[class^=result_info]").first();

　　　　　

        //System.out.println(divAll.text());

        Element head = divAll.select("h3").first();//获取div中的h3标签

        String tvname = head.select("a").attr("title").trim();//获取h3标签中a标签的title属性值

        String year = "";

        if (head.select("em").size() > 0)//假如h3标签中存在多个<em></em>标签

        {

            year = head.select("em").first().text().trim();//只要第一个<em>首尾之间的文本

        }

        String score = "";

        Element scoreSection = divAll.select("p").first();

        if (scoreSection != null)

        {

            Elements es = scoreSection.select("span");//选择span元素

            int size = es.size();

            for (int i = 0; i < size; i++)

            {

                Element e = es.get(i);

                String content = e.text().trim();

                content = content.replace("\u00A0", "");//替换&nbsp;为空格

                score += content;

            }

        }

        HashMap<String, String> lstOtherInfo = new HashMap<String, String>();

        Elements otherSections = divAll.select("div[class^=result_info_cont]");//获取满足class以result_info_cont开头的所有div元素

        int size = otherSections.size();//获取满足条件的div元素的总数是多少

        int infoCount = 0;

        for (int i = 0; i < size && infoCount < 3; i++)

        {

            String value = "";

            Element item = otherSections.get(i);//获取第i个元素

            boolean keyflag = true;

            String key = "";

            for (int index = 0; index < item.children().size(); index++)//Element.children()用于获取元素的直接子元素

            {

                Element e = item.child(index);//获取第index个子元素

                if (keyflag)

                {

                    key = e.text().trim();

                    if (key == "简介")

                        break;

                    keyflag = false;

                }

                else

                {

                    if (e.children().size() > 0)

                    {

                        for (int b = 0; b < e.children().size(); b++)

                        {

                            value += e.child(b).text().trim() + ",";

                        }

                    }

                    else

                    {

                        String contents = e.text().trim();

                        value += contents + ",";

                    }

                }

            }

            value = value.replaceAll("[" + "," + "]$", "");

            lstOtherInfo.put(key, value);

            infoCount++;

        }

        details.put("tv", tvname);

        details.put("year", year);

        details.put("score", score);

        details.put("otherInfo", lstOtherInfo);

        return details;

    }

参考链接：

http://jsoup.org/apidocs/

https://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/

http://www.open-open.com/jsoup/selector-syntax.htm

JSoup——用Java解析html网页内容的更多相关文章

java爬取网页内容简单例子（2）——附jsoup的select用法详解
[背景] 在上一篇博文java爬取网页内容简单例子(1)——使用正则表达式里面,介绍了如何使用正则表达式去解析网页的内容,虽然该正则表达式比较通用,但繁琐,代码量多,现实中想要想出一条简单的正则表 ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
Jsoup -- 网络爬虫解析器
需要下载jsoup-1.8.1.jar包 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQue ...
java解析xml的三种方法
java解析XML的三种方法 1.SAX事件解析 package com.wzh.sax; import org.xml.sax.Attributes; import org.xml.sax.SAXE ...
atitit.java解析sql语言解析器解释器的实现
atitit.java解析sql语言解析器解释器的实现 1. 解析sql的本质:实现一个4gl dsl编程语言的编译器 1 2. 解析sql的主要的流程,词法分析,而后进行语法分析,语义分析,构建sq ...
Jsoup实现java模拟登陆
Jsoup实现java模拟登陆 2013-10-29 14:52:05| 分类: web开发|举报|字号订阅下载LOFTER我的照片书 | 1:如何获取cookies. 1.1 ...
java 解析XML文档
Java 解析XML文档一.解析XML文档方式: 1.DOM方式:将整个XML文档读取到内存中,按照XML文件的树状结构图进行解析. 2.SAX方式:基于事件的解析,只需要加载XML中的部分数据,优 ...
Java 解析 XML
Java 解析 XML 标签: Java基础 XML解析技术有两种 DOM SAX DOM方式根据XML的层级结构在内存中分配一个树形结构,把XML的标签,属性和文本等元素都封装成树的节点对象优点 ...
JAVA解析XML的四种方式
java解析xml文件四种方式 1.介绍 1)DOM(JAXP Crimson解析器) DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准.DOM是以层次结构组织的节点或信息片断的集合.这 ...

随机推荐

ssh开发流程
小菜鸟学 Spring-Dependency injection(二)
注入方式一:set注入 <bean id="exampleBean" class="examples.ExampleBean"> <!-- s ...
Java Web-session介绍
使用情况 Session对象记载某一特定的客户信息,不同的客户用不同的Session对象来记载 Session对象有效期:默认为20分钟,可设定 Session工作原理:在应用程序中,当客户端启动一个 ...
Chrome商店Crx离线安装包下载
第一步:找到Chrome的扩展应用ID 第二步:输入扩展应用ID 第三步:单击生成按钮. 第四步:在这里右键另存为即可下载.
CODEVS 1258 关路灯
写动归终于能不看题解一次A了!(其实交了两次,一次80一次A) 我练功发自真心! 题目描述 Description 多瑞卡得到了一份有趣而高薪的工作.每天早晨他必须关掉他所在村庄的街灯.所有的街灯都被 ...
TCP/IP详解笔记九
广播和多播多播和广播只能用于UDP包,TCP明确在两个进程间建立连接. 多播:帧只传送给属于多播组的多个接口主机对帧的过滤过程: 通常网卡只接收那些目的地址为本物理接口地址或广播地址的帧:设置为混 ...
.NET/MVC-发布到IIS6.1提示未能加载程序集System.Web.Http.WebHost
http://www.bubuko.com/infodetail-1128065.html vs2013发布后,自己的用iis7.0可以发布这个网站,但是用服务器2008 IIS6.1发布这个网站一直 ...
转载大神的检测网站重定向的python脚本
#!/usr/bin/env python #coding=utf8 import sys import requests def check_for_redirects(url): try: r = ...
DetachedCriteria详细使用
一.基本使用 1. 说明 Restrictions 是产生查询条件的工具类. 2. 定义可以直接用class 创建 DetachedCriteria searDc = DetachedCriteri ...
转:Java NIO系列教程(四) Scatter/Gather
Java NIO开始支持scatter/gather,scatter/gather用于描述从Channel(译者注:Channel在中文经常翻译为通道)中读取或者写入到Channel的操作.分散(sc ...

JSoup——用Java解析html网页内容

JSoup——用Java解析html网页内容的更多相关文章

随机推荐

热门专题