导入jsoup-1.8.1.jar
import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.safety.Whitelist;
import org.jsoup.select.Elements;
/**
 * jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jsoup的主要功能如下:
1. 从一个URL,文件或字符串中解析HTML;
2. 使用DOM或CSS选择器来查找、取出数据;
3. 可操作HTML元素、属性、文本;
jsoup是基于MIT协议发布的,可放心使用于商业项目。
注意:获取到了document对象之后,可以类似于操作dom一样来操作
 *
 */
public class TestJsoup {
    /**
     * 文档输入
     * jsoup 可以从包括字符串、URL地址以及本地文件来加载HTML 文档,并生成Document 对象实例。
     * 获取指定HTML 文档指定的body
     * @throws IOException
     */
    public static Document getBody() throws IOException{
        /**方式一*/
        String html = "<html><head><title>开源中国社区</title></head>"
                +"<body><p>这里是jsoup 项目的相关文章</p></body></html>";
        Document doc1 = Jsoup.parse(html);//直接从字符串中输入HTML 文档,有很多其他的构造方法可以使用
        System.out.println(doc1);
        /**方式二*/
        Document doc2 = Jsoup.connect("http://www.baidu.com/more/index.html")//
        .data("query", "java")//请求参数
        .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36")//设置User-Agent
        .cookie("auth", "token")//设置cookie
        .timeout(3000)//设置连接超时时间
        .post();//使用POST方法访问URL
        System.out.println(doc2);
        /**方式三*/
        Document doc3 = Jsoup.connect("http://www.baidu.com").get();//直接获取doc
        System.out.println(doc3);
        return doc3;
    }
    /**
     * 解析并提取HTML 元素
     * 里面有很多操作document的方法,这里以通过id做例子
     * @throws IOException
     */
    public static Element getElement() throws IOException{
        Document doc = Jsoup.connect("http://www.baidu.com").get();
        Element elementById = doc.getElementById("ftConw");
        System.out.println(elementById);
        return elementById;
    }
    /**
     * 改变属性,样式等等
     * 可以通过jsoup提供的各种选择器操作很多东西
     * @throws IOException
     */
    public static void changeAttr() throws IOException{
        Document doc = Jsoup.connect("http://www.baidu.com").get();
        Element elementById = doc.getElementById("ftConw");
        Elements select = elementById.select("a");
        Element element = select.get(0);
        System.out.println("before:"+element);
        element.removeAttr("onmousedown");
        System.out.println("after:"+element);
    }
    /**
     * HTML 文档清理
     * @throws IOException
     */
    public static void cleanHtml() throws IOException{
        Connection connect = Jsoup.connect("http://www.baidu.com");
        Document doc = connect.get();
        /**
         * Whitelist.basic():a, b, blockquote, br, cite, code, dd, dl, dt, em, i, li, ol, p, pre, q,small,strike, strong, sub, sup, u, ul;
         * Whitelist.basicWithImages():a, b, blockquote, br, cite, code, dd, dl,dt, em, i, li, ol, p, pre, q, small, strike, strong, sub, sup, u, ul、img、src;
         * Whitelist.relaxed():a, b, blockquote,br, caption, cite, code, col, colgroup, dd, dl, dt, em, h1, h2, h3, h4, h5, h6,i, img, li, ol, p, pre, q, small,

strike, strong, sub, sup, table, tbody, td,tfoot, th, thead, tr, u, ul;
         * Whitelist.simpleText():简单的文本属性b, em, i, strong, u
         * Whitelist.none();//只保留了文本
         * 如果还不能满足要求,可以使用使用addAttributes、addEnforcedAttribute、addProtocols、addTags进行添加
         * 可以结合springmvc的initBinder一起使用
         */
        Whitelist whitelist = Whitelist.basic();//只保留了文本
        String clean = Jsoup.clean(doc.toString(), whitelist);
        System.out.println(clean);
    }

public static void main(String[] args) throws IOException {
        //getBody();
//        getElement();
//        changeAttr();
        cleanHtml();
    }
}

160718、jsoup-1.8.1.jar操作html的更多相关文章

  1. poi-3.11-beta2-20140822.jar操作excel方法

    poi-3.11-beta2-20140822.jar操作excel方法 根据不同类型读取值的方法: // 获取单元格内不同类型的值 public String getValueByType(HSSF ...

  2. jar - 操作jar包的工具

    jar - Manipulates Java Archive (JAR) files. jar命令是一种通用的存档和压缩工具,基于ZIP和ZLIB压缩格式. 常用格式: * 创建jar文件 jar c ...

  3. 使用jxl.jar操作Excel

    在工程的build path中添加jxl.jar,网址:http://www.andykhan.com/jexcelapi/ import java.io.BufferedReader; import ...

  4. org.jsoup.Jsoup找不到jar包问题解决思路

    今天在idea中导入项目,出现了这样的问题 通过idea的自带的导包功能,却提示找不到这个东西.于是就去maven仓库搜索这个咚咚 <!-- https://mvnrepository.com/ ...

  5. 常见 jar包详解

        常见 jar包详解 jar包 用途 axis.jar SOAP引擎包 commons-discovery-0.2.jar 用来发现.查找和实现可插入式接口,提供一些一般类实例化.单件的生命周期 ...

  6. Jsoup解析HTML、加载文档等实例

    一.引入jsoup的jar包:http://jsoup.org/download 补充:http://jsoup.org/apidocs/   Jsoup API    可以了解更详细的内容 二.Js ...

  7. Jsoup简介

    Jsoup简介 一.概述 Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来 ...

  8. Jsoup使用随记

    这段时间工作比较空闲,在网上找资料学习的时候看到数据抓取这一块,来了兴趣 用jsoup实现数据抓取着实方便,唯一美中不足的是官方API是英文版的,对我这样英语水平不好的程序员来说着实困扰,只能一点点的 ...

  9. 常用jar包用途

    jar包 用途 axis.jar SOAP引擎包 commons-discovery-0.2.jar 用来发现.查找和实现可插入式接口,提供一些一般类实例化.单件的生命周期管理的常用方法. jaxrp ...

随机推荐

  1. unity3d控制主摄像头移动

    这篇很水,因为就只有一行代码==: Camera.main.transform.Translate (Vector3.forward); 这行代码控制主摄像头向前移动,其它的如下: up:向上 dow ...

  2. C#调用Windows CMD命令并,返回输出结果或错误信息

    public static string InvokeExcute(string Command) { Command = Command.Trim().TrimEnd('&') + &quo ...

  3. ASP.NET MVC使用IoC

    也许你会问ASP.NET MVC为什么会爱上IoC? 相爱的理由常常很简单,就像一首歌中所唱——“只为相遇那一个眼神”. 而ASP.NET MVC爱上IoC只为IoC能实现MVC控制器的依赖注入. 下 ...

  4. A successful Git branching model/GIT分支管理是一门艺术

    英文原文:http://www.nvie.com/posts/a-successful-git-branching-model/ 原文作者:Vincent Driessen 本文经Linux大棚博主总 ...

  5. iis支持IPA和APK文件下载

    找到IIS 扩展名是:.apk MIMI类型是:application/vnd.android.package-archive扩展名是:.ipa MIMI类型是:application/iphone

  6. 点滴积累【JS】---JS小功能(onmousemove鼠标移动坐标接龙DIV)

    效果: 思路: 利用onmousemove事件,然后获取鼠标的坐标,之后把DIV挨个遍历,最后把鼠标的坐标赋给DIV. 代码: <head runat="server"> ...

  7. loongson官方PMON使用

    目录 [隐藏]  1 PMON使用介绍 1.1 进入PMON控制界面 1.2 Pmon的图形界面 1.3 Pmon的基本命令 1.3.1 Boot and Load 启动与加载内核 1.3.2 MyC ...

  8. 李洪强iOS开发之iOS学习方法收集

    李洪强iOS开发之iOS学习方法收集 在这里收集一些iOS学习方法,会不断更新 项目 简述 日期 一年多iOS开发总结 作者总结了自己一年多的iOS学习经验,对于iOS初学者来说很多地方是可以借鉴的 ...

  9. 【Objective-C】03-第一个OC程序

    一.打开Xcode,新建Xcode项目 二.选择最简单的命令行项目 因为我们只是学习OC语法,还未正式进入iOS开发,所以选择命令行项目即可 三.输入项目名称,选择Foundation框架进行创建项目 ...

  10. ORACLE / PLSQL 插入或更新数据的几种方式

    第一种,直接用values 插入 ---日期需要用TO_DATE操作 INSERT INTO EMP (EMPNO,ENAME ,JOB,MGR, HIREDATE , SAL ,COMM, DEPT ...