java正则表达式过滤html标签

import java.util.regex.Matcher;

import java.util.regex.Pattern;   

/**

 * <p>

 * Title: HTML相关的正则表达式工具类

 * </p>

 * <p>

 * Description: 包括过滤HTML标记，转换HTML标记，替换特定HTML标记

 * </p>

 * <p>

 * Copyright: Copyright (c) 2006

 * </p>

 *

 * @author hejian

 * @version 1.0

 * @createtime 2006-10-16

 */  

public class HtmlRegexpUtil {

    private final static String regxpForHtml = "<([^>]*)>"; // 过滤所有以<开头以>结尾的标签   

    private final static String regxpForImgTag = "<\\s*img\\s+([^>]*)\\s*>"; // 找出IMG标签   

    private final static String regxpForImaTagSrcAttrib = "src=\"([^\"]+)\""; // 找出IMG标签的SRC属性   

    /**

     *

     */

    public HtmlRegexpUtil() {

        // TODO Auto-generated constructor stub

    }   

    /**

     *

     * 基本功能：替换标记以正常显示

     * <p>

     *

     * @param input

     * @return String

     */

    public String replaceTag(String input) {

        if (!hasSpecialChars(input)) {

            return input;

        }

        StringBuffer filtered = new StringBuffer(input.length());

        char c;

        for (int i = 0; i <= input.length() - 1; i++) {

            c = input.charAt(i);

            switch (c) {

            case '<':

                filtered.append("&lt;");

                break;

            case '>':

                filtered.append("&gt;");

                break;

            case '"':

                filtered.append("&quot;");

                break;

            case '&':

                filtered.append("&amp;");

                break;

            default:

                filtered.append(c);

            }   

        }

        return (filtered.toString());

    }   

    /**

     *

     * 基本功能：判断标记是否存在

     * <p>

     *

     * @param input

     * @return boolean

     */

    public boolean hasSpecialChars(String input) {

        boolean flag = false;

        if ((input != null) && (input.length() > 0)) {

            char c;

            for (int i = 0; i <= input.length() - 1; i++) {

                c = input.charAt(i);

                switch (c) {

                case '>':

                    flag = true;

                    break;

                case '<':

                    flag = true;

                    break;

                case '"':

                    flag = true;

                    break;

                case '&':

                    flag = true;

                    break;

                }

            }

        }

        return flag;

    }   

    /**

     *

     * 基本功能：过滤所有以"<"开头以">"结尾的标签

     * <p>

     *

     * @param str

     * @return String

     */

    public static String filterHtml(String str) {

        Pattern pattern = Pattern.compile(regxpForHtml);

        Matcher matcher = pattern.matcher(str);

        StringBuffer sb = new StringBuffer();

        boolean result1 = matcher.find();

        while (result1) {

            matcher.appendReplacement(sb, "");

            result1 = matcher.find();

        }

        matcher.appendTail(sb);

        return sb.toString();

    }   

    /**

     *

     * 基本功能：过滤指定标签

     * <p>

     *

     * @param str

     * @param tag

     *            指定标签

     * @return String

     */

    public static String fiterHtmlTag(String str, String tag) {

        String regxp = "<\\s*" + tag + "\\s+([^>]*)\\s*>";

        Pattern pattern = Pattern.compile(regxp);

        Matcher matcher = pattern.matcher(str);

        StringBuffer sb = new StringBuffer();

        boolean result1 = matcher.find();

        while (result1) {

            matcher.appendReplacement(sb, "");

            result1 = matcher.find();

        }

        matcher.appendTail(sb);

        return sb.toString();

    }   

    /**

     *

     * 基本功能：替换指定的标签

     * <p>

     *

     * @param str

     * @param beforeTag

     *            要替换的标签

     * @param tagAttrib

     *            要替换的标签属性值

     * @param startTag

     *            新标签开始标记

     * @param endTag

     *            新标签结束标记

     * @return String

     * @如：替换img标签的src属性值为[img]属性值[/img]

     */

    public static String replaceHtmlTag(String str, String beforeTag,

            String tagAttrib, String startTag, String endTag) {

        String regxpForTag = "<\\s*" + beforeTag + "\\s+([^>]*)\\s*>";

        String regxpForTagAttrib = tagAttrib + "=\"([^\"]+)\"";

        Pattern patternForTag = Pattern.compile(regxpForTag);

        Pattern patternForAttrib = Pattern.compile(regxpForTagAttrib);

        Matcher matcherForTag = patternForTag.matcher(str);

        StringBuffer sb = new StringBuffer();

        boolean result = matcherForTag.find();

        while (result) {

            StringBuffer sbreplace = new StringBuffer();

            Matcher matcherForAttrib = patternForAttrib.matcher(matcherForTag

                    .group(1));

            if (matcherForAttrib.find()) {

                matcherForAttrib.appendReplacement(sbreplace, startTag

                        + matcherForAttrib.group(1) + endTag);

            }

            matcherForTag.appendReplacement(sb, sbreplace.toString());

            result = matcherForTag.find();

        }

        matcherForTag.appendTail(sb);

        return sb.toString();

    }

}

java正则表达式过滤html标签的更多相关文章

Java 正则表达式过滤html标签
extends:http://aguang520.iteye.com/blog/1056686# 前段时间开发的时候要读取一篇文章的简介内容(也就是前200个字符),使用了隐藏字段,可能有人就要问了, ...
Java正则表达式过滤出字母、数字和中文
原文:http://blog.csdn.net/k21325/article/details/54090066 1.Java中过滤出字母.数字和中文的正则表达式 (1)过滤出字母的正则表达式 [^(A ...
java正则表达式去除html标签
当我们用ckeditor或其他一些在线文本编辑器的时候内容里会有很多的标签如下片段: <p><img alt="" src="/img/upload ...
正则表达式过滤html标签
1.说明:需要使用非贪婪模式 2.示例过滤所有span标签: var newContent = Regex.Replace(htmlContent, "<span.*?>.*? ...
Java正则表达式过滤并消除非法字符
package sd; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * * @author 大汉 * */ ...
Java中正则表达式去除html标签
Java中正则表达式去除html的标签,主要目的更精确的显示内容,比如前一段时间在做类似于博客中发布文章功能,当编辑器中输入内容后会将样式标签也传入后台并且保存数据库,但是在显示摘要的时候,比如显示正 ...
正则表达式替换 <img > 标签
/** * 正则表达式过滤<img > 标签 * @param str * @return */ public static String cutOutImgPrefix(String s ...
C#正则过滤HTML标签并保留指定标签的方法
本文实例讲述了C#正则过滤html标签并保留指定标签的方法.分享给大家供大家参考,具体如下: 这边主要看到一个过滤的功能: public static string FilterHtmlTag(str ...
java 使用正则表达式过滤HTML中标签
/** * 去掉文本中的html标签 * * @param inputString * @return */ public static String html2Text(String inputSt ...

随机推荐

查看Eclipse中的jar包的源代码：jd-gui.exe
前面搞了很久的使用JAD,各种下载插件,最后配置好了,还是不能用,不知道怎么回事, 想起一起用过的jd-gui.exe这个工具,是各种强大啊!!! 只需要把jar包直接扔进去就可以了,非常清晰,全部解 ...
Mobile first! Wijmo 5 + Ionic Framework之：Hello World！
本教程中,我们用Wijmo 5 和 Ionic Framework实现一个Mobile的工程:Hello World. Ionic是什么? Ionic是一个HTML5框架.免费.开源,用于帮助生成hy ...
nginx服务器的网站权限问题
有时候我们的网站根目录会从一个目录迁移到另一个目录,如果我们服务器使用的是nginx或者Apache,我们一般会配置好网站根目录后然后往直接把网站解压或者上传到根目录中,这样引起的问题是无法对对文件进 ...
JavaScript关闭窗口的同时打开新页面的方法
做网页的时候需要弹出一个小窗口,然后要实现一个功能就是鼠标点击超链接关闭小窗口并打开一个新页面,就如同下图: 这是一个小窗口,点击超链接这个窗口会关闭并且会正常在浏览器打开新页面,首先写js关闭窗口的 ...
Java for LeetCode 174 Dungeon Game
The demons had captured the princess (P) and imprisoned her in the bottom-right corner of a dungeon. ...
Servlet之Cookie操作
Java对cookie的操作比较简单,主要介绍下建立cookie和读取cookie,以及如何设定cookie的生命周期和cookie的路径问题. 1,建立一个无生命周期的cookie,即随着浏览器的关 ...
模型验证组件——FluentValidation
之前在博客园有幸从网友那里得知一个C#的模型验证组件(哈不知道这样表述正确不),组件的功能比较简单,主要是实现了对Model的验证,例如验证用户名是否为空,密码长度是不是多余6个字符,当然还有其他更 ...
php 解决和避免form表单重复提交的方法
在提交表单的时候,可能遇到网速等导致页面突然加载变慢,用户重复地点击提交按钮,将在数据库产生多条数据,导致不可控情况. 比如下面的情况就会导致表单重复提交: 点击提交按钮两次. 点击刷新按钮. 使用浏 ...
神经网络：多层网络与C++实现
相关源码可参考最新的实现:https://github.com/ronnyyoung/EasyML ,中的neural_network模块,后持续更新,包括加入CNN的结构. 一.引言在前一篇关于神 ...
CDH中，执行HIVE脚本表联查权限问题。。
文章来自http://www.cnblogs.com/hark0623/p/4174641.html 转发请注明有时候执行表联查的时候总会出现没有权限写文件的情况. 这个时候使用sudo -H hi ...

java正则表达式过滤html标签

java正则表达式过滤html标签的更多相关文章

随机推荐

热门专题