java-正则表达式过滤字符串中的html标签

案例

import java.util.regex.Matcher;

import java.util.regex.Pattern;   

/**

 * <p>

 * Title: HTML相关的正则表达式工具类

 * </p>

 * <p>

 * Description: 包括过滤HTML标记，转换HTML标记，替换特定HTML标记

 * </p>

 * <p>

 * Copyright: Copyright (c) 2006

 * </p>

 *

 * @author hejian

 * @version 1.0

 * @createtime 2006-10-16

 */  

public class HtmlRegexpUtil {

    private final static String regxpForHtml = "<([^>]*)>"; // 过滤所有以<开头以>结尾的标签   

    private final static String regxpForImgTag = "<\\s*img\\s+([^>]*)\\s*>"; // 找出IMG标签   

    private final static String regxpForImaTagSrcAttrib = "src=\"([^\"]+)\""; // 找出IMG标签的SRC属性   

    /**

     *

     */

    public HtmlRegexpUtil() {

        // TODO Auto-generated constructor stub

    }   

    /**

     *

     * 基本功能：替换标记以正常显示

     * <p>

     *

     * @param input

     * @return String

     */

    public String replaceTag(String input) {

        if (!hasSpecialChars(input)) {

            return input;

        }

        StringBuffer filtered = new StringBuffer(input.length());

        char c;

        for (int i = 0; i <= input.length() - 1; i++) {

            c = input.charAt(i);

            switch (c) {

            case '<':

                filtered.append("&lt;");

                break;

            case '>':

                filtered.append("&gt;");

                break;

            case '"':

                filtered.append("&quot;");

                break;

            case '&':

                filtered.append("&amp;");

                break;

            default:

                filtered.append(c);

            }   

        }

        return (filtered.toString());

    }   

    /**

     *

     * 基本功能：判断标记是否存在

     * <p>

     *

     * @param input

     * @return boolean

     */

    public boolean hasSpecialChars(String input) {

        boolean flag = false;

        if ((input != null) && (input.length() > 0)) {

            char c;

            for (int i = 0; i <= input.length() - 1; i++) {

                c = input.charAt(i);

                switch (c) {

                case '>':

                    flag = true;

                    break;

                case '<':

                    flag = true;

                    break;

                case '"':

                    flag = true;

                    break;

                case '&':

                    flag = true;

                    break;

                }

            }

        }

        return flag;

    }   

    /**

     *

     * 基本功能：过滤所有以"<"开头以">"结尾的标签

     * <p>

     *

     * @param str

     * @return String

     */

    public static String filterHtml(String str) {

        Pattern pattern = Pattern.compile(regxpForHtml);

        Matcher matcher = pattern.matcher(str);

        StringBuffer sb = new StringBuffer();

        boolean result1 = matcher.find();

        while (result1) {

            matcher.appendReplacement(sb, "");

            result1 = matcher.find();

        }

        matcher.appendTail(sb);

        return sb.toString();

    }   

    /**

     *

     * 基本功能：过滤指定标签

     * <p>

     *

     * @param str

     * @param tag

     *            指定标签

     * @return String

     */

    public static String fiterHtmlTag(String str, String tag) {

        String regxp = "<\\s*" + tag + "\\s+([^>]*)\\s*>";

        Pattern pattern = Pattern.compile(regxp);

        Matcher matcher = pattern.matcher(str);

        StringBuffer sb = new StringBuffer();

        boolean result1 = matcher.find();

        while (result1) {

            matcher.appendReplacement(sb, "");

            result1 = matcher.find();

        }

        matcher.appendTail(sb);

        return sb.toString();

    }   

    /**

     *

     * 基本功能：替换指定的标签

     * <p>

     *

     * @param str

     * @param beforeTag

     *            要替换的标签

     * @param tagAttrib

     *            要替换的标签属性值

     * @param startTag

     *            新标签开始标记

     * @param endTag

     *            新标签结束标记

     * @return String

     * @如：替换img标签的src属性值为[img]属性值[/img]

     */

    public static String replaceHtmlTag(String str, String beforeTag,

            String tagAttrib, String startTag, String endTag) {

        String regxpForTag = "<\\s*" + beforeTag + "\\s+([^>]*)\\s*>";

        String regxpForTagAttrib = tagAttrib + "=\"([^\"]+)\"";

        Pattern patternForTag = Pattern.compile(regxpForTag);

        Pattern patternForAttrib = Pattern.compile(regxpForTagAttrib);

        Matcher matcherForTag = patternForTag.matcher(str);

        StringBuffer sb = new StringBuffer();

        boolean result = matcherForTag.find();

        while (result) {

            StringBuffer sbreplace = new StringBuffer();

            Matcher matcherForAttrib = patternForAttrib.matcher(matcherForTag

                    .group(1));

            if (matcherForAttrib.find()) {

                matcherForAttrib.appendReplacement(sbreplace, startTag

                        + matcherForAttrib.group(1) + endTag);

            }

            matcherForTag.appendReplacement(sb, sbreplace.toString());

            result = matcherForTag.find();

        }

        matcherForTag.appendTail(sb);

        return sb.toString();

    }

}

转

java-正则表达式过滤字符串中的html标签的更多相关文章

正则表达式替换字符串中的html标签
正则表达式替换字符串中的html标签 ··· var newStr = str.replace(/<[^>]+>/g, ''); ···
过滤字符串中的html标签
C#中,我们有时需要过滤掉字符串中的部分html标签,以下是一些简单的html标签过滤方法,使用的主要方式是正则表达式 public static string ClearHtml(string ht ...
正则表达式获取字符串中的img标签中的url链接
废话不多说直接看代码 JavaScript中的代码: var re = /src=\"([^\"]*?)\"/i; var arr = str.match(re); if ...
使用Java正则表达式提取字符串中的数字一例
直接上代码: String reg = "\\D+(\\d+)$"; //提取字符串末尾的数字:封妖塔守卫71 == >> 71 String s = monster. ...
Java过滤掉字符串中的html标签、style标签、script标签
使用正则表达式 import java.util.regex.Matcher; import java.util.regex.Pattern; public class HTMLSpirit{ pub ...
java正则表达式去除html中所有的标签和特殊HTML字符（以&开头的）
来源于:https://www.androiddev.net/java%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E5%8E%BB%E9%99%A4ht ...
js过滤字符串中的html标签
var str = 'add<a>daad</a><p>fsdada</p>' str.replace(/<[^<>]+>/g, ...
Java中用正则表达式截取字符串中
Java中用正则表达式截取字符串中第一个出现的英文左括号之前的字符串.比如:北京市(海淀区)(朝阳区)(西城区),截取结果为:北京市.正则表达式为() A ".*?(?=\\()" ...
Java之正则表达式来判断字符串中是否包含字母
/** * 使用正则表达式来判断字符串中是否包含字母 * @param str 待检验的字符串 * @return 返回是否包含 * true: 包含字母 ;false 不包含字母 */ public ...

随机推荐

关于OAUTH2.0的极品好文
Web Server Flow: web ServerFlow是把oauth1.0的三个步骤缩略为两个步骤首先这个是适合有server的第三方使用的. 1客户端http请求authorize 2服务 ...
Sphinx和coreseek检索引擎
Sphinx是检索英文用,coreseek是检索中文用. Sphinx(斯芬克斯)是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索 ...
FFT入门
这篇文章会讲讲FFT的原理和代码. 先贴picks博客(又名FFT从入门到精通):http://picks.logdown.com/posts/177631-fast-fourier-transfor ...
Nginx针对https站点的部署
一.Nginx安装(略)安装的时候需要注意加上 --with-http_ssl_module,因为http_ssl_module不属于Nginx的基本模块.Nginx安装方法:# ./configur ...
一种Docker image镜像的取代方案
在http://openvz.org/Download/templates/precreated中有很多压缩的镜像文件,可以将这些文件下载后采用import方式使用镜像,也可以采用我原来的博文:doc ...
修改Esxi克隆的CentOS的IP地址
1.读取/etc/udev/rules.d/70-persistent-net.rules文件中eth1的MAC地址. 2.编辑文件 /etc/sysconfig/network-script/ifc ...
uploadify firefox 401
uploadify在firefox下上传会报401错误:这是因为java的框架把其拦截了拦截的原因是,firefox下的flash在请求和发送请求的时候不会携带cookie和session过去,造成 ...
Hibernate hbm2ddl.auto DDL语句控制台输出的配置
在开发中我们需要知道hbm2ddl.auto生成的SQL语句,来判断代码的正确性,现在记录配置的过程. Hibernate的DDL语句在控制台的输出配置: 一.在lib中确保只有下面的三个相关包:1) ...
easyui 中Datagrid 控件在列较多且无数据时，列显示不全的解决方案
在onLoadSuccess 中加入如下代码就OK啦 $('#dg3').datagrid({ onLoadSuccess:function(data){ if(data.total==0){ var ...
OFFSET IN 使用举例
本文将结合具体实例阐述OFFSET IN的使用方法.注意:这是我第一次写OFFSET IN约束,本文仅供参考.阅读本文前需要了解时序收敛的基本概念,OFFSET IN和Period的相关知识,可先阅读 ...

java-正则表达式过滤字符串中的html标签

java-正则表达式过滤字符串中的html标签的更多相关文章

随机推荐

热门专题