Java过滤敏感词语/词汇---DFA算法

最近网站需要在评论、投稿等地方过滤敏感词汇，于是在网上查找了相关教程，特此整理分享。

关于DFA算法，详细的可以去http://blog.csdn.net/u013378306/article/details/52764955 看看。

在这纪录下如何配合js验证控件validate来使用它：

首先把工具类导入到项目中：

package com.test.util;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.HashMap;

import java.util.HashSet;

import java.util.Iterator;

import java.util.Map;

import java.util.Set;

import org.springframework.stereotype.Component;

/**

 * Utils - 敏感词

 *

 * @author test

 * @version 3.0

 */

@Component

public class DirtyStringUtil {

    private static String ENCODING = "UTF-8";    //字符编码

    private static String PATH = "/resources/shop/dirtyString/DirtyString.txt";    //你的敏感词汇的文件  我会给大家分享一个我们用的

    public static int minMatchTYpe = 1;      //最小匹配规则

    public static int maxMatchType = 2;      //最大匹配规则

    @SuppressWarnings("rawtypes")

    public static HashMap sensitiveWordMap;

    static {

        try {

            sensitiveWordMap = addSensitiveWordToHashMap(StringUtils.sourFolder+PATH);

        } catch (Exception e) {

        }

    }

    /**

     * 读取敏感词库，将敏感词放入HashSet中，构建一个DFA算法模型：<br>

     * 中 = {

     *      isEnd = 0

     *      国 = {<br>

     *           isEnd = 1

     *           人 = {isEnd = 0

     *                民 = {isEnd = 1}

     *                }

     *           男  = {

     *                  isEnd = 0

     *                   人 = {

     *                        isEnd = 1

     *                       }

     *               }

     *           }

     *      }

     *  五 = {

     *      isEnd = 0

     *      星 = {

     *          isEnd = 0

     *          红 = {

     *              isEnd = 0

     *              旗 = {

     *                   isEnd = 1

     *                  }

     *              }

     *          }

     *      }

     * @date 2014年4月20日 下午3:04:20

     * @param keyWordSet  敏感词库

     * @version 1.0

     */

    @SuppressWarnings({ "rawtypes", "unchecked" })

    private static HashMap addSensitiveWordToHashMap(String path) {

        Set<String> keyWordSet = null;

        File file = new File(path);    //读取文件

        InputStreamReader read = null;

        try {

            read = new InputStreamReader(new FileInputStream(file),ENCODING);

            if(file.isFile() && file.exists()){      //文件流是否存在

                keyWordSet = new HashSet<String>();

                @SuppressWarnings("resource")

                BufferedReader bufferedReader = new BufferedReader(read);

                String txt = null;

                while((txt = bufferedReader.readLine()) != null){    //读取文件，将文件内容放入到set中

                    keyWordSet.add(txt);

                }

            }

            else{         //不存在抛出异常信息

                throw new Exception("敏感词库文件不存在");

            }

        } catch (Exception e) {

                e.printStackTrace();

        }finally{

            try { //关闭文件流

                if (read != null) {

                    read.close();

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

        HashMap sensitiveWordMap = new HashMap(keyWordSet.size());     //初始化敏感词容器，减少扩容操作

        String key = null;

        Map nowMap = null;

        Map<String, String> newWorMap = null;

        //迭代keyWordSet

        Iterator<String> iterator = keyWordSet.iterator();

        while(iterator.hasNext()){

            key = iterator.next();    //关键字

            nowMap = sensitiveWordMap;

            for(int i = 0 ; i < key.length() ; i++){

                char keyChar = key.charAt(i);       //转换成char型

                Object wordMap = nowMap.get(keyChar);       //获取

                if(wordMap != null){        //如果存在该key，直接赋值

                    nowMap = (Map) wordMap;

                }

                else{     //不存在则，则构建一个map，同时将isEnd设置为0，因为他不是最后一个

                    newWorMap = new HashMap<String,String>();

                    newWorMap.put("isEnd", "0");     //不是最后一个

                    nowMap.put(keyChar, newWorMap);

                    nowMap = newWorMap;

                }

                if(i == key.length() - 1){

                    nowMap.put("isEnd", "1");    //最后一个

                }

            }

        }

        return sensitiveWordMap;

    }

    /**

     * 检查文字中是否包含敏感字符，检查规则如下：<br>

     * @date 2014年4月20日 下午4:31:03

     * @param txt

     * @param beginIndex

     * @param matchType

     * @return，如果存在，则返回敏感词字符的长度，不存在返回0

     * @version 1.0

     */

    @SuppressWarnings({ "rawtypes"})

    public static int CheckSensitiveWord(String txt, Map nowMap, int beginIndex,int matchType){

        boolean  flag = false;    //敏感词结束标识位：用于敏感词只有1位的情况

        int matchFlag = 0;     //匹配标识数默认为0

        char word = 0;

        for(int i = beginIndex; i < txt.length() ; i++){

            word = txt.charAt(i);

            nowMap = (Map) nowMap.get(word);     //获取指定key

            if(nowMap != null){     //存在，则判断是否为最后一个

                matchFlag++;     //找到相应key，匹配标识+1

                if("1".equals(nowMap.get("isEnd"))){       //如果为最后一个匹配规则,结束循环，返回匹配标识数

                    flag = true;       //结束标志位为true

                    if(minMatchTYpe == matchType){    //最小规则，直接返回,最大规则还需继续查找

                        break;

                    }

                }

            }

            else{     //不存在，直接返回

                break;

            }

        }

        if(matchFlag < 2 || !flag){        //长度必须大于等于1，为词

            matchFlag = 0;

        }

        return matchFlag;

    }

    /**

     * 判断文字是否包含敏感字符

     * @date 2014年4月20日 下午4:28:30

     * @param path  敏感词库文件路径

     * @param txt  文字

     * @param matchType  匹配规则&nbsp;1：最小匹配规则，2：最大匹配规则

     * @return 若包含返回true，否则返回false

     * @version 1.0

     */

    public static boolean isContaintSensitiveWord(String txt, int matchType){

        boolean flag = false;

        for(int i = 0 ; i < txt.length() ; i++){

            int matchFlag = CheckSensitiveWord(txt, sensitiveWordMap, i, matchType); //判断是否包含敏感字符

            if(matchFlag > 0){    //大于0存在，返回true

                flag = true;

            }

        }

        return flag;

    }

}

PATH 的路径就是你把敏感词汇那个文档放到的那个路径，这个是我们用的文档：http://pan.baidu.com/s/1o8uD2yQ

然后是验证相关的代码（content就是要验证的那个内容）:

$inputForm.validate({

                focusCleanup: true,

                rules: {

                    title:       "required",//标题不为空

                    linkName: "required", //名字不为空

                    linkPhone: {//验证手机

                                required: true,

                                pattern: /^((0\d{2,3}-\d{7,8})|(1[34578]\d{9}))$/,

                        },

                    content:{

                        remote: {//此处就是验证是否饱含敏感词汇的  把这个地址替换成你的controller

                            url: "${base}/dirtyString/check_dirtyString.jhtml"

                        }

                    }

                },

                messages: {

                    content: {

                        remote: "含敏感词汇，请修改后重新发布"

                    }

                }

remote的url处就是验证是否饱含敏感词汇的，把这个地址替换成你的controller。

然后就是我们controller的代码：

package com.test.controller.shop;

import org.apache.commons.lang.StringUtils;

import org.springframework.stereotype.Controller;

import org.springframework.web.bind.annotation.RequestMapping;

import org.springframework.web.bind.annotation.RequestMethod;

import org.springframework.web.bind.annotation.ResponseBody;

import com.nbcyl.util.DirtyStringUtil;

@Controller("dirtyStringController")

@RequestMapping("/dirtyString")

public class DirtyStringController {

    /**

     * 检查内容是否包含敏感词语

     */

    @RequestMapping(value = "/check_dirtyString", method = RequestMethod.GET)

    public @ResponseBody

    boolean checkDirtyString(String content) {

        if (StringUtils.isEmpty(content)) {

            return false;

        }

        //去除中英文空格 然后调用工具类判断 是否饱含 敏感词

        String lastContent = content.replaceAll("\\s", "").replaceAll("　", "");

        if (DirtyStringUtil.isContaintSensitiveWord(lastContent, 2)) {

            return false;

        } else {

            return true;

        }

    }

}

OK，到这基本上就可以啦，当你的页面触发了validate时，就会提示那个message里设置的文字了！

Java过滤敏感词语/词汇---DFA算法的更多相关文章

java过滤敏感词汇
前言现在几乎所有的网站再发布带有文字信息的内容时都会要求过滤掉发动的.不健康的.影响社会安定的等敏感词汇,这里为大家提供了可以是现在这种功能的解决方案第一种方式创建敏感词汇文件:首先需要准备一个 ...
java实现敏感词过滤（DFA算法）
小Alan在最近的开发中遇到了敏感词过滤,便去网上查阅了很多敏感词过滤的资料,在这里也和大家分享一下自己的理解. 敏感词过滤应该是不用给大家过多的解释吧?讲白了就是你在项目中输入某些字(比如输入xxo ...
Java实现敏感词过滤 - DFA算法
Java实现DFA算法进行敏感词过滤封装工具类如下: 使用前需对敏感词库进行初始化: SensitiveWordUtil.init(sensitiveWordSet); package cn.swf ...
敏感词汇过滤DFA算法
using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Tex ...
使用DFA算法对敏感词进行过滤
项目目录结构如下: 其中resources资源目录中: stopwd.txt :停顿词,匹配时间直接过滤. wd.txt:敏感词库. 1.WordFilter敏感词过滤类: package com.s ...
敏感词过滤的算法原理之DFA算法
参考文档 http://blog.csdn.net/chenssy/article/details/26961957 敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有 ...
Java 利用DFA算法屏蔽敏感词
原文:http://www.open-open.com/code/view/1435214601278 import java.io.BufferedReader; import java.io.Fi ...
(转)两种高效过滤敏感词算法--DFA算法和AC自动机算法
原文:https://blog.csdn.net/u013421629/article/details/83178970 一道bat面试题:快速替换10亿条标题中的5万个敏感词,有哪些解决思路? 有十 ...
DFA算法实现敏感词过滤
DFA算法:即确定有穷自动机,简单点说就是,它是是通过event和当前的state得到下一个state,即event+state=nextstate.理解为系统中有多个节点,通过传递进入的event, ...

随机推荐

javascript与jQuery选项卡效果
HTML结构: <!doctype html><html><head><meta charset="utf-8"><title ...
java中的i++和++i区别
public class Main { public static void main(String[] args) { int i = 0; i = i++; System.out.println( ...
20155232 2016-2017-3 《Java程序设计》第5周学习总结
20155232 2016-2017-3 <Java程序设计>第5周学习总结教材学习内容总结第八章异常处理 1.使用try和catch 将正常的流程放try块中,异常处理放catch ...
【Egret】里使用iframe标签达到内嵌多个web界面
目的:Egret里使用iframe标签达到内嵌多个web界面,模式相当于主swf调用N个子swf的效果: 目前在做项目过程中,在使用iframe的时候,碰到了一些功能需求,以及解决方法如下: 一..在 ...
tmux鼠标配置出现错误unknown option: mode-mouse
setw -g mode-mouse on set -g mouse-select-pane on set -g mouse-resize-pane on set -g mouse-select-wi ...
NOIP2001T4car的旅行计划
洛谷传送门一看数据就是floyed(毕竟年代久远),然而建图不是那么好贱好建,只知道三个机场,需要判断斜边来求第4个机场坐标. 往后一些麻烦的建图. 最后floyed就好. --代码 #includ ...
Java线程详解----借鉴
Java线程:概念与原理一.操作系统中线程和进程的概念现在的操作系统是多任务操作系统.多线程是实现多任务的一种方式. 进程是指一个内存中运行的应用程序,每个进程都有自己独立的一块内存空间,一个进程 ...
【转载】google搜索从入门到精通
原文地址:http://www.cnblogs.com/helloIT/articles/5095668.html /***************************************** ...
onmouseover事件
根据教学视频写了个onmouseover事件: <!DOCTYPE html> <html> <head> <meta charset="UTF-8 ...
mysql 优化方法
1.选取最适用的字段属性 MySQL可以很好的支持大数据量的存取,但是一般说来,数据库中的表越小,在它上面执行的查询也就会越快.因此,在创建表的时候,为了获得更好的性能,我们可以将表中字段的宽度设得尽 ...

Java过滤敏感词语/词汇---DFA算法

Java过滤敏感词语/词汇---DFA算法的更多相关文章

随机推荐

热门专题