敏感词汇过滤DFA算法

using System;

using System.Collections.Generic;

using System.IO;

using System.Linq;

using System.Text;

using System.Threading.Tasks;

namespace SensitiveWordFilter

{

    public class SensitiveWord

    {

        private static readonly char IsEndChar = '$';

        /**

         * 初始化敏感词库<br>

         * 将敏感词加入到HashMap中<br>

         * 构建DFA算法模型

         *

         * @author dxm

         *

         */

        public class SensitiveWordInit

        {

            // 字符编码

            private static readonly  String ENCODING = "UTF-8";

            /**

             * 初始化敏感字库

             *

             * @return

             */

            public Dictionary<char, object> initKeyWord()

            {

                // 读取敏感词库

                HashSet<String> wordSet = readSensitiveWordFile();

                // 将敏感词库加入到HashMap中

                return addSensitiveWordToHashMap(wordSet);

            }

            /**

             * 读取敏感词库，将敏感词放入HashSet中，构建一个DFA算法模型：<br>

             * 中 = {

             *       isEnd = 0

             *       国 = {

             *             isEnd = 1

             *             人 = {

             *                   isEnd = 0

             *                   民 = {

             *                         isEnd = 1

             *                   }

             *             }

             *             男 = {

             *                   isEnd = 0

             *                   人 = {

             *                         isEnd = 1

             *                   }

             *             }

             *       }

             * }

             * 五 = {

             *       isEnd = 0

             *       星 = {

             *             isEnd = 0

             *             红 = {

             *                    isEnd = 0

             *                    旗 = {

             *                           isEnd = 1

             *                    }

             *              }

             *       }

             * }

             */

            private Dictionary<char, object> addSensitiveWordToHashMap(HashSet<String> wordSet)

            {

                // 初始化敏感词容器，减少扩容操作

                Dictionary<char, object> wordMap = new Dictionary<char, object>(wordSet.Count);

                foreach (String word in wordSet)

                {

                    IDictionary<char, object> nowMap = wordMap;

                    for (int i = 0; i < word.Length; i++)

                    {

                        // 转换成char型

                        char keyChar = word[i];

                        if (keyChar == IsEndChar)

                            continue;

                        Object tempMap;

                        // 获取

                        nowMap.TryGetValue(keyChar, out tempMap);

                        // 如果存在该key，直接赋值

                        if (tempMap != null)

                        {

                            nowMap = (Dictionary<char, object>)tempMap;

                        }

                        // 不存在则，则构建一个map，同时将isEnd设置为0，因为他不是最后一个

                        else {

                            // 设置标志位

                            Dictionary<char, object> newMap = new Dictionary<char, object>();

                            newMap.Add(IsEndChar, "0");

                            // 添加到集合

                            nowMap.Add(keyChar, newMap);

                            nowMap = newMap;

                        }

                        // 最后一个

                        if (i == word.Length - 1)

                        {

                            nowMap[IsEndChar] = "1";

                        }

                    }

                }

                return wordMap;

            }

            /**

             * 读取敏感词库中的内容，将内容添加到SortedSet集合中

             *

             * @return

             * @throws Exception

             */

            private HashSet<String> readSensitiveWordFile()

            {

                HashSet<String> wordSet = new HashSet<string>();

                string content = File.ReadAllText("dic.txt", Encoding.GetEncoding(ENCODING));

                using (StringReader sr = new StringReader(content))

                {

                    string s;

                    while ((s = sr.ReadLine()) != null)

                    {

                        wordSet.Add(s);

                    }

                }

                return wordSet;

            }

        }

        public class SensitivewordFilter

        {

            private Dictionary<char, object> sensitiveWordMap = null;

            // 最小匹配规则

            public static int minMatchTYpe = 1;

            // 最大匹配规则

            public static int maxMatchType = 2;

            // 单例

            private static SensitivewordFilter inst = null;

            /**

             * 构造函数，初始化敏感词库

             */

            private SensitivewordFilter()

            {

                sensitiveWordMap = new SensitiveWordInit().initKeyWord();

            }

            /**

             * 获取单例

             *

             * @return

             */

            public static SensitivewordFilter getInstance()

            {

                if (null == inst)

                {

                    inst = new SensitivewordFilter();

                }

                return inst;

            }

            /**

             * 判断文字是否包含敏感字符

             *

             * @param txt

             * @param matchType

             * @return

             */

            public bool isContaintSensitiveWord(String txt, int matchType = 1)

            {

                bool flag = false;

                for (int i = 0; i < txt.Length; i++)

                {

                    // 判断是否包含敏感字符

                    int matchFlag = this.CheckSensitiveWord(txt, i, matchType);

                    // 大于0存在，返回true

                    if (matchFlag > 0)

                    {

                        flag = true;

                    }

                }

                return flag;

            }

            /**

             * 获取文字中的敏感词

             *

             * @param txt

             * @param matchType

             * @return

             */

            public HashSet<String> getSensitiveWord(String txt, int matchType = 1)

            {

                HashSet<String> sensitiveWordList = new HashSet<String>();

                for (int i = 0; i < txt.Length; i++)

                {

                    // 判断是否包含敏感字符

                    int length = CheckSensitiveWord(txt, i, matchType);

                    // 存在,加入list中

                    if (length > 0)

                    {

                        sensitiveWordList.Add(txt.Substring(i, length));

                        // 减1的原因，是因为for会自增

                        i = i + length - 1;

                    }

                }

                return sensitiveWordList;

            }

            /**

             * 替换敏感字字符

             *

             * @param txt

             * @param matchType

             * @param replaceChar

             * @return

             */

            public String replaceSensitiveWord(String txt, String replaceChar, int matchType = 1)

            {

                StringBuilder sb = new StringBuilder(txt);

                for (int i = 0; i < txt.Length; i++)

                {

                    // 判断是否包含敏感字符

                    int length = CheckSensitiveWord(txt, i, matchType);

                    // 存在,加入list中

                    if (length > 0)

                    {

                        var ttxt = txt.Substring(i, length);

                        sb.Replace(ttxt, getReplaceChars(replaceChar, ttxt.Length), i, length);

                        // 减1的原因，是因为for会自增

                        i = i + length - 1;

                    }

                }

                return sb.ToString();

            }

            /**

             * 获取替换字符串

             *

             * @param replaceChar

             * @param length

             * @return

             */

            private String getReplaceChars(String replaceChar, int length)

            {

                StringBuilder sb = new StringBuilder();

                for (int i = 0; i < length; i++)

                {

                    sb.Append(replaceChar);

                }

                return sb.ToString();

            }

            /**

             * 检查文字中是否包含敏感字符，检查规则如下：<br>

             * 如果存在，则返回敏感词字符的长度，不存在返回0

             *

             * @param txt

             * @param beginIndex

             * @param matchType

             * @return

             */

            public int CheckSensitiveWord(String txt, int beginIndex, int matchType)

            {

                // 敏感词结束标识位：用于敏感词只有1位的情况

                bool flag = false;

                // 匹配标识数默认为0

                int matchFlag = 0;

                Dictionary<char, object> nowMap = sensitiveWordMap;

                int tempFlag = 0;

                Dictionary<char, object> tempMapForBack = new Dictionary<char, object>();

                int len = txt.Length;

                for (int i = beginIndex; i < len; i++)

                {

                    char word = txt[i];

                    if (word == IsEndChar)

                        continue;

                    // 获取指定key

                    Object tempMap;

                    // 获取

                    nowMap.TryGetValue(word, out tempMap);

                    if (tempFlag == 0)

                        tempMapForBack = nowMap;

                    // 如果存在该key，直接赋值

                    if (tempMap != null)

                    {

                        nowMap = (Dictionary<char, object>)tempMap;

                    }

                    else

                    {

                        if (tempFlag > 0)

                        {

                            matchFlag = matchFlag - (i - tempFlag);

                            i = tempFlag - 1;

                            nowMap = tempMapForBack;

                            continue;

                        }

                        else

                        {

                            nowMap = null;

                        }

                    }

                    // 存在，则判断是否为最后一个

                    if (nowMap != null)

                    {

                        // 找到相应key，匹配标识+1

                        matchFlag++;

                        object value;

                        if (nowMap.TryGetValue(IsEndChar, out value))

                        {

                            if (value is string)

                            {

                                // 如果为最后一个匹配规则,结束循环，返回匹配标识数

                                if ("1" == (string)value)

                                {

                                    if (nowMap.Keys.Count == 1 || tempFlag != 0 || i == len - 1)

                                    {

                                        // 结束标志位为true

                                        flag = true;

                                        // 最小规则，直接返回,最大规则还需继续查找

                                        if (SensitivewordFilter.minMatchTYpe == matchType)

                                        {

                                            break;

                                        }

                                    }

                                    else

                                    {

                                        tempFlag = i;

                                    }

                                }

                            }

                        }

                    }

                    // 不存在，直接返回

                    else

                    {

                        break;

                    }

                }

                // 长度必须大于等于1，为词

                if (matchFlag < 2 || !flag)

                {

                    matchFlag = 0;

                }

                return matchFlag;

            }

        }

    }

}

using System;

using System.Collections.Generic;

using System.Linq;

using System.Text;

using System.Threading.Tasks;

namespace SensitiveWordFilter

{

    class Program

    {

        static void Main(string[] args)

        {

            SensitiveWord.SensitivewordFilter filter = SensitiveWord.SensitivewordFilter.getInstance();

            String txt = "$fuckfuck you你麻痹e菜太菜了fuckyou从飞啊 fuck you";

            String hou = filter.replaceSensitiveWord(txt, "*");

            Console.WriteLine("替换前的文字为：" + txt);

            Console.WriteLine("替换后的文字为：" + hou);

            Console.ReadKey();

        }

    }

}

敏感词汇过滤DFA算法的更多相关文章

Java实现敏感词过滤 - DFA算法
Java实现DFA算法进行敏感词过滤封装工具类如下: 使用前需对敏感词库进行初始化: SensitiveWordUtil.init(sensitiveWordSet); package cn.swf ...
敏感词过滤的算法原理之DFA算法
参考文档 http://blog.csdn.net/chenssy/article/details/26961957 敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有 ...
JavaWeb 之 Filter 敏感词汇过滤案例
需求: 1. 对day17_case案例录入的数据进行敏感词汇过滤 2. 敏感词汇参考 src路径下的<敏感词汇.txt> 3. 如果是敏感词汇,替换为 *** 分析: 1. 对reque ...
敏感词过滤的算法原理之 Aho-Corasick 算法
参考文档 http://www.hankcs.com/program/algorithm/implementation-and-analysis-of-aho-corasick-algorithm-i ...
DFA算法之内容敏感词过滤
DFA 算法是通过提前构造出一个树状查找结构,之后根据输入在该树状结构中就可以进行非常高效的查找. 设我们有一个敏感词库,词酷中的词汇为:我爱你我爱他我爱她我爱你呀我爱他呀我爱她呀我爱她啊那么就可 ...
Java实现敏感词过滤 - IKAnalyzer中文分词工具
IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...
java实现敏感词过滤（DFA算法）
小Alan在最近的开发中遇到了敏感词过滤,便去网上查阅了很多敏感词过滤的资料,在这里也和大家分享一下自己的理解. 敏感词过滤应该是不用给大家过多的解释吧?讲白了就是你在项目中输入某些字(比如输入xxo ...
Jsp敏感词过滤
Jsp敏感词过滤大部分论坛.网站等,为了方便管理,都进行了关于敏感词的设定. 在多数网站,敏感词一般是指带有敏感政治倾向(或反执政党倾向).暴力倾向.不健康色彩的词或不文明语,也有一些网站根据自身实 ...
Java实现敏感词过滤
敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来 ...

随机推荐

android与php使用base64加密的字符串结果不一样解决方法
base64将字符串转换为字节得到同一个值一.错误 String signString = Base64.encodeToString(signContent.getBytes(),Base64.N ...
@RequestParam与@PathVariable
@PathVariable 带占位符的 URL 是 Spring3.0 新增的功能,该功能在SpringMVC 向 REST 目标挺进发展过程中具有里程碑的意义通过 @PathVariable 可以 ...
数据结构C语言顺序表
#include <stdio.h> #include <stdlib.h> typedef int EmenType; typedef struct Node { int d ...
Chrome扩展插件流程
一.浏览器插件基础步骤: 1.文件最基础的配置 : 一个manifest文件.一个或多个html文件.可选的一个或多个javascript文件.可选的任何需要的其他文件,例如图片:在开发应用(扩展)时 ...
mysql利用LAST_INSERT_ID实现id生成器
首先了解 LAST_INSERT_ID LAST_INSERT_ID 有自己的存储空间,能存一个数字不带参数时返回最近insert的那行记录的自增字段值.带参数时会将自己存储的数字刷成参数给定的值 ...
Numpy1
列表转n维数组ndarray import numpy as np list=[1,2,3,4] n=np.array(list) random模块生成ndarray n1=np.random.ran ...
写给笨蛋徒弟的学习手册（3）—C#中15个预定义数据类型
在C#中学习中,你会很早的遇到预定义数据类型这个概念,但你有没有仔细想过它存在的意义?正所谓“存在即合理”,预定义数据类型的存在目的主要有俩个方面,一是为了增加程序的安全性,同时减轻编译器负担,加快编 ...
RSA 前段加密 java 后台解密已调试通过
本人整理网上的.好多网上的调不通.在这里把调试好的贴出来. 1. 异步获取公钥(后台获取):你也可以将公钥串写在页面上: var publicKey = null; $.ajax({ url: c ...
关于QList<T>的内存释放
当T为指针类型时,List.clear()不能释放其内存,需加上qDeleteAll()函数, //class Person ---> Person(int id_,QString name_) ...
Springfox与swagger的整合使用
一.前言让我们先理一下springfox与swagger的关系. swagger是一个流行的API开发框架,这个框架以“开放API声明”(OpenAPI Specification,OAS)为基础, ...

敏感词汇过滤DFA算法

敏感词汇过滤DFA算法的更多相关文章

随机推荐

热门专题