import java.io.UnsupportedEncodingException;
import java.nio.ByteBuffer;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map; import org.apache.commons.lang3.StringUtils;
import org.json.JSONException;
import org.json.JSONObject; public class DFA {
/**
* 根节点
*/
private static TreeNode rootNode = new TreeNode(); /**
* 创建关键词树时的临时根节点
*/
private static TreeNode rootNodeTemp = new TreeNode(); /**
* 关键词缓存
*/
private static ByteBuffer keywordBuffer = ByteBuffer.allocate(1024); /**
* 关键词编码
*/
private static String charset = "utf-8"; /**
* 关键词树是否初始化
*/
private static boolean treeIsInit = false; /**
* 创建DFA树
* @param keywordList
* @throws UnsupportedEncodingException
*/
public static void createKeywordTree(List<String> keywordList) throws UnsupportedEncodingException{
for (String keyword : keywordList) {
if(keyword == null) continue;
keyword = keyword.trim().toLowerCase();
byte[] bytes = keyword.getBytes(charset);
TreeNode tempNode = rootNodeTemp;
for (int i = 0; i < bytes.length; i++) {
int index = bytes[i] & 0xff;
TreeNode node = tempNode.getSubNode(index);
if(node == null){
node = new TreeNode();
tempNode.setSubNode(index, node);
}
tempNode = node;
if(i == bytes.length - 1){
tempNode.setKeywordEnd(true);
}
}
}
synchronized (DFA.class)
{
rootNode = rootNodeTemp;
if(!treeIsInit)treeIsInit = true;
} } /**
* 检索关键词
* @param text
* @return
* @throws UnsupportedEncodingException
*/
public static JSONObject searchKeyword(String text) throws UnsupportedEncodingException{
if(StringUtils.isEmpty(text)){
JSONObject json = new JSONObject();
try
{
json.put("islegal", "1");
json.put("deststr", "");
}
catch (JSONException e)
{
e.printStackTrace();
}
return json;
}
if(!treeIsInit)createKeywordTree();
System.out.println("searchKeyword:"+text);
return searchKeyword(text.getBytes(charset),text.toLowerCase().getBytes(charset));
} /**
* 检索关键词
* @param oldBytes
* @param bytes
* @return
*/
public static JSONObject searchKeyword(byte[] oldBytes,byte[] bytes){
String is_legal = "1";
JSONObject json = new JSONObject();
String result = null;
if(bytes == null || bytes.length == 0){
result = "";
}else{
synchronized (DFA.class)
{
TreeNode tempNode = rootNode;
int rollback = 0;
int position = 0;
while (position < bytes.length) {
int index = bytes[position] & 0xFF;
keywordBuffer.put(bytes[position]);
tempNode = tempNode.getSubNode(index);
if(tempNode == null){
position = position - rollback;
rollback = 0;
tempNode = rootNode;
keywordBuffer.clear();
}
else if(tempNode.isKeywordEnd()){
keywordBuffer.flip();
for (int i = 0; i <= rollback; i++) {
bytes[position-i] = 42;
oldBytes[position-i] = 42;
}
keywordBuffer.limit(keywordBuffer.capacity());
rollback = 1;
is_legal = "0";
}else{
rollback++;
}
position++;
}
}
try {
result = new String(oldBytes,charset); } catch (Exception e) {
e.printStackTrace();
} }
try
{
json.put("islegal", is_legal);
json.put("deststr", result);
}
catch (JSONException e)
{
// TODO Auto-generated catch block
e.printStackTrace();
}
return json;
} public void setCharset(String charset) {
this.charset = charset;
} public static void main(String[] args){
try{
List<String> keys = new ArrayList<String>();
keys.add("TMD");
keys.add("변형");
String text ="你真TMD是个변형啊!";
DFA.createKeywordTree(keys);
JSONObject a = DFA.searchKeyword(text);
System.out.println(a);
}
catch(Exception ex){
ex.printStackTrace();
}
}
}
import java.util.ArrayList;
import java.util.List; public class TreeNode {
private static final int NODE_LEN = 256; /**
* true 关键词的终结 ; false 继续
*/
private boolean end = false; private List<TreeNode> subNodes = new ArrayList<TreeNode>(NODE_LEN); public TreeNode(){
for (int i = 0; i < NODE_LEN; i++) {
subNodes.add(i, null);
}
} /**
* 向指定位置添加节点树
* @param index
* @param node
*/
public void setSubNode(int index, TreeNode node){
subNodes.set(index, node);
} public TreeNode getSubNode(int index){
//System.out.println("index:"+index+" node:"+this+"--subNodes:"+subNodes.get(index));
return subNodes.get(index);
} public boolean isKeywordEnd() {
return end;
} public void setKeywordEnd(boolean end) {
this.end = end;
}
}

DFA敏感词过滤的更多相关文章

  1. DFA敏感词过滤实现

    package test.java.com.odianyun.util.sensi; import java.util.*; /** * 敏感词处理工具 - DFA算法实现 * * @author s ...

  2. java实现敏感词过滤(DFA算法)

    小Alan在最近的开发中遇到了敏感词过滤,便去网上查阅了很多敏感词过滤的资料,在这里也和大家分享一下自己的理解. 敏感词过滤应该是不用给大家过多的解释吧?讲白了就是你在项目中输入某些字(比如输入xxo ...

  3. DFA和trie特里实现敏感词过滤(python和c语言)

    今天的项目是与完成python开展,需要使用做关键词检查,筛选分类,使用前c语言做这种事情.有了线索,非常高效,内存小了,检查快. 到达python在,第一个想法是pip基于外观的c语言python特 ...

  4. Java实现敏感词过滤 - DFA算法

    Java实现DFA算法进行敏感词过滤 封装工具类如下: 使用前需对敏感词库进行初始化: SensitiveWordUtil.init(sensitiveWordSet); package cn.swf ...

  5. 敏感词过滤的算法原理之DFA算法

    参考文档 http://blog.csdn.net/chenssy/article/details/26961957 敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有 ...

  6. 基于DFA算法、RegExp对象和vee-validate实现前端敏感词过滤

    面临敏感词过滤的问题,最简单的方案就是对要检测的文本,遍历所有敏感词,逐个检测输入的文本是否包含指定的敏感词. 很明显上面这种实现方法的检测时间会随着敏感词库数量的增加而线性增加.系统会因此面临性能和 ...

  7. Java实现敏感词过滤

    敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来 ...

  8. java敏感词过滤

    敏感词过滤在网站开发必不可少.一般用DFA,这种比较好的算法实现的. 参考链接:http://cmsblogs.com/?p=1031 一个比较好的代码实现: import java.io.IOExc ...

  9. Java实现敏感词过滤(转)

    敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来 ...

随机推荐

  1. EditPlus 3.7 中文版已经发布

    新一版的 EditPlus 已经在昨天发布了!新版本增加了一个 64位版程序.大家可以到官方网站下载哦. 我同步更新翻译了 32位版应用程序.请点击页面左上角的链接下载.

  2. VS2017 RC IIS Express 无法启动 环境不正确

    Unable to start program 'C:\Program Files (x86)\IIS Express\iisexpress.exe'. The environment is inco ...

  3. post数据过大到服务端,接收不到的问题

    在页面把datagrid上的数据post到服务端,解析提供导出.datagrid的数据大概有1w. 结果能post过去,但在服务端接收的数据显示null.但是如果post6000条左右就没问题. 经过 ...

  4. C语言的内存分配

    内存分为五大区: 1.栈区:在函数内部声明的变量都存在栈区,只管申请,系统会帮我们自动释放,释放的时间是作用域结束,遵循先进后出(first in last off(FILO)),栈的开辟是连续的,不 ...

  5. ARM——操作系统—最小操作系统-开发板测试

    怀着激动的心情,打算弄到硬件上试试. 折腾了一整天.终于运行起来了. 需要设置IBRD和CR,以及寄存器. 希望大家也能顺利完成自己的开发板实验. 我畅想了一下,目前所有带串口的嵌入式ARM设备,都应 ...

  6. 50个常用SQL语句

    50个常用SQL语句 Student(S#,Sname,Sage,Ssex) 学生表  S#学号,主键 Course(C#,Cname,T#) 课程表          C#课程号,主键 SC(S#, ...

  7. sql逻辑执行顺序

    要知道SQL语句,我想我们有必要知道SQL Server查询分析器怎么执行我们的SQL语句的,我们很多人会看执行计划,或者用Profiler来监视和调优查询语句或者存储过程慢的原因,但是如果我们知道查 ...

  8. 有向图的强连通分量的求解算法Tarjan

    Tarjan算法 Tarjan算法是基于dfs算法,每一个强连通分量为搜索树中的一颗子树.搜索时,把当前搜索树中的未处理的结点加入一个栈中,回溯时可以判断栈顶到栈中的结点是不是在同一个强连通分量中.当 ...

  9. Apache开启状态查看页面(原创贴-转载请注明出处)

    =================写在前面的话================== 场景描述:有时候我们需要查看apache的运行状态,只需要开启apache的status功能就可以实现,但是stat ...

  10. Selenium的PO模式(Page Object Model)|(Selenium Webdriver For Python)

            研究Selenium + python 自动化测试有近两个月了,不能说非常熟练,起码对selenium自动化的执行有了深入的认识. 从最初无结构的代码,到类的使用,方法封装,从原始函数 ...