浅析敏感词过滤算法(C++)
为了提高查找效率,这里将敏感词用树形结构存储,每个节点有一个map成员,其映射关系为一个string对应一个TreeNode。
STL::map是按照operator<比较判断元素是否相同,以及比较元素的大小,然后选择合适的位置插入到树中。为了提高map的插入及查询效率,可以选用hash_map或unordered_map。关于他们的效率,可以参考http://blog.csdn.net/whizchen/article/details/9286557。
下面主要实现了TreeNode类,进行节点的插入以及查询。(这里命名用Trie比较专业)
#include<map>
#include<string>
//#include<unordered_map>
using namespace std; class Tree;
class TreeNode
{
friend class Tree;
typedef map<string,TreeNode> _TreeMap;
typedef map<string,TreeNode>::iterator _TreeMapIterator;
// typedef unordered_map<string,TreeNode> _TreeMap;
// typedef unordered_map<string,TreeNode>::iterator _TreeMapIterator;
private:
string m_character;
_TreeMap m_map;
TreeNode* m_parent;
public:
TreeNode(string character);
TreeNode(){
m_character="";
};
string getCharacter() const;
TreeNode* findChild(string& nextCharacter);
TreeNode* insertChild(string& nextCharacter); };
TreeNode.h
#include <iostream>
#include "TreeNode.h"
using namespace std; string TreeNode::getCharacter() const
{
return m_character;
} TreeNode::TreeNode(string character)
{
if (character.size() == )
m_character.assign(character);
else
cout<<"error";
} TreeNode* TreeNode::findChild(string& nextCharacter)
{
_TreeMapIterator TreeMapIt = m_map.find(nextCharacter); //利用map/unordered_map进行查找
return (TreeMapIt == m_map.end()) ? NULL :&TreeMapIt->second;
return NULL;
} TreeNode* TreeNode::insertChild(string& nextCharacter)
{
if(!findChild(nextCharacter)) //添加节点,并返回节点位置
{
m_map.insert(pair<string, TreeNode>(nextCharacter, TreeNode(nextCharacter)));
return &(m_map.find(nextCharacter)->second);
}
return NULL;
}
TreeNode.cpp
接下来实现这个tree,在建立TreeNode树时,以parent为根节点建立,一开始parent为m_emptyRoot,然后把keyword按照规则添加到树中,假设一开始m_emptyRoot为空,keyword为"敏感词",则会以"敏感词"为一条分支建立成为一颗树枝'敏'->'感'->'词',此后,若想再添加"敏感度",由于"敏感词"与"敏感度"的前两个字相同,则会在'敏'->'感'->'词'的基础上,从字'感'开始新生长出一颗分支,即'敏'->'感'->'度',这两颗分支共用'敏'->'感'。
程序中暂时考虑中文的情况,如果需要考虑英文或中英文结合的情况,将PACE改为1,另外程序做出部分修改即可。
下面代码实现了Tree类,进行树的构成及查询。
#include "TreeNode.h"
using namespace std; class Tree
{
public:
int count; //当前查找的一个敏感词的字数
TreeNode* insert(string& keyword);
TreeNode* insert(const char* keyword);
TreeNode* find(string& keyword);
Tree(){
count = ;
};
private:
TreeNode m_emptyRoot;
int m_pace;
TreeNode* insert(TreeNode* parent, string& keyword);
TreeNode* insertBranch(TreeNode* parent, string& keyword);
TreeNode* find(TreeNode* parent,string& keyword); };
Tree.h
#include "Tree.h"
#include<iostream> #define PACE 2 //如果需要考虑英文或中英文结合的情况,将PACE改为1,另外程序还需要做部分修改 TreeNode* Tree::insert(string& keyword)
{
return insert(&m_emptyRoot, keyword);
} TreeNode* Tree::insert(const char* keyword)
{
string wordstr(keyword);
return insert(wordstr);
} TreeNode* Tree::insert(TreeNode* parent, string& keyword)
{
if(keyword.size()==)
return NULL;
string firstChar=keyword.substr(,PACE);
TreeNode* firstNode = parent->findChild(firstChar);
if(firstNode==NULL)
return insertBranch(parent,keyword);
string restChar=keyword.substr(PACE,keyword.size());
return insert(firstNode,restChar);
} TreeNode* Tree::insertBranch(TreeNode* parent,string& keyword)
{
string firstChar=keyword.substr(,PACE);
TreeNode* firstNode = parent->insertChild(firstChar);
if(firstNode!=NULL)
{
string restChar=keyword.substr(PACE,keyword.size());
if(!restChar.empty())
return insertBranch(firstNode,restChar);
}
return NULL;
} TreeNode* Tree::find(string& keyword)
{
return find(&m_emptyRoot,keyword);
} TreeNode* Tree::find(TreeNode* parent,string& keyword)
{
string firstChar=keyword.substr(,PACE);
TreeNode* firstNode = parent->findChild(firstChar);
if(firstNode==NULL) //未找到
{
count=;
return NULL;
}
string restChar=keyword.substr(PACE,keyword.size());
if(firstNode->m_map.empty()) //对应词组结束,则判断该词为敏感词
{
//std::cout<<count+1<<endl;
return firstNode;
}
if(keyword.size()==PACE) //最后一个字
return NULL;
count++;
return find(firstNode,restChar);
}
Tree.cpp
最后就是利用上述的Tree来实现敏感词过滤,Filter::censor(string& source)函数用来进行敏感词过滤,source即输入的字符串,如果source包含敏感词,则用"**"代替掉。
Filter::load(const char* filePath)函数通过文件载入敏感词,并构建Tree。
为使实现简单,代码中过滤了英文数字及一些符号,让敏感词库的词能全部被识别。这里有2个问题遗留下来:
1.需要考虑英文,已经中英文结合的敏感词。程序还需要作出一定修改;
2.载入文件后,可对敏感词做出一定优化。
下面代码实现了Filter类,调用函数实现敏感词过滤。
#include <string>
#include "Tree.h" class Filter
{
private:
Tree m_tree; public:
void load(const char* fileName);
bool m_initialized;
void censor(string& source);
};
Filter.h
#include <iostream>
#include <fstream>
#include "Filter.h" void Filter::load(const char* filePath)
{
ifstream keywordsFile(filePath, ios::in);
if (keywordsFile.is_open())
{
char buffer[];
int count = ;
int offset = ;
while((buffer[offset]=keywordsFile.get())!=EOF)
{
if((buffer[offset]>='a'&&buffer[offset]<='z')||
(buffer[offset]>='A'&&buffer[offset]<='Z')||
(buffer[offset]>=''&&buffer[offset]<='')||
buffer[offset]=='\'')
continue;
string word1;
word1.assign(buffer,offset);
if(buffer[offset]==','&&(offset%)==)
{
string word;
if(offset)
{
word.assign(buffer,offset);
m_tree.insert(word);
}
offset = ;
}
else
offset++;
}
}
keywordsFile.close();
m_initialized = true;
} void Filter::censor(string& source)
{
if (!m_initialized)
{
cout<<"没有载入关键词";
return;
}
else
{
int length = source.size();
for (int i = ; i < length; i += )
{
string substring = source.substr(i, length - i);
if (m_tree.find(substring) != NULL) //发现敏感词
{
cout<<substring.substr(,(m_tree.count+)*)<<endl;
source.replace(i,(m_tree.count+)*,"**");
length = source.size();
}
}
}
}
Filter.cpp
最后就是调用Filter类,通过文件输入,并将过滤的结果输出到文件,并输出用时。
#include<iostream>
#include<string>
#include<list>
#include <fstream>
#include "Filter.h"
#include <sys/timeb.h>
using namespace std; void main()
{
Filter filter;
string str;
filter.load("keywords.txt");
ifstream inputFile("input.txt",ios::in);
inputFile>>str;
inputFile.close();
ofstream outputFile("output.txt",ios::out);
struct timeb startTime,endTime;
ftime(&startTime);
for(int i=;i<;i++)
{
filter.censor(str);
}
ftime(&endTime);
cout<<str<<endl;
cout<<"查询用时:"<<(endTime.time-startTime.time)* +
(endTime.millitm - startTime.millitm)<<"ms"<<endl;
outputFile<<str<<endl;
outputFile<<"查询用时:"<<(endTime.time-startTime.time)* +
(endTime.millitm - startTime.millitm)<<"ms";
outputFile.close();
}
Process.cpp
浅析敏感词过滤算法(C++)的更多相关文章
- 超强敏感词过滤算法第二版 可以忽略大小写、全半角、简繁体、特殊符号、HTML标签干扰
上一篇 发一个高性能的敏感词过滤算法 可以忽略大小写.全半角.简繁体.特殊符号干扰 改进主要有几点: 用BitArray取代Dictionary用空间换时间 性能进一步提升 大概会增加词库的 6k* ...
- 8.2 前端检索的敏感词过滤的Python实现(针对元搜索)
对于前端的搜索内容进行控制,比如敏感词过滤,同样使用socket,这里使用Python语言做一个demo.这里不得不感叹一句,socket真是太神奇了,可以跨语言把功能封装,为前端提供服务. 下面就是 ...
- java实现敏感词过滤(DFA算法)
小Alan在最近的开发中遇到了敏感词过滤,便去网上查阅了很多敏感词过滤的资料,在这里也和大家分享一下自己的理解. 敏感词过滤应该是不用给大家过多的解释吧?讲白了就是你在项目中输入某些字(比如输入xxo ...
- Java实现敏感词过滤 - DFA算法
Java实现DFA算法进行敏感词过滤 封装工具类如下: 使用前需对敏感词库进行初始化: SensitiveWordUtil.init(sensitiveWordSet); package cn.swf ...
- 敏感词过滤的算法原理之DFA算法
参考文档 http://blog.csdn.net/chenssy/article/details/26961957 敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有 ...
- 基于DFA算法、RegExp对象和vee-validate实现前端敏感词过滤
面临敏感词过滤的问题,最简单的方案就是对要检测的文本,遍历所有敏感词,逐个检测输入的文本是否包含指定的敏感词. 很明显上面这种实现方法的检测时间会随着敏感词库数量的增加而线性增加.系统会因此面临性能和 ...
- Java实现敏感词过滤
敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来 ...
- 转:鏖战双十一-阿里直播平台面临的技术挑战(webSocket, 敏感词过滤等很不错)
转自:http://www.infoq.com/cn/articles/alibaba-broadcast-platform-technology-challenges 鏖战双十一-阿里直播平台面临的 ...
- java敏感词过滤
敏感词过滤在网站开发必不可少.一般用DFA,这种比较好的算法实现的. 参考链接:http://cmsblogs.com/?p=1031 一个比较好的代码实现: import java.io.IOExc ...
随机推荐
- php 二维数组排序,多维数组排序
对2维数组或者多维数组排序是常见的问题,在php中我们有个专门的多维数组排序函数,下面简单介绍下: array_multisort(array1,sorting order, sorting type ...
- C#泛型代理、泛型接口、泛型类型、泛型方法
//http://www.cnblogs.com/JeffreySun/archive/2012/11/14/2770211.html //http://www.baqima.com/a/2628.h ...
- 让VS 2010在调试字符串时,支持Json数据格式友好显示
阅读本文如果对Microsoft.VisualStudio.DebuggerVisualizers的用法不熟悉的,可以参考这篇文章.http://www.cnblogs.com/devil0153/a ...
- Raspberry pi之树莓派基础建设-2
1.ssh pi与本地文件传输 一般ssh是默认会支持sftp的,所以你可以考虑用filezila之类的ftp工具远程连接登陆 2.我考虑到要拍照,前提是你得有个摄像头,usb直接插上去 3.py ...
- 从request获取远程IP地址
public static String getIpAddr(HttpServletRequest request) { String ip = request.getHeader("X-F ...
- ipython notebook设置工作路径和自动保存.py文件 ipython_notebook_config.py
在安装完Anaconda,选择了配置环境变量后,打开cmd命令行 1. 打开命令行, 键入 ipython profile create 2. 键入 , 根据这个地址, 打开profile所在的文件夹 ...
- qsort库函数的用法
qsort 功 能: 使用快速排序例程进行排序 用 法: void qsort(void *base, int nelem, int width, int (*fcmp)(const void *, ...
- c#的dllimport使用方法详解,调试找不到dll的方法
DllImport会按照顺序自动去寻找的地方: 1.exe所在目录 2.System32目录 3.环境变量目录所以只需要你把引用的DLL 拷贝到这三个目录下 就可以不用写路径了 或者可以这样serve ...
- PHP连接MySQL的时候报错SQLSTATE[HY000] [2002] No such file or directory
错误环境:Mac OS 10.10 找到mysql.sock文件的位置 $sudo find / -name mysql.sock ------结果如下---------- find: /dev/fd ...
- 微信支付之JSAPI开发第一篇-基本概念
申请权限 具体步骤就不说了,进入微信支付商户平台进行申请认证,认证成功后在微信公众号后台会有个微信支付的菜单按钮,点击后会有如下的信息 配置 在进行微信支付开发之前,必须进行一些必要的配置,如果这些配 ...