PHP 扩展 trie-tree, swoole过滤敏感词方案
在一些app,web中评论以及一些文章会看到一些*等,除了特定的不显示外,我们会把用户输入的一些敏感字符做处理,具体显示为*还是其他字符按照业务区实现。
下面简单介绍下业务处理。
原文地址:小时刻个人博客 > http://small.aiweimeng.top/index.php/archives/18.html
php扩展安装说明:
1.安装php扩展trie-tree,安装教程 http://blog.41ms.com/post/39.html
2.安装swoole扩展,安装教程 http://www.swoole.com/
**代码说明:**
1.reload_dict.php,提供自动更新字典库到trie-tree文件的过程
/**
* 词库维护更新.
* Date: 2018/11/7
* Time: 9:42
*/ // 设置内存
ini_set('memory_limit','128M'); // 读取敏感词字典库
$handle = fopen('dict.txt','r'); // 生成空的trie-tree-filter
$resTrie = trie_filter_new(); while (! feof($handle))
{
$item = trim(fgets($handle)); if(empty($item))
{
continue;
} // 把敏感词逐个加入trie-tree
trie_filter_store($resTrie, $item);
} // 生成trie-tree文件
$blackword_tree = 'blackword.tree'; trie_filter_save($resTrie, $blackword_tree);
2、trie树对象获取工具类
FilterHelper.php,提供获取trie-tree对象,避免重复生成trie-tree对象和保证tree文件与敏感词库的同步更新
/**
* 过滤器助手.
* getResTrie 提供trie-tree对象
* getFilterWords 提取过滤出的字符串
* Date: 2018/11/7
* Time: 9:49
*/
class FilterHelper
{ // trie-tree对象
private static $_resTrie = null; // 字典树的更新时间
private static $_mtime = null; /**
* 方式初始化
*/
public function __construct(){} /**
* 防止克隆对象
*/
public function __clone(){} /**
* 提供trie-tree对象
*
* @param string $tree_file 字典文件树路径
* @param string $new_time 当前调用时字典树的更新时间
* @return null
*/
static public function getRecTrie($tree_file, $new_time)
{
if(is_null(self::$_mtime))
{
self::$_mtime = $new_time;
} if(($new_time != self::$_mtime) || is_null(self::$_resTrie))
{
self::$_resTrie = trie_filter_load($tree_file);
self::$_mtime = $new_time; // 输出字典文件重载时间
echo date('Y-m-d H:i:s') . "\tdictionary reload success!\n";
} return self::$_resTrie; } /**
* 在源字符串中提取过滤出的敏感词
*
* @param string $str 源字符串
* @param array $res 1-3 表示 从位置1开始,3个字符长度
* @return array
*/
static public function getFilterWords($str, $res)
{
$result = array();
foreach ($res as $k => $v)
{
$word = substr($str, $v[0], $v[1]); if (!in_array($word, $result))
{
$result[] = $word;
}
} return $result;
} }
``` 3、对外提供过滤HTTP访问接口 filter.php,使用swool,对外提交过滤接口访问 ```php
/**
* 对外提供过滤HTTP访问接口.
* Date: 2018/11/7
* Time: 9:59
*/ // 设置脚本最大运行内存,根据字典大小调整
ini_set('memory_limit', '512M'); // 设置时区
date_default_timezone_set('PRC'); // 加载助手文件
require_once('FilterHelper.php'); // http服务绑定的ip及端口
$serv = new \swoole_http_server("127.0.0.1", 9502); /**
* 处理请求
*/
$serv->on('Request', function($request, $response) { // 接收get请求参数
$content = isset($request->get['content']) ? $request->get['content']: ''; $result = ''; if (!empty($content)) { // 字典树文件路径,默认当时目录下
$tree_file = 'blackword.tree'; // 清除文件状态缓存
clearstatcache(); // 获取请求时,字典树文件的修改时间
$new_mtime = filemtime($tree_file); // 获取最新trie-tree对象
$resTrie = FilterHelper::getResTrie($tree_file, $new_mtime); // 执行过滤
$arrRet = trie_filter_search_all($resTrie, $content); // 提取过滤出的敏感词
$a_data = FilterHelper::getFilterWords($content, $arrRet); $result = json_encode($a_data);
} // 定义http服务信息及响应处理结果
$response->cookie("User", "W.Y.P");
$response->header("X-Server", "W.Y.P WebServer(Unix) (Red-Hat/Linux)");
$response->header('Content-Type', 'Content-Type: text/html; charset=utf-8');
$response->end($result);
}); $serv->start();
PHP 扩展 trie-tree, swoole过滤敏感词方案的更多相关文章
- 过滤敏感词工具类SensitiveFilter
网上过滤敏感词工具类有的存在挺多bug,这是我自己改用的过滤敏感词工具类,目前来说没啥bug,如果有bug欢迎在评论指出 使用前缀树 Trie 实现的过滤敏感词,树节点用静态内部类表示了,都写在一个 ...
- [原创] Trie树 php 实现敏感词过滤
目录 背景 简介 存储结构 PHP 其他语言 字符串分割 示例代码 php 优化 缓存字典树 常驻服务 参考文章 背景 项目中需要过滤用户发送的聊天文本, 由于敏感词有将近2W条, 如果用 str_r ...
- 【SpringBoot】前缀树 Trie 过滤敏感词
1.过滤敏感词 Spring Boot实践,开发社区核心功能 完成过滤敏感词 Trie 名称:Trie也叫做字典树.前缀树(Prefix Tree).单词查找树 特点:查找效率高,消耗内存大 应用:字 ...
- web前端js过滤敏感词
web前端js过滤敏感词 这里是用文本输入框还有文本域绑定了失去焦点事件,然后再遍历敏感词数组进行匹配和替换. var keywords=["阿扁","呵呵", ...
- (转)两种高效过滤敏感词算法--DFA算法和AC自动机算法
原文:https://blog.csdn.net/u013421629/article/details/83178970 一道bat面试题:快速替换10亿条标题中的5万个敏感词,有哪些解决思路? 有十 ...
- SpringBoot开发十四-过滤敏感词
项目需求-过滤敏感词 利用 Tire 树实现过滤敏感词 定义前缀树,根据敏感词初始化前缀树,编写过滤敏感词的方法 代码实现 我们首先把敏感词存到一个文件 sensitive.txt: 赌博 嫖娼 吸毒 ...
- Trie性能分析之敏感词过滤golang
package util import ( "strings" ) type Node struct { //rune表示一个utf8字符 char rune Data inter ...
- [转]Filter实现处理中文乱码,转义html标签,过滤敏感词
原文地址:http://www.cnblogs.com/xdp-gacl/p/3952405.html 在filter中可以得到代表用户请求和响应的request.response对象,因此在编程中可 ...
- js 过滤敏感词 ,可将带有标点符号的敏感词过滤掉
function transSensitive(content) { // var Sensitive = H.getStorage("Sensitive");//敏感词数组 va ...
随机推荐
- Mycat中间件
数据库中间件Mycat自我介绍 一.mycat概述 1.功能介绍 mycat一个开源的分布式数据库系统,是一个实现了mysql协议的server前端用户可以把它看成一个数据库代理,用mysql客户端工 ...
- 中间件(WAS、WMQ)运维 9个常见难点解析
本文由社区中间件达人wangxuefeng266.ayy216226分享整理,包括WAS.WMQ在安装.巡检.监控.优化过程中的常见难点. 安装 1.was 负载均衡的机制的粘连性,was负载均衡异常 ...
- 为什么java中只允许继承一个类?
一个类只能继承一个其他的类 在Java语言中禁止多重继承:一个类可以具有多个直接父类.多重继承不合法的原因是容易引发意义不明确.例如,有一个类C,如果允许它同时继承A类与B类(class C ex ...
- 《Python指南》学习笔记 一
更新时间:2018-06-14 <Python指南>原文在这里.本篇笔记主要是划重点. Python 3.6.3 1.简单入门 1.1 编码 默认情况下,Python 源文件是 UTF-8 ...
- iOS8模糊效果UIVisualEffectView的使用
iOS8模糊效果UIVisualEffectView的使用 效果: 源码: // // ViewController.m // EffectView // // Created by XianMing ...
- Http扫盲
https://www.kancloud.cn/kancloud/tealeaf-http/43832
- Python学习---django下的Session操作 180205
和Cookie一样,都是用来进行用户认证.不同的是,Cookie可以吧明文/密文的信息都会KV返回给客户段,但是session可以吧用户的Value[敏感信息]保存在服务器端,安全. Django中默 ...
- [日常]蒟蒻的高一生活 Week 1~3
博主在三周前成功晋级为高中生OwO终于不再是假的HZOIer感受一波HZ的真正生活...(然而实际上级部不少监督一直没启动23333) (然而三周过去好多事情都忘了QAQ瞎写好了(逃)) Week 1 ...
- 本地缓存和redis
项目中的传统架构在服务启动时 读取数据库的大部分数据到本地内存,在看到redis的作用时发出疑问,到底有什么样的区别以及怎么选择呢,下面是别人的回答 使用本地缓存快还是使用redis缓存好? Redi ...
- UVA529 Addition Chains
嘟嘟嘟 还是\(IDA*\). 这道题是\(ZOJ\)的加强版,\(n\)从\(100\)扩大到了\(10000\),所以必须有非常给力的剪枝才能过. 除了迭代加深,还要加上估价函数:对于当前数\(x ...