sensitive-word 平时工作中,只要涉及到用户可以自由发言(博客.文档.论坛),就要考虑内容的敏感性处理. sensitive-word 基于 DFA 算法实现的高性能敏感词工具.工具使用 java 实现,帮助我们解决常见的问题. 特性 6W+ 词库,且不断优化更新 基于 DFA 算法,性能较好 基于 fluent-api 实现,使用优雅简洁 支持敏感词的判断.返回.脱敏等常见操作 支持全角半角互换 支持英文大小写互换 快速开始 准备 JDK1.7+ Maven 3.x+ Maven…
[概述]做好一个web系统的安全运维,除了常规的防注入,防入侵等,还有一个检测并过滤敏感词,脏词..  这件事做得不好,轻则导致一场投诉或纠纷,重则导致产品被勒令关闭停运. 废话少说,先看下代码,可以拿过去直接使用. using Microsoft.VisualBasic; using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Text; namespace…
Trie树,又称字符查找树.前缀树,主要用于字符匹配(详见http://en.wikipedia.org/wiki/Trie).适合做关键词查找,比如查找文章中的关键字然后给他们加链接. 当然对脏词的过滤应用也是样,只是把替换连接的工作换成了替换字符. 当前的代码还只是进行简单的替换,并没有做一些字符的处理,比如“昨天见到你妈,逼我要买房”,这本身不是脏词,因为有逗号,所以程序里要增加字符的范围判断. 程序中的skip就是用来过滤脏词的简单变体,比如“找*小*姐”,默认是最多跳过3个字符,这个可…
WordNet,是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典.它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”.我们这次的任务就是求得词与词之间的最短路径,是对“图”这个数据结构再次灵活运用. 以下为SentiWordNet_3.0.0_20130122.txt文件截图: 应考虑如何存储“单词的网络”,此程序是以词作为基本单元,词与词之间的联系是通过语义. 我们简单地构造类(ListofSeg存储词的语义id): cl…
方案一:利用预训练好的词向量模型 优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度 缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到往往不是“同义词”,而是“共现词” from gensim.models.keyedvectors import KeyedVectors wv = KeyedVectors.load_word2vec_format('model/w2v_chisim_300d.bin', binary=True)…
词嵌入 word embedding embedding 嵌入 embedding: 嵌入, 在数学上表示一个映射f:x->y, 是将x所在的空间映射到y所在空间上去,并且在x空间中每一个x有y空间中唯一的y与其对应. 嵌入,也就是把x在y空间中找到一个位置嵌入,一个x嵌入为一个唯一的y. word embedding 词嵌入 也就是把当前预料文本库中每一个词语都嵌入到一个向量空间当中,并且每一个词语对应唯一的词向量,也就是词向量. 所以, one-hot也是word Embedding的一种实…
Given a string s consists of upper/lower-case alphabets and empty space characters ' ', return the length of last word in the string. If the last word does not exist, return 0. Note: A word is defined as a character sequence consists of non-space cha…
爬取豆瓣电影<大侦探皮卡丘>的影评,并做词云图和关键词绘图第一步:找到评论的网页url.https://movie.douban.com/subject/26835471/comments?start=0&limit=20&sort=new_score&status=P第二步:鼠标放在评论上右键检查,分析源代码,确定抓取的内容. <span class="short">萌就行了!这个世界观感觉梦想成真了!</span>1如上,…
一个Word Count程序,由c++完成,有行数.词数.能完成路径下文件的遍历. 遍历文件部分的代码如下: void FindeFile(wchar_t *pFilePath) { CFileFind finder; CString Finddir; Finddir.Format(pFilePath); BOOL ret = finder.FindFile(Finddir); while (ret) { ret = finder.FindNextFile(); CString strPath…
 造冰箱的大熊猫,本文适用于Microsoft Office 2007@cnblogs 2019/4/2 文中图片可通过点击鼠标右键查看大图 1.场景 某天在阅读一个中英文混编的Word文档时,希望将其中的英文高亮显示,应该怎么做呢? 2.解决方案:Word的查找和替换功能 Word的查找和替换功能(Ctrl+F或Ctrl+H)早已不是简单的字符查找和替换了,能够以图形界面的方式为用户提供较为复杂的搜索和替换操作,有点点将正则表达式操作图形化的意思.下面,我通过一系列截图演示如何通过Word的查…