DFA 算法实现关键词匹配

起因: 从网页中爬去的页面。须要推断是否跟预设的关键词匹配(是否包括预设的关键词)，并返回全部匹配到的关键词。

眼下pypi 上两个实现

ahocorasick

https://pypi.python.org/pypi/ahocorasick/0.9

esmre

https://pypi.python.org/pypi/esmre/0.3.1

可是事实上包都是基于DFA 实现的

这里提供源代码例如以下:

#!/usr/bin/python2.6

# -*- coding: utf-8 -*-

import time

class Node(object):

    def __init__(self):

        self.children = None

        # 标记匹配到了关键词

        self.flag = False

# The encode of word is UTF-8

def add_word(root,word):

    if len(word) <= 0:

        return

    node = root

    for i in range(len(word)):

        if node.children == None:

            node.children = {}

            node.children[word[i]] = Node()

        elif word[i] not in node.children:

            node.children[word[i]] = Node()

        node = node.children[word[i]]

    node.flag = True

def init(word_list):

    root = Node()

    for line in word_list:

        add_word(root,line)

    return root

# The encode of word is UTF-8

# The encode of message is UTF-8

def key_contain(message, root):

    res = set()

    for i in range(len(message)):

        p = root

        j = i

        while (j<len(message) and p.children!=None and message[j] in p.children):

            if p.flag == True:

                res.add(message[i:j])

            p = p.children[message[j]]

            j = j + 1

        if p.children==None:

            res.add(message[i:j])

            #print '---word---',message[i:j]

    return res 

def dfa():

    print '----------------dfa-----------'

    word_list = ['hello', '民警', '朋友','女儿','派出所', '派出所民警']

    root = init(word_list)

    message = '四处乱咬乱吠，吓得家中11岁的女儿躲在屋里不敢出来，直到辖区派出所民警赶到后，才将孩子从屋中救出。最后在征得主人允许后，民警和村民合力将这仅仅发疯的狗打死'

    x = key_contain(message, root)

    for item in x:

        print item

if __name__ == '__main__':

    dfa()

请再阅读我的这篇文章

http://blog.csdn.net/woshiaotian/article/details/10047675

DFA 算法实现关键词匹配的更多相关文章

web系统安全运营之基础- 基于DFA算法的高性能的敏感词，脏词的检测过滤算法类(c#).
[概述]做好一个web系统的安全运维,除了常规的防注入,防入侵等,还有一个检测并过滤敏感词,脏词.. 这件事做得不好,轻则导致一场投诉或纠纷,重则导致产品被勒令关闭停运. 废话少说,先看下代码,可以 ...
java实现敏感词过滤（DFA算法）
小Alan在最近的开发中遇到了敏感词过滤,便去网上查阅了很多敏感词过滤的资料,在这里也和大家分享一下自己的理解. 敏感词过滤应该是不用给大家过多的解释吧?讲白了就是你在项目中输入某些字(比如输入xxo ...
编译系统中的 NFA/DFA算法理解
1.问题概述 NFA 和 DFA浅析---要深入了解正则表达式,必须首先理解有穷自动机. 有穷自动机(Finite Automate)是用来模拟实物系统的数学模型,它包括如下五个部分: 有穷状态集St ...
Java过滤敏感词语/词汇---DFA算法
最近网站需要在评论.投稿等地方过滤敏感词汇,于是在网上查找了相关教程,特此整理分享. 关于DFA算法,详细的可以去http://blog.csdn.net/u013378306/article/det ...
使用DFA算法对敏感词进行过滤
项目目录结构如下: 其中resources资源目录中: stopwd.txt :停顿词,匹配时间直接过滤. wd.txt:敏感词库. 1.WordFilter敏感词过滤类: package com.s ...
Java实现敏感词过滤 - DFA算法
Java实现DFA算法进行敏感词过滤封装工具类如下: 使用前需对敏感词库进行初始化: SensitiveWordUtil.init(sensitiveWordSet); package cn.swf ...
敏感词汇过滤DFA算法
using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Tex ...
敏感词过滤的算法原理之DFA算法
参考文档 http://blog.csdn.net/chenssy/article/details/26961957 敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有 ...
Java 利用DFA算法屏蔽敏感词
原文:http://www.open-open.com/code/view/1435214601278 import java.io.BufferedReader; import java.io.Fi ...

随机推荐

git merge和git rebase的区别（转）
Description git rebase 和 git merge 一样都是用于从一个分支获取并且合并到当前分支,但是他们采取不同的工作方式,以下面的一个工作场景说明其区别场景: 如图所示: ...
Makefile-fPIC，C++静态库与动态库
在计算机领域中,地址无关代码 (英文: position-independent code,缩写为PIC),又称地址无关可执行文件 (英文: position-independent executab ...
IEEE Bigger系列题解
Bigger系列题解 Bigger Python 坑点在于要高精度以及表达式求值,用java写可以很容易避免高精度问题然后这道题就可以AC了代码 import java.io.*; import ...
快速定位问题 Request无法获取参数
比如说最近开发甲修改了iframe标签的src,开发乙在设置src的时候传入了2个参数,通过iframe标签链接到这个页面时,开发乙调试时发现没有拿到任何参数值.然后开发乙百度了一下,发现iframe ...
Go语言Web框架gwk介绍 (四)
事件 gwk支持事件系统,但并没有硬编码有哪些事件,而是采用了比较松散的定义方式. 订阅事件有两种方式: 调用On函数或者OnFunc函数 func On(moudle, name string, h ...
DeJaVu update history
17.05.08 <-> Added Audi RB8 random code direct change -> Now can adapt VIN based keys or ke ...
为什么说CLR是类型安全的
CLR总是知道托管堆上的对象是什么类型,这是CLR类型安全的前提.托管堆上的每个对象都有一个"类型对象指针",指向托管堆上Type对象的一个实例.我们总是可以通过System.Ob ...
报错： LINQ to Entities 不识别方法“Int32 Parse(System.String)
断点调试发现报错的语句为: public ActionResult SomeMethod(string someId) { var temp = SomeService.LoadEntities(a ...
merge into优化sql（转）
使用Merge INTO优化SQL,性能提升巨大分类: Oracle 2017-04-13 10:55:07 说说背景:开发有个需求,需要对新加的一个字段根据特定的业务逻辑更新数据.TPS_TR ...
hashcode(),equal()方法深入解析
首先,想要明白hashCode的作用,必须要先知道Java中的集合. 总的来说,Java中的集合(Collection)有两类,一类是List,再有一类是Set. 前者集合内的元素是有序的,元素可以重 ...

DFA 算法实现关键词匹配

DFA 算法实现关键词匹配的更多相关文章

随机推荐

热门专题