后缀树(Suffix Trie)子串匹配结构

我爱物联网 2024-09-02 05:14:31 原文

Suffix Trie

又称后缀Trie或后缀树。它与Trie树的最大不同在于，后缀Trie的字符串集合是由指定字符串的后缀子串构成的。比如、完整字符串"minimize"的后缀子串组成的集合S分别如下：

s1=minimize

s2=inimize

s3=nimize

s4=imize

s5=mize

s6=ize

s7=ze

s8=e

然后把这些子串的公共前缀作为内部结点构成一棵"minimize"的后缀树，如图所示，其中上图是Trie树的字符表示，下图是压缩表示。可见Suffic Trie是一种很适合操作字符串子串的数据结构。它和PAT tree在这一点上类似。

Suffix Trie的创建

标准Tire树的每一个内部结点只有一个字符，也就是说公共前缀每一次只找一个。而Suffix Trie的公共前缀可以是多个字符，因此在创建Suffix Trie的时候，每插入一个后缀子串，就可能对内部结点造成一次分类。下面我们我们看一种后缀树构造算法。以"minimize"为例：

当插入子串时，发现叶子结点中的关键字与子串有公共前缀，则需要将该叶子结点分裂。如上图第3到4步。否则，重新创建一个叶子结点来存放后缀，如上图第1到2步。

Suffix Trie的子串查询

如果在后缀树T中查找子串P，我们需要这样的过程：

(1) 从根结点root出发，遍历所有的根的孩子结点：N1,N2,N3....

(2) 如果所有孩子结点中的关键字的第一个字符都和P的第一个字符不匹配，则没有这个子串，查找结束。

(3) 假如N3结点的关键字K3第一个字符与P的相同，则匹配K3和P。

若 K3.length>=P.length 并且K3.subString(0,P.length-1)=P，则匹配成功，否则匹配失败。

若 K3.length<=P.length 并且K3=P.subString(0, K3.length-1)，则将子串P1=P.subString(K3.length, P.length); 即取出P中排除K3之后的子串。然后P1以N3为根结点继续重复(1)~(3)的步骤。直到匹配完P1的所有字符，则匹配成功。否则匹配失败。

查询效率：很显然，在上面的算法中。匹配成功正好比较了P.length次字符。而定位结点的孩子指针，和Trie情况类似，假如字母表数量为d。则查询效率为O(d*m)，实际上，d是固定常数，如果使用Hash表直接定位，则d=1.

因此，后缀树查询子串P的时间复杂度为O(m)，其中m为P的长度。

Suffix Trie的应用

标准Trie树只适合前缀匹配和全字匹配，并不适合后缀和子串匹配。而后缀树在这方面则非常合适。

另外后缀树也可以进行前缀匹配。如果模式串P是字符串S的前缀的话，那么从根结点出发遍历后缀树，一定能够寻找到一条路径完全匹配完P。比如上图：模式串P=“mini”，主串S="minimize"。P从根节点出发，首先匹配到结点mi，然后再匹配孩子结点nimize。直到P中所有的字符都找到为止。所以P是S的前缀。

我是天王盖地虎的分割线

参考：http://hxraid.iteye.com/blog/620414

后缀树(Suffix Trie)子串匹配结构的更多相关文章

后缀树(suffix tree)
参考: 从前缀树谈到后缀树后缀树 Suffix Tree-后缀树字典树(trie树).后缀树一.前缀树简述:又名单词查找树,tries树,一种多路树形结构,常用来操作字符串(但不限于字符串), ...
Suffix树，后缀树
body, table{font-family: 微软雅黑; font-size: 13.5pt} table{border-collapse: collapse; border: solid gra ...
笔试算法题（40）：后缀数组 & 后缀树（Suffix Array & Suffix Tree）
议题:后缀数组(Suffix Array) 分析: 后缀树和后缀数组都是处理字符串的有效工具,前者较为常见,但后者更容易编程实现,空间耗用更少:后缀数组可用于解决最长公共子串问题,多模式匹配问题,最长 ...
Trie树(代码)，后缀树（代码）
Trie树系列 Trie字典树压缩的Trie 后缀树Suffix tree 后缀树--ukkonen算法 Trie是通过对字符串进行预先处理,达到加快搜索速度的算法.即把文本中的字符串转换为树结构, ...
B树，B+树，红黑树应用场景AVL树，红黑树，B树，B+树，Trie树
B B+运用在file system database这类持续存储结构,同样能保持lon(n)的插入与查询,也需要额外的平衡调节.像mysql的数据库定义是可以指定B+ 索引还是hash索引. C++ ...
[BinaryTree] AVL树、红黑树、B/B+树和Trie树的比较
转自:AVL树.红黑树.B/B+树和Trie树的比较 AVL树最早的平衡二叉树之一.AVL是一种高度平衡的二叉树,所以通常的结果是,维护这种高度平衡所付出的代价比从中获得的效率收益还大,故而实际的应 ...
AVL树，红黑树，B-B+树，Trie树原理和应用
前言:本文章来源于我在知乎上回答的一个问题 AVL树,红黑树,B树,B+树,Trie树都分别应用在哪些现实场景中? 看完后您可能会了解到这些数据结构大致的原理及为什么用在这些场景,文章并不涉及具体操作 ...
[转载]字典树(trie树)、后缀树
(1)字典树(Trie树) Trie是个简单但实用的数据结构,通常用于实现字典查询.我们做即时响应用户输入的AJAX搜索框时,就是Trie开始.本质上,Trie是一颗存储多个字符串的树.相邻节点间的边 ...
后缀树（Suffix Tree）
问题描述: 后缀树(Suffix Tree) 参考资料: http://www.cppblog.com/yuyang7/archive/2009/03/29 ...

随机推荐

SpringBoot入门系列
集合redis,mysql,测试例子 http://blog.csdn.net/lxhjh/article/details/51764604
vue-router history 模式 iis 配置
首先需要安装 url rewrite模块到IIS点我安装然后在web.config文件中添加如下配置 <?xml version="1.0" encoding=" ...
vue开发关于微信授权登录以及路由mode模式（Hash|History）和手机平台（andriod|IOS）不得不说的故事
引用链接: https://segmentfault.com/a/1190000010753247?utm_source=tuicool&utm_medium=referral
初拾Java（问题一：404错误，页面找不到）
做测试尤其是想走自动化测试之路的人,怎么可以不会码代码?!怒了... 再次开始拾起Java,坚持坚持!!! 刚写了一个JSP页面,想在Myeclipse里面跑来试试,结果搞了半天出现以下错误: 试着去 ...
React篇章-React 组件
<!DOCTYPE html> <html> <head> <meta charset="UTF-8" /> <title&g ...
BASE64Decoder BASE64Encoder jar包问题
操作对项目右击--->build path--->configure build path---> 选中默认jre OK,操作完毕, import sun.misc.BASE64D ...
简单了解Linux的inode与block
Linux常见文件系统类型:ext3(CentOS5),ext4(CentOS6),xfs(CentOS7) Windows常见文件系统类型:FAT32,NTFS (1).inode的内容 1)ino ...
Python中的模块（2）
1.内置模块2.扩展的例如:django3.自定义的文件import demodef read(): print('my read func')demo.read()print(demo.mone ...
Codeforces 1103 C. Johnny Solving
Codeforces 1103 C. Johnny Solving 题目大意: 有一张 \(n\) 个点 \(m\) 条边的简单无向图,每个点的度数至少为 \(3\) ,你需要构造出两种情况之一一条 ...
bzoj 3669: [Noi2014]魔法森林 -- 动点spfa
3669: [Noi2014]魔法森林 Time Limit: 30 Sec Memory Limit: 512 MB 动点spfa Description 为了得到书法大家的真传,小E同学下定决心 ...