后缀数组suffix array

倍增算法，时间复杂度O(nlogn)

sa从小到大保存相对大小的下标

理解LSD，x数组，sa数组

char s[maxn];

int sa[maxn],t[maxn],t2[maxn],c[maxn],n;

void build_sa(int m)

{

    //LSD基数排序

    int *x=t,*y=t2;//x数组保存rank

    //字串长度为1，即对每一个元素的大小排序

    for(int i=0;i<m;++i) c[i]=0;//计数数组清空

    for(int i=0;i<n;++i) c[x[i]=s[i]]++;//统计出现次数

    for(int i=1;i<m;++i) c[i]+=c[i-1];//计算前缀和

    for(int i=n-1;i>=0;--i) sa[--c[x[i]]]=i;//sa从小到大保存每一个元素的下标

    for(int k=1;k<=n;k<<=1){//k为要排序的子串长

        //排序第二keyword

        int p=0;               //y[]从小到大保存第二keyword的下标

        for(int i=n-k;i<n;++i) y[p++]=i;//从第n-k位開始的字串，第二keyword为0

        for(int i=0;i<n;++i) if(sa[i]>=k) y[p++]=sa[i]-k;

                                //仅仅有下标大于k的第sa[i]个字符串的rank才干作为下一行的第sa[i]-k个字符串的第二keyword

        //排序第一keyword

                //x[y[i]]是引用第一keyword，依据LSD第二次排序要在第一次的基础上

        for(int i=0;i<m;++i) c[i]=0;//计数数组清空

        for(int i=0;i<n;++i) c[x[y[i]]]++;//统计rank出现次数

        for(int i=1;i<m;++i) c[i]+=c[i-1];//求前缀和

        for(int i=n-1;i>=0;--i) sa[--c[x[y[i]]]]=y[i];//sa[]从小到大保存双keyword的下标

        p=1;swap(x,y);x[sa[0]]=0;//交换x，y数组 x[]数组从0到n-1保存rank值(0到p)

        for(int i=1;i<n;++i){

            x[sa[i]]=y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k] ? p-1:p++;//注意p-1

            //因为p是计数rank值不同的字符串的数量，因此双keyword同样的串视为一样的rank

        }

        if(p>=n) break; //p个字符串的rank值都不同 ，p>=n时说明大小确立，以后即使倍增，sa也不会改变

        m=p;//用来下次基数排序的最大值

    }

}

————————————————————————————————————--————————

————————————————————————————————————————————

void build_sa()

{

    int *x=t,*y=t2;

    for(int i=0;i<m;++i) c[i]=0;

    for(int i=0;i<n;++i) c[x[i]=y[i]]++;

    for(int i=1;i<m;++i) c[i]+=c[i-1];

    for(int i=n-1;i>=0;--i) sa[--c[x[i]]]=i;

    for(int k=1;k<=n;k<<=1){

        int p=0;

        for(int i=n-k;i<n;++i) y[p++]=i;

        for(int i=0;i<n;++i) if(sa[i]>=k) y[p++]=sa[i]-k;

        for(int i=0;i<m;++i) c[i]=0;

        for(int i=0;i<n;++i) c[x[y[i]]]++;

        for(int i=1;i<m;++i) c[i]+=c[i-1];

        for(int i=n-1;i>=0;--i) sa[--c[x[y[i]]]]=y[i];

        int p=0;swap(x,y);x[sa[0]]=0;

        for(int i=1;i<n;++i){

            x[sa[i]]=y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k] p-1:p++;

        }

        if(p>=n) break;

        m=p;

    }

}

int m;

int cmp_suffix(char *pattern,int p)

{

    return strncmp(pattern,s+sa[p],m);

}

int find(char *p)

{

    m=strlen(p);

    if(cmp_suffix(p,0)<0) return -1;

    if(cmp_suffix(p,n-1)>0) return -1;

    int l=0,r=n-1;

    while(l<=r){

        int mid=l+(r-l)/2;

        int res=cmp_suffix(p,mid);

        if(!res) return mid;

        if(res>0) l=mid+1;

        if(res<0) r=mid-1;

    }

    return -1;

}

/*

设suffix(k)是排在suffix(i-1)前一名的后缀。则它们的最长公共前缀是h[i-1]

。那么suffix(k+1)将排在suffix(i)的前面（这里要求h[i-1]>1，假设h[i-1]≤

1，原式显然成立）而且suffix(k+1)和suffix(i)的最长公共前缀是h[i-1]-1，

所以suffix(i)和在它前一名的后缀的最长公共前缀至少是h[i-1]-1。依照h[1]

，h[2]，……，h[n]的顺序计算。并利用h数组的性质，时间复杂度能够降为O

(n)。

*/

void get_height()

{

    for(int i=0;i<n;++i) rank[sa[i]]=i;

    int k=0;

    for(int i=0;i<n;++i){

        if(k) k--;

        int j=sa[rank[i]]-1;

        while(s[j+k]==s[i+k]) k++;

        height[rank[i]]=k;

    }

}

后缀数组suffix array的更多相关文章

后缀数组(suffix array)
参考: Suffix array - Wiki 后缀数组(suffix array)详解 6.3 Suffix Arrays - 算法红宝书 Suffix Array 后缀数组基本概念应用:字 ...
后缀数组(suffix array)详解
写在前面在字符串处理当中,后缀树和后缀数组都是非常有力的工具. 其中后缀树大家了解得比较多,关于后缀数组则很少见于国内的资料. 其实后缀数组是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现, ...
利用后缀数组(suffix array)求最长公共子串(longest common substring)
摘要:本文讨论了最长公共子串的的相关算法的时间复杂度,然后在后缀数组的基础上提出了一个时间复杂度为o(n^2*logn),空间复杂度为o(n)的算法.该算法虽然不及动态规划和后缀树算法的复杂度低,但其 ...
数据结构之后缀数组suffix array
在字符串处理当中,后缀树和后缀数组都是非常有力的工具,其中后缀树大家了解得比较多,关于后缀数组则很少见于国内的资料.其实后缀是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现,能够实现后缀树的很多 ...
后缀数组 (Suffix Array) 学习笔记
\(\\\) 定义介绍一些写法和数组的含义,首先要知道字典序 . \(len\):字符串长度 \(s\):字符串数组,我们的字符串存储在 \(s[0]...s[len-1]\) 中. \(suff ...
【模板】BZOJ 1692:队列变换—后缀数组 Suffix Array
传送门:http://www.lydsy.com/JudgeOnline/problem.php?id=1692 题意: 给出一个长度为N的字符串,每次可以从串头或串尾取一个字符,添加到新串中,使新串 ...
笔试算法题（40）：后缀数组 & 后缀树（Suffix Array & Suffix Tree）
议题:后缀数组(Suffix Array) 分析: 后缀树和后缀数组都是处理字符串的有效工具,前者较为常见,但后者更容易编程实现,空间耗用更少:后缀数组可用于解决最长公共子串问题,多模式匹配问题,最长 ...
suffix array后缀数组
倍增算法基本定义子串:字符串 S 的子串 r[i..j],i≤j,表示 r 串中从 i 到 j 这一段也就是顺次排列 r[i],r[i+1],...,r[j]形成的字符串. 后缀:后缀是指从某个位置 ...
Suffix Array 后缀数组
后缀数组顾名思义.SuffixArray(下面有时简称SA) 和字符串的后缀有关. 后缀:字符串中某个位置一直到结尾的子串.(SA中讨论包含了原串和空串).所以共同拥有len+1个后缀. 后缀数组: ...

随机推荐

php多台服务器实现session共享
使用Redis存储Session(前提是服务期间已实现redis共享,可参照:laravel项目使用twemproxy部署redis集群) 修改php.ini: session.save_handle ...
UVA 11636.Hello World!-水题
Hello World! Time limit: 1.000 seconds When you ﬁrst made the computer to print the sentence “Hello ...
Windows下python的第三方库的安装
D:\Python27\Scripts\pip.exe install beautifulsoup4
二维偏序+树状数组【P3431】[POI2005]AUT-The Bus
Description Byte City 的街道形成了一个标准的棋盘网络 – 他们要么是北南走向要么就是西东走向. 北南走向的路口从 1 到 n编号, 西东走向的路从1 到 m编号. 每个路口用两个 ...
【Android】自定义View
内置组件经常不满足我们的需求,那么就要自己来重写了,一般需要实现以下几个父类方法: 1.onMeasure 决定内部View的宽和高,以及自身的宽和高 2.onLayout 决定子View的放置位置 ...
POJ 3168 Barn Expansion （几何基础）
[题目链接] http://poj.org/problem?id=3168 [题目大意] 给出一些矩形,没有相交和包含的情况,只有相切的情况问有多少个矩形没有相切或者边角重叠 [题解] 我们将所有的 ...
【动态规划】bzoj1638 [Usaco2007 Mar]Cow Traffic 奶牛交通
设f[u]为从度数0到u的路径条数,f2[u]为从u到n的路径条数. ans=max{f[x[i]]*f2[y[i]]}(1<=i<=m). #include<cstdio> ...
【块状树】【LCA】bzoj1787 [Ahoi2008]Meet 紧急集合
分块LCA什么的,意外地快呢…… 就是对询问的3个点两两求LCA,若其中两组LCA相等,则答案为第三者. 然后用深度减一减什么的就求出距离了. #include<cstdio> #incl ...
关于Hadoop_env.sh中的HADOOP_CLASSPATH
之前博客里介绍了如何自定义DoubleArrayWritable,并将该类型的value写入SequenceFile文件中,为了能够使用命令查看这个文件中的内容(果然坑都是一步一步给自己挖的)参考了网 ...
Linux下使用expect实现跳板机自动跳转/免密登录/自动登录（转）
shell脚本实现ssh自动登录远程服务器示例: #!/usr/bin/expect spawn ssh root@192.168.22.194 expect "*password:&quo ...

后缀数组suffix array

后缀数组suffix array的更多相关文章

随机推荐

热门专题