BZOJ.4892.[TJOI2017]DNA(后缀自动机/后缀数组)
\(Description\)
给出两个串\(S,T\),求\(T\)在\(S\)中出现了多少次。出现是指。可以有\(3\)次(\(3\)个字符)不匹配(修改使其匹配)。
\(Solution\)
一个套路的做法是构造多项式(CF528D),对每个字符c单独考虑,\(f[i]=[S[i]可匹配c],g[i]=[T[i]==c]\)。
然后\(F=f*g\),可以得到每个位置往后长\(m\)的串中有多少个位置\(S,T\)都匹配了\(c\)。如果某个位置匹配字符数\(\geq m-3\),则以它为左端点的串可行。
FFT/NTT实现,常数好也许能过。
SA做法:枚举\(S\)的每个位置\(i\),设当前匹配\(T\)匹配到\(j\),得到两个串的ht数组后我们可以\(O(1)\)求出\(LCP(suf[i],suf[j])\),直接\(j+=LCP\)就行了。
如果某个位置不匹配,可以至多用\(3\)次机会直接跳过去。所以实际枚举\(j\)的次数只有\(5\)。
复杂度\(O(Tn\log n)\)。
SAM做法:得到parent树后,直接在上面DFS,如果能匹配则走,不能匹配则用一次次数。走了\(m\)步则加上该点的贡献(出现过多少次)。
复杂度\(O(Tn)\)。
还有某种神奇的Hash做法。。好像复杂度比较优。
SAM:
//9224kb 1624ms
#include <cstdio>
#include <cstring>
#include <algorithm>
const int N=2e5+5;
struct Suffix_Automaton
{
int n,Ans,tot,las,son[N][4],fa[N],len[N],cnt[N],tm[N],A[N],ref[233];
char s[N];
Suffix_Automaton() {tot=las=1;}
void Insert(int c)
{
int np=++tot,p=las;
len[las=np]=len[p]+1, cnt[np]=1;
for(; p&&!son[p][c]; p=fa[p]) son[p][c]=np;
if(!p) fa[np]=1;
else
{
int q=son[p][c];
if(len[q]==len[p]+1) fa[np]=q;
else
{
int nq=++tot; len[nq]=len[p]+1;
memcpy(son[nq],son[q],sizeof son[q]);
fa[nq]=fa[q], fa[q]=fa[np]=nq;
for(; son[p][c]==q; p=fa[p]) son[p][c]=nq;
}
}
}
void Build()
{
tot=las=1;
ref['A']=0, ref['T']=1, ref['G']=2, ref['C']=3;
memset(tm,0,sizeof tm);//! 你前缀和了→_→
memset(cnt,0,sizeof cnt), memset(son,0,sizeof son);
scanf("%s",s+1); int l=strlen(s+1);
for(int i=1; i<=l; ++i) Insert(ref[s[i]]);
for(int i=1; i<=tot; ++i) ++tm[len[i]];
for(int i=1; i<=l; ++i) tm[i]+=tm[i-1];
for(int i=1; i<=tot; ++i) A[tm[len[i]]--]=i;
for(int i=tot,x=A[i]; i; x=A[--i]) cnt[fa[x]]+=cnt[x];
}
void DFS(int x,int use,int l)
{
if(l==n) return (void)(Ans+=cnt[x]);
for(int i=0; i<4; ++i)
if(son[x][i])
if(ref[s[l]]==i) DFS(son[x][i],use,l+1);
else if(use<3) DFS(son[x][i],use+1,l+1);
}
void Query()
{
scanf("%s",s), n=strlen(s);
Ans=0, DFS(1,0,0), printf("%d\n",Ans);
}
}sam;
int main()
{
int T; scanf("%d",&T);
while(T--) sam.Build(), sam.Query();
return 0;
}
SA:
//19768kb 5976ms(好慢...)
#include <cstdio>
#include <cstring>
#include <algorithm>
const int N=2e5+7;
int MAP[233],sa[N],sa2[N],rk[N],tm[N],ht[N],lg2[N],mn[18][N];
char s[N];
void Get_SA(int n)
{
int *x=rk,*y=sa2,m=5;
for(int i=0; i<=m; ++i) tm[i]=0;
for(int i=1; i<=n; ++i) ++tm[x[i]=MAP[s[i]]];
for(int i=1; i<=m; ++i) tm[i]+=tm[i-1];
for(int i=n; i; --i) sa[tm[x[i]]--]=i;
for(int k=1,p=0; k<n; k<<=1,m=p,p=0)
{
for(int i=n-k+1; i<=n; ++i) y[++p]=i;
for(int i=1; i<=n; ++i) if(sa[i]>k) y[++p]=sa[i]-k;
for(int i=0; i<=m; ++i) tm[i]=0;
for(int i=1; i<=n; ++i) ++tm[x[i]];
for(int i=1; i<=m; ++i) tm[i]+=tm[i-1];
for(int i=n; i; --i) sa[tm[x[y[i]]]--]=y[i];
std::swap(x,y), x[sa[1]]=p=1;
for(int i=2; i<=n; ++i)
x[sa[i]]=(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])?p:++p;
if(p>=n) break;
}
for(int i=1; i<=n; ++i) rk[sa[i]]=i;
ht[1]=0;
for(int i=1,k=0,p; i<=n; ++i)
{
if(rk[i]==1) continue;
if(k) --k;
p=sa[rk[i]-1];
while(i+k<=n && p+k<=n && s[i+k]==s[p+k]) ++k;
ht[rk[i]]=k;
}
}
void Init_ST(int n)
{
for(int i=1; i<=n; ++i) mn[0][i]=ht[i];
for(int j=1; j<=lg2[n]; ++j)
for(int i=1; i<=n; ++i)
mn[j][i]=std::min(mn[j-1][i],mn[j-1][i+(1<<j-1)]);
}
inline int LCP(int l,int r)
{
l=rk[l], r=rk[r]; if(l>r) std::swap(l,r);
++l;
int k=lg2[r-l+1];
return std::min(mn[k][l],mn[k][r-(1<<k)+1]);
}
int main()
{
MAP['A']=1, MAP['T']=2, MAP['C']=3, MAP['G']=4, MAP['Z']=5;
lg2[1]=0;
for(int i=2; i<=200005; ++i) lg2[i]=lg2[i>>1]+1;
int T; scanf("%d",&T);
while(T--)
{
int l,n;
scanf("%s",s+1), s[l=strlen(s+1)+1]='Z';
scanf("%s",s+l+1), n=strlen(s+1);
Get_SA(n), Init_ST(n);
int ans=0;
for(int i=1,m=n-l,lim=l-m; i<=lim; ++i)
{
for(int j=1,t=0; t<=3; )
{
if(j>m) {++ans; break;}
else if(s[i+j-1]!=s[l+j]) ++j, ++t;
else j+=LCP(i+j-1,l+j);
}
}
printf("%d\n",ans);
}
return 0;
}
BZOJ.4892.[TJOI2017]DNA(后缀自动机/后缀数组)的更多相关文章
- BZOJ 4892 [Tjoi2017]dna 哈希+二分
自己简直是傻死了...对于位置想错了... 二分出来的是LCP长度$+1$,即每一次二分出来的最后一个点都是失配的,而就算失配也会跳过这个点:所以当$k<=3$且模式串$s2$的指针$>l ...
- poj 1743 Musical Theme 后缀自动机/后缀数组/后缀树
题目大意 直接用了hzwer的题意 题意:有N(1 <= N <=20000)个音符的序列来表示一首乐曲,每个音符都是1..88范围内的整数,现在要找一个重复的主题."主题&qu ...
- [模板] 后缀自动机&&后缀树
后缀自动机 后缀自动机是一种确定性有限状态自动机, 它可以接收字符串\(s\)的所有后缀. 构造, 性质 翻译自毛子俄罗斯神仙的博客, 讲的很好 后缀自动机详解 - DZYO的博客 - CSDN博客 ...
- bzoj 3277: 串 & bzoj 3473: 字符串【后缀自动机||后缀数组】
建一个广义后缀自动机(每加完一个串都返回root),在parent树上dpsum记录合法长度,打着时间戳往上跳,最后每个串在自动机上跑一变统计答案即可. 后缀数组理解起来可能方便一点,但是难写,就只说 ...
- 回文树&后缀自动机&后缀数组
KMP,扩展KMP和Manacher就不写了,感觉没多大意思. 之前感觉后缀自动机简直可以解决一切,所以不怎么写后缀数组. 马拉车主要是通过对称中心解决问题,有的时候要通过回文串的边界解决问题 ...
- SPOJ705 Distinct Substrings (后缀自动机&后缀数组)
Given a string, we need to find the total number of its distinct substrings. Input T- number of test ...
- POJ3080 POJ3450Corporate Identity(广义后缀自动机||后缀数组||KMP)
Beside other services, ACM helps companies to clearly state their “corporate identity”, which includ ...
- SPOJ SUBLEX - Lexicographical Substring Search 后缀自动机 / 后缀数组
SUBLEX - Lexicographical Substring Search Little Daniel loves to play with strings! He always finds ...
- UVA - 11107 Life Forms (广义后缀自动机+后缀树/后缀数组+尺取)
题意:给你n个字符串,求出在超过一半的字符串中出现的所有子串中最长的子串,按字典序输出. 这道题算是我的一个黑历史了吧,以前我的做法是对这n个字符串建广义后缀自动机,然后在自动机上dfs,交上去AC了 ...
随机推荐
- linux学习笔记1——指令的基本格式及基本文件操作
从今天开始就正式踏上了linux的学习历程.linux作为绝大多数服务器采用的操作系统,是每个开发人员都非常有必要掌握的操作系统.初学时,我没有直接在电脑上安装linux操作系统,而是采用了虚拟机的方 ...
- kafka系列四、kafka架构原理、高可靠性存储分析及配置优化
一.概述 Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cl ...
- 利用autocomplete.js实现仿百度搜索效果(ajax动态获取后端[C#]数据)
实现功能描述: 1.实现搜索框的智能提示 2.第二次浏览器缓存结果 3.实现仿百度搜索 <!DOCTYPE html> <html xmlns="http://www.w3 ...
- 找到多个与名为“Home”的控制器匹配的类型的解决方案
主地址:http://localhost:3412/Home/Index 区域地址:http://localhost:3412/T200/Home/Index 解决方法: 注册路由添加命名空间(nam ...
- CSS选择器中带点(.)怎么办?
在SharePoint中很多元素的ID都用点(.)来连接的,比如: <li class="ms-cui-group" id="Ribbon.Documents.Ed ...
- Vue.js——循环(Java、JSTL标签库、数据库)
一.Vue.js循环 Vue.js循环要使用 v-for 指令. v-for 指令需要以 student in StudentList 形式的特殊语法使用, StudentList 是源数据数组并且s ...
- 004_i686和x86_64的区别
找回TCL隐藏分区(转载) 用Wubi安装 Ubuntu 出现(Initranfs)问题的解决方案 i686和x86_64的区别 2009-04-11 08:19:31| 分类: 电脑问题 | 标 ...
- Redis、RabbitMQ、Memcached
知识目录: Memcached Redis RabbitMQ Memcached 回到顶部 Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中 ...
- 基于TCPCopy的仿真压测方案
一.tcpcopy工具介绍 tcpcopy 是一个分布式在线压力测试工具,可以将线上流量拷贝到测试机器,实时的模拟线上环境,达到在程序不上线的情况下实时承担线上流量的效果,尽早发现 bug,增加上线信 ...
- 【C++ Primer 第11章】2. 关联容器操作
练习答案 一.访问元素 关联容器额外类型别名 key_type 此容器类型的关键字类型 mapped_type 每个关键字关联的类型,只 适用于map mapped_type 对于set,与key_ ...