题面

题目描述

标点符号的出现晚于文字的出现，所以以前的语言都是没有标点的。现在你要处理的就是一段没有标点的文章。

一段文章 $T$ 是由若干小写字母构成。一个单词 $W$ 也是由若干小写字母构成。一个字典 $D$ 是若干个单词的集合。我们称一段文章 $T$ 在某个字典 $D$ 下是可以被理解的，是指如果文章 $T$ 可以被分成若干部分，且每一个部分都是字典 $D$ 中的单词。

例如字典 $D$ 中包括单词 $\{‘is’, ‘name’, ‘what’, ‘your’\}$ ，则文章 $‘whatisyourname’$ 是在字典 $D$ 下可以被理解的，因为它可以分成 $4$ 个单词： $‘what’, ‘is’, ‘your’, ‘name’$ ，且每个单词都属于字典 $D$ ，而文章 $‘whatisyouname’$ 在字典 $D$ 下不能被理解，但可以在字典 $D’=D+ { ‘you’ } $ 下被理解。这段文章的一个前缀 $‘whatis’$ ，也可以在字典 $D$ 下被理解，而且是在字典 $D$ 下能够被理解的最长的前缀。

给定一个字典 $D$ ，你的程序需要判断若干段文章在字典 $D$ 下是否能够被理解。并给出其在字典 $D$ 下能够被理解的最长前缀的位置。

输入输出格式

输入格式：

输入文件第一行是两个正整数 $n$ 和 $m$ ，表示字典 $D$ 中有 $n$ 个单词，且有 $m$ 段文章需要被处理。之后的 $n$ 行每行描述一个单词，再之后的 $m$ 行每行描述一段文章。

其中 $1 \leq n, m \leq 20$ ，每个单词长度不超过 $10$ ，每段文章长度不超过 $1M$ 。

输出格式：

对于输入的每一段文章，你需要输出这段文章在字典 $D$ 可以被理解的最长前缀的位置。

输入输出样例

输入样例：

4 3

is

name

what

your

whatisyourname

whatisyouname

whaisyourname

输出样例：

思路

今天的任务是复习 $Trie$ 树和 $AC$ 自动机！ --Uranus

$30 \ mins \ later$

艹 ---Uranus

今天复习字符串算法，然后就随到了这道字符串毒瘤题。调试了很久，终于过了。

首先拿到这题，显然要先建立一棵 $Trie$ 或者造一台 $AC$ 自动机（量词和动词都没有错呢），然而我太蒻了忘了怎么跳 $AC$ 自动机的 $fail$ 指针，于是就写的 $Trie$ 。

接下来如何去匹配呢？我首先想到的是深度优先搜索。对于一段文章，每次查询到到一个前缀存在于 $Trie$ 中，就选择从根节点重新来找单词，还是继续找下去。这样就可以很容易写出深搜代码：

int dfs(int now)//now表示当前查找的开始位置

{

    int p=0,re=0;//re为返回值,p为Trie的节点编号,root=0

    for(register int i=now;i<tot_len;i++)//tot_len为文章的长度

    {

        int id=str[i]-'a';

        if(!nex[p][id]) return re;//不存在这个单词

        p=nex[p][id];

        if(len[p]) re=max(re,len[p]+dfs(i+1));//len!=0时表示当前单词的长度(Trie中该节点深度)，考虑重新搜索

    }

    return re;//溜了溜了

}

然后就有了 $74$ 分：

#include<bits/stdc++.h>

using namespace std;

const int MAXN=210;

int n,m,cnt,tot_len,nex[MAXN][26],len[MAXN];

string str;

inline void add()

{

    int p=0;

    for(register int i=0;i<tot_len;i++)

    {

        int id=str[i]-'a';

        if(!nex[p][id]) nex[p][id]=++cnt;

        p=nex[p][id];

    }

    len[p]=tot_len;

}

int dfs(int now)

{

    int p=0,re=0;

    for(register int i=now;i<tot_len;i++)

    {

        int id=str[i]-'a';

        if(!nex[p][id]) return re;

        p=nex[p][id];

        if(len[p]) re=max(re,len[p]+dfs(i+1));

    }

    return re;

}

int main()

{

    cin>>n>>m;

    while(n--)

    {

        cin>>str;

        tot_len=str.length();

        add();

    }

    while(m--)

    {

        cin>>str;

        tot_len=str.length();

        cout<<dfs(0)<<endl;

    }

    return 0;

}

在一番玄学优化无用之后开始思考使用 $dp$ 来优化搜索。首先写一个 $bool$ 函数 $fd(int \ l,int \ r)$ 表示文章的 $[l,r]$ 区间所形成的单词是否存在于 $Trie$ 中，然后定义 $bool$ 变量 $f[i]$ 表示文章中的 $[1,i]$ 区间是否可以为最长前缀。那么有

\[f[i]= \{ k \ | \ (f[k]=true \ or \ k=-1) \ and \ fd(k+1,i)=true \}
\]

于是我们就有了 $24$ 分代码：

#include<bits/stdc++.h>

using namespace std;

const int MAXN=210;

int n,m,cnt,len,ans,nex[MAXN][26];

bool en[MAXN],f[1100000];

string str;

inline void add()

{

    int p=0;

    for(register int i=0;i<len;i++)

    {

        int id=str[i]-'a';

        if(!nex[p][id]) nex[p][id]=++cnt;

        p=nex[p][id];

    }

    en[p]=true;

}

inline bool fd(int l,int r)

{

    int p=0;

    for(register int i=l;i<=r;i++)

    {

        int id=str[i]-'a';

        if(!nex[p][id]) return false;

        p=nex[p][id];

    }

    return en[p];

}

int main()

{

    ios::sync_with_stdio(false);

    cin.tie();

    cout.tie();

    cin>>n>>m;

    while(n--)

    {

        cin>>str;

        len=str.length();

        add();

    }

    while(m--)

    {

        cin>>str;

        len=str.length(),ans=0;

        for(register int i=0;i<len;i++)

        {

            f[i]=false;

            for(register int j=max(i-len,-1);j<i;j++)

                if((j==-1||f[j])&&fd(j+1,i))

                {f[i]=true;ans=i+1;break;}

        }

        cout<<ans<<endl;

    }

    return 0;

}

$24$ 分？没错，改用了动态规划之后时间反而变慢了，这是因为填表法的时间复杂度太高了。改用刷表法，利用前面的状态，就可以大大降低时间复杂度。

AC代码：

#include<bits/stdc++.h>

using namespace std;

const int MAXN=210;

int n,m,cnt,len,ans,nex[MAXN][26];

bool en[MAXN],f[1100000];

string str;

inline void add()

{

    int p=0;

    for(register int i=0;i<len;i++)

    {

        int id=str[i]-'a';

        if(!nex[p][id]) nex[p][id]=++cnt;

        p=nex[p][id];

    }

    en[p]=true;

}

int main()

{

    ios::sync_with_stdio(false);

    cin.tie();

    cout.tie();

    cin>>n>>m;

    while(n--)

    {

        cin>>str;

        len=str.length();

        add();

    }

    while(m--)

    {

        cin>>str;

        memset(f,0,sizeof f);

        len=str.length(),ans=0;

        for(register int i=-1;i<len;i++)

            if(i==-1||f[i])

            {

                int j=i+1,id=str[j]-'a',p=nex[0][id];

                while(p&&j<len)

                {

                    if(en[p]) f[j]=true;

                    id=str[++j]-'a',p=nex[p][id];

                }

            }

        for(register int i=len-1;i>=0;i--) if(f[i]) {ans=i+1;break;}

        cout<<ans<<endl;

    }

    return 0;

}

总结

用了三种算法，过了一种。那要是在 $NOIP$ 赛场上，写挂了之后又不知道自己挂了该怎么办呢？所以分析时间复杂度就很重要了。

插入操作的时间比较少，我们就不考虑在时间复杂度之中了。首先我们定义一个单词的长度为 $|P|$ ，一段文章的长度为 $|S|$ 。

第一种解法：

最坏情况下，每次 $dfs$ 都考虑是否重新 $dfs$ ，那么查询复杂度为 $O(|S|*|P|!)$ ，总的时间复杂度就是 $O(m|S|*|P|!)$ 。

第二种解法：

一次 $fd$ 函数的调用的时间复杂度为 $O(|S|)$ ，动态规划的两层循环是 $O(|S|^2)$ 的，所以总的时间复杂度就是 $O(m|S|^3)$ 。这样写的话时间复杂度就与 $|P|$ 无关而与 $|S|$ 关系太大了，而 $|S|>>|P|$ ，自然得分很低。

第三种解法：

一次刷表的时间为 $|P|$ ，总共循环 $|S|$ 次，所以总的时间复杂度为 $O(m|S||P|)$ 了，显然能过。

Luogu P2292 [HNOI2004]L语言(Trie+dp)的更多相关文章

洛谷：P2292 [HNOI2004]L语言（DP+Trie树）
P2292 [HNOI2004]L语言题目链接:https://www.luogu.org/problemnew/show/P2292 题目描述标点符号的出现晚于文字的出现,所以以前的语言都是没有 ...
洛谷.2292.[HNOI2004]L语言(Trie DP)
题目链接 /* 简单的DP,查找是否有字典中的单词时在Trie树上做要注意在最初Match(0)一遍后,i还是要从0开始匹配,因为如果有长度为1的单词,Match(i+1)不会从1更新 1M=102 ...
Luogu P2292 [HNOI2004]L语言
题目链接 $Click$ $Here$ 好久没写$DP$了真是水平下降不少,一眼把这个题搞成贪心了,然后一发交上只有$37$分$QwQ$ 这个题好像还可以$AC$自动机胡搞?不 ...
2021.11.09 P2292 [HNOI2004]L语言（trie树+AC自动机）
2021.11.09 P2292 [HNOI2004]L语言(trie树+AC自动机) https://www.luogu.com.cn/problem/P2292 题意: 标点符号的出现晚于文字的出 ...
洛谷 P2292 [HNOI2004] L语言解题报告
P2292 [HNOI2004] L语言题目描述标点符号的出现晚于文字的出现,所以以前的语言都是没有标点的.现在你要处理的就是一段没有标点的文章. 一段文章$T$是由若干小写字母构成.一个单词 ...
【BZOJ1212】[HNOI2004]L语言 Trie树
[BZOJ1212][HNOI2004]L语言 Description 标点符号的出现晚于文字的出现,所以以前的语言都是没有标点的.现在你要处理的就是一段没有标点的文章. 一段文章T是由若干小写字母构 ...
洛谷（cogs 1293/bzoj 1212） P2292 [HNOI2004]L语言
1293. [HNOI2004] L语言 ★★★ 输入文件:language.in 输出文件:language.out 简单对比时间限制:1 s 内存限制:162 MB [题目描述] ...
BZOJ1212[HNOI2004]L语言——trie树+DP
题目描述标点符号的出现晚于文字的出现,所以以前的语言都是没有标点的.现在你要处理的就是一段没有标点的文章. 一段文章T是由若干小写字母构成.一个单词W也是由若干小写字母构成.一个字典D是若干个单词的 ...
[HNOI2004][bzoj1212] L语言 [Trie+dp]
题面传送门思路无后效性显然,不管某个前缀的理解方式是怎么样的,如果它能被理解,那么前面的决策对于后面的决策而言都是等价的因此这题可以DP DP方程令$dp[i]$表示前缀i是否能被理解那 ...

随机推荐

关于jar包启动遇到的问题
一.找不到propertites文件,错误如下原因是打成的jar不包含classpath信息,需要运行时指定,命令为 -Xbootclasspath/a: 后缀在核心class搜索路径后面.常用! ...
[NOIP2019模拟赛]LuoguP4261白金元首与克劳德斯
题目描述给出坐标系中n个矩形,类型1的矩形每单位时间向x轴正方向移动1个单位,类型2的矩形向y轴正方向,初始矩形不重叠,一个点被矩形覆盖当且仅当它在矩形内部(不含边界),求$(-\infty ,+\ ...
ubuntu解压/压缩rar文件
一般通过默认安装的ubuntu是不能解压rar文件的,只有在安装了rar解压工具之后,才可以解压.其实在ubuntu下安装rar解压工具是非常简单的,只需要两个步骤就可以迅速搞定.ubuntu 下ra ...
MySQL数据库CRUD命令用法
数据库CRUD操作即添加(Create).读取(Read).更新(Update)和删除(Delete). 1. 添加操作也称插入操作,使用Insert语句,Insert语句可以用于几种情况: 插入完整 ...
Nginx反向代理Odoo并转为https
生成证书文件生成自签名证书,并放在指定位置 $ openssl req -x509 -days 3650 -subj '/CN=odoo.youyun.com/' -nodes -newkey rs ...
springboot让内置tomcat失效
一.POM(去除内嵌tomcat后,需要添加servlet依赖) <dependency> <groupId>org.springframework.boot</grou ...
Mysql 1864 主从错误解决方法
故障描述: 在mysql 主库上增加了一个主键操作,没过5分钟就接受到zabbix报警mysql主从同步异常停止信息,一首凉凉送给自己.... 查看现在主从状态 (root@192.168.1.2) ...
java中自己对页面跳转问题的一些经验
在eclipse中,如果你要在jsp页面跳转到servlet页面中,可以用action=“/根文件名/servlet文件名” 的方式跳转. 例如我创建了一个web application名字是test ...
OpenCASCADE点向直线投影
OpenCASCADE点向直线投影 eryar@163.com 在GeomLib_Tool类中提供了计算指定点在曲线.曲面上的参数,这个算法具有通用性,即对任意曲线.曲面来反求点的参数. 本文主要结合 ...
Neo4j与springdata集成
1.maven工程需导入的jar包  <dependency> <groupId>org.springframework.data< ...

Luogu P2292 [HNOI2004]L语言(Trie+dp)

题面