[小专题]另一种字符串匹配的思路——Shift-And算法

吐槽:前两天打组队赛遇到一个字符串的题考了这个(见:http://acm.hdu.edu.cn/showproblem.php?pid=5972 ) 当时写了个KMP瞎搞然后TLE了(害),赛后去查了许多资料似乎就看见一个题考了这么个鬼东西- 目录问题给出问题分析另一种字符串匹配方法朴素暴力优化算法核心代码参考资料问题给出给一个主串$S=s_1s_2...s_n$和一个模式串\(T=(t_{11}|t_{12}|...|t_{1k_1})(t_{21}|t_{22}|...…

快速字符串匹配一: 看毛片算法（KMP）

前言由于需要做一个快速匹配敏感关键词的服务,为了提供一个高效,准确,低能耗的关键词匹配服务,我进行了漫长的探索.这里把过程记录成系列博客,供大家参考. 在一开始,接收到快速敏感词匹配时,我就想到了 KMP 翻译过来叫"看毛片"的算法,因为大学的时候就学过它.听说到它的效率非常高.把原本字符串匹配效率 O(n*m) 缩短到了O(n+m),把✖️变成了➕,真是了不得. 每次我回顾 KMP 算法时,都会发现自己是个小白,或者每次回顾时,都发现上次因为回顾而写的总结居然是错的!所以为了学习快…

字符串匹配-BF算法和KMP算法

声明:图片及内容基于https://www.bilibili.com/video/av95949609 BF算法原理分析 Brute Force 暴力算法用来在主串中查找模式串是否存以及出现位置核心就是回溯如果模式串下标 j 始终没有到达'\0'则没有找到如果主串下标 i 最后到达了'\0'则没有找到复杂度分析完整代码 #include<iostream> using namespace std; int BF(char S[], char T[]) { int i = 0, j…

Boyer-Moore(BM)算法，文本查找，字符串匹配问题

KMP算法的时间复杂度是O(m + n),而Boyer-Moore算法的时间复杂度是O(n/m).文本查找中“ctrl + f”一般就是采用的BM算法. Boyer-Moore算法的关键点: 从右遍历,如果有txt里面的i+j元素和pat里面的j元素不一致,调整.根据right[]调整,right[]类似与KMP算法里面的nextval.skip = j - right[txt.charat(i+j)]; if(skip < 1) skip = 1; i+=skip; 即找txt里面的第i+j…

【模板】字符串匹配的三种做法（Hash、KMP、STL）

题目描述如题,给出两个字符串s1和s2,其中s2为s1的子串,求出s2在s1中所有出现的位置. 输入输出格式输入格式: 第一行为一个字符串,即为s1 第二行为一个字符串,即为s2 输出格式: 1行,包含若干整数,表示s2在s1中出现的位置,中间用空格隔开. 输入输出样例输入样例#1: 输出样例#1: ABABABC 1 3 ABA 很明显,这道题可以用暴力求解字符串匹配.即枚举起点,然后判断是否为子串.时间复杂度为$O(len^2)$.复杂度明显超时. Hash: 一种用正确率换取时间的算…

sdut 2125串结构练习--字符串匹配【两种KMP算法】

串结构练习——字符串匹配 Time Limit: 1000ms Memory limit: 65536K 有疑问?点这里^_^ 题目链接:http://acm.sdut.edu.cn/sdutoj/problem.php?action=showproblem&problemid=2125 题目描述给定两个字符串string1和string2,判断string2是否为string1的子串. 输入输入包含多组数据,每组测试数据包含两行,第一行代表string1,第二行代表stri…

KMP(字符串匹配)

1.KMP是一种用来进行字符串匹配的算法,首先我们来看一下普通的匹配算法: 现在我们要在字符串ababcabcacbab中找abcac是不是存在,那么传统的查找方法就是一个个的匹配了,如图: 经过六趟匹配之后,终于匹配上了.现在是数据比较小的时候,大家可能没有什么感觉,如果我们的数据是百万级别的,那用这种方法无疑复杂度太高了,很难接受. 2.模式匹配的一种改进算法: 这种改进算法由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现的,因此人们称他为克努特-莫里斯-普拉特操作(简…

字符串匹配KMP算法的讲解C++

转自http://blog.csdn.net/starstar1992/article/details/54913261 也可以参考http://blog.csdn.net/liu940204/article/details/51318281 说明 KMP算法看懂了觉得特别简单,思路很简单,看不懂之前,查各种资料,看的稀里糊涂,即使网上最简单的解释,依然看的稀里糊涂. 我花了半天时间,争取用最短的篇幅大致搞明白这玩意到底是啥. 这里不扯概念,只讲算法过程和代码理解: KMP算法求解什么类型问题…

字符串匹配KMP算法详解

1. 引言以前看过很多次KMP算法,一直觉得很有用,但都没有搞明白,一方面是网上很少有比较详细的通俗易懂的讲解,另一方面也怪自己没有沉下心来研究.最近在leetcode上又遇见字符串匹配的题目,以此为契机,好好总结一下KMP算法.有何疑问,欢迎评论交流. 2. 暴力匹配算法(传统算法) 假设现在有这样一个问题:有一个文本串S,和一个模式串P,现在要判断S中是否有和P匹配的子串,并查找P在S中的位置,怎么解决呢? 如果用暴力匹配的思路,并假设现在文本串S匹配到 i 位置,模式串P匹配到 j 位置…

字符串匹配-KMP

节选自 https://www.cnblogs.com/zhangtianq/p/5839909.html 字符串匹配 KMP O(m+n) O原来的暴力算法当不匹配的时候尽管之前文本串和模式串已经分别匹配到了S[9].P[5],但因为S[10]跟P[6]不匹配,所以文本串回溯到S[5],模式串回溯到P[0],从而让S[5]跟P[0]匹配而S[5]肯定跟P[0]失配.为什么呢?因为在之前第4步匹配中,我们已经得知S[5] = P[1] = B,而P[0] = A,即P[1] != P[0]…

HDU 2087 剪花布条（字符串匹配，KMP）

HDU 2087 剪花布条(字符串匹配,KMP) Description 一块花布条,里面有些图案,另有一块直接可用的小饰条,里面也有一些图案.对于给定的花布条和小饰条,计算一下能从花布条中尽可能剪出几块小饰条来呢? Input 输入中含有一些数据,分别是成对出现的花布条和小饰条,其布条都是用可见ASCII字符表示的,可见的ASCII字符有多少个,布条的花纹也有多少种花样.花纹条和小饰条不会超过1000个字符长.如果遇见#字符,则不再进行工作. Output 输出能从花纹布中剪出的最多小饰条个数…

FFT字符串匹配

本文半原创参考资料:其实就是照抄的什么参考啊我们知道KMP可以用来在线性复杂度内进行制胡窜匹配今天教您一种新方法:用FFT进行字符串匹配您可能觉得这很玄学,FFT不是做多项式卷积的吗,怎么还可以做制胡窜匹配您先别着急,请接着听我们设两个字符串--模式串$a$,长度为$m$,文本串$b$,长度为$n$.设下标为从0开始定义函数$a(i)$返回a串位置i的字符,$b(i)$返回b串位置i的字符(其实就是下标) 定义匹配函数$c(x,y)=a(x)-b(y)$…

字符串匹配之KMP

说明 KMP算法看懂了觉得特别简单,思路很简单,看不懂之前,查各种资料,看的稀里糊涂,即使网上最简单的解释,依然看的稀里糊涂. 我花了半天时间,争取用最短的篇幅大致搞明白这玩意到底是啥. 这里不扯概念,只讲算法过程和代码理解: KMP算法求解什么类型问题字符串匹配.给你两个字符串,寻找其中一个字符串是否包含另一个字符串,如果包含,返回包含的起始位置. 如下面两个字符串: char *str = "bacbababadababacambabacaddababacasdsd"; char…

KMP算法字符串匹配（看猫片）

前言此篇笔记根据自己的理解和练习心得来解释算法,只代表个人观点,如有不足请指出(我刚学QWQ) 浅谈字符串匹配设想一个场景,假设你是一个净化网络语言环境的管理员,每天需要翻阅大量的文章和帖子来查找敏感字,那么这个时候很简单的可以想到可以运用字符串匹配来做到,但是朴素的单模式字符串匹配耗用时间多,那么在这里我们就可以运用高效率的$KMP$算法来解决. 算法对比朴素单模式字符串匹配算法朴素的单模式串匹配大概就是枚举每一个文本串元素,然后从这一位开始不断向后比较,每次比较失败之后都要从头开…

字符串KMP——用途广泛的字符串匹配算法 + 扩展KMP——特殊定义的字符串匹配

引入引入引入 " SY 和 WYX 在看毛片.(几毛钱买到的动作片,毛片) WYX 突然想回味一个片段,但是只记得台词里面有一句挺长的 " ∗ ∗ ∗ ∗ **** ∗∗∗∗ ",于是,他们找到剧本,想看 " ∗ ∗ ∗ ∗ **** ∗∗∗∗ "在剧本中出现了几次,分别是在什么地方. 他们遇到了麻烦,这样的剧本随便就是数百万单词,数千万字母,而且 " ∗ ∗ ∗ ∗ **** ∗∗∗∗ "长度也有上千万. 为了解决这个问…

字符串匹配--Karp-Rabin算法

主要特征 1.使用hash函数 2.预处理阶段时间复杂度O(m),常量空间 3.查找阶段时间复杂度O(mn) 4.期望运行时间:O(n+m) 本文地址:http://www.cnblogs.com/archimedes/p/karp-rabin-algorithm.html,转载请注明源地址. 算法描述在大多数实际情况下,Hash法提供了避免二次方比较时间的一种简单的方法. 不同于检查文本中的每一个位置是否匹配,只检查模式串和指定文本窗口的相似性似乎更高效. hash函数被用来检查两个字符串的…

hrbustoj 1551:基础数据结构——字符串2 病毒II（字符串匹配，BM算法练习）

基础数据结构——字符串2 病毒IITime Limit: 1000 MS Memory Limit: 10240 KTotal Submit: 284(138 users) Total Accepted: 177(135 users) Rating: Special Judge: NoDescription自从计算机病毒的概念被提出之后,病毒的种类可以说是层出不穷.现在,单纯的病毒是逃不过杀毒软件的.因此现在的病毒往往隐藏一些字符之中来达到蒙混过关的目的.已知连续的字符串"bkpstor&quo…

字符串匹配之horspool算法(简化的BM算法)

前面介绍在BF,KMP这些算法的时候老是提到BM这个东西,究竟这什么东西,有啥高深的,这些问题我们如今不去考虑.不知道,认真读前几篇文章的读者有没有发现前面的算法都是从模式串的前面開始匹配的,那我们就想能不能从模式串的后面開始匹配了? 答案肯定是能够的.所以这就有了我们今天的这篇文章Horspool算法,这个算法是基于字符串后缀的匹配算法. 在上一篇文章中,我们学习了一个概念叫好字符(又叫好后缀),大家都知道有好必有坏吧,所以我们今天再来学习一个概念-----坏字符. 一.坏字符与模式串滑动坏…

【算法】字符串匹配之Z算法

求文本与单模式串匹配,通常会使用KMP算法.后来接触到了Z算法,感觉Z算法也相当精妙.在以前的博文中也有过用Z算法来解决字符串匹配的题目. 下面介绍一下Z算法. 先一句话讲清楚Z算法能求什么东西. 输入为一个字符串s,Z算法可以求出这个字符串每一个后缀与自身的最长公共前缀LCP,Z算法可以求出一个数组z,z[i]表示suffix(i)与字符串本身的最长公共前缀. 接下来,介绍Z算法的具体内容. 记字符串s的长度为n. Z算法需要维护一对值,记为left和right,简记为L和R.L和R满足s[L…

【Java编程】Java中的字符串匹配

在Java中,字符串的匹配可以使用下面两种方法: 1.使用正则表达式判断字符串匹配 2.使用Pattern类和Matcher类判断字符串匹配正则表达式的字符串匹配: 正则表达式:定义一组字符串的一系列字符和符号,它由常量字符和特殊符号构成. 下面是正则表达式的一些预定义字符类,实际上是一些转义字符序列: 1.\d 代表任何数字 2.\D 代表任何非数字字符 …

字符串匹配的 KMP算法

一般字符串匹配过程 KMP算法是字符串匹配算法的一种改进版,一般的字符串匹配算法是:从主串(目标字符串)和模式串(待匹配字符串)的第一个字符开始比较,如果相等则继续匹配下一个字符, 如果不相等则从主串的下一个字符开始匹配,直到模式串被匹配完,则匹配成功,或主串被匹配完且模式串未匹配完,则匹配失败.匹配过程入下图: 这种实现方式是最简单的, 但也是低效的,因为第三次匹配结束后的第四次和第五次是没有必要的. 分析第三次匹配在j = 0(a)和i = 2(a)处开始,在j = 4(c)和i = 6(…

KMP字符串匹配简单理解

http://www.cnblogs.com/c-cloud/p/3224788.html 字符串匹配,长串长度为m,子串长度为n 则,暴力破解的复杂度为o(m*n) 如果用kmp匹配,则复杂度为o(m+n) 例如: 当上面的长串遍历到C时,与子串未匹配上失败,如果从头再来则上面子串是从B开始,子串从A开始:效率实在太低. 由图可知,前面已经有6个元素完全匹配上:而这6个元素本身的部分匹配值位2,也就是从左往右:从右往左共同的子串,长度为2.既然6个元素+C无法与子串匹配上: 那么退而求其次…

字符串匹配常见算法（BF，RK，KMP，BM，Sunday）

今日了解了一下字符串匹配的各种方法. 并对sundaysearch算法实现并且单元. 字符串匹配算法,是在实际工程中经常遇到的问题,也是各大公司笔试面试的常考题目.此算法通常输入为原字符串(string)和子串(pattern),要求返回子串在原字符串中首次出现的位置.比如原字符串为“ABCDEFG”,子串为“DEF”,则算法返回3.常见的算法包括:BF(Brute Force,暴力检索).RK(Robin-Karp,哈希检索).KMP(教科书上最常见算法).BM(Boyer Moore).Su…

2018 ACM-ICPC 中国大学生程序设计竞赛线上赛 H题 Rock Paper Scissors Lizard Spock.(FFT字符串匹配)

2018 ACM-ICPC 中国大学生程序设计竞赛线上赛:https://www.jisuanke.com/contest/1227 题目链接:https://nanti.jisuanke.com/t/26219 Rock Paper Scissors Lizard Spock Description: Didi is a curious baby. One day, she finds a curious game, which named Rock Paper Scissors Lizard…

浅谈Hash在多个字符串匹配类型问题中的应用

在生活中们有时会遇到一些有关字符串匹配的问题. 这时打暴力往往显得很愚蠢,效率低下. 所以就需要一些算法和数据结构来提高效率. Hash Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值.这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来唯一的确定输入值.简单的说就是一种将任意长度的消息压缩到某一固定长度的消…