C++ KMP文本匹配

代码如下: 环境为VC #include <iostream> #include <algorithm> #include <string> #include <map> #include <vector> #include <cstring> #include <utility> #include <fstream> using namespace std; int* getNext(string p) {…

[Alg] 文本匹配-单模匹配与多模匹配

实际场景: 网站的用户发了一些帖子S1, S2,...,网站就要审核一下这些帖子里有没有敏感词. 1. 如果网站想查一下帖子里有没有一个敏感词P,这个文本匹配要怎么做更快? 2. 如果网站想查一下帖子里有没有敏感词P1, P2,...,这个文本匹配要怎么做更快? 单模匹配与多模匹配从以上的实际场景中,可以抽象出来两类文本匹配的问题.这里首先将"帖子"抽象为待匹配的序列S,将"敏感词"抽象为模式串P.那目标就是看看序列S中是否包含模式串P. 如果模式串P只有一个,要…

HDU4300-Clairewd’s message(KMP前缀匹配后缀)

Clairewd's message Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 3228 Accepted Submission(s): 1248 Problem Description Clairewd is a member of FBI. After several years concealing in BUPT,…

text matching(文本匹配) 相关资料总结

最近工作上需要做句子语义去重相关的工作,本质上这是属于NLP中text matching(文本匹配)相关的内容.因此我花了一些时间整理了一些关于这个方向的资料,整理如下(也许会持续更新): BiMPM: https://weibo.com/1402400261/F40cs8tIX?type=comment#_rnd1563284472799 文本匹配的综述: https://blog.csdn.net/xiayto/article/details/81247461 知乎:如何判断两个文…

跨模态语义关联对齐检索-图像文本匹配（Image-Text Matching）

论文介绍:Negative-Aware Attention Framework for Image-Text Matching (基于负感知注意力的图文匹配,CVPR2022) 代码主页:https://github.com/CrossmodalGroup/NAAF 主要优势: 1)不额外添加任何学习参数前提下,在基础基线SCAN上取得显著性能提升,达到SOTA: 2)模型设计简单有效,只需要SCAN 的文本-图像(Text-to-Image)单方向计算,可以大幅减少基于注意力的匹配方法检索耗时…

[Alg] 文本匹配-单模匹配-KMP

1. 暴力求解如下图所示.蓝色的小三角表示和sequence比较时的开始字符,绿色小三角表示失败后模式串比对的开始字符,红色框表示当前比较的字符对. 当和模式串发生不匹配时,蓝色小三角后移一位,绿色小三角移到模式串的第0位. 如果sequence长度为m, pattern长度为n,暴力求解的时间复杂度:O(m * n) 2. KMP算法暴力求解中"当和模式串发生不匹配时,蓝色小三角后移一位,绿色小三角移到模式串的第0位."能不能多移几位呢? 在发生不匹配之前,我们已经比较一些字符,…

【基本算法】 KMP文本串模式串的字符串匹配算法

看了两个晚上的KMP,加上基本的“暴力匹配” 今晚看懂next[j]递归求解时,突然觉得算法真的好美妙,虽然觉悟的晚但晚胜过没有是吧! 我的博客都是应试性的学习笔记,不具备指导性,还是大神们写的好,例如July和matrix67的博客(今天还知道了matrix67的传奇) [置顶] 从头到尾彻底理解KMP(2014年8月22日版) [置顶] 从头到尾彻底理解KMP(2014年8月22日版) 实习辞职了,可以全心全意看书找工作了,自由真是好!!为了我们俩以后在一起!! 什么时候努力…

[Alg] 文本匹配-多模匹配-AC自动机

1. 简介 AC自动机是一种多模匹配的文本匹配算法. 如果采用naive的方法,即依次比较文本串s中是否包含模式串p1, p2,...非常耗时.考虑到这些模式串中可能具有相同子串,可以利用已经比较过的那些模式串的一些信息,来优化效率.容易想到的一种方法是为这些模式串构建一个trie树,可以较好的利用模式串的公共前缀信息. 但是如果只是采用普通的trie树,仍有如果一个模式串P1不匹配,就要重新回到根节点再找下一个模式串P2,也就是对于下一个模式串P2,要从P2的起始元素开始,依次与文本串S比较…

HDU 2846 (AC自动机+多文本匹配)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2846 题目大意:有多个文本,多个模式串.问每个模式串中,有多少个文本?(匹配可重复) 解题思路: 传统AC自动机是计算单个文本中,模式串出现次数. 这里比较特殊,每个文本需要单独计算,而且每个匹配在每个文本中只能计数1次. 比如add,d只能计数1次,而不是:两次. 所以循环逐个对文本Find.每个Find里,进行Hash,保证每个匹配串只计数1次. 由于匹配串可重复,在Insert之前,也需要离散…

HDU 1686 Oulipo（KMP+计算匹配成功次数）

一开始总是超时,后来发现还是方法没找对,这个跟普通KMP不太一样的就是,KMP匹配成功的时候会完全跳过已经匹配成功的匹配段,至少我掌握的是.那么如何避免这样的问题呢,举个栗子啊原串为ABABA,模式串为ABA,当匹配成功的时候,只要跳转到模式串最大公共前后缀长度就行了,ABA的长度为1,所以就是从原串的第二个B开始进行匹配,这样就不会漏了,记录所有匹配成功的次数就是答案. #include<iostream> #include<cstdio> #include<cstrin…

KMP算法匹配原理以及C++实现

原创作品,转载请注明出处:点我假设A表示目标字符串,A="abababaababacb",B表示匹配模式,B="ababacb" 用两个指针i和j分别表示,A[i-j+1 .... i]与B[1...j]完全相等.也就是说,i是不断增加的,随着i的增加j相应的变化,且满足以A[i]结尾的长度为j的字符串正好匹配B串的前j个字符(j当然越大越好),现在需要jianyanA[i+1]和B[j+1]的关系.当A[i+1]=B[j+1]时,i和j各自增加一,什么时候j=m…

阅读笔记——长文本匹配《Matching Article Pairs with Graphical Decomposition and Convolutions》

论文题目:Matching Article Pairs with Graphical Decomposition and Convolutions 发表情况:ACL2019 腾讯PCG小组模型简介模型如图本文的工作是基于概念图 Concept Interac-tion Graph (CIG)来做的,关于CIG的详细解释可以参看腾讯发的另一篇论文:A User-Centered Concept Mining System for Query and Document Understa…

【python cookbook】【字符串与文本】2.在字符串的开头或结尾处做文本匹配

问题:在字符串的开头或结尾处按照指定的文本模式做检查,例如检查文件的扩展名.URL协议类型等: 解决方法:使用str.startswith()和str.endswith()方法 >>> filename='spam.txt' >>> filename.endswith('.txt') True >>> filename.startswith('file:') False >>> url='http://www.python.org'…

rails中文本匹配相似度gem包对比

测试数据 ["美科学家发现人体新器官","科学家发现新器官"],["曝高云翔悉尼被捕","高云翔涉性侵被捕"],["走失柯基犬被摔死事件","柯基犬摔死后续"],["张继科景甜公布恋情","张继科公布恋情"] string-similarity (gem "string-similarity") https://githu…

【shell】文本匹配问题

原文本通过TITLE分段 TITLE1 xxx yyy TITLE2 xxx yyy hello zzz hello TITLE3 xxx hello 类似于这样的,hello可能有多个,需要打印出含hello对应的TITLE段落,如(TITLE1不含hello,不打印): TITLE2 hello hello TITLE3 hello 我的解题思路是首先用grep找出所有包括TITLE和hello的行,然后通过sed的N把下一行(最后一行除外)读入模式空间,如果包含 /hello/,那么用P打…

能够进行多段文本匹配的NFA改良算法

下面的代码基于NFA算法实现了在多段字符串中匹配正则表达式,对比NFA算法可以看到它将pc由局部变量提升为类成员,以保存中间匹配状态,另外在匹配成功后将pc恢复到null状态.实际使用中,此类还应该增加一个"reset"方法,将pc值置为null,以便用户可以显式要求重新开始匹配. public class MultiSegmentNFA { private final Digraph G; // digraph of epsilon transitions private final…

关于MultiAutoCompleteTextView的用法：多文本匹配

…

流动python - 字符串KMP匹配

首先我们看一下简单的字符串匹配. 你可以把文本字符串s固定,模式字符串p从s对齐的左边缘,作为承担部分完全一致,匹配成功,失败将是模式字符串p整体向右1地点,继续检查对齐部分,重复. #朴素匹配 def naive_match(s, p): m = len(s); n = len(p) for i in range(m-n+1):#起始指针i if s[i:i+n] == p: return True return False 关于kmp算法,讲的最好的当属阮一峰的<字符串匹配的KMP算法>.…

kmp匹配详解

字符串算法都是毒瘤的一.kmp算法的用处在文本串中查找模式串的位置,数量文本串:要在这个字符串查找模式串模式串:在文本串中查找的字符串全是废话二.kmp算法的思想话说kmp好像是3个发明者的首字母如果暴力在文本串中查找模式串,时间期望复杂度是O(N+M),N,M为文本串,模式串的长度,但经过毒瘤出题人的构造数据,暴力会被卡成O(NM) kmp的精髓在于每次失配时,珂以不用从头开始这样说有点迷,我们结合数据来看一下: 模式串:abcab 文本串:abcacababcab 首先前4…

KMP算法——字符匹配

暴力匹配: 假设现在我们面临这样一个问题:有一个文本串S,和一个模式串P,现在要查找P在S中的位置,怎么查找呢? 如果用暴力匹配的思路,并假设现在文本串S匹配到 i 位置,模式串P匹配到 j 位置,则有: 如果当前字符匹配成功(即S[i] == P[j]),则i++,j++,继续匹配下一个字符: 如果失配(即S[i]! = P[j]),令i = i - (j - 1),j = 0.相当于每次匹配失败时,i 回溯,j 被置为0. 理清楚了暴力匹配算法的流程及内在的逻辑,咱们可以写出暴力匹配的代码…

TYVJ P1068 STR Label：KMP匹配不懂

描述给你两个串A,B,可以得到从A的任意位开始的子串和B匹配的长度.给定K个询问,对于每个询问给定一个x,求出匹配长度恰为x的位置有多少个.N,M,K<=200000 输入格式第一行三个数 N,M,K,表示A的长度.B的长度和询问数.第二行为串A.第三行为串B.接下来K行,每行1个数X. 输出格式对于每个询问输出一个数. 测试样例1 输入 6 2 2 aabcde ab 0 2 输出 4 1 代码 #include <stdio.h> #include <string.h&g…

【python cookbook】【字符串与文本】4.文本模式的匹配和查找

问题:按照特定的文本模式进行匹配或查找解决方法: 1.简单的文字匹配,只需使用str.find().str.startswith().str.endswith()或类似的函数即可: 2.复杂的匹配,需要使用正则表达式以及re模块 >>> import re >>> text1='11/23/2016' >>> text2='Nov 23,2016' >>> if re.match(r'\d+/\d+/\d+',text1): pri…

Leetcode28--->字符串的匹配（KMP）

题目: 题目的本质是给定两个字符串str1,str2,求str1中的str2串开始的地方,即字符串的匹配,KMP算法思路:时间复杂度为O(m + n),空间复杂度为O(n),原串的长度为m,子串的长度为n KMP算法的本质是根据子串的next值求解的,所以首先讲解next值得求法: 字串的Next值的求解方法: next[i]的含义是:以i-1位置结尾的字符串与以0位置开始的字符串的最长匹配 1. 创建一个与子串大小相同长度的int型数组next 2. next值中的next[0] = -1,…

数据结构与算法JavaScript (五) 串(经典KMP算法)

KMP算法和BM算法 KMP是前缀匹配和BM后缀匹配的经典算法,看得出来前缀匹配和后缀匹配的区别就仅仅在于比较的顺序不同前缀匹配是指:模式串和母串的比较从左到右,模式串的移动也是从左到右后缀匹配是指:模式串和母串的的比较从右到左,模式串的移动从左到右. 通过上一章显而易见BF算法也是属于前缀的算法,不过就非常霸蛮的逐个匹配的效率自然不用提了O(mn),网上蛋疼的KMP是讲解很多,基本都是走的高大上路线看的你也是一头雾水,我试图用自己的理解用最接地气的方式描述 KMP KMP也是一种优化版的…

从头到尾彻底理解KMP

从头到尾彻底理解KMP 作者:July 时间:最初写于2011年12月,2014年7月21日晚10点全部删除重写成此文,随后的半个多月不断反复改进. 1. 引言本KMP原文最初写于2年多前的2011年12月,因当时初次接触KMP,思路混乱导致写也写得混乱.所以一直想找机会重新写下KMP,但苦于一直以来对KMP的理解始终不够,故才迟迟没有修改本文. 然近期因开了个算法班,班上专门讲解数据结构.面试.算法,才再次仔细回顾了这个KMP,在综合了一些网友的理解.以及算法班的两位讲师朋友曹博.邹博的理…

KMP详解

原文: http://blog.csdn.net/v_july_v/article/details/7041827 从头到尾彻底理解KMP 1. 引言本KMP原文最初写于2年多前的2011年12月,因当时初次接触KMP,思路混乱导致写也写得混乱.所以一直想找机会重新写下KMP,但苦于一直以来对KMP的理解始终不够,故才迟迟没有修改本文. 然近期因在北京开了个算法班,专门讲解数据结构.面试.算法,才再次仔细回顾了这个KMP,在综合了一些网友的理解.以及跟我一起讲算法的两位讲师朋友曹博.邹博的理解…

字符串 --- KMP Eentend-Kmp 自动机 trie图 trie树后缀树后缀数组

涉及到字符串的问题,无外乎这样一些算法和数据结构:自动机 KMP算法 Extend-KMP 后缀树后缀数组 trie树 trie图及其应用.当然这些都是比较高级的数据结构和算法,而这里面最常用和最熟悉的大概是kmp,即使如此还是有相当一部分人也不理解kmp,更别说其他的了.当然一般的字符串问题中,我们只要用简单的暴力算法就可以解决了,然后如果暴力效率太低,就用个hash.当然hash也是一个面试中经常被用到的方法.这样看来,这样的一些算法和数据结构实际上很少会被问到,不过如果使用它们一般可以得…

KMP算法详解 --从july那学的

KMP代码: int KmpSearch(char* s, char* p) { ; ; int sLen = strlen(s); int pLen = strlen(p); while (i < sLen && j < pLen) { //①如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++ || s[i] == p[j]) { i++; j++; } else { //②如果j != -1,且当前字符匹配失败(即S[i] != P[j…

【转】从头到尾彻底理解KMP

很好,讲得很清晰,值得学习. 作者:July时间:最初写于2011年12月,2014年7月21日晚10点全部删除重写成此文,随后的半个月从早到晚不断改进. 1. 引言本KMP原文最初写于2年多前的2011年12月,因当时初次接触KMP,思路混乱导致写也写得非常混乱,如此,留言也是“骂声”一片.所以一直想找机会重新写下KMP,但苦于一直以来对KMP的理解始终不够,故才迟迟没有修改本文. 然近期因在北京开了个算法班,专门讲解数据结构.面试.算法,才再次仔细回顾了这个KMP,在综合了一些网友的理解…

KMP(Knuth-Morris-Pratt)算法

一.朴素匹配算法也就是暴力匹配算法.设匹配字符串的长度为n,模式串的长度为m,在最坏情况下,朴字符串匹配算法执行时间为O((n - m + 1)m). 假设m = n / 2, 那么该算法的复杂度就是Θ(n ^ 2).因为不须要预处理.朴素字符串匹配算法执行时间即为其匹配时间. strstr()函数就能够用这种方法实现,虽然效率不高: //strstr函数 char *strStr(const char *str, const char *substr) { if (substr == NUL…

【C++ KMP文本匹配】的更多相关文章