字符串匹配KMP算法的C语言实现

字符串匹配是计算机的基本任务之一。

举例来说，有一个字符串"BBC ABCDAB ABCDABCDABDE"，我想知道，里面是否包含另一个字符串"ABCDABD"？

下面的的KMP算法的解释步骤，引用于http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

首先，字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符，进行比较。因为B与A不匹配，所以搜索词后移一位。

因为B与A不匹配，搜索词再往后移。

就这样，直到字符串有一个字符，与搜索词的第一个字符相同为止。

接着比较字符串和搜索词的下一个字符，还是相同。

直到字符串有一个字符，与搜索词对应的字符不相同为止。

这时，最自然的反应是，将搜索词整个后移一位，再从头逐个比较。这样做虽然可行，但是效率很差，因为你要把"搜索位置"移到已经比较过的位置，重比一遍。

一个基本事实是，当空格与D不匹配时，你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是，设法利用这个已知信息，不要把"搜索位置"移回已经比较过的位置，继续把它向后移，这样就提高了效率。

怎么做到这一点呢？可以针对搜索词，算出一张《部分匹配表》（Partial Match Table）。这张表是如何产生的，后面再介绍，这里只要会用就可以了。

已知空格与D不匹配时，前面六个字符"ABCDAB"是匹配的。查表可知，最后一个匹配字符B对应的"部分匹配值"为2，因此按照下面的公式算出向后移动的位数：

　　移动位数 = 已匹配的字符数 - 对应的部分匹配值

因为 6 - 2 等于4，所以将搜索词向后移动4位。

10.

因为空格与Ｃ不匹配，搜索词还要继续往后移。这时，已匹配的字符数为2（"AB"），对应的"部分匹配值"为0。所以，移动位数 = 2 - 0，结果为 2，于是将搜索词向后移2位。

11.

因为空格与A不匹配，继续后移一位。

12.

逐位比较，直到发现C与D不匹配。于是，移动位数 = 6 - 2，继续将搜索词向后移动4位。

13.

逐位比较，直到搜索词的最后一位，发现完全匹配，于是搜索完成。如果还要继续搜索（即找出全部匹配），移动位数 = 7 - 0，再将搜索词向后移动7位，这里就不再重复了。

14.

下面介绍《部分匹配表》是如何产生的。

首先，要了解两个概念："前缀"和"后缀"。 "前缀"指除了最后一个字符以外，一个字符串的全部头部组合；"后缀"指除了第一个字符以外，一个字符串的全部尾部组合。

15.

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例，

　　－　"A"的前缀和后缀都为空集，共有元素的长度为0；

　　－　"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；

　　－　"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；

　　－　"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

　　－　"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；

　　－　"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；

　　－　"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

16.

"部分匹配"的实质是，有时候，字符串头部和尾部会有重复。比如，"ABCDAB"之中有两个"AB"，那么它的"部分匹配值"就是2（"AB"的长度）。搜索词移动的时候，第一个"AB"向后移动4位（字符串长度-部分匹配值），就可以来到第二个"AB"的位置。

　　接下来，就是我自己对KMP算法的实现了。

　　这个算法的实现主要包括了三个方面：

　　1) 求得我们用来搜索字符串的部分匹配值表

　　2) 实现待搜索字符串在搜索过程中的指针的移动问题

　　3) 如何定位我们搜索到的结果

　　接下来我就贴上我实现的代码

 /*

 *用KMP算法实现字符串匹配搜索方法

 *该程序实现的功能是搜索本目录下的所有文件的内容是否与给定的

 *字符串匹配，如果匹配，则输出文件名：包含该字符串的行

 *待搜索的目标串搜索指针移动位数 = 已匹配的字符数 - 对应部分匹配值

 */

 #include <stdio.h>

 #include <string.h>

 #include <stdlib.h>

 #define KEYWORD_MAX_LENGTH 100      //设定搜索串的最大长度

 int kmp_table[KEYWORD_MAX_LENGTH];  //为搜索串建立kmp表

 char prefix_stack[KEYWORD_MAX_LENGTH]; //前缀表达式栈

 char suffix_stack[KEYWORD_MAX_LENGTH]; //后缀表达式栈

 int keyword_length = ;  //搜索串的长度

 int record_position[KEYWORD_MAX_LENGTH]; //记录与关键字串匹配源串中的位置

 /*

 *GetMatchValue:获得字符串src的部分匹配值

 */

 int GetMatchValue(char *src)

 {

     int value = ;

     int src_len = strlen(src);

     char *begin = src;    //初始化指向字符串第一个字符

     char *end = src + (src_len - );  //初始化指向字符串最后一个字符

     int i = ;

     for(i=;i<(src_len-);i++)

     {

         prefix_stack[i] = *begin;

         suffix_stack[i] = *end;

         begin++;

         end--;

     }

     char *p = prefix_stack;

     char *q = suffix_stack + (src_len - );  //指向栈中最后一个元素

     int flag = ;   //用一个标志位来确定后缀栈中到最后一个元素都与前缀栈中的符号匹配

     while(q >= suffix_stack)

     {

         if(*p == *q)

         {

             value++;

             p++;

             flag=;

         }

         else {

             flag = ;

         }

         q--;

     }

     if(flag == ) value = ;

     return value;

 }

 /*

 *创建搜索字符串的KMP表

 */

 int Create_KMP_Table(char *str,int *table)

 {

     int i;

     char *dst;

     keyword_length = strlen(str);

     for(i=;i<keyword_length;i++)

     {

         if(i == ) {

             table[i] = ;   //第一个字符无前缀和后缀，所以为0

         }

         else {

             dst = (char*)malloc((i+));

             if(dst == NULL)

             {

                 printf("malloc space error!\n");

                 return EXIT_FAILURE;

             }

             strncpy(dst,str,(i+));   //匹配str的前(i+1)个字符

             dst[i+] = '\0';    //注意字符串要以'/0'结尾

             table[i] = GetMatchValue(dst);

             free((void*)dst);

         }

     }

     return EXIT_SUCCESS;

 }

 //打印搜索字符串对应的KMP表

 void Table_Print(char *str,int *table)

 {

     int i;

     char c = *str;

     while(c != '\0')

     {

         printf("%-4c",c);        //左对齐输出搜索字符串中的字符

         c = *++str;

     }

     printf("\n");

     for(i=;i<keyword_length;i++)

     {

         printf("%-4d",table[i]); //左对齐输出每个字符对应的部分匹配值

     }

     printf("\n");

 }

 //在目标串dst_str中搜索关键子串search_str,打印出关键字串的位置信息,返回与关键字串匹配的数目

 int Search_Keyword(char *dst_str,char *search_str)

 {

     char *p = dst_str;

     char *q = search_str;

     char *temp;

     //创建关键字串的KMP表

     Create_KMP_Table(search_str,kmp_table);

     int count = ;  //记录现在已经匹配的数目

     int k = ;     //记录与关键字串匹配的字串的数目

     int move = ;  //当字符串不匹配时，搜索指针移动的位数    

     while(*p != '\0')   //直到搜索到目标串的最后一个字符为止

     {

         temp = p;

         while(*q != '\0')

         {

             if(*q == *temp)

             {

                 count++;

                 temp++;

                 q++;

             }

             else break;

         }

         if(count == )

             p++;

         else {

             if(count == keyword_length)

             {

                 record_position[k++] = (temp-dst_str)-(keyword_length);

             }

             move = count - kmp_table[count-];

             p += move;

         }

         count = ;

         q = search_str;

     }

     return k;

 }

 int main(int argc,char **argv)

 {

     char *search_str = argv[];

     //char dst_str[] = "hello woshijpf woshijpf woshij woshijp woshijpf";

     char dst_str[] = "BBC ABCDAB ABCDABCDABDE";

     printf("Please input serach string and dst_string\n");

     if(search_str == NULL)

     {

         printf("Please input search string\n");

         return EXIT_FAILURE;

     }

     if(dst_str == NULL)

     {

         printf("Please input dst_string\n");

         return EXIT_FAILURE;

     }

     int result = Search_Keyword(dst_str,search_str);  //放回搜索到的结果的数目

     Table_Print(search_str,kmp_table);

     printf("%s\n",dst_str);         //输出待搜索的目标串

     if(result == )

     {

         printf("Sorry!Don't find the string %s\n",search_str);

         return EXIT_SUCCESS;

     }

     else {

         int i,j,num;

         int before = ;

         for(i=;i<result;i++)

         {

             num = record_position[i] - before;    //打印搜索串在目标串中的位置

             before = record_position[i]+;

             for(j=;j<=num;j++)

                 printf(" ");

             printf("*");

         }

         printf("\n");

     }

     return EXIT_SUCCESS;

 }

　　测试的结果：

字符串匹配KMP算法的C语言实现的更多相关文章

字符串匹配KMP算法详解
1. 引言以前看过很多次KMP算法,一直觉得很有用,但都没有搞明白,一方面是网上很少有比较详细的通俗易懂的讲解,另一方面也怪自己没有沉下心来研究.最近在leetcode上又遇见字符串匹配的题目,以此 ...
字符串匹配KMP算法（转自阮一峰）
转自 http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html 字符串匹配是计算 ...
字符串匹配KMP算法
1. 字符串匹配的KMP算法 2. KMP算法详解 3. 从头到尾彻底理解KMP
字符串匹配--kmp算法原理整理
kmp算法原理:求出P0···Pi的最大相同前后缀长度k: 字符串匹配是计算机的基本任务之一.举例,字符串"BBC ABCDAB ABCDABCDABDE",里面是否包含另一个字符 ...
字符串匹配KMP算法的讲解C++
转自http://blog.csdn.net/starstar1992/article/details/54913261 也可以参考http://blog.csdn.net/liu940204/art ...
【Luogu P3375】字符串匹配KMP算法模板
Luogu P3375 模式串:即题目中的S2所代表的意义文本串:即题目中的S1所代表的意义对于字符串匹配,有一种很显然的朴素算法:在S1中枚举起点一位一位匹配,失配之后起点往后移动一位,从头开始 ...
字符串匹配——KMP算法
关于KMP算法的分析,我觉得这两篇博客写的不错: http://www.ruanyifeng.com/blog/2013/05/Knuth–Morris–Pratt_algorithm.html ht ...
字符串匹配—KMP算法
KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特-莫里斯-普拉特操作(简称KMP算法).KMP算法的核心是利用匹配失败后 ...
<字符串匹配>KMP算法为何比暴力求解的时间复杂度更低?
str表示文本串,m表示模式串; str[i+j] 和 m[j] 是正在进行匹配的字符; KMP的时间复杂度是O(m+n) , 暴力求解的时间复杂度是O(m*n) KMP利用了B[0:j]和A[i ...

随机推荐

Windows Intellij环境下Gradle的 “Could not determine Java version from ‘9.0.1’”的解决方式
当我导入Gradle项目初试Java spring的时候,遇到下面报错: Gradle complete project refresh failed Error:Could not determin ...
java.util.HashSet, java.util.LinkedHashMap, java.util.IdentityHashMap 源码阅读 (JDK 1.8)
一.java.util.HashSet 1.1 HashSet集成结构 1.2 java.util.HashSet属性 private transient HashMap<E,Object> ...
MySQL安装（yum、二进制、源码）
MySQL安装(yum.二进制.源码) 目录 1.1 yum安装... 2 1.2 二进制安装-mysql-5.7.17. 3 1.2.1 准备工作... 3 1.2.2 解压.移动.授权... 3 ...
使用 dotnet core 和 Azure PaaS服务进行devOps开发（Web API 实例）
作者:陈希章发表于 2017年12月19日引子这一篇文章将用一个完整的实例,给大家介绍如何基于dotnet core(微软.NET的最新版本,支持跨平台,跨设备的应用开发,详情请参考 https ...
Loadrunner 读取文件
char buffer[1000]; long file_stream; char * filename = "d:\log.txt"; file_stream=fopen(fil ...
简单了解Markdown
在Github的readme.md文件的编辑中,開始渐渐的接触Markdown.如今简单系统叙述一下Markdown的语法. Markdown是一种能够使用普通文本编辑器编写的标记语言.通过类似HTM ...
高版本号chrome安装flashplayer debuger后无法使用的问题
起因应该是苹果公司指出flash player的安全问题,还有各种原因导致google将在未来取消NPAPI的支持,所以fp们就悲剧了在高版本号chrome(42以上)默认是关闭外部安装的插件使用的, ...
CUDA编程（六）进一步并行
CUDA编程(六) 进一步并行在之前我们使用Thread完毕了简单的并行加速,尽管我们的程序运行速度有了50甚至上百倍的提升,可是依据内存带宽来评估的话我们的程序还远远不够.在上一篇博客中给大家介绍 ...
Xcode6 UIWebView与JavaScript交互（issue fix）
这篇文章中,有介绍UIWebView与JavaScript交互,在UIWebView截获JavaScript请求处理.从app的角度,这是JavaScript的Hook请求. 在Xcode6之前的Ap ...
Objective-C基础语法高速入门
Objective-C是Mac软件开发领域最基本的开发语言,假如我们对C语言已经非常熟悉或者具有面向对象语言的基础.对于我们学习Objective-C将会非常实用. 方法调用(Calling Meth ...

字符串匹配KMP算法的C语言实现

字符串匹配KMP算法的C语言实现的更多相关文章

随机推荐

热门专题