正则表达式引擎:nfa的转换规则。

正则到nfa

前言

在写代码的过程中,本来还想根据龙书上的说明来实现re到nfa的转换。可是写代码的时候发现,根据课本来会生成很多的无用过渡节点和空转换边,需要许多的代码。为了简化代码,我实现了我自己的re到nfa的规则。

注意我的这套re规则只包括如下几种类型:

  1. 闭包,即*运算符
  2. 一个或多个,即+运算符
  3. 存在或不存在,即?运算符。这三个运算符的优先级最高而且都是单目运算符。
  4. 括号括起来的,即成对的括号,其实也不算运算符,只能当作分隔符。
  5. 中括号括起来的,作为假名,也算是分隔符
  6. 连接运算符,即.运算符,但是在输入re的时候默认不输入这个符号,只有在处理输入的时候才添加这个符号。这个运算符的优先级第二高
  7. 选择运算符,即|运算,优先级最低
  8. 字符集,为a-z形式,他必须与假名搭配使用,并通过假名来引用这个定义的模式
  9. 假名,为一个正则模式提供一个名字来方便引用。定义假名的形式为 name:re。re为普通的正则运算或者单独的一个字符集。在后面的正则中途过想引用假名则必须采取这种形式[name],即必须用中括号括起来。

转换

在谈及如何将re转换为nfa的时候,我将先把最常见的三种运算符讲解一下,然后再是其他的那几种模式的转换。

注意,在转换re的时候,我们假设已经得到了子re的开始节点和结束节点,我们需要做的就是根绝这些开始节点和结束节点来构造当前re的开始节点和结束节点。

闭包运算

以A:b*这个表达式来说明

我的实现
    

这里的开始节点是b的开始节点,结束节点是b的结束节点。构造a的nfa的时候,只需要添加两条空转换边,然后将b的开始节点赋给a的开始节点,同时b的结束节点复制到a的结束节点去。总的代价是建立了两条空边。

龙书里面的实现

龙书中,而外的建立了两个新的节点分别当作新的开始节点和结束节点,并且总共添加了四条空转换边。

连接运算

在处理连接运算的时候,我跟龙书里面的处理是以致的。以a:bc来说明。

这里只添加了一条新的空转换,没有新增加节点。A的开始为b的开始节点,a的结束为c的结束节点。

选择运算

在处理选择运算的时候,跟龙书也是一致的。以a:b|c来说明。

这里也是新建了两个节点,作为新的开始与结束节点,然后增加了四条空转换边。

一个或多个运算符

这里龙书并没有提及,在我的实现中只增加了一个节点。以a:b+来说明。

新建了一个节点作为a的结束节点,而b的开始节点也直接符给a的开始节点,添加了两个空转换。

问号运算符

这里龙书也没有提及,在我的实现中只增加了一条边。以a:b?来说明。

B的开始节点赋给a的开始节点,b的结束节点赋给a的结束节点。

简单的字符

对于简单字符,我这里的实现是新建两个节点,以及一条边。以a:b来说明。

由于b是字符,所以他不存在开始节点和结束节点,字符只能作为转换条件。新建两个节点,一个作为a的开始节点,一个作为a的结束节点,然后在两个节点之间建立一条标为b的边。

字符集

对于字符集,本人的实现是新建两个节点,然后每一个字符对应一条边来加入。

以a:b-d来说明。

因此,总共增加了两个节点和三条边。字符集里面有多少个字符,就会有多少条边。

括号及假名

对于括号及假名,直接把子表达式的开始节点和结束节点复制到当前表达式的开始节点和结束节点,不需要额外的处理。

自我感觉这些都是对的,当然要验证对错得等到最小化dfa才能证明。

正则表达式引擎:nfa的转换规则。的更多相关文章

  1. 最初步的正则表达式引擎:nfa的转换规则。

    [在此处输入文章标题] 正则到nfa 前言 在写代码的过程中,本来还想根据龙书上的说明来实现re到nfa的转换.可是写代码的时候发现,根据课本来会生成很多的无用过渡节点和空转换边,需要许多的代码.为了 ...

  2. 基于ε-NFA的正则表达式引擎

    正则表达式几乎每个程序员都会用到,对于这么常见的一个语言,有没有想过怎么去实现一个呢?乍一想,也许觉得困难,实际上实现一个正则表达式的引擎并没有想像中的复杂,<编译原理>一书中有一章专门讲 ...

  3. 1000行代码徒手写正则表达式引擎【1】--JAVA中正则表达式的使用

    简介: 本文是系列博客的第一篇,主要讲解和分析正则表达式规则以及JAVA中原生正则表达式引擎的使用.在后续的文章中会涉及基于NFA的正则表达式引擎内部的工作原理,并在此基础上用1000行左右的JAVA ...

  4. 【C++】正则表达式引擎学习心得

    最近参照一些资料实现了一个非常简易的正则表达式引擎,支持基本的正则语法 | + * ()等. 实现思路是最基本的:正则式->AST->NFA->DFA. 以下是具体步骤: 一. 正则 ...

  5. (2015大作业)茹何优雅的手写正则表达式引擎(regular expression engine

    貌似刚开学的时候装了个逼,和老师立了个flag说我要写个正则表达式引擎,然后学期末估计老师早就忘了这茬了,在历时3个月的懒癌发作下,终于在这学期末deadline的时候花了一个下午加晚上在没有网的房间 ...

  6. 实现一个正则表达式引擎in Python(一)

    前言 项目地址:Regex in Python 开学摸鱼了几个礼拜,最近几天用Python造了一个正则表达式引擎的轮子,在这里记录分享一下. 实现目标 实现了所有基本语法 st = 'AS342abc ...

  7. 实现一个正则表达式引擎in Python(二)

    项目地址:Regex in Python 在看一下之前正则的语法的 BNF 范式 group ::= ("(" expr ")")* expr ::= fact ...

  8. 实现一个正则表达式引擎in Python(三)

    项目地址:Regex in Python 前两篇已经完成的写了一个基于NFA的正则表达式引擎了,下面要做的就是更近一步,把NFA转换为DFA,并对DFA最小化 DFA的定义 对于NFA转换为DFA的算 ...

  9. DEELX 正则表达式引擎(v1.2)

    DEELX 正则表达式引擎(v1.2) 简介见文末. 选择使用deelx的理由:全部代码位于一个头文件(.h)中, 比任何引擎都使用简单和方便. 利用分组从字符串当中提取出化学元素英文名.比如 Ag, ...

随机推荐

  1. R - 变化plot字形,嵌入字体以pdf

    近期使用R绘图遇到两个问题 1. 使用不同的字体 2. 保存 plot 至 pdf 当字体嵌入pdf (embed the font) 使用extrafont和Ghostscript能够解决这两个问题 ...

  2. 使用OpenCV玩家营造出一个视频控制(没有声音)

    说明:OpenCV计算机视觉库,所以使用的图像或视频处理,因此,没有任何声音在播放视频的临时 软件:使用OpenCV制播放器(无声音) 功能说明:新建播放窗体.加入进度条能够拖动视频播放. 流程图: ...

  3. 利用docker搭建yii2 详细步骤

    定位镜像 在hub.docker.com 搜索yii2,并且最后定位到 https://hub.docker.com/r/codemix/yii2-base/codemix/yii2-base 然后在 ...

  4. 在linux中如何调试C语言程序

    在Linux下面可以使用下面几种形式对C语言进行调试: 1 gdb gdb program 这是最原始的调试方法,若非熟悉命令行,这种方式其实是比较麿人的.有兴趣的可以参考一些我之前的博文.http: ...

  5. JS基础——事件绑定

    上一篇博客JS事件对象中,老师问JS事件处理和VB中的事件处理有什么联系?先来解决一下这个问题.举个VB.net中事件处理的样例(JS敲久了,VB习惯的都不熟悉了,看来得常常回想了): 1.事件处理V ...

  6. 【从0开始Tornado网站】主页登录和显示的最新文章

    日志首页只能放置在它,这里的美,该<form>使用bootstrap的form-inline修改后的类,例如以下列方式: 前台代码例如以下: {%extends 'main.html'%} ...

  7. cocos2d-x的TestCpp分析

    最近,我刚开始学coco2d-x 我会写我的学习经验来 首先TestCppproject有许多例子文件夹,而在这些文件夹以外的其他文件 .我首先研究这些文件: controller.h/cpp:管理方 ...

  8. 六白话经典算法系列 高速分拣 高速GET

     高速分拣,因为相同的排序效率O(N*logN)几个订购流程更高效,因此,经常使用,再加上高速分拣思想----分而治之的方法也是非常有用的,如此多的软件公司书面采访.它包含了腾讯,微软等知名IT企业宁 ...

  9. HDU 4630、BOJ 某题

    两道离线线段树. 比赛时候没想到.... 扫描数组,i从1到n,线段树维护从1到i每一个约数(1~50000)的出现的最近位置,线段树存储的是约数的最大值 #include<cstdio> ...

  10. GridView使用技巧

    http://yushuir.blog.163.com/blog/static/4346713820081023103937681/