整个引擎代码在github上,地址为:https://github.com/sun2043430/RegularExpression_Engine.git nullable, firstpos, lastpos, followpos函数介绍 接着上两篇文章 <正则表达式引擎的构建——基于编译原理DFA(龙书第三章)——1 概述> <正则表达式引擎的构建——基于编译原理DFA(龙书第三章)——2 构造抽象语法树> 本篇将讲解对抽象语法树上的每一个节点计算对应的4个函数:nullabl…
本文转载自http://chriszz.sinaapp.com/?p=257 输入一个正则表达式,输出一个NFA. 我的做法:输入一个字符串表示正则,输出则是把输出到一个.dot文件中并将dot文件编译成pdf,fedora需要sudo yum install dot,然后evince XXX.pdf就可以查看生成的NFA了. 具体算法是按照龙书上的Tompson算法来的. 废话不多说,放码过来: /* Author:ChrisZZ(zchrissirhcz@gmail.com) Time:20…
对于给定的DFA    M,寻找一个状态数比M小的DFA    M'使得L(M)=L(M') 1.状态的等价性: 假设s和t为M的两个状态 ①若分别从状态s和状态t出发都能读出某个字α而停止于终态,则称s和t等价 ②存在一个字α,使得s和t一个读出α停止于终态,另一个读出α停止于非终态,则称s和t可区别 2.基本思想: ①把M的状态集分为一些不相交的子集,使任何两个不同子集状态是可区别的,而同一子集的任何两个状态是等价的 ②让每个子集选出一个代表,同时消去其他状态 3.划分 ①把S划分为终态和非…
编译原理-词法分析04-NFA & 代码实现 0.术语 NFA 非确定性有穷自动机nondeterministic finite automation. ε-转换ε-transition 是无需考虑输入串(且无需消耗任何字符)就有可能发声的转换,它可看作是一个空串的"匹配". 转换表transition table 是一个 T(状态,字符) --> 状态 的函数. 通常用二维数组表示. 表驱动table driven 利用表格来引导算法的过程.是转换表的一般化抽象. 1.…
实验内容 将非确定性有限状态自动机通过子集法构造确定性有限状态自动机. 实验步骤 1,读入NFA状态.注意最后需要设置终止状态. 2,初始态取空,构造DFA的l0状态,将l0加入未标记状态队列que 3,当que不为空,取出一个状态依次做转移和取空操作,并构造出当前转移状态tmp. 4,如tmp是一个新状态,加入到队列中. 5,将构造出的DFA用作模式识别. 具体实现 1,文件读入NFA状态转换图,采用vector存储. 2,判断状态tmp是否是一个新的状态使用自定义hash方法. 3,取空操作…
本题摘自北邮的编译原理与技术. 首先,根据此图构造状态转换表 表中第一列第一行表示从第一个符号B通过任意个空转换能到达的节点,Ia表示由此行的状态数组({B,5,1}可以看作0状态)经过一个a可以到达的节点,同理,Ib表示由状态数组经过一个b可以到达的节点. 当然,有些人可能觉得{B,5,1}和{5,1,3}看作两个状态不合理,他们之间不是有交集嘛,实际上他们之间并无交集,因为输入a后,{B,5,1}能到达的新节点是3,之所以要写成{5,1,3},可能是要兼顾逻辑吧>_> 再仔细观察第一行,既…
现成的, 讲义: https://www.cnblogs.com/AndyEvans/p/10240790.html https://www.cnblogs.com/AndyEvans/p/10241031.html 一个例子, 写得非常好. 一下子就全明白了, 尤其是像我这种没有听过编译原理课程的人. https://blog.csdn.net/tyler_download/article/details/53139240 上一节提到过,当处于某个指定状态时,如果该状态有ε边,那么,不需要吸收…
<编译原理>构造与正规式 (0|1)*01 等价的 DFA - 例题解析 解题步骤: NFA 状态转换图 子集法 DFA 的状态转换矩阵 DFA 的状态转图 解: 已给正规式:(0|1)*01 画出 NFA 状态转换图如下: 子集法的表格: I状态\字符 I0 I1 {S, A, B} 求法: 表示开始符号,以及开始符号识别 n 个 ε 可以到达的状态集合.如本题中: 开始符号 S,通过识别 ε 可以到达的转态有 A, B,所以集合为 {S, A, B} {A, B, C} 求法: 表示改行最…
非确定性有穷状态决策自动机练习题Vol.1 A.扭动的回文串 题目描述 \(JYY\)有两个长度均为\(N\)的字符串\(A\)和\(B\). 一个"扭动字符串\(S(i,j,k)\)由\(A\)中的第\(i\)个字符到第\(j\)个字符组成的子串 与B中的第\(j\)个字符到第\(k\)个字符组成的子串拼接而成. 比如,若\(A\)='XYZ',\(B\)='UVW',则扭动字符串\(S(1,2,3)\)='XYVW'. \(JYY\)定义一个"扭动的回文串"为如下情况中的…
非确定性有穷状态决策自动机练习题Vol.2 C. 奇袭 题目描述 由于各种原因,桐人现在被困在\(Under World\)(以下简称\(UW\))中,而\(UW\)马上 要迎来最终的压力测试--魔界入侵. 唯一一个神一般存在的\(Administrator\)被消灭了,靠原本的整合骑士的力量 是远远不够的.所以爱丽丝动员了\(UW\)全体人民,与整合骑士一起抗击魔族. 在\(UW\)的驻地可以隐约看见魔族军队的大本营.整合骑士们打算在魔族入侵前 发动一次奇袭,袭击魔族大本营! 为了降低风险,爱…
非确定性有穷状态决策自动机练习题Vol.3 D. Dp搬运工3 题目描述 给定两个长度为 \(n\) 的排列,定义 \(magic(A,B)=∑_{i=1}^nmax(Ai,Bi)\) . 现在给定 \(n\),\(K\) 问有多少对 \((A,B)\) 满足 \(magic(A,B)≥K\). 分析 首先转化一下,我们固定排列 \(B\) 为 $1∼n $,最后答案乘个 \(n!\) 就好了 我们设 \(f[i][j][k]\) 为 考虑到第 \(i\) 个位置,\(i\) 之前有 \(j\)…
package main import ( "fmt" "runtime" "sync" ) const N = 26 func main() { const GOMAXPROCS = 1 runtime.GOMAXPROCS(GOMAXPROCS) var wg sync.WaitGroup wg.Add(N) for i := 0; i < N; i++ { go func(i int) { defer wg.Done() fmt.Pr…
catalog . 引论 . 构建一个编译器的相关科学 . 程序设计语言基础 . 一个简单的语法制导翻译器 . 简单表达式的翻译器(源代码示例) . 词法分析 . 生成中间代码 . 词法分析器的实现 . 词法分析器生成工具Lex . PHP Lex(Lexical Analyzer) . 语法分析 . 构造可配置词法语法分析器生成器 . 基于PHP Lexer重写一份轻量级词法分析器 . 在Opcode层面进行语法还原WEBSHELL检测 0. 引论 在所有计算机上运行的所有软件都是用某种程序设…
目录 一. 编译的基本流程 二. Lexical Analysis(词法分析阶段) 2.1 Lexical Specification(分词原则) 2.2 Finite Automata (典型分词算法-有穷自动机) 三. 手动实现分词器 3.1 基本定义 3.2 构建DFA 3.3 开始分词 3.4 查看分词结果 四. 小结 示例代码托管在:http://www.github.com/dashnowords/blogs 博客园地址:<大史住在大前端>原创博文目录 华为云社区地址:[你要的前端…
龙书相关知识点总结 //*************************引论***********************************// 1. 编译器(compiler):从一中语言(源程序)等级的翻译成另外一种语言(目标语言)编写的程序过程.如果目标语言是可执行的机器语言,那么它就可以被用户调用,处理输入并产生输出. 2. 解释器(interpreter):一般可以认为是编译器过程的前半部分,其不生成目标语言. 3. 常见的语言处理系统流程图: 上面是宏观的解释编译器,微观来说…
0.术语 DFA Deterministic finite automation,确定性有穷自动机.一般用于翻译正则表达式. 状态state DFA中的圆圈,表示模式在识别过程中的位置. 转换transition DFA中的箭头,该转换依赖于箭头上的字符. 初始状态start state DFA中识别过程的开始,表示"不来自任何地方". 接收状态accepting state DFA中识别过程的结束,表示一个匹配,用双圆圈表示. 确定性的deterministic 下一个状态由当前状态…
编译原理-词法分析05-正则表达式到DFA 要经历 正则表达式 --> NFA --> DFA 的过程. 0. 术语 Thompson构造Thompson Construction 利用ε-转换将正则表达式的机器片段"粘在一起"以构成与整个正则表达式相对应的机器. ε-闭包ε-closure 可由ε-转换从某状态或某些状态达到的所有状态集合. 子集构造subset construction 通过ε-闭包将NFA构造为DFA的一种方法过程. 1. Thompson构造的基本表…
本学期编译原理的一个大作业,我的选题是算术表达式的词法语法语义分析,当时由于学得比较渣,只用了递归下降的方法进行了分析. 首先,用户输入算术表达式,其中算术表达式可以包含基本运算符,括号,数字,以及用户自定义变量. 词法分析,检查单词变量是否正确:语法分析,检查算术表达式语法是否正确并输出生成语法树:语义分析,输出四元表达式. 最终效果图: 例如输入: 词法分析结果: 语法分析结果: 语义分析结果: 算术表达式的组成语法如下: 无符号整数 = 〈数字〉{〈数字〉} 〈标识符〉= 〈字母〉{〈字母…
自底向上分析之LR分析法 说明:以老师PPT为标准,借鉴部分教材内容,AlvinZH学习笔记. 基本概念 1. LR分析:从左到右扫描(L)自底向上进行规约(R),是规范规约,也即最右推导(规范推导),是自底向上分析方法的高度概括和集中. 2. LR(k)文法确定的分析器适用于一大类上下文无关文法的语法分析,基本上包括了所有无二义性的上下文无关文法的集合,包括了前面讨论的LL(k)和算符优先文法. 3. 优缺点 适合文法类足够大,适用于所有上下文无关文法 分析效率高 报错及时 可以自动生成 但手…
<编译原理 - 函数绘图语言解释器(1)词法分析器 - python> 背景 编译原理上机实现一个对函数绘图语言的解释器 - 用除C外的不同种语言实现 解释器分为三个实现块: 词法分析器:用于识别一条语句中的关键词是否符合预先定义的规则. 语法分析器:用来确定一条语句是否满足语法规则. 解释器:用来确定满足语法规则的句子,在意思上是否符合要求. 设计思路: 设计记号:词法分析器读取一个序列并根据构词规则把序列转化为记号流 定义一个字典:把所有符合一个模式的保留字.常量名.参数名.函数名等放进字…
<编译原理>LR 分析法与构造 LR(1) 分析表的步骤 - 例题解析 笔记 直接做题是有一些特定步骤,有技巧.但也必须先了解一些基本概念,本篇会通过例题形式解释概念,会容易理解和记忆,以及解决类似问题. 如果只想做题可以直接下拉至习题部分. (一)关于状态 对于产生式 A→aBcD,就可以分解为下面几个不同的识别状态: (1)A→.aBcD (2)A→a.BcD (3)A→aB.cD (4)A→aBc.D (5)A→aBcD. "." 的左部符号表示已被识别出来的那部分句…
. 词法分析 1.1 词法记号及属性 词法记号.模式.词法单元 记号名 词法单元列举    模式的非形式描述 if if 字符i,f for for     字符f,o,r relation <,<=,=,... <或<=或=或... id sum,count,D5 由字母开头的字母数字串 number 3.1,10,2.8 E12 任何数值常数 literal “seg.error” 引号“和”之间任意不含引号本身的字符串 历史上词法定义中的一些问题 ---- 忽略空格带来的困难…
文章中引用的代码均来自https://github.com/vczh/tinymoe.   看了前面的三篇文章,大家应该基本对Tinymoe的代码有一个初步的感觉了.在正确分析"print sum from 1 to 100"之前,我们首先得分析"phrase sum from (lower bound) to (upper bound)"这样的声明.Tinymoe的函数声明又很多关于block和sentence的配置,不过这里并不打算将所有细节,我会将重点放在如何…
文章中引用的代码均来自https://github.com/vczh/tinymoe.   实现Tinymoe的第一步自然是一个词法分析器.词法分析其所作的事情很简单,就是把一份代码分割成若干个token,记录下他们所在文件的位置,以及丢掉不必要的信息.但是Tinymoe是一个按行分割的语言,自然token列表也就是二维的,第一维是行,第二维是每一行的token.在继续讲词法分析器之前,先看看Tinymoe包含多少token: 符号:(.).,.:.&.+.-.*./.\.%.<.>.…
写在前面:本博客为本人原创,严禁任何形式的转载!本博客只允许放在博客园(.cnblogs.com),如果您在其他网站看到这篇博文,请通过下面这个唯一的合法链接转到原文! 本博客全网唯一合法URL:http://www.cnblogs.com/acm-icpcer/p/9107838.html 基于C++语言实现的PL/0语言的算术表达式的自下而上的语法分析程序.该语言的其他语法实现思想与此一致,故不赘述. 运行此程序前,必须先将代码通过:[编译原理]c++实现词法分析器的词法分析,生成词法表(词…
16 个回答 默认排序​ RednaxelaFX JavaScript.编译原理.编程 等 7 个话题的优秀回答者 282 人赞同了该回答 能.我一开始学编译原理的时候就是用Java写了好多小编译器和解释器.其实用什么语言来实现编译器并不是最重要的部分(虽然Java也不是实现编译器最方便的语言),最初用啥语言都可以. 我在大学的时候,我们的软件工程和计算机科学的编译原理课的作业好像都是可以用Java来写的.反正我印象中我给这两门课写的作业都是用的Java. ===================…
绪论概念&文法与语言 以老师PPT为标准,借鉴部分教材内容,AlvinZH学习笔记. 绪论基本概念 1. 低级语言:字位码.机器语言.汇编语言.与特定的机器有关,功效高,但使用复杂.繁琐.费时.易出错. 高级语言:Fortran.Pascal.C语言等.不依赖具体机器,移植性好,对用户要求低,易使用,易维护等. 2. 把高级程序设计语言翻译成汇编语言后机器语言的工作称为编译,完成翻译工作的软件系统称为编译程序或编译器. 3. 源程序:程序语言处理系统的输入程序,用汇编语言或高级语言编写的程序.编…
<编译原理>-用例题理解-自顶向下语法分析及 FIRST,FOLLOW,SELECT集,LL(1)文法 此编译原理确定某高级程序设计语言编译原理,理论基础,学习笔记 本笔记是对教材<编译原理>- 张晶老师版 做学习笔记. 最近在学<编译原理>,前三章感觉还可以理解,到了第四章就感觉这难度就上来了.就是说过了词法分析,刚到语法分析,就开始头大了,于是想做个笔记,本篇就是第 4 章的笔记. (一)前言 第4章 - 自顶向下的语法分析 语法分析 语法分析是在词法分析识别出的单…