Python自带了正则表达式引擎(内置的re模块),但是不支持一些高级特性,比如下面这几个: 固化分组    Atomic grouping 占有优先量词    Possessive quantifiers 可变长度的逆序环视    Variable-length lookbehind 递归匹配    Recursive patterns (起始/继续)位置锚\G    Search anchor 幸好,在2009年,Matthew Barnett写了一个更强大正则表达式引擎——regex模块,…
DEELX 正则表达式引擎(v1.2) 简介见文末. 选择使用deelx的理由:全部代码位于一个头文件(.h)中, 比任何引擎都使用简单和方便. 利用分组从字符串当中提取出化学元素英文名.比如 Ag,Au,Fe3O4,Al2O3,K2O,CaO...... #include "deelx.h" #include <string> //该正则表达式识别字符串当中是否有化学元素英文名. //特征:首字母大写,由英文字符和数字组成. //示例:数学变换_Ag_三门峡 识别分组:数…
最近参照一些资料实现了一个非常简易的正则表达式引擎,支持基本的正则语法 | + * ()等. 实现思路是最基本的:正则式->AST->NFA->DFA. 以下是具体步骤: 一. 正则式->AST: 这一步没什么好说的,因为正则表达式的语法较为简单,使用编译原理中的递归下降的方法, 可以很容易的构造出一个语法分析器. 二. AST->NFA: 这里的NFA准确的来说应该是ε-NFA,即带有ε边的非确定的有穷状态自动机.ε边是指可以在不接受任何字符的情况下转移的边.其存在的意义是…
前言 项目地址:Regex in Python 开学摸鱼了几个礼拜,最近几天用Python造了一个正则表达式引擎的轮子,在这里记录分享一下. 实现目标 实现了所有基本语法 st = 'AS342abcdefg234aaaaabccccczczxczcasdzxc' pattern = '([A-Z]+[0-9]*abcdefg)([0-9]*)(\*?|a+)(zx|bc*)([a-z]+|[0-9]*)(asd|fgh)(zxc)' regex = Regex(st, pattern) res…
项目地址:Regex in Python 在看一下之前正则的语法的 BNF 范式 group ::= ("(" expr ")")* expr ::= factor_conn ("|" factor_conn)* factor_conn ::= factor | factor factor* factor ::= (term | term ("*" | "+" | "?"))* term…
项目地址:Regex in Python 前两篇已经完成的写了一个基于NFA的正则表达式引擎了,下面要做的就是更近一步,把NFA转换为DFA,并对DFA最小化 DFA的定义 对于NFA转换为DFA的算法,主要就是将NFA中可以状态节点进行合并,进而让状态节点对于一个输入字符都有唯一的一个跳转节点 所以对于DFA的节点就含有一个nfa状态节点的集合和一个唯一的标识和对是否是接收状态的flag class Dfa(object): STATUS_NUM = 0 def __init__(self):…
0,什么是正则表达式 正则表达式(Regular Expression简写为Regex),又称为规则表达式,它是一种强大的文本匹配模式,其用于在字符串中查找匹配符合特定规则的子串. 正则表达式是独立于编程语言而存在的,它并不依赖于某种编程语言.只要一种编程语言实现了正则表达式引擎,那么这种编程语言,就具备了正则表达式模式匹配的功能.每种工具或编程语言对正则表达式的实现,虽有细节上的不同,但基本的使用是相同的. 正则表达式的基本工作原理如下: 1,正则表达式的由来 1956 年,美国数学家Step…
C++ Boost/tr1 Regex(正则表达式)快速指南 正则表达式自Boost 1.18推出,目前已经成为C++11(tr1)的标准部分. 本文以Boost 1.39正则表达式为基础,应该广泛适用于其他版本的Boost.对namespace稍加修改,即可适用tr1标准. 0.regex对象 类似于Java中的Pattern,Boost中的正则表达式对象为: boost::regex 常见构造方法2种:     1 2 3 4 5 // 1. 直接使用正则表达式的字符串构造. boost::…
整个引擎代码在github上,地址为:https://github.com/sun2043430/RegularExpression_Engine.git nullable, firstpos, lastpos, followpos函数介绍 接着上两篇文章 <正则表达式引擎的构建——基于编译原理DFA(龙书第三章)——1 概述> <正则表达式引擎的构建——基于编译原理DFA(龙书第三章)——2 构造抽象语法树> 本篇将讲解对抽象语法树上的每一个节点计算对应的4个函数:nullabl…
正则表达式引擎:nfa的转换规则. 正则到nfa 前言 在写代码的过程中,本来还想根据龙书上的说明来实现re到nfa的转换.可是写代码的时候发现,根据课本来会生成很多的无用过渡节点和空转换边,需要许多的代码.为了简化代码,我实现了我自己的re到nfa的规则. 注意我的这套re规则只包括如下几种类型: 闭包,即*运算符 一个或多个,即+运算符 存在或不存在,即?运算符.这三个运算符的优先级最高而且都是单目运算符. 括号括起来的,即成对的括号,其实也不算运算符,只能当作分隔符. 中括号括起来的,作为…