引言

最近刚刚用python写完了一个解析protobuf文件的简单编译器,深感ply实现词法分析和语法分析的简洁方便。乘着余热未过,头脑清醒,记下一点总结和心得,方便各位pythoner参考使用。

ply使用

简介

如果你不是从事编译器或者解析器的开发工作,你可能从未听说过ply。ply是基于python的lex和yacc,而它的作者就是大名鼎鼎Python Cookbook, 3rd Edition的作者。可能有些朋友就纳闷了,我一个业务开发怎么需要自己写编译器呢,各位编程大牛说过,中央决定了,要多尝试新的东西。而且了解一些语法解析的姿势,以后自己解析格式复杂的日志或者数学公式,也是非常有帮助的。

针对没有编译基础的童鞋,强烈建议了解一些文法相关的基本概念。轮子哥强烈推荐的parsing techniques以及编译龙虎鲸书,个人感觉都不适合入门学习,在此推荐胡伦俊的编译原理(电子工业出版社),针对概念的例子讲解很多,很适合入门学习。当然也不需要特别深入研究,知道词法分析和语法分析的相关概念和方法就可以愉快的使用ply了。文档链接: http://www.pchou.info/open-source/2014/01/18/52da47204d4cb.html

为了方便大家上手,以求解多元一次方程组为例,讲解一下ply的使用。

例子说明

输入是多个格式为x + 4y - 3.2z = 7的一次方程,为了让例子尽可能简单,做如下限制:

  • 每个方程含有变量的部分在等号左边,常数在等号右边
  • 每个方程不限制变量的个数以及变量的顺序,但每个方程每个变量只允许出现一次
  • 变量的命令规则为小写字母串(x y xx yy abc 均为合法变量名)
  • 变量的系数限制为整数和浮点数,浮点数不允许1.4e8的格式,系数和变量紧邻,且系数不能为0
  • 方程组和方程组之间用, ; 隔开

学过线性代数的童鞋肯定知道,只需要将方程组抽象为矩阵,按照线性代数的方法就可以解决。因此只需要将输入方程组解析成右边的矩阵和变量列表即可,剩下的求解过程就可以交给线性代数相关的工具解决。

词法解析

ply中的lex来做词法解析,词法解析的理论有一大堆,但是lex用起来却非常直观,就是用正则表达式的方式将文本字符串解析为一个一个的token,下面的代码就是用lex实现词法解析。


from ply import lex # 空格 制表符 回车这些不可见符号都忽略
t_ignore = ' \t\r' # 解析错误的时候直接抛出异常
def t_error(t):
raise Exception('error {} at line {}'.format(t.value[0], t.lineno)) # 记录行号,方便出错定位
def t_newline(t):
r'\n+'
t.lexer.lineno += len(t.value) # 支持c++风格的\\注释
def t_ignore_COMMENT(t):
r'\/\/[^\n]*' # 变量的命令规则
def t_VARIABLE(t):
r'[a-z]+'
return t # 常数命令规则
def t_CONSTANT(t):
r'\d+(\.\d+)?'
t.value = float(t.value)
return t # 输入中支持的符号头token,当然也支持t_PLUS = r'\+'的方式将加号定义为token
literals = '+-,;='
tokens = ('VARIABLE', 'CONSTANT') if __name__ == '__main__':
data = '''
-x + 2.4y + z = 0; //this is a comment
9y - z + 7.2x = -1;
y - z + x = 8
''' lexer = lex.lex()
lexer.input(data)
while True:
tok = lexer.token()
if not tok:
break
print tok

直接运行文件就可以将解析的token串打印出来,如下所示,详细的使用文档可以参考ply文档。

LexToken(-,'-',2,5)
LexToken(VARIABLE,'x',2,6)
LexToken(+,'+',2,8)
LexToken(CONSTANT,2.4,2,10)
LexToken(VARIABLE,'y',2,13)
LexToken(+,'+',2,15)
LexToken(VARIABLE,'z',2,17)
LexToken(=,'=',2,19)
LexToken(CONSTANT,0.0,2,21)
LexToken(;,';',2,22)``` ### 语法解析 ply中的yacc用作语法分析,虽然复杂的词法分析可以代替简单的语法分析,但类似于编程语言的解析再复杂的词法分析也胜任不了。在使用yacc之前,需要了解上下文无关文法,这部分内容太多太杂,我也只了解部分简单的概念,有兴趣的可以看一看编译原理深入了解。 目前语法分析的方法有两大类,即自下向上的分析方法和自上而下的分析方法。所谓自上而下的分下法就是从文法的开始符号出发,根据文法规则正向推到出给定句子的一种方法,或者说,从树根开始,往下构造语法树,直到建立每个树叶的分析方法。代表算法是LL(1),此算法文法解析能力不强,对文法定义要求比较高,主流的编译器都没有使用。自下而上的分析法是从给定的输入串开始,根据文法规则逐步进行归约,直至归约到文法的开始符号,或者说从语法书的末端开始,步步向上归约,直至归约到根节点的分析方法。代表算法有SLR、LRLR,ply使用的就是LRLR。 因此我们只需要定义文法和规约动作即可,以下就是完整的代码。 ```python
# -*- coding=utf8 -*- from ply import (
lex,
yacc
) # 空格 制表符 回车这些不可见符号都忽略
t_ignore = ' \t\r' # 解析错误的时候直接抛出异常
def t_error(t):
raise Exception('error {} at line {}'.format(t.value[0], t.lineno)) # 记录行号,方便出错定位
def t_newline(t):
r'\n+'
t.lexer.lineno += len(t.value) # 支持c++风格的\\注释
def t_ignore_COMMENT(t):
r'\/\/[^\n]*' # 变量的命令规则
def t_VARIABLE(t):
r'[a-z]+'
return t # 常数命令规则
def t_CONSTANT(t):
r'\d+(\.\d+)?'
t.value = float(t.value)
return t # 输入中支持的符号头token,当然也支持t_PLUS = r'\+'的方式将加号定义为token
literals = '+-,;='
tokens = ('VARIABLE', 'CONSTANT') # 顶层文法,规约的时候equations对应的p[1]是一个列表,包含了方程左边各个变量与系数还有方程左边的常数
def p_start(p):
"""start : equations"""
var_count, var_list = 0, []
for left, _ in p[1]:
for con, var_name in left:
if var_name in var_list:
continue
var_list.append(var_name)
var_count += 1 matrix = [[0] * (var_count + 1) for _ in xrange(len(p[1]))]
for counter, eq in enumerate(p[1]):
left, right = eq
for con, var_name in left:
matrix[counter][var_list.index(var_name)] = con
matrix[counter][-1] = -right var_list.append(1)
p[0] = matrix, var_list # 方程组对应的文法,每个方程用,或者;做分隔
def p_equations(p):
"""equations : equation ',' equations
| equation ';' equations
| equation"""
if len(p) == 2:
p[0] = [p[1]]
else:
p[0] = [p[1]] + p[3] # 单个方程对应的文法
def p_equation(p):
"""equation : eq_left '=' eq_right"""
p[0] = (p[1], p[3]) # 方程等式左边对应的文法
def p_eq_left(p):
"""eq_left : var_unit eq_left
|"""
if len(p) == 1:
p[0] = []
else:
p[0] = [p[1]] + p[2] # 六种文法对应例子: x, 5x, +x, -x, +4x, -4y
# 归约的形式是一个元组,例: (5, 'x')
def p_var_unit(p):
"""var_unit : VARIABLE
| CONSTANT VARIABLE
| '+' VARIABLE
| '-' VARIABLE
| '+' CONSTANT VARIABLE
| '-' CONSTANT VARIABLE"""
len_p = len(p)
if len_p == 2:
p[0] = (1.0, p[1])
elif len_p == 3:
if p[1] == '+':
p[0] = (1.0, p[2])
elif p[1] == '-':
p[0] = (-1.0, p[2])
else:
p[0] = (p[1], p[2])
else:
if p[1] == '+':
p[0] = (p[2], p[3])
else:
p[0] = (-p[2], p[3]) # 方程等式右边对应的常数,对应的例子:1.2, +1.2, -1.2
def p_eq_right(p):
"""eq_right : CONSTANT
| '+' CONSTANT
| '-' CONSTANT"""
if len(p) == 3:
if p[1] == '-':
p[0] = -p[2]
else:
p[0] = p[2]
else:
p[0] = p[1] if __name__ == '__main__':
data = '''
-x + 2.4y + z = 0; //this is a comment
9y - z + 7.2x = -1;
y - z + x = 8
''' lexer = lex.lex()
parser = yacc.yacc(debug=True)
lexer.lineno = 1
s = parser.parse(data)
print s

直接运行文件即可,得到的输出如下,之后就可以根据线性代数的方法求解各个变量的值

([[-1.0, 2.4, 1.0, -0.0], [7.2, 9.0, -1.0, 1.0], [1.0, 1.0, -1.0, -8.0]], ['x', 'y', 'z', 1])

总结

依托于python简洁的语法,ply为我们提供了一个强大的语法分析工具,更复杂的例子可以参考https://github.com/LiuRoy/proto_parser,这是我用ply实现的一个简单的protobuf解析器,用于减少频繁的中间文件生成。有这种神器,一颗赛艇!

python开发编译器的更多相关文章

  1. windows 下用eclipse搭建java、python开发环境

    本人只针对小白!本文只针对小白!本文只针对小白! 最近闲来无事,加上之前虽没有做过eclipse上java.python的开发工作,但一直想尝试一下.于是边查找资料边试验,花了一天时间在自己的机器上用 ...

  2. 常用的十大Python开发工具

    据权威机构统计,Python人才需求量每日高达5000+,但目前市场上会 Python 的程序员少之又少, 竞争小,很容易快速高薪就业.可能你并不太了解常用的十大Python开发工具都有哪些,现在告诉 ...

  3. Python 开发与接口测试学习笔记

    这是我跟着虫师学习中积累下来的学习笔记,写得比较简单,适合想学习Python开发与接口测试的初学者学习. 一.开发投票系统 1.参考官网文档,创建投票系统. https://docs.djangopr ...

  4. Ubuntu14.04安装pycharm用于Python开发环境部署,并且支持pycharm使用中文输入

    一.目标 实现在Linux下用pycharm调试工具/Python开发 Linux使用vi/vim工具写Python,缺点:调试不方便,无代码提示.跳转等诸多功能. Windows使用idle/pyc ...

  5. python 开发之路 - 入门

    一. python 介绍 Python是著名的"龟叔"Guido van Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言.1991年 发布Python ...

  6. windows 10下sublime text3环境的搭建以及配置python开发环境

    1 - 安装Sublime Text 3 到官网下载对应的版本,如下: OS X (10.7 or later is required) Windows - also available as a p ...

  7. [转]在Eclipse中搭建Python开发环境

    在Eclipse中搭建Python开发环境 来自: http://hi.baidu.com/hqwfreefly/blog/item/2543181d0afd9604314e150e.html 前言 ...

  8. 在Eclipse中搭建Python开发环境

    在Eclipse中搭建Python开发环境 来自: http://hi.baidu.com/hqwfreefly/blog/item/2543181d0afd9604314e150e.html 前言 ...

  9. 【python安装】Windows上安装和创建python开发环境

    1. 在 windows10 上安装python开发环境 Linux和Mac OS都自带python环境,但是Windows没有,所以需要自行安装. 第1步:访问 python官网,下载Windows ...

随机推荐

  1. .NetCore MVC中的路由(1)路由配置基础

    .NetCore MVC中的路由(1)路由配置基础 0x00 路由在MVC中起到的作用 前段时间一直忙于别的事情,终于搞定了继续学习.NetCore.这次学习的主题是MVC中的路由.路由是所有MVC框 ...

  2. 基于DDD的现代ASP.NET开发框架--ABP系列文章总目录

    ABP相关岗位招聘:给热爱.NET新技术和ABP框架的朋友带来一个高薪的工作机会 ABP交流会录像视频:ABP架构设计交流群-7月18日上海线下交流会的内容分享(有高清录像视频的链接) 代码自动生成: ...

  3. 3.Windows Server 2012 R2数据库部署

    很多人竟然不会安装数据库....好吧,来个图文教程,其实和windows里面一样安装,和安装2008一样的 先安装3.5:http://www.cnblogs.com/dunitian/p/53487 ...

  4. 23种设计模式--中介者模式-Mediator Pattern

    一.中介者模式的介绍     中介者模式第一下想到的就是中介,房子中介,婚姻中介啊等等,当然笔者也希望来个婚姻中介给我介绍一个哈哈哈,,回归正题中介者模式分成中介者类和用户类,根据接口编程的方式我们再 ...

  5. iOS逆向工程之App脱壳

    本篇博客以微信为例,给微信脱壳."砸壳"在iOS逆向工程中是经常做的一件事情,,因为从AppStore直接下载安装的App是加壳的,其实就是经过加密的,这个“砸壳”的过程就是一个解 ...

  6. 2014年暑假c#学习笔记目录

    2014年暑假c#学习笔记 一.C#编程基础 1. c#编程基础之枚举 2. c#编程基础之函数可变参数 3. c#编程基础之字符串基础 4. c#编程基础之字符串函数 5.c#编程基础之ref.ou ...

  7. CentOS:ECDSA host key "ip地址" for has changed and you have requested strict checking(转)

    原文地址:http://blog.csdn.net/ausboyue/article/details/52775281 Linux SSH命令错误:ECDSA host key "ip地址& ...

  8. mysql 大表拆分成csv导出

    最近公司有一个几千万行的大表需要按照城市的id字段拆分成不同的csv文件. 写了一个自动化的shell脚本 在/home/hdh 下面 linux-xud0:/home/hdh # lltotal 1 ...

  9. 第13章 Linux日志管理

    1. 日志管理 (1)简介 在CentOS 6.x中日志服务己经由rsyslogd取代了原先的syslogd服务.rsyslogd日志服务更加先进,功能更多.但是不论该服务的使用,还是日志文件的格式其 ...

  10. ABP框架理论研究总结(典藏版)

    目前,我已经完成了Module-Zero的翻译,请查看我的<Module-Zero学习目录>. 到现在为止,使用ABP框架开发正式项目已经3个月有余了,期间翻阅了大量文档资料,包括ABP官 ...