自然语言式parsing

          got NUM(1)

Is NUM(1) an expr?

 Is NUM(1) a term?

  Is NUM(1) a number?

         is_term got -(-)

         -(-) was back

         is_expr got -(-)

         is_expr got NUM(2)

 Is NUM(2) an expr?

  Is NUM(2) a term?

   Is NUM(2) a number?

         is_term got *(*)

         is_term got NUM(33)

   Is NUM(33) a term?

    Is NUM(33) a number?

         is_term got None

         is_expr got None

import ply.lex as lex # pip install ply

tokens = ('NUM',); t_NUM = r'\d+'; literals = ['+', '-', '*', '/']

t_ignore  = ' \t'

def t_error(t): raise SyntaxError()

lexer = lex.lex()

prev_tk = None

def get_tk(who):

    global prev_tk

    if prev_tk != None: tk = prev_tk; prev_tk = None

    else: tk = lexer.token()

    if tk == None: print('\t', who + ' got None')

    else: print('\t', who + ' got ' + tk.type + '(' + tk.value + ')')

    return tk

def put_token_back(tk):

    global prev_tk

    prev_tk = tk

    print('\t', tk.type + '(' + tk.value + ') was back')

def print_token(tk, what, i): print(i * ' ', 'Is ' + tk.type + '(' + tk.value + ') ' + what + '?', sep='')

def Tk(fn, *args, **kwargs): fn(*args, **kwargs)

def is_NUM(tk, i):

    print_token(tk, 'a number', i)

    if tk.type != 'NUM': raise SyntaxError()

def is_term(tk, i):

    '''t : NUM | NUM '*' t | NUM '/' t'''

    print_token(tk, 'a term', i)

    Tk(is_NUM, tk, i + 1)

    tk = get_tk('is_term')

    if tk == None: return

    if tk.type == '*' or tk.type == '/': Tk(is_term, get_tk('is_term'), i + 1)

    else: put_token_back(tk)

def is_expr(tk, i):

    '''e : t | t '+' e | t '-' e'''

    if tk == None:

        if i == 0: return

        raise SyntaxError()

    print_token(tk, 'an expr', i)

    Tk(is_term, tk, i + 1)

    tk = get_tk('is_expr')

    if tk == None: return

    t = tk.type

    if t == '+' or t == '-': Tk(is_expr, get_tk('is_expr'), i + 1)

lexer.input('1 - 2*33')

try: Tk(is_expr, get_tk(''), 0)

except SyntaxError: print('\nAbout what talking you are?')

产生式是一组规则。分析时不是根据规则产生语言去和输入比较，而是检查输入是否符合规则。所以我觉得函数名叫is_expr比expr好理解点。再如：Tom是主语吗？Tom是名词吗？it是代词吗？头一句：token 是表达式。a)只看了头一个token; b)这个命题是真命题还是假命题，let's try 一 try. 我们并没有分析并生成机器码/中间代码/语法树。分析过程中函数的递归调用关系/顺序靠堆栈表达。它隐藏着一颗动态的、不完整的树。

import ply.lex as lex # pip install ply

import ply.yacc as yacc

from functools import reduce

tokens = ('NUM',); t_NUM = r'\d+'; literals = ['+', '-', '*', '/']

def t_error(t): t.lexer.skip(1)

precedence = (('left', '+', '-'), ('left', '*', '/'))

s = []

def p_1(p): "e : NUM";     s.append(p_1.__doc__); p[0] = int(p[1])

def p_2(p): "e : e '+' e"; s.append(p_2.__doc__); p[0] = p[1] + p[3]

def p_3(p): "e : e '-' e"; s.append(p_3.__doc__); p[0] = p[1] - p[3]

def p_4(p): "e : e '*' e"; s.append(p_4.__doc__); p[0] = p[1] * p[3]

def p_5(p): "e : e '/' e"; s.append(p_5.__doc__); p[0] = p[1] / p[3]

def p_error(p): raise Exception()

lexer = lex.lex()

istr = '3 + 2 * 5'

print(istr, '=', yacc.yacc().parse(istr))

s.reverse(); print(reduce(lambda x,y:x+'\n'+y, s, ''))

上面这样的语法能写出Top down的吗？左递归是什么？请看 https://files.cnblogs.com/files/blogs/714801/topdownparsing.zip search(top down operator precedence parsing)

import ply.lex as lex # pip install ply

import ply.yacc as yacc

from functools import reduce

tokens = ('NUM',); t_NUM = r'\d+'; literals = ['+', '-', '*', '/']

def t_error(t): t.lexer.skip(1)

s = []

def p_1(p): "e : t";       s.append(p_1.__doc__); p[0] = p[1]

def p_2(p): "e : t '+' e"; s.append(p_2.__doc__); p[0] = p[1] + p[3]

def p_3(p): "e : t '-' e"; s.append(p_3.__doc__); p[0] = p[1] - p[3]

def p_4(p): "t : NUM";     s.append(p_4.__doc__ + ' ' + p[1]); p[0] = int(p[1])

def p_5(p): "t : NUM '*' t"; s.append(p_5.__doc__); p[0] = int(p[1]) * p[3]

def p_6(p): "t : NUM '/' t"; s.append(p_6.__doc__); p[0] = int(p[1]) / p[3]

def p_error(p): raise Exception()

lexer = lex.lex()

istr = '1 + 2 * 3 - 4'

print(istr, '=', yacc.yacc().parse(istr))

s.reverse(); print(reduce(lambda x,y:x+'\n'+y, s, ''))

自然语言式parsing的更多相关文章

F#之旅9 - 正则表达式
今天,cozy群有个群友发了条正则,问正则匹配相关的问题.虽然他的问题用html selector去处理可能更好,但是我也再一次发现:我忘了正则怎么写的了! 忘掉正则是有原因的,这篇文章会简单记录下F ...
【论文小综】基于外部知识的VQA（视觉问答）
我们生活在一个多模态的世界中.视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知.作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提出的问题 ...
NLP | 自然语言处理 - 解析（Parsing, and Context-Free Grammars）
什么是解析? 在自然语言的学习过程,个人一定都学过语法,比如句子能够用主语.谓语.宾语来表示.在自然语言的处理过程中.有很多应用场景都须要考虑句子的语法,因此研究语法解析变得很重要. 语法解析有两个基 ...
Python自然语言处理笔记【一】文本分类之监督式分类
一.分类问题分类是为了给那些已经给定的输入选择正确的标签. 在基本的分类任务中,每个输入都被认为与其他的输入是隔离的.每个类别的标签集是预先定义好的(只有把类别划分好了,才能给输入划分类别). 分类 ...
Python自然语言处理笔记【二】文本分类之监督式分类的细节问题
一.选择正确的特征 1.建立分类器的工作中如何选择相关特征,并且为其编码来表示这些特征是首要问题. 2.特征提取,要避免过拟合或者欠拟合过拟合,是提供的特征太多,使得算法高度依赖训练数据的特性,而对 ...
转-Python自然语言处理入门
Python自然语言处理入门原文链接:http://python.jobbole.com/85094/ 分享到:20 本文由伯乐在线 - Ree Ray 翻译,renlytime 校稿.未经许 ...
python and 我爱自然语言处理
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也 ...
自然语言处理（NLP）相关学习资料/资源
自然语言处理(NLP)相关学习资料/资源 1. 书籍推荐自然语言处理统计自然语言处理(第2版) 作者:宗成庆出版社:清华大学出版社:出版年:2013:页数:570 内容简介:系统地描述了神经网络 ...
NLP 自然语言处理之综述
(1) NLP 介绍 NLP 是什么? NLP (Natural Language Processing) 自然语言处理,是计算机科学.人工智能和语言学的交叉学科,目的是让计算机处理或"理解 ...

随机推荐

sqlldr导入报错：field in data file exceeds maximum length
检查报错日志提示:field in data file exceeds maximum length REMARK字段设置:varchar2(2000),报错的内容也没有超1000个字符表中定义的字 ...
盘点 GitHub 年度盛会｜附视频
「Universe 2021」是 GitHub 于今年举办的开发者盛会,本次 Universe 2021 大会采用线上直播模式,为期两天已于上周落下帷幕. 这是 GitHub 举办的一年一度开发者盛会 ...
前端需要了解的颜色模型，RGB、HSL和HSV
颜色模型,是用来表示颜色的数学模型.比如最常见的 RGB模型,使用红绿蓝三色来表示颜色. 一般的颜色模型,可以按照如下分类: 面向硬件设备的颜色模型:RGB,CMYK,YCrCb. 面向视觉感知的 ...
IDM使用教程：利用IDM下载百度网盘文件
IDM是什么其实我使用IDM下载器只是为了方便网页版百度网盘直接下载大于40M文件而已,大家知道文件过大必须打开客户端才能下载,这点对于我的破电脑感觉很烦躁,每次要等待它慢悠悠打开,然后动用我的超级 ...
Cannot load module file xxx.iml的两种解决方法
一. 一种是点击左上角File,然后点击Invalidate Caches / Restart...,弹出对话框再点击Invalidate and Restart等待工程重新加载,问题就解决了. 二. ...
mbatis动态sql中传入list并使用
 <select id=&q ...
find 删除日志文件
find 命令删除日志文件 find ./my_dir -mtime +10 -type f -delete EXPLANATIONS ./my_dir your directory (replace ...
动手写一个简单的Web框架（HelloWorld的实现）
动手写一个简单的Web框架(HelloWorld的实现) 关于python的wsgi问题可以看这篇博客我就不具体阐述了,简单来说,wsgi标准需要我们提供一个可以被调用的python程序,可以实函数 ...
问题 B: 比大小
题目描述给你两个很大的数,你能不能判断出他们两个数的大小呢? 比如123456789123456789要大于-123456 输入每组测试数据占一行,输入两个不超过1000位的10进制整数a,b 数 ...
script标签引入vue方式开发如何写组件
title: script标签引入vue方式开发如何写组件 date: 2020-05-08 sidebarDepth: 2 tags: vue 组件 script 标签 categories: vu ...

自然语言式parsing

自然语言式parsing的更多相关文章

随机推荐

热门专题