tn是desert和tan共同开发的一种用于匹配,转写和抽取文本的语言。解释器使用Python实现,代码不超过1000行。

github地址:https://github.com/ferventdesert/tnpy

前言

本文将利用引擎实现一个自然语言计算器,支持加减乘除和平方的计算。如下面的测试样例:

三平方加上四平方
如果2乘以3大于4的平方且3>8,那么输出5+4,否则输出12
如果今天下雨,则发送微博
3.4的7次方加上五分之一
3.4*2.7
二百八十除以五分之一
三点五乘以三十七
二十七+15*15
十四点五的平方加上八十三除以三点五

基本的思路,是将整个文本,转换为一个Python的表达式,传递给Python的eval函数执行。这是一种取巧的办法,如果需要,可以修改引擎,实现自定义的脚本解析器。

运算符实现

下面的代码定义了计算符,非常容易理解:

#%Include% Rules/cnext
add = (/加上?|\+|+/ : /+/) ;
sub = (/减去?|\-|-/ : /-/);
mul = (/乘以?|\*|×/ : /*/);
div = (/除以?|/|÷/ : ///);
pow2 = (/的?平方/ : /**2/);
pow3 = (/的?立方/ : /**3/);
pown= (/的?/ : //) $(digit) (/次方/ : /**/) : $3 $2 $1;
divpow = $(digit) $(divpow0) $(digit) ;
powx= $(pow2) | $(pow3) | $(pown);
pow = $(digit) $(powx);

#%Include% Rules/cnext 引入了外部的一个规则文件,这个文件定义了中文和数字的表达方法。因此在本规则中,可直接引用cnext文件中定义的规则。

顺便指出,只要保证规则名称一致,通过更换为英语或其他语言的数字表达,就可以在不修改本脚本的情况下方便地让规则支持其他语言的计算功能

逻辑运算符

or = (/或/ : / or /);
and = (/且/ : / and /);
not = (/不是/ : / not /);
equal = (/等于|=/ : /=/);
bigger = (/大于|>/ : />/);
less = (/小于|</ :/</);
noequal = (/不等于/: /!=/);

值得一提的是,我们将逻辑转换成了or and 和not, 这是为了能够转写

运算符组合

addsub0=  $(add) | $(sub) ;
logic0 =$(or) | $(and) ;
divpow0 = $(mul) | $(div);
equalcheck = $(bigger) |$(less) | $(noequal);
operator= $(addsub0) | $(equalcheck) | $(logic0);

非终结符和终结符

低优先级的表达式可以表示如下:

addsub= $(noterminator) $(operator) $(noterminator);

由于乘除和n次方的的优先级比加减和逻辑运算符优先级高,所以我们将运算符分为两类:

终结符

terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow);

非终结符

#%Order% 28
noterminator = $(terminator) : "eval(m.rstr)" | $(addsub) : "eval(m.rstr)";

此处需要解释脚本的含义,

  • m在此处代指前面匹配的实体
  • m.rstr为m的转写后的字符串
  • m.mstr为m匹配的字符串

    eval是引擎内置的函数,代指对转写后的字符串求值。

例子

三平方加上四平方

匹配路径如下

TODO

最后eval(32+42),结果为5

无法消除的左递归

如果希望支持计算类似'3加5的和乘以3'的表达式,那么terminator表达式需要这样写:

terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow) | $(function)
| $(noterminator) $(add) $(noterminator) $(addresult)
| $(noterminator) $(sub) $(noterminator) $(subresult);

但是,注意第二条子表达式

$(noterminator) $(add) $(noterminator) $(addresult)

$(noterminator)又引用了terminator,因此会导致无穷递归。

目前还没有找到合适的方法解决这个问题。

完整的代码

#计算引擎
#尝试解决 三点五乘以八点三的功能 #%Include% Rules/cnext
add = (/加上?|\+|+/ : /+/) ;
sub = (/减去?|\-|-/ : /-/);
mul = (/乘以?|\*|×/ : /*/);
div = (/除以?|/|÷/ : ///);
pow2 = (/的?平方/ : /**2/);
pow3 = (/的?立方/ : /**3/);
pown= (/的?/ : //) $(digit) (/次方/ : /**/) : $3 $2 $1; result= (/的?结果/);
addresult0= (/的?和/);
subresult0= (/的?差/);
addresult = $(result) $(addresult0);
subresult = $(result) $(subresult0);
addsub0= $(add) | $(sub) ;
logic0 =$(or) | $(and) ;
divpow0 = $(mul) | $(div);
equalcheck = $(bigger) |$(less) | $(noequal); operator= $(addsub0) | $(equalcheck) | $(logic0); divpow = $(digit) $(divpow0) $(digit) ;
powx= $(pow2) | $(pow3) | $(pown);
pow = $(digit) $(powx); #functions
print = (/打印/ : /print/);
send = (/发送/ : /send/);
functions = $(print) | $(send);
function = $(functions) $(noterminator) : "invoke(m[0].rstr,m[1].rstr)"; addsub= $(not) $(noterminator)
| $(noterminator) $(operator) $(noterminator); terminator = $(digit) | $(ifelse) | $(pow) | $(divpow) | $(function); #暂时无法分析 3加5的和乘以3,因为会造成循环递归,从左向右推导不可行
# | ) $(add) $(noterminator) $(addresult)
# | $(noterminator) $(sub) $(noterminator) $(subresult); #%Order% 28
noterminator = $(terminator) : "eval(m.rstr)" | $(addsub) : "eval(m.rstr)"; or = (/或/ : / or /);
and = (/且/ : / and /);
not = (/不是/ : / not /);
equal = (/等于|=/ : /=/);
bigger = (/大于|>/ : />/);
less = (/小于|</ :/</);
noequal = (/不等于/: /!=/); ifelse = (/如果/) $(vu) (/,那么/) $(noterminator) (/,否则/) $(noterminator) : "check(m[1].rstr,m[3].rstr,m[5].rstr)";

tn文本分析语言(四) 实现自然语言计算器的更多相关文章

  1. 重磅开源:TN文本分析语言

    tn是desert(沙漠之鹰)和tan共同开发的一种用于匹配,转写和抽取文本的语言(DSL).并为其开发和优化了专用的编译器.基于递归下降方法和正则表达式,能解析自然文本并转换为树和字典,识别时间,地 ...

  2. tn文本分析语言(二) 基本语法

    tn是desert和tan共同开发的一种用于匹配,转写和抽取文本的语言.解释器使用Python实现,代码不超过1000行. 本文主要介绍tn的基本语法.高级内容可以参考其他篇章.使用这样的语法,是为了 ...

  3. tn文本分析语言(三):高级语法

    标签(空格分隔): 未分类 高级操作 1.脚本表达式 用双引号包含的脚本被称为脚本表达式,目前支持嵌入Python. 脚本表达式只能在顺序表达式中使用.代码可以在三个位置存在: |位置|功能|例子| ...

  4. 重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 词向量的表示主流的有两种方式,一种当然是耳熟能 ...

  5. Solr:文本分析

    文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词.大写转小写.词干化.同义词转化等.简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引 ...

  6. LinkedIn文本分析平台:主题挖掘的四大技术步骤

    作者 Yongzheng (Tiger) Zhang ,译者 木环 ,本人只是备份一下.. LinkedIn前不久发布两篇文章分享了自主研发的文本分析平台Voices的概览和技术细节.LinkedIn ...

  7. R软件中 文本分析安装包 Rjava 和 Rwordseg 傻瓜式安装方法四部曲

    这两天,由于要做一个文本分析的内容,所以搜索了一天R语言中的可以做文本分析的加载包,但是在安装包的过程,真是被虐千百遍,总是安装不成功.特此专门写一篇博文,把整个心塞史畅快的释放一下. ------- ...

  8. 用R进行文本分析初探——以《红楼梦》为例

    一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析. 文本数据挖掘(Text ...

  9. Linux文本分析命令awk的妙用

    基本用法 awk是一个强大的文本分析工具,简单来说awk就是把文件逐行读入,(空格,制表符)为默认分隔符将每行切片,切开的部分再进行各种分析处理 awk命令格式如下 awk [-F field-sep ...

随机推荐

  1. Python3.5 day3作业二:修改haproxy配置文件。

    需求: 1.使python具体增删查的功能. haproxy的配置文件. global log 127.0.0.1 local2 daemon maxconn 256 log 127.0.0.1 lo ...

  2. phantomjs 双向认证,访问nginx,https

    应用背景: phantomjs的一个爬虫,访问https站点,单向认证(只认证服务器身份)的都可以,双向认证(服务器和客户端都需要认证)必须上传本地证书: 开始用一个包含公钥私钥的PEM证书访问,怎么 ...

  3. Mac下搭建hexo

    Mac下搭建hexo 并部署到gitcafe 1.安装brewhome ruby -e "$(curl -fsSL https://raw.github.com/Homebrew/homeb ...

  4. apache+php 安装

    Apache和PHP的版本分别为: httpd-2.4.9-win64-VC11.zip php-5.6.9-Win32-VC11-x64.zip 下载地址: php-5.6.9-Win32-VC11 ...

  5. Python之路第一课Day9--随堂笔记之二(进程、线程、协程篇)

    本节内容 进程.与线程区别 python GIL全局解释器锁 线程 语法 join 线程锁之Lock\Rlock\信号量 将线程变为守护进程 Event事件 queue队列 生产者消费者模型 Queu ...

  6. python 使用__neg__和__iter__

    __neg__ python中 __neg__ 方法对应于 符号 - 可见 str 没有__neg__,定义 strnew 好吧,无法再简化了 __iter__ 看看 list 的 __iter__: ...

  7. [Xamarin] 使用Webview 來做APP (转帖)

    有時候,企業要求的沒有這麼多,他原本可能官方網站就已經有支援Mobile Web Design 他只需要原封不動的開發一個APP 也或是,他只是要型錄型,或是問卷調查的型的APP,這時候透過類似像if ...

  8. 全新 Mac 安装指南(编程篇)(环境变量、Shell 终端、SSH 远程连接)

    注:本文专门用于指导对计算机编程与设计(尤其是互联网产品开发与设计)感兴趣的 Mac 新用户,如何在 Mac OS X 系统上配置开发与上网环境,另有<全新 Mac 安装指南(通用篇)>作 ...

  9. Spring:源码解读Spring IOC原理

    Spring IOC设计原理解析:本文乃学习整理参考而来 一. 什么是Ioc/DI? 二. Spring IOC体系结构 (1) BeanFactory (2) BeanDefinition 三. I ...

  10. iTextSharp 116秒处理6G的文件

    前言: 有一家印刷企业专为米兰新娘,微微新娘,金夫人这样的影楼印刷婚纱相册.通过一个B2B销售终端软件,把影楼的相片上传到印刷公司的服务器,服务器对这些图片进行处理. 比如: 1)为每个图片生成订单条 ...