Python使用re模块正则式的预编译及pickle方案

　　项目上线要求当中有言论和昵称的过滤需求, 客户端使用的是python脚本, python脚本中直接利用re模块来进行正则匹配, 一开始的做法是开启游戏后, 每帧编译2条正则式, 无奈运营需求里面100+条略为复杂的正则式, 一条编译起来在pc上都需要80ms, 造成客户端开启时候的卡顿.

　　解决方案当然是保存re模块编译的正则式结果, 之后开机直接加载就行, 然而需要注意的是re.compile()返回的_sre.SRE_Pattern对象虽然可以使用pickle保存下来, 但是这只是个假象, 实际上它只是保存了你需要编译的正则式内容, 之后实例化回来会重新调用re.compile去重新编译, 对于提高加载速度是毫无帮助的.

　　查看python re模块的源码可以发现, 实际上re.compile最终调用到的是sre_compile的compile, 而这个sre_compile可以明确的分为prev_compile和post_compile(名字是我起的), 以python2.7的re源代码为例, __version__是2.2.1, 我看了下python3.5的re, __version__是没有变化的. 下面是sre_compile.compile的代码

 def compile(p, flags=0):
     # internal: convert pattern list to internal format

     if isstring(p):
         import sre_parse
         pattern = p
         p = sre_parse.parse(p, flags)
     else:
         pattern = None

     code = _code(p, flags)

     # print code

     # XXX: <fl> get rid of this limitation!
     if p.pattern.groups > 100:
         raise AssertionError(
             "sorry, but this version only supports 100 named groups"
             )

     # map in either direction
     groupindex = p.pattern.groupdict
     indexgroup = [None] * p.pattern.groups
     for k, i in groupindex.items():
         indexgroup[i] = k

     return _sre.compile(
         pattern, flags | p.pattern.flags, code,
         p.pattern.groups-1,
         groupindex, indexgroup
         )

　　以#print code为分界, 上面的部分为prev_compile, 之后为post_compile, 前面的预处理产生的p和code最终会传到更底层的_sre.compile接口作为参数, p是由sre_parse.parse()调用产生, 生成的结果是list, 我认为是进行sre_compile的opcode, 通过opcode最终生成code, 而生成code的调用是最为耗时的, 最最重要的是, 这部分p和code都是python的list, 可以通过pickle保存到文件当中, 这样实际上就已经解决了re预编译正则式耗时的问题, 不过由于post_compile最终还会用到你的正则表达式, 所以, 正则式的内容还是必须保留, 并且有一个一一对应的关系, 即你生成的p, code, 需要对应你的pattern.

　　我们游戏最终的解决方案是把预编译结果生成为一个.py文件, 之后直接在脚本当中import进行post_compile, 下面是具体的代码

 import sys
 sys.path.append( "../../script/data" )

 def prev_compile( p, flags = 0 ):
     import sre_compile, sre_parse
     if sre_compile.isstring( p ):
         p = sre_parse.parse( p, flags )

     code = sre_compile._code( p, flags )
     return p, code

 def post_compile( pattern, p, code, flags = 0 ):
     import _sre
     if p.pattern.groups > 100:
         raise AssertionError( "sorry, but this version only supports 100 named groups" )

     groupindex = p.pattern.groupdict
     indexgroup = [None] * p.pattern.groups
     for k, i in groupindex.items():
         indexgroup[i] = k

     return _sre.compile(
         pattern, flags | p.pattern.flags, code,
         p.pattern.groups-1,
         groupindex, indexgroup
         )

 def precompile():
     import cPickle as pickle
     import FilterProp
     name_p = []
     name_code = []
     for s in FilterProp.NameFilter:
         s = s.decode( "utf-8" )
         p, code = prev_compile( s )
         name_p.append( p )
         name_code.append( code )

     word_p = []
     word_code = []
     for s in FilterProp.WordFilter:
         s = s.decode( "utf-8" )
         p, code = prev_compile( s )
         word_p.append( p )
         word_code.append( code )

     with file( "../../script/precompile.py", "w" ) as f:
         name_p_s = repr( pickle.dumps( name_p ) )
         name_code_s = repr( pickle.dumps( name_code ) )
         word_p_s = repr( pickle.dumps( word_p ) )
         word_code_s = repr( pickle.dumps( word_code ) )
         print >> f, "#-*- coding: utf-8 -*-"
         print >> f, "precompile = ["
         print >> f, name_p_s, ","
         print >> f, name_code_s, ","
         print >> f, word_p_s, ","
         print >> f, word_code_s
         print >> f, "]"

 if __name__ == "__main__":
     precompile()

FilterProp是具体的正则式配置, 包括了WordFilter和NameFilter, 上面的代码最终生成了一个precompile.py文件, 里面就包括了prev_compile生成的p, code, 之后客户端启动利用这部分结构, 调用post_compile生成_sre.SRE_Pattern对象, 极大的提升了效率, 对于需要预编译大量正则式的需求来说, 这个解决方案还是挺优雅的.

参考资料:

http://stackoverflow.com/questions/4037339/is-there-a-way-to-really-pickle-compiled-regular-expressions-in-python

Python使用re模块正则式的预编译及pickle方案的更多相关文章

day19 python之re模块正则练习
1.匹配标签 import re ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>" ...
Android NDK引用预编译的动态链接库
NDK里有个例子: android-ndk-r10/samples/module-exports/jni一看就懂了 ———————————————————————————– 从r5版本开始,就支持预编 ...
【转】预编译头文件来自编译器的早期版本，或者预编译头为 C++ 而在 C 中使用它(或相反)
用VC++ 2008 编写C语言程序,编译出现错误: 预编译头文件来自编译器的早期版本,或者预编译头为 C++ 而在 C 中使用它(或相反) 解决方法: 建工程时建立空项目或者在项目设置里关闭预编 ...
VS2005 MFC 预编译头文件来自编译器的早期版本，或者预编译头为 C++ 而在 C 中使用它(或相反)
当 Visual C++ 项目启用了预编译头 (Precompiled header) 功能时,如果项目中同时混合有 .c 和 .cpp 源文件,则可能收到 C1853 编译器错误:fatal err ...
预编译头文件来自编译器的早期版本，或者预编译头为 C++ 而在 C 中使用它(或相反)(转)
用VC++ 2008 编写C语言程序,编译出现错误: 预编译头文件来自编译器的早期版本,或者预编译头为 C++ 而在 C 中使用它(或相反) 解决方法: 建工程时建立空项目或者在项目设置里关闭预编 ...
预编译头文件来自编译器的早期版本,或者预编译头为 C++ 而在 C 中使用它(或相反)转
vs2010的mfc项目中编译c语言出现错误: "...预编译头文件来自编译器的早期版本,或者预编译头为 C++ 而在 C 中使用它(或相反)" 解决方法: 建工程时建立空项目 ...
VS中c++文件调用c 函数，fatal error C1853 预编译头文件来自编译器的早期版本号，或者预编译头为 C++ 而在 C 中使用它(或相反)
出现错误:error C1853: "Debug\ConsoleApplication1.pch"预编译头文件来自编译器的早期版本号.或者预编译头为 C++ 而在 C 中使用它(或 ...
Python正则式的基本用法
Python正则式的基本用法 1.1基本规则 1.2重复 1.2.1最小匹配与精确匹配 1.3前向界定与后向界定 1.4组的基本知识 2．re模块的基本函数 2.1使用compile加速 2.2 ma ...
Python开发【模块】：re正则
re模块序言: re模块用于对python的正则表达式的操作 '.' 默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行 '^' 匹配字符开头,若指定flags ...

随机推荐

Percona Server 5.6.33-79.0 发布
Percona Server 5.6.33-79.0 发布了,该版本基于 MySQL 5.6.33,包含了所有的 bug 修复,是Percona Server 5.6 系列中的正式版本.该版本主要是修 ...
js/jquery获取文本框的值与改变文本框的值
我们就用它来学习获取文本框的值及改变文本框的值. 代码如下复制代码 <script>function get1(){ document.getElementById("txtb ...
排序系列之直接插入排序算法 —— Java实现
直接插入排序算法基本思想: 把n个待排序的元素看成一个有序表和一个无序表,开始时有序表中只有一个元素,无序表中有n-1个元素:排序过程即每次从无序表中取出第一个元素,将它插入到有序表中,使之成为新的 ...
Ionic 2 rc 添加第三方的插件(plugin) 以Echarts为例
Ionic2 在升级RC版之后做了很多改变,本文就使用Echarts 图表插件为例.记录一下如何引用第三方插件备忘. 一.再集成终端中使用NPM安装Echarts npm install echart ...
Spring中Bean的生命周期方法
Bean的生命周期方法 src\dayday\Car.java package dayday;import com.sun.org.apache.xpath.internal.SourceTree;i ...
团队第二周：SRS文档
项目计划: 对于这次的实验,我们组计划进行一个图书管理系统的项目书写,在第一阶段,对该项目先进行一下规划,总结该项目的注意事项以及实验要求,并加以实施. 下面我先对我们项目的要求坐一下说明: 1定义五 ...
一个Java线程小例子（仿火车票售卖）
public class MyThread extends Thread{ private static int ticket=100; public void run(){ for(int i=0; ...
在Android Studio和Android Eclipse 更改现有项目里的SDK版本
一,在Eclipse下改项目里的SDK的版本方法有几种,都比较简单:1.右键单击项目--->properties---->Resource----->Android在Project ...
BackTrack5-r3任务栏显示网络图标及自定义DNS
任务栏显示网络连接图标:安装NM工具,在BT终端中执行:apt-get install network-manager按y继续执行,显示:ldconfig deferred processing no ...
万圣节的糖果（Halloween Sweets）
今天遇到codewars的一道题,这是链接,讲的是关于万圣节的一个题目,简单点说,就是9个包裹,一个天平,两次称的机会,怎么找出9个包裹中唯一一个较重的包裹. 像我这种年轻时候喜欢研究难题获得存在感的 ...

Python使用re模块正则式的预编译及pickle方案

Python使用re模块正则式的预编译及pickle方案的更多相关文章

随机推荐

热门专题