python difflib详解

difflib -帮助进行差异化比较

这个模块提供的类和方法用来进行差异化比较，它能够生成文本或者html格式的差异化比较结果，如果需要比较目录的不同，可以使用filecmp模块。

class difflib.SequenceMatcher

这是可以用来比较任何类型片段的类，只要比较的片段是可hash的，都可以用来比较，使用非常灵活。他源于1980,s的“完形匹配算法”，并且进行了一系列的优化和改进。

通过对算法的复杂度比较，它由于原始的完形匹配算法，在最坏情况下有n的平方次运算，在最好情况下，具有线性的效率。

它具有自动垃圾启发式，可以将重复超过片段1%或者重复200次的字符作为垃圾来处理。可以通过将autojunk设置为false关闭该功能。

autojunk 参数新增于2.7.1版本。

class difflib.Differ

这个类用来比较文本里的行，并且产生可阅读的差异化结果。

它用以下符号来表示不同

Code	Meaning
'- '	仅在片段1中存在
'+ '	仅在片段2中存在
' '	片段1和2中都存在
'? '	存在疑问的

标识为？需要你通过人工的方式仔细比较他们的不同，他们产生的原因是源于混乱的制表符

class difflib.HtmlDiff

这个类用来创建一个html表格（或者包含html表格的文件）用来展示文件差异。他既可以进行全文本展示，也可以只展示上下文不同。

这个类的构造函数如下：

__init__(tabsize=8, wrapcolumn=None, linejunk=None, charjunk=IS_CHARACTER_JUNK)

tabsize表示制表符代表的空格个数，默认为8

wrapcolumn,可选参数，用来设置多少个字符时自动换行，默认None,为None时表示不自动换行

linejunk 和 charjunk，可选参数，在ndiff()中使用，

这个类的公共方法：

make_file(fromlines, tolines [, fromdesc][, todesc][, context][, numlines])

用来生成一个包含表格的html文件，其内容是用来展示差异。

fromlines 和tolines,用于比较的内容，格式为字符串组成的列表

fromdesc 和 todesc，可选参数，对应的fromlines,tolines的差异化文件的标题，默认为空字符串

context 和 numlines，可选参数，context 为True时，只显示差异的上下文，为false，显示全文，numlines默认为5，当context为True时，控制展示上下文的行数，当context为false时,控制不同差异的高亮之间移动时“next”的开始位置（如果设置为0，当移动懂顶端时，超链接会丢失引用地址）

make_table(fromlines, tolines [, fromdesc][, todesc][, context][, numlines])

这个方法和make_file用法一样，唯一的区别在于它只生成了一个html表格字符串

python安装包的Tools/scripts/diff.py是关于他们使用的一个很好的例子，它可以用命令行来运行。

新增于python2.4

difflib.context_diff(a, b[, fromfile][, tofile][, fromfiledate][, tofiledate][, n][, lineterm])

用来比较a,b,a,b都是字符串列表。返回一个格式化文本的差异。

他是一个用来展示少量差异的好方法，这种变化，用前/后的样式进行展示，n默认为3，用来控制展示发现的差异数

默认情况下，差异控制行（*** or ---）用来把a,b的差异区隔开来，便于程序读写处理，如果不需要这样做的话，可以设置lineterm为""，这样，就会卸载一行里

如果格式化差异文本需要标题和修改时间信息，通过fromfile, tofile, fromfiledate, 和 tofiledate进行控制，如果不设置，默认为空

>>> s1 = ['bacon\n', 'eggs\n', 'ham\n', 'guido\n']

>>> s2 = ['python\n', 'eggy\n', 'hamster\n', 'guido\n']

>>> for line in context_diff(s1, s2, fromfile='before.py', tofile='after.py'):

...     sys.stdout.write(line)

*** before.py

--- after.py

***************

*** 1,4 ****

! bacon

! eggs

! ham

  guido

--- 1,4 ----

! python

! eggy

! hamster

guido difflib.get_close_matches(word, possibilities[, n][, cutoff])

 返回一个最相似匹配的列表word，用来进行匹配的片段（典型的应用是字符串）

possibilities，用来匹配word的片段

n，默认为3，返回的最多结果数，必须大于0

cutoff，默认为0.6，匹配的相似因数，他是一个介于0，1的浮点数

>>> get_close_matches('appel', ['ape', 'apple', 'peach', 'puppy'])

['apple', 'ape']

>>> import keyword

>>> get_close_matches('wheel', keyword.kwlist)

['while']

>>> get_close_matches('apple', keyword.kwlist)

[]

>>> get_close_matches('accept', keyword.kwlist)

['except']


difflib.ndiff(a, b[, linejunk][, charjunk])

比较a和b,返回差异

linejunk和charjunk都是用来匹配的方法

linejunk:接收一个字符串的方法，如果这个字符串被认定为垃圾，则返回true,否则为false,默认为None,他调用了IS_LINE_JUNK()这个方法，这个方法存在bug,他不能过滤掉’#’周围的不可见字符，2.3以后，对这个方法进行了动态分析，表现会比以前好些

charjunk:接受一个字符的方法，如果这个字符被认定为垃圾，则返回true,否则为false，它调用了IS_CHARACTER_JUNK(), 他会自动过滤掉空白字符（所以，不要用空白字符或者制表符作为分隔符）

Tools/scripts/ndiff.py 是执行这一方法的实例：

>>> diff = ndiff('one\ntwo\nthree\n'.splitlines(1),

...              'ore\ntree\nemu\n'.splitlines(1))

>>> print ''.join(diff),

- one

?  ^

+ ore

?  ^

- two

- three

?  -

+ tree

+ emu


difflib.restore(sequence, which)

返回1或2的差异对Differ.compare() 或者 ndiff()的结果进行处理，根据参数which,返回片段1或者片段2的差异化结果实例：

>>> diff = ndiff('one\ntwo\nthree\n'.splitlines(1),

...              'ore\ntree\nemu\n'.splitlines(1))

>>> diff = list(diff) # materialize the generated delta into a list

>>> print ''.join(restore(diff, 1)),

one

two

three

>>> print ''.join(restore(diff, 2)),

ore

tree

emu

difflib.unified_diff(a, b[, fromfile][, tofile][, fromfiledate][, tofiledate][, n][, lineterm])

用来比较a,b,a,b都是字符串列表。返回一个统一的格式化文本的差异。

使用方式和difflib.context_diff一样，只是返回的内容展示格式有差异

>>> s1 = ['bacon\n', 'eggs\n', 'ham\n', 'guido\n']

>>> s2 = ['python\n', 'eggy\n', 'hamster\n', 'guido\n']

>>> for line in unified_diff(s1, s2, fromfile='before.py', tofile='after.py'):

...     sys.stdout.write(line)

--- before.py

+++ after.py

@@ -1,4 +1,4 @@

-bacon

-eggs

-ham

+python

+eggy

+hamster

 guido

difflib.IS_LINE_JUNK(line)如果是需要忽略的行，则返回为true,如果这个行内全为空格或者只有’#’,则将这行忽略掉

difflib.IS_CHARACTER_JUNK(ch)如果是需要忽略的字符，则返回为true,如果这个字符为空格,则将这行忽略掉

python difflib详解的更多相关文章

Python闭包详解
Python闭包详解 1 快速预览以下是一段简单的闭包代码示例: def foo(): m=3 n=5 def bar(): a=4 return m+n+a return bar >> ...
[转] Python Traceback详解
追莫名其妙的bugs利器-mark- 转自:https://www.jianshu.com/p/a8cb5375171a Python Traceback详解刚接触Python的时候,简单的 ...
python 数据类型详解
python数据类型详解参考网址:http://www.cnblogs.com/linjiqin/p/3608541.html 目录1.字符串2.布尔类型3.整数4.浮点数5.数字6.列表7.元组8 ...
Python 递归函数详解
Python 递归函数详解在函数内调用当前函数本身的函数就是递归函数下面是一个递归函数的实例: 第一次接触递归函数的人,都会被它调用本身而搞得晕头转向,而且看上面的函数调用,得到的结果会 ...
python线程详解
#线程状态 #线程同步(锁)#多线程的优势在于可以同时运行多个任务,至少感觉起来是这样,但是当线程需要共享数据时,可能存在数据不同步的问题. #threading模块#常用方法:'''threadin ...
python数据类型详解（全面）
python数据类型详解目录1.字符串2.布尔类型3.整数4.浮点数5.数字6.列表7.元组8.字典9.日期 1.字符串1.1.如何在Python中使用字符串a.使用单引号(')用单引号括起来表示字 ...
Python Collections详解
Python Collections详解 collections模块在内置数据结构(list.tuple.dict.set)的基础上,提供了几个额外的数据结构:ChainMap.Counter.deq ...
python生成器详解
1. 生成器利用迭代器(迭代器详解python迭代器详解),我们可以在每次迭代获取数据(通过next()方法)时按照特定的规律进行生成.但是我们在实现一个迭代器时,关于当前迭代到的状态需要我们自己记 ...
转 python数据类型详解
python数据类型详解目录 1.字符串 2.布尔类型 3.整数 4.浮点数 5.数字 6.列表 7.元组 8.字典 9.日期 1.字符串 1.1.如何在Python中使用字符串 a.使用单引号(' ...

随机推荐

WebPack 从安装到闲置
序言:各种技术在研究过程中常常会出现在实际工作中难以实施的情况,于是就慢慢闲置,但学毕竟还是必须要学学的,就看能用到多少,至少开拓了眼界,谨以此安慰下那些学完又闲置的技术~ 跑题结束,以下开始正式配置 ...
dos中的延迟环境变量扩展
一.前言昨天在写bat脚本的时候,发现在for里面的set命令竟然不起作用!于是搜了一下,前面的几篇都有说到这个是变量扩展的问题,但是什么是变量扩展?为什么会出现这种问题,什么又是延迟环境变量扩展? ...
监控服务器cpu、磁盘、模板以及自定义key
一.检测主机存活 net.tcp.service.perf[tcp,,] Float型返回0代表端口挂了 zabbix fping要开启sudo权限之类比较不方便二.监控CPU负载监控load ...
javascript运算符优先级顺序
1 ()2 !.-(负号).++.-- 3 *./.%4 +.- 10-55 <.<=.<.>=6 ==.!=.===.!==.7 &&8 ||9 ?:10 = ...
vmware centos7 静态ip设置
最近在学习linux环境部署~~~~ 首先,将网络适配设置成为桥接模式查看本机IP地址,ipconfig,记住ipv4地址和默认网关地址,等会配置的时候要用启动Centos,进入终端模式,设置IP ...
[C++] the pointer array & the array's pointer
int *p[4]------p是一个指针数组,每一个指向一个int型的int (*q)[4]---------q是一个指针,指向int[4]的数组 --> type: int(*)[4] vo ...
code1316 文化之旅
文化之旅的本质是最短路问题,只不过添加了一个文化排斥,仅需要做最短路时判断一下是否排斥即可因为数据较小,采用了Floyd算法,以下是代码,关键部分附注释: #include<iostream& ...
手机优秀app
Mantano 阅读器 Aldiko 阅读器掌阅阅读器奇特阅读器 Gitden reader 网易蜗牛阅读
HDU 3366 Passage (概率DP)
题意:T组测试数据,一个人困在了城堡中,有n个通道,m百万money ,每个通道能直接逃出去的概率为 P[i] ,遇到士兵的概率为 q[i], 遇到士兵得给1百万money,否则会被杀掉,还有 1-p ...
关于利用word发布文章到博客
目前大部分的博客作者在写博客这件事情上都会遇到以下3个痛点:1.所有博客平台关闭了文档发布接口,用户无法使用Word,Windows Live Writer等工具来发布博客.2.发布到博客或公众号平台 ...

python difflib详解

python difflib详解的更多相关文章

随机推荐

热门专题