10 行 Python 代码写的模糊查询

导语：

模糊匹配可以算是现代编辑器(在选择要打开的文件时)的一个必备特性了，它所做的就是根据用户输入的部分内容，猜测用户想要的文件名，并提供一个推荐列表供用户选择。

样例如下：

Vim (Ctrl-P)

Sublime Text (Cmd-P)

‘模糊匹配’这是一个极为有用的特性，同时也非常易于实现。

问题分析：

我们有一堆字符串(文件名)集合，我们根据用户的输入不断进行过滤，用户的输入可能是字符串的一部分。我们就以下面的集合为例：

>>> collection = ['django_migrations.py',

'django_admin_log.py',

'main_generator.py',

'migrations.py',

'api_user.doc',

'user_group.doc',

'accounts.txt',

]

当用户输入’djm‘字符串时，我们假定是匹配到’django_migrations.py’和’django_admin_log.py’，而最简单的实现方法就是使用正则表达式。

解决方案：

1.常规的正则匹配

将’djm’转换成’d.*j.*m’然后用这个正则尝试匹配集合中的每一个字符串，如果匹配到了就被列为候选。

>>> import re

>>> def fuzzyfinder(user_input, collection):

suggestions = []

pattern = '.*'.join(user_input) # Converts 'djm' to 'd.*j.*m'

regex = re.compile(pattern) # Compiles a regex.

for item in collection:

match = regex.search(item) # Checks if the current item matches the regex.

if match:

suggestions.append(item)

return suggestions

>>> print fuzzyfinder('djm', collection)

['django_migrations.py', 'django_admin_log.py']

>>> print fuzzyfinder('mig', collection)

['django_migrations.py', 'django_admin_log.py', 'main_generator.py', 'migrations.py']

这里根据用户的输入我们得到了一个推荐列表，但是推荐列表中的字符串是没有进行重要性区分的。有可能出现最合适的匹配项被放到了最后的情况。

实际上，还是这个例子，当用户输入’mig‘时，最佳选项’migrations.py’就被放到了最后。

2.带有rank排序的匹配列表

这里我们对匹配到的结果按照匹配内容第一次出现的起始位置来进行排序。

'main_generator.py'     - 0

'migrations.py'         - 0

'django_migrations.py'  - 7

'django_admin_log.py'   - 9

下面是相关代码：

>>> import re

>>> def fuzzyfinder(user_input, collection):

suggestions = []

pattern = '.*'.join(user_input) # Converts 'djm' to 'd.*j.*m'

regex = re.compile(pattern) # Compiles a regex.

for item in collection:

match = regex.search(item) # Checks if the current item matches the regex.

if match:

suggestions.append((match.start(), item))

return [x for _, x in sorted(suggestions)]

>>> print fuzzyfinder('mig', collection)

['main_generator.py', 'migrations.py', 'django_migrations.py', 'django_admin_log.py']

这次我们生成了一个由二元tuple组成的列表，即列表中的每一个元素为一个二元tuple，而该二元tuple的第一个值为匹配到的起始位置、第二个值为对应的文件名，然后使用列表推导式按照匹配到的位置进行排序并返回文件名列表。

现在我们已经很接近最终的结果了，但还称不上完美——用户想要的是’migration.py’，但我们却把’main_generator.py’作为第一推荐。

3.根据匹配的紧凑程度进行排序

当用户开始输入一个字符串时，他们倾向于输入连续的字符以进行精确匹配。比如当用户输入’mig‘他们更倾向于找的是’migrations.py’或’django_migrations.py’，而不是’main_generator.py’，所以这里我们所做的改变就是查找匹配到的最紧凑的项目。

刚才提到的问题对于Python来说不算什么事，因为当我们使用正则表达式进行字符串匹配时，匹配到的字符串就已经被存放在了match.group()中了。下面假设输入为’mig’，对最初定义的’collection’的匹配结果如下：

regex = '(m.*i.*g)'

'main_generator.py'    ->  'main_g'

'migrations.py'        ->  'mig'

'django_migrations.py' ->  'mig'

'django_admin_log.py'  ->  'min_log'

这里我们将推荐列表做成了三元tuple的列表的形式，即推荐列表中的每一个元素为一个三元tuple，而该三元tuple的第一个值为匹配到的内容的长度、第二个值为匹配到的起始位置、第三个值为对应的文件名，然后按照匹配长度和起始位置进行排序并返回。

>>> import re

>>> def fuzzyfinder(user_input, collection):

suggestions = []

pattern = '.*'.join(user_input) # Converts 'djm' to 'd.*j.*m'

regex = re.compile(pattern) # Compiles a regex.

for item in collection:

match = regex.search(item) # Checks if the current item matches the regex.

if match:

suggestions.append((len(match.group()), match.start(), item))

return [x for _, _, x in sorted(suggestions)]

>>> print fuzzyfinder('mig', collection)

['migrations.py', 'django_migrations.py', 'main_generator.py', 'django_admin_log.py']

针对我们的输入，这时候的匹配结果已经趋向于完美了，不过还没完。

4.非贪婪匹配

由 Daniel Rocco 发现了这一微妙的问题：当集合中有[‘api_user’, ‘user_group’]这两个元素存在，用户输入’user‘时，预期的匹配结果(相对顺序)应该为[‘user_group’, ‘api_user‘]，但实际上的结果为：

>>> print fuzzyfinder('user', collection)

['api_user.doc', 'user_group.doc']

上面的测试结果中：’api_user’要排在’user_group’前面。深入一点，我们发现这是因为在搜索’user’时，正则被扩展成了’u.*s.*e.*r’，考虑到’user_group’有2个’r’，因此该模式匹配到了’user_gr‘而不是我们预期的’user‘。更长的匹配导致在最后的匹配rank排序时名次下降这一违反直觉的结果，不过这问题也容易解决，将正则修改为’非贪婪匹配’即可。

>>> import re

>>> def fuzzyfinder(user_input, collection):

suggestions = []

pattern = '.*?'.join(user_input)    # Converts 'djm' to 'd.*?j.*?m'

regex = re.compile(pattern)         # Compiles a regex.

for item in collection:

match = regex.search(item)      # Checks if the current item matches the regex.

if match:

suggestions.append((len(match.group()), match.start(), item))

return [x for _, _, x in sorted(suggestions)]

>>> fuzzyfinder('user', collection)

['user_group.doc', 'api_user.doc']

>>> print fuzzyfinder('mig', collection)

['migrations.py', 'django_migrations.py', 'main_generator.py', 'django_admin_log.py']

现在，fuzzyfinder已经可以(在上面的情况中)正常工作了，而我们不过只写了10行代码就实现了一个 fuzzy finder。

结论：

以上就是我在我的 pgcli 项目(一个有自动补全功能的Postgresql命令行实现)中设计实现’fuzzy matching’的过程记录。

我已经将 fuzzyfinder 提取成一个独立的Python包，你可以使用命令’pip install fuzzyfinder’在你的项目中进行安装和使用。

感谢 Micah Zoltu 和 Daniel Rocco 对算法的检查和问题修复。

如果你对这个感兴趣的话，你可以来 twitter （https://twitter.com/amjithr）上找我。

结语：

当我第一次考虑用Python实现“fuzzy matching”的时候，我就知道一个叫做 fuzzywuzzy 的优秀库，但是 fuzzywuzzy 的做法和这里的不太一样，它使用的是 “levenshtein distance” 来从集合中找到最匹配的字符串。”levenshtein distance“是一个非常适合用来做自动更正拼写错误的技术，但在从部分子串匹配长文件名时表现的不太好(所以这里没有使用)。

10 行 Python 代码写的模糊查询的更多相关文章

10 行 Python 代码实现模糊查询/智能提示
10 行 Python 代码实现模糊查询/智能提示 1.导语: 模糊匹配可以算是现代编辑器(如 Eclipse 等各种 IDE)的一个必备特性了,它所做的就是根据用户输入的部分内容,猜测用户想要的 ...
10行Python代码计算汽车数量
当你还是个孩子坐车旅行的时候,你玩过数经过的汽车的数目的游戏吗? 在这篇文章中,我将教你如何使用10行Python代码构建自己的汽车计数程序. 以下是环境及相应的版本库: Python版本 3.6.9 ...
10行Python代码实现人脸定位
10行python机器学习全卷机网,实现100+张人脸同时定位! 发表评论 1,049 游览 A+ 所属分类:未分类收藏今天介绍一个快速定位人脸的深度学习算法MTCNN,全称是:Multi-t ...
10 行 Python 代码，批量压缩图片 500 张，简直太强大了
本文原创并首发于公众号[Python猫],未经授权,请勿转载. 原文地址:https://mp.weixin.qq.com/s/5hpFDgjCpfb0O1Jg-ycACw 熟悉 "Pyth ...
python 之路，200行Python代码写了个打飞机游戏！
早就知道pygame模块,就是没怎么深入研究过,恰逢这周未没约到妹子,只能自己在家玩自己啦,一时兴起,花了几个小时写了个打飞机程序. 很有意思,跟大家分享下. 先看一下项目结构 "" ...
10行Python代码实现目标检测
要知道图像中的目标是什么? 或者你想数一幅图里有多少个苹果? 在本文中,我将向你展示如何使用Python在不到10行代码中创建自己的目标检测程序. 如果尚未安装python库,你需要安装以下pytho ...
用 150 行 Python 代码写的量子计算模拟器
简评:让你更轻松地明白,量子计算机如何遵循线性代数计算的. 这是个 GItHub 项目,可以简单了解一下. qusim.py 是一个多量子位的量子计算机模拟器(玩具?),用 150 行的 python ...
10行Python代码自动清理电脑内重复文件，解放双手！
大家好,又到了Python办公自动化系列. 今天分享一个系统层面的自动化案例: 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做 ...
10行Python代码解决约瑟夫环(模拟)
http://blog.csdn.net/dengyaolongacmblog/article/details/39208675 #!/usr/bin/env python # coding: utf ...

随机推荐

C# 生成字符串的 CheckSum
C# 生成字符串的 CheckSum private static string CheckSum(string message) { char[] chars = message.ToCharArr ...
Mac常用shell命令
几个常用命令 pwd 命令名称:pwd 英文:print work directory 描述:查看当前工作目录的完整路径 ls 英文全称: list 描述:列出目录下的内容清单常用参数: -l:列出 ...
Ubuntu16.04LTS国内快速源
一.源文件位置备份并替换/etc/apt/sources.list的源内容: 二.更改源文件内容 sudo vi /etc/apt/sources.list deb http://mirrors.a ...
mac系统及xcode使用的SVN客户端安装升级
当前的SVN版本已经升级到1.8.x了,但mac系统自带的以及xcode使用的SVN客户端版本没有跟着升级,还是1.6.x的版本.为了解决隐藏目录.svn只在根目录下存在的情况,至少要升级到1.7.x ...
SQL Server 2012 安装图解教程
在安装微软最新数据库SQL Server 2012之前,编者先确定一下安装环境:Windonws 7 SP1,32位操作系统.CPU是2.1GHz赛扬双核T3500,内存2.93GB 安装SQL Se ...
Hadoop2.5.0 搭建实录
目录: 第一步:准备相关材料第二步:虚拟机环境搭建第三步:用户信息第四步安装.配置Java环境第五步 Zookeeper安装配置第六步 Hadoop安装.配置第七步:HBase安装部署 ...
vs配置boost库
步骤: 1.在boost官网下载boost版本,以1.59.0为例. 2.解压,解压后可看到文件夹下有个bootstrap.bat文件. 注意: 如果有以下error: 'cl' 不是内部或外部命令, ...
Linux下java进程CPU占用率高分析方法
Linux下java进程CPU占用率高分析方法在工作当中,肯定会遇到由代码所导致的高CPU耗用以及内存溢出的情况.这种情况发生时,我们怎么去找出原因并解决. 一般解决方法是通过top命令找出消耗资源 ...
ListView中动态显示和隐藏Header&Footer
ListView的模板写法 ListView模板写法的完整代码: android代码优化----ListView中自定义adapter的封装(ListView的模板写法) 以后每写一个ListView ...
第50课关于对话框(About)
1. 关于对话框 (1)标准的桌面应用软件都有一个关于对话框 (2)关于对话框用于标识软件自身的信息.如logo.项目名.版本号.开发者信息.版权信息.联系方式等. 2. 经典设计方案 3. 项目持续 ...

10 行 Python 代码写的模糊查询

10 行 Python 代码写的模糊查询的更多相关文章

随机推荐

热门专题