简单易用的字符串模糊匹配库Fuzzywuzzy

阅读目录

FuzzyWuzzy 简介

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法计算两个序列之间的差异。

Levenshtein Distance 算法，又叫 Edit Distance 算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

项目地址：https://github.com/seatgeek/fuzzywuzzy

环境依赖

Python 2.7 以上
difflib
python-Levenshtein（可选, 在字符串匹配时可提供4-10x 的加速, 但在某些特定情况下可能会导致不同的结果）

支持的测试工具

pycodestyle
hypothesis
pytest

安装

使用 PIP 通过 PyPI 安装

    pip install fuzzywuzzy

or the following to install python-Levenshtein too

    pip install fuzzywuzzy[speedup]

使用 PIP 通过 Github 安装

    pip install git+git://github.com/seatgeek/fuzzywuzzy.git@0.17.0#egg=fuzzywuzzy

或者添加你的 requirements.txt 文件 (然后运行 pip install -r requirements.txt)

    git+ssh://git@github.com/seatgeek/fuzzywuzzy.git@0.17.0#egg=fuzzywuzzy

使用 GIT 手工安装

    git clone git://github.com/seatgeek/fuzzywuzzy.git fuzzywuzzy

    cd fuzzywuzzy

    python setup.py install

用法

全匹配

fuzz.ratio()对位置敏感：

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.ratio("this is a test", "this is a test!"))

运行结果：

C:\Pycham\anaconda\lib\site-packages\fuzzywuzzy\fuzz.py:11: UserWarning: Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning

  warnings.warn('Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning')

97

1.报错显示我们需要安装python-Levenshtein库

2.当我安装python-Levenshtein时又报错：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"

3.提示让我安装Microsoft Visual C++ Build Tools，第一种方法安装Microsoft Visual C++ Build Tools，我总不能为了安装一个库去安装一个编译器吧，第二种方法去https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站下找到对应版本的python-Levenshtein并下载。cp对应python版本号，amd后面对应计算机位数。

4.安装

非完全匹配（Partial Ratio）

fuzz.partial_ratio()对位置敏感：

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.partial_ratio("this is a test", "this is a test!"))

运行结果：

忽略顺序匹配（Token Sort Ratio）

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear"))

print(fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear"))

运行结果：

91

100

fuzz._process_and_sort(s, force_ascii, full_process=True)

对字符串s排序。force_ascii:True 或者False。为True表示转换为ascii码。如果full_process为True，则会将字符串s转换为小写，去掉除字母和数字之外的字符（发现不能去掉-字符），剩下的字符串以空格分开，然后排序。如果为False，则直接对字符串s排序。

fuzz._token_sort(s1, s2, partial=True, force_ascii=True, full_process=True)

给出字符串 s1, s2的相似度。首先经过 fuzz._process_and_sort（）函数处理。partial为True时，再经过fuzz.partial_ratio（）函数。partial为False时，再经过fuzz.ratio（）函数。

so:

fuzz._token_sort(s1, s2, partial=True, force_ascii=True, full_process=True)

partial为True时：

fuzz.partial_token_sort_ratio(s1, s2, force_ascii=True, full_process=True)

partial为False时：

fuzz.token_sort_ratio(s1, s2, force_ascii=True, full_process=True)

去重子集匹配（Token Set Ratio）

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear"))

print(fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear"))

运行结果：

84

100

so:

fuzz._token_set(s1, s2, partial=True, force_ascii=True, full_process=True)

partial为False时，就是 fuzz.token_set_ratio（）函数。

fuzz.token_set_ratio(s1, s2, force_ascii=True, full_process=True)

当partial为True时，就是 fuzz.partial_token_set_ratio（）函数。

fuzz.partial_token_set_ratio(s1, s2, force_ascii=True, full_process=True)

Process

用来返回模糊匹配的字符串和相似度。

    >>> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]

    >>> process.extract("new york jets", choices, limit=2)

        [('New York Jets', 100), ('New York Giants', 78)]

    >>> process.extractOne("cowboys", choices)

        ("Dallas Cowboys", 90)

你可以传入附加参数到 extractOne 方法来设置使用特定的匹配模式。一个典型的用法是来匹配文件路径:

已知移植

FuzzyWuzzy 已经被移植到其他语言环境，我们已知的有：

Java: xpresso's fuzzywuzzy implementation
Java: fuzzywuzzy (java port)
Rust: fuzzyrusty (Rust port)
JavaScript: fuzzball.js (JavaScript port)
C++: Tmplt/fuzzywuzzy
C#: fuzzysharp (.Net port)
Go: go-fuzzywuzz (Go port)

Refer

https://www.jianshu.com/p/ed22a82b45d1

https://blog.csdn.net/sunyao_123/article/details/76942809

简单易用的字符串模糊匹配库Fuzzywuzzy的更多相关文章

C++实现的字符串模糊匹配
C++基本没有正则表达式功能,当然像Boost里提供了正则.本文来源于博客园园友的一篇文章,请看: C/C++ 字符串模糊匹配很早之前就看过这篇文章,原作者的需求很明确.代码实现也很好. 之所以又写 ...
python 字符串模糊匹配 Fuzzywuzzy
Python提供fuzzywuzzy模块,不仅可用于计算两个字符串之间的相似度,而且还提供排序接口能从大量候选集中找到最相似的句子. (1)安装 pip install fuzzywuzzy (2)接 ...
python模糊匹配之fuzzywuzzy
fuzzywyzzy 是python下一个模糊匹配的模块.首先要安装fuzzywuzzy 示例: from fuzzywuzzy import fuzz from fuzzywuzzy import ...
mybatis字符串模糊匹配
1. 参数中直接加入%%,注意不需要加两个单引号,加了就会出错,因为系统会自动为字符串类型加上两个单引号 <select id="selectPersons" result ...
.NET ->> 分享一个字符串模糊匹配指数的方法
链接: http://www.tsjensen.com/blog/post/2011/05/27/Four+Functions+For+Finding+Fuzzy+String+Matches+In+ ...
SDAutoLayout:比masonry更简单易用的自动布局库
SDAutoLayout:一行代码搞定自动布局!支持Cell和Tableview高度自适应,Label和ScrollView内容自适应,致力于做最简单易用的AutoLayout库. [SDAutoLa ...
HDU 2585 Hotel（字符串的模糊匹配+递归）
Problem Description Last year summer Max traveled to California for his vacation. He had a great tim ...
文本框模糊匹配（纯html+jquery简单实现）
一.项目中需要用到此功能,使用过EasyUI中的Combobox,网上也搜过相应的解决办法,对于我的项目来说都不太合适,因为我还是喜欢比较纯粹的东西,就自己动手写了一个,比较简单,但还算能用,我的项目 ...
mysql 两张表字段模糊匹配--字符串拼接函数
concat(A,B,C,...) 拼接字符串例如concat('123','***','345') =>123***345 SELECT concat( substr(t1.CODE, ...

随机推荐

微服务一键启动脚本shell带有环境变量的
etting####################################################### #程序代码数组APPS=(cAssistantbussiness cAssi ...
云服务器 ECS 是什么？
云服务器 Elastic Compute Service(ECS)是阿里云提供的一种基础云计算服务.使用云服务器 ECS 就像使用水.电.煤气等资源一样便捷.高效.您无需提前采购硬件设备,而是根据业务 ...
Linux之bzip2命令
命令格式: bzip2 [-cdz] 档名参数: -d :解压缩的参数 -z :压缩的参数 -num 用指定的数字num调整压缩的速度,-1或--fast表示最快压缩方法(低压缩比),-9或--be ...
centos6密钥验证
密钥验证: 公钥(服务器上)私钥(客户端)在远程登录软件上可生成SSH密钥对.在服务器上建目录.SSH 再在其中建文件authorized_keys,复制公钥到服务器上此文件中. (1)selinux ...
解决oracle 物化视图刷新失败
oracle 物化视图刷新失败可能原因: 1.视图未建立物化视图日志 2.基表为授权给用户 1.物化视图语法 create materialized view [view_name] refresh ...
2019.06.05 ABAP EXCEL 操作类代码 OLE方式（模板下载，excel上传，内表下载）
一般使用标准的excel导入方法9999行,修改了标准的excel导入FM 整合出类:excel的模板下载,excel上传,ALV内表下载功能. 在项目一开始可以SE24创建一个类来供整体开发使用, ...
Linux安装Vmware Tools/vmtools（通用）
以下方法适用于centos/Ubuntu #新建一个临时目录,用于挂载光驱 mkdir /tmp/cdrom mount -t iso9660 /dev/cdrom /tmp/cdrom cp -r ...
[笔记] 使用frp从外网访问内网
之前尝试过otunnel,也记录过使用方法,见[笔记] 使用otunnel从外网访问内网,但是用了几天发现还是不够稳定. 然后尝试frp,发现性能稳定,够用,将过程及配置分享在这里吧. 需求内网机器 ...
在使用DapperExtensions时遇到"其他信息: ConnectionString 属性尚未初始化。"错误
今天在使用在使用DapperExtensions时遇到"其他信息: ConnectionString 属性尚未初始化."错误. //return conn.GetList<T ...
隐蔽的bean没有定义错误：No bean named 'SysJdTypeServiceImpl' is defined
org.springframework.beans.factory.NoSuchBeanDefinitionException: No bean named 'SysJdTypeServiceImpl ...

简单易用的字符串模糊匹配库Fuzzywuzzy

阅读目录

FuzzyWuzzy 简介

环境依赖

安装

使用 PIP 通过 PyPI 安装

使用 PIP 通过 Github 安装

使用 GIT 手工安装

用法

全匹配

非完全匹配（Partial Ratio）

忽略顺序匹配（Token Sort Ratio）

去重子集匹配（Token Set Ratio）

Process

已知移植

简单易用的字符串模糊匹配库Fuzzywuzzy的更多相关文章

随机推荐

热门专题