简单易用的字符串模糊匹配库Fuzzywuzzy

阅读目录

FuzzyWuzzy 简介

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法计算两个序列之间的差异。

Levenshtein Distance 算法，又叫 Edit Distance 算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

项目地址：https://github.com/seatgeek/fuzzywuzzy

环境依赖

Python 2.7 以上
difflib
python-Levenshtein（可选, 在字符串匹配时可提供4-10x 的加速, 但在某些特定情况下可能会导致不同的结果）

支持的测试工具

pycodestyle
hypothesis
pytest

安装

使用 PIP 通过 PyPI 安装

    pip install fuzzywuzzy

or the following to install python-Levenshtein too

    pip install fuzzywuzzy[speedup]

使用 PIP 通过 Github 安装

    pip install git+git://github.com/seatgeek/fuzzywuzzy.git@0.17.0#egg=fuzzywuzzy

或者添加你的 requirements.txt 文件 (然后运行 pip install -r requirements.txt)

    git+ssh://git@github.com/seatgeek/fuzzywuzzy.git@0.17.0#egg=fuzzywuzzy

使用 GIT 手工安装

    git clone git://github.com/seatgeek/fuzzywuzzy.git fuzzywuzzy

    cd fuzzywuzzy

    python setup.py install

用法

全匹配

fuzz.ratio()对位置敏感：

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.ratio("this is a test", "this is a test!"))

运行结果：

C:\Pycham\anaconda\lib\site-packages\fuzzywuzzy\fuzz.py:11: UserWarning: Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning

  warnings.warn('Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning')

97

1.报错显示我们需要安装python-Levenshtein库

2.当我安装python-Levenshtein时又报错：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"

3.提示让我安装Microsoft Visual C++ Build Tools，第一种方法安装Microsoft Visual C++ Build Tools，我总不能为了安装一个库去安装一个编译器吧，第二种方法去https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站下找到对应版本的python-Levenshtein并下载。cp对应python版本号，amd后面对应计算机位数。

4.安装

非完全匹配（Partial Ratio）

fuzz.partial_ratio()对位置敏感：

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.partial_ratio("this is a test", "this is a test!"))

运行结果：

忽略顺序匹配（Token Sort Ratio）

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear"))

print(fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear"))

运行结果：

91

100

fuzz._process_and_sort(s, force_ascii, full_process=True)

对字符串s排序。force_ascii:True 或者False。为True表示转换为ascii码。如果full_process为True，则会将字符串s转换为小写，去掉除字母和数字之外的字符（发现不能去掉-字符），剩下的字符串以空格分开，然后排序。如果为False，则直接对字符串s排序。

fuzz._token_sort(s1, s2, partial=True, force_ascii=True, full_process=True)

给出字符串 s1, s2的相似度。首先经过 fuzz._process_and_sort（）函数处理。partial为True时，再经过fuzz.partial_ratio（）函数。partial为False时，再经过fuzz.ratio（）函数。

so:

fuzz._token_sort(s1, s2, partial=True, force_ascii=True, full_process=True)

partial为True时：

fuzz.partial_token_sort_ratio(s1, s2, force_ascii=True, full_process=True)

partial为False时：

fuzz.token_sort_ratio(s1, s2, force_ascii=True, full_process=True)

去重子集匹配（Token Set Ratio）

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

print(fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear"))

print(fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear"))

运行结果：

84

100

so:

fuzz._token_set(s1, s2, partial=True, force_ascii=True, full_process=True)

partial为False时，就是 fuzz.token_set_ratio（）函数。

fuzz.token_set_ratio(s1, s2, force_ascii=True, full_process=True)

当partial为True时，就是 fuzz.partial_token_set_ratio（）函数。

fuzz.partial_token_set_ratio(s1, s2, force_ascii=True, full_process=True)

Process

用来返回模糊匹配的字符串和相似度。

    >>> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]

    >>> process.extract("new york jets", choices, limit=2)

        [('New York Jets', 100), ('New York Giants', 78)]

    >>> process.extractOne("cowboys", choices)

        ("Dallas Cowboys", 90)

你可以传入附加参数到 extractOne 方法来设置使用特定的匹配模式。一个典型的用法是来匹配文件路径:

已知移植

FuzzyWuzzy 已经被移植到其他语言环境，我们已知的有：

Java: xpresso's fuzzywuzzy implementation
Java: fuzzywuzzy (java port)
Rust: fuzzyrusty (Rust port)
JavaScript: fuzzball.js (JavaScript port)
C++: Tmplt/fuzzywuzzy
C#: fuzzysharp (.Net port)
Go: go-fuzzywuzz (Go port)

Refer

https://www.jianshu.com/p/ed22a82b45d1

https://blog.csdn.net/sunyao_123/article/details/76942809

简单易用的字符串模糊匹配库Fuzzywuzzy的更多相关文章

C++实现的字符串模糊匹配
C++基本没有正则表达式功能,当然像Boost里提供了正则.本文来源于博客园园友的一篇文章,请看: C/C++ 字符串模糊匹配很早之前就看过这篇文章,原作者的需求很明确.代码实现也很好. 之所以又写 ...
python 字符串模糊匹配 Fuzzywuzzy
Python提供fuzzywuzzy模块,不仅可用于计算两个字符串之间的相似度,而且还提供排序接口能从大量候选集中找到最相似的句子. (1)安装 pip install fuzzywuzzy (2)接 ...
python模糊匹配之fuzzywuzzy
fuzzywyzzy 是python下一个模糊匹配的模块.首先要安装fuzzywuzzy 示例: from fuzzywuzzy import fuzz from fuzzywuzzy import ...
mybatis字符串模糊匹配
1. 参数中直接加入%%,注意不需要加两个单引号,加了就会出错,因为系统会自动为字符串类型加上两个单引号 <select id="selectPersons" result ...
.NET ->> 分享一个字符串模糊匹配指数的方法
链接: http://www.tsjensen.com/blog/post/2011/05/27/Four+Functions+For+Finding+Fuzzy+String+Matches+In+ ...
SDAutoLayout:比masonry更简单易用的自动布局库
SDAutoLayout:一行代码搞定自动布局!支持Cell和Tableview高度自适应,Label和ScrollView内容自适应,致力于做最简单易用的AutoLayout库. [SDAutoLa ...
HDU 2585 Hotel（字符串的模糊匹配+递归）
Problem Description Last year summer Max traveled to California for his vacation. He had a great tim ...
文本框模糊匹配（纯html+jquery简单实现）
一.项目中需要用到此功能,使用过EasyUI中的Combobox,网上也搜过相应的解决办法,对于我的项目来说都不太合适,因为我还是喜欢比较纯粹的东西,就自己动手写了一个,比较简单,但还算能用,我的项目 ...
mysql 两张表字段模糊匹配--字符串拼接函数
concat(A,B,C,...) 拼接字符串例如concat('123','***','345') =>123***345 SELECT concat( substr(t1.CODE, ...

随机推荐

[String.Format(转换时间格式)]
string.Format("{0:d}", System.DateTime.Now); // 2017/6/2; string.Format("{0:D}" ...
TcpSendRcv方法笔记1
if (ns.DataAvailable) return ns.ReadByte(); ns.DataAvailable:获取一个值,该值指示在要读取的 NetworkStream 上是否有可用的数据 ...
JndiObjectFactoryBean 配置数据源
转: JndiObjectFactoryBean 配置数据源 2017年08月29日 22:04:28 病毒先生阅读数:7338 版权声明:本文为博主原创文章,未经博主允许不得转载. https ...
jq 实时监听input输入框的变化
项目需求中有时候需要实时监测 input 的值变化,虽然 input 自身有 focus 和 blur 事件,但是有时候跟需求不符合. 所以实时监听 input 值变化的代码为: $("#i ...
WDS部署Windows server2012初试
通过安装WDS,使用pxe自动部署Windows Server Active Directory详解:https://blog.51cto.com/terryli/141686 1.首先在VM虚拟机上 ...
Very important notes about Spring @Transnational(Srping事务注解 @Transnational重要注意事项）
Sprint @Transnational is being ignored in the following cases: 1. when the caller method is calling ...
springboot子模块 @Autowired无法找到其他模块的接口和类的解决方法
在main的启动类上添加 @SpringBootApplication(scanBasePackages = {"com.shangsheng"})或者@ComponentScan ...
有关face的好文MARK集
Single Stage Headless Face Detector 据说已经超过了tiny face DDFD <Multi-view Face Detection Using Deep C ...
java：Echarts，POI
1.Echarts: demo.js: function demo(selector){ var myEcharts=echarts.init(selector); var option = { ti ...
C学习笔记-结构体与二进制文件增删改查
使用结构体整理数据,然后利用二进制存储文件,这样存储的文件类似于数据库,可以实现文件的增删改查定义结构体 struct student { unsigned int ID; char name[20 ...

简单易用的字符串模糊匹配库Fuzzywuzzy

阅读目录

FuzzyWuzzy 简介

环境依赖

安装

使用 PIP 通过 PyPI 安装

使用 PIP 通过 Github 安装

使用 GIT 手工安装

用法

全匹配

非完全匹配（Partial Ratio）

忽略顺序匹配（Token Sort Ratio）

去重子集匹配（Token Set Ratio）

Process

已知移植

简单易用的字符串模糊匹配库Fuzzywuzzy的更多相关文章

随机推荐

热门专题