(转)对Lucene PhraseQuery的slop的理解

所谓PhraseQuery，就是通过短语来检索，比如我想查“big car”这个短语，那么如果待匹配的document的指定项里包含了"big car"这个短语，这个document就算匹配成功。可如果待匹配的句子里包含的是“big black car”，那么就无法匹配成功了，如果也想让这个匹配，就需要设定slop，先给出slop的概念：slop是指两个项的位置之间允许的最大间隔距离，下面我举例来解释：

我的待匹配的句子是：the quick brown fox jumped over the lazy dog.

例1： 如果我想用“quick fox”来匹配出上面的句子，我发现原句里是quick [brown] fox，就是说和我的“quick fox”中间相差了一个单词的距离，所以，我这里把slop设为1，表示quick和fox这两项之间最大可以允许有一个单词的间隔，这样所有“quick [***] fox”就都可以被匹配出来了。

例2：如果我想用“fox quick”来匹配出上面的句子，这也是可以的，不过比例1要麻烦，我们需要看把“fox quick”怎么移动能形成“quick [***] fox”，如下表所示，把fox向右移动3次即可：

	fox	quick
1		fox\|quick
2		quick	fox
3		quick		fox

例3：如果我想用“lazy jumped quick”该如何匹配上面的句子呢？这个比例2还要麻烦，我们要考虑3个单词，不管多少个单词，slop表示的是间隔的最大距离，详细起见，我们分别来看每种组合：(我的待匹配的句子是：the quick brown fox jumped over the lazy dog.)

lazy jumped:原句是jumped [over] [the] lazy，就是说它们两个之间间隔了2个词,如下所示：需要把lazy向右移动4位

	lazy	jumped
1		lazy\|jumped
2		jumped	lazy
3		jumped		lazy
4		jumped			lazy

lazy jumped quick：我们主要看lazy和quick，但是由于jumped是在中间，所以移动的时候还是要把jumped考虑在内，原句里lazy和quick的关系是：quick [brown] [fox] [jumped] [over] [the] lazy ，quick lazy中间间隔了5个词，所以如下图所示，把lazy向右移动8次

	lazy	jumped	quick
1		lazy\|jumped	quick
2		jumped	lazy\|quick
3		jumped	quick	lazy
4		jumped	quick		lazy
5		jumped	quick			lazy
6		jumped	quick				lazy
7		jumped	quick					lazy
8		jumped	quick						lazy

最后是jumped qucik，这里不详细画表格了，大家可以自己试试，应该是把jumped向右移动4次。

综合以上3种情况，所以我们需要把slop设为8才令“lazy jumped quick”可以匹配到原句。

OK，就到这里吧，希望对大家有帮助，如果我理解有误，也请指出，谢谢~

首先，强调一下PhraseQuery对象，这个对象不属于跨度查询类，但能完成跨度查询功能。

匹配到的文档所包含的项通常是彼此相邻的，考虑到原文档中在查询项之间可能有一些中间项，或为了能查询倒排的项，PhraseQuery设置了slop因子，但是这个slop因子指2个项允许最大间隔距离，不是传统意义上的距离，是按顺序组成给定的短语，所需要移动位置的次数，这表示PhraseQuery是必须按照项在文档中出现的顺序计算跨度的，如quick brown fox为文档，则quick fox2个项的slop为1，quick向后移动一次.而fox quick需要quick向后移动3次，所以slop为3

其次，来看一下SpanQuery的子类SpanTermQuery。

它能跨度查询，并且不一定非要按项在文档中出现的顺序，可以用一个独立的标记表示查询对象必须按顺序，或允许按倒过来的顺序完成匹配。匹配的跨度也不是指移动位置的次数，是指从第一个跨度的起始位置到最后一个跨度的结束位置。

在SpanNearQuery中将SpanTermQuery对象作为SpanQuery对象使用的效果，与使用PharseQuery的效果非常相似。在SpanNearQuery的构造函数中的第三个参数为inOrder标志，设置这个标志，表示按项在文档中出现的顺序倒过来的顺序。

如:the quick brown fox jumps over the lazy dog这个文档

public void testSpanNearQuery() throws Exception{

           SpanQuery[] quick_brown_dog=new SpanQuery[]{quick,brown,dog};

           SpanNearQuery snq=new SpanNearQuery(quick_brown_dog,,true);//按正常顺序,跨度为0,对三个项进行查询

           assertNoMatches(snq);//无法匹配

           SpanNearQuery snq=new SpanNearQuery(quick_brown_dog,,true);//按正常顺序,跨度为4,对三个项进行查询

           assertNoMatches(snq);//无法匹配

           SpanNearQuery snq=new SpanNearQuery(quick_brown_dog,,true);//按正常顺序,跨度为5,对三个项进行查询

           assertOnlyBrownFox(snq);//匹配成功    

           SpanNearQuery snq=new SpanNearQuery(new SpanQuery[]{lazy,fox},,false);//按相反顺序,跨度为3,对三个项进行查询

           assertOnlyBrownFox(snq);//匹配成功   

           //下面使用PhraseQuery进行查询，因为是按顺序，所以lazy和fox必须要跨度为5

           PhraseQuery pq=new PhraseQuery();

           pq.add(new Term("f","lazy"));

           pq.add(new Term("f","lazy"));

           pq.setslop();

           assertNoMatches(pq);//跨度4无法匹配

           //PharseQuery,slop因子为5

           pq.setSlop();

           assertOnlyBrownFox(pq);          

      }

3.PhrasePrefixQuery 主要用来进行同义词查询的：

IndexWriter writer = new IndexWriter(directory, new WhitespaceAnalyzer(), true);

    Document doc1 = new Document();

    doc1.add(Field.Text("field", "the quick brown fox jumped over the lazy dog"));

    writer.addDocument(doc1);

    Document doc2 = new Document();

    doc2.add(Field.Text("field","the fast fox hopped over the hound"));

    writer.addDocument(doc2);

    PhrasePrefixQuery query = new PhrasePrefixQuery();

    query.add(new Term[] {new Term("field", "quick"), new Term("field", "fast")});

    query.add(new Term("field", "fox"));

    Hits hits = searcher.search(query);

    assertEquals("fast fox match", , hits.length());

    query.setSlop();

    hits = searcher.search(query);

    assertEquals("both match", , hits.length());

(转)对Lucene PhraseQuery的slop的理解的更多相关文章

对Lucene PhraseQuery的slop的理解[转载]
所谓PhraseQuery,就是通过短语来检索,比如我想查“big car”这个短语,那么如果待匹配的document的指定项里包含了"big car"这个短语,这个documen ...
lucene 3.0.2 操作进阶
转自:Bannings http://blog.csdn.net/zhangao0086/article/details/ Analyzer(分词器) 分词器能以某种规则对关键字进行分词,将分好的词放 ...
Lucene打分规则与Similarity模块详解
搜索排序结果的控制 Lucnen作为搜索引擎中,应用最为广泛和成功的开源框架,它对搜索结果的排序,有一套十分完整的机制来控制:但我们控制搜索结果排序的目的永远只有一个,那就是信息过滤,让用户快速,准确 ...
Lucene.Net 2.3.1开发介绍 —— 三、索引（一）
原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(一) 在说索引之前,先说说索引是什么?为什么要索引?怎么索引? 先想想看,假如现在有一个文本,我们会怎么去搜索.比如,有一个string ...
lucene 中关于Store.YES 关于Store.NO的解释
总算搞明白 lucene 中关于Store.YES 关于Store.NO的解释了一直对Lucene Store.YES不太理解,网上多数的说法是存储字段,NO为不存储. 这样的解释有点郁闷:字面意 ...
在Elasticsearch中查询Term Vectors词条向量信息
这篇文章有点深度,可能需要一些Lucene或者全文检索的背景.由于我也很久没有看过Lucene了,有些地方理解的不对还请多多指正. 更多内容还请参考整理的ELK教程关于Term Vectors 额, ...
Solr的一些查询参数
fl: 是逗号分隔的列表,用来指定文档结果中应返回的 Field 集.默认为 “*”,指所有的字段. defType: 指定query parser,常用defType=lucene, defType ...
（转）ElasticSearch学习
(二期)21.全文搜索引擎Elasticsearch [课程21]elasticsearch.xmind82.1KB [课程21]lucene.xmind0.8MB [课程21]基本用法....api ...
Solr中的一些查询参数
fl: 是逗号分隔的列表,用来指定文档结果中应返回的 Field 集.默认为 “*”,指所有的字段. defType: 指定query parser,常用defType=lucene, defType ...

随机推荐

ASCII字符集中的功能/控制字符
ASCII字符集中的功能/控制字符 Function/Control Code/Character in ASCII Version: 2011-02-15 Author: gree ...
【Postgresql】数据库函数
1.Postgresql查询前几条记录的SQL语句 select * from table where ...... LIMIT N ; 2.SQL limit integer offset int ...
（转）什么是“黑客” by 王珢
什么是“黑客” by 王垠很多程序员自豪的把自己叫做“黑客”(hacker),把编程叫做 hack.可是殊不知,其实在最高级的程序员眼里,“黑客”其实是一个贬义词.他们更愿意被叫做“程序员”(prog ...
Node学习思维导图
如果看不清楚图片上的内容,右键保存图片或新窗口打开.
zend studio8编辑器乱码问题解决办法
截图一张:
Python模块之day4
模块,代码归类实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能需要多个函数才能 ...
快速安装Percona pt工具
yum install perl-DBI perl-DBD-MySQL perl-Time-HiRes perl-Time-HiRes perl-IO-Socket-SSLwget http://pk ...
发布一个自用的ansi转utf8程序
前几天网上下载了一个国外的源码示例,布署到IIS上,查看网页中文显示乱码,各种不方便,你懂的. 用记事本打开文件,显示是ANSI格式,另存为UTF8格式,保存,再查看页面就正常显示中文了. 文件好多, ...
安卓自定义AlertDialog对话框(加载提示框)
AlertDialog有以下六种使用方法: 一.简单的AlertDialog(只显示一段简单的信息) 二.带按钮的AlertDialog(显示提示信息,让用户操作) 三.类似ListView的Aler ...
DPC和ISR的理解
首先来说中断计算机的中断分为软中断和硬中断,即IRQL和DIRQL,共32个级别,从0~31级别依次提升,0~2属于软中断一般线程运行于PASSIVE_LEVEL级别,如果不想在运行时切换到其他线 ...

(转)对Lucene PhraseQuery的slop的理解

(转)对Lucene PhraseQuery的slop的理解的更多相关文章

随机推荐

热门专题