lucene查询解析器语法

注意：使用QueryParser查询，关键词是会被分词的，如果不需要分词，可以选择使用Lucene提供的API查询类。

Lucene提供了丰富的API来组合定制你所需要的查询器，同时也可以利用Query Parser提供的强大的查询语法解析来构造你想要的查询器。本文章详细的介绍了Lucene的查询语法。通过Java语法分析器把一个查询字符串解析成 Lucene的查询器。在你选择使用Query Parser前，请考虑以下事项：

如果你打算在程序中拼接查询语法串然后再利用Query Parser转换，那么强烈建议你利用相应的API来自己构造查询器。也就是说，Query Parser是为手工输入高级查询设计的，而不是为程序拼接语法串而设计的。不分词的字段也最好通过相应的API添加到查询器中，而不是通过Query Parser。Query Parser 使用的Analyser分析器，作用是将用户手工输入的文本转化为相应的Term。如果一个字段的值是通过程序生成的（例如日期字段，关键词字段等），那么在查询的时候也应该保持前后一致，利用程序生成相应的格式来查询。

在查询的目标中，如果字段全部是程序生成的文本，（例如补齐的日期字段等），最好使用Query Parser以便查询的时候也是一致的格式。至于其它的，例如日期范围查询，关键字查询等，最好调用相应的API来构建查询器。目标字段中如果仅仅拥有有限的枚举值时，最好通过下拉列表提供给用户选择，然后利用TermQuery添加到查询器中，而不是而其拼接到查询字符串然后利用Query Parser来解析。

Terms
一个查询将分解为若干Term以及操作符，有两种Term，其一是单一Term，其二为短语。单一Term是经过分析器分词后的最小单元，他就是一个简单的词，例如“Test”和“Hello”。短语则是一组被双引号括起来的一组词，例如：“Hello dolly”，多个Term可以通过布尔操作合并在一个更加复杂的查询器中。
注意：一般来说，创建索引的分析器和查询的分析器最好保持一致（当然也有特殊情况，比如单字索引，分词组合查询），所以选择一个不会干扰查询词的分析器是很重要的。

Fields
Lucene支持多字段数据，当你在查询的时候你可以指定一个字段查询，也可以使用默认的字段。你可以使用字段名 + “：” + 查询词来指定字段名搜索。举个例子，让我们假定Lucene的索引中含有两个字段，Title字段和Text字段，其中Text字段是默认字段，当你想找到一篇文档其中标题包含“The Right Way”同时文本中包含“go”，你可以输入：
title:"The Right Way" AND text:go
或者：
title:" The Right Way " AND go
如果字段是默认字段的话，在查询语法中可以不需要显式指定。注意，使用默认字段有可能会造成如下的结果：
title:Do it right
以上查询将查找标题中含有“Do”，Text字段字段中含有“it”和“right”的文档，因为Text是默认字段，所以如果想要查找Title中完整包含的很用引号引起来。

二、模糊查询
Term Modifiers
Lucene支持在Term中使用通配符来支持模糊查询。

Wildcard Searches [类：org.apache.lucene.search.WildcardQuery]
Lucene支持单个或者多个字符的通配符查询，匹配单一字符使用符号“?”，匹配多个字符使用符号“*”。
“?”通配符将查找所有满足通过一个字符替换后符合条件的文档。比如：搜索“test”和“text”你可以使用：
te?t
“*”通配符将查询0个或者多个字符替换后符合条件的。举例来说，查询test，tests或者tester，你可以使用一下字符串来搜索：
test*
当然，你也可以将“*”放在字符的中间
te*t
注意：你不能将“*”和“?”放在第一个字符来查询。（Lucene应该是出于性能考虑，所以不支持该功能）

Fuzzy Searches [org.apache.lucene.search.FuzzyQuery]
Lucene支持基于编辑距离算法的模糊搜索，你可以使用波浪符号“~”放在查询词的后面，比如搜索一个与“roam”拼写相近的词可以使用：
roam~
该查询将寻找类似“foam”和“roams”等的词语。也可以说是相似度查询。

Proximity Searches [org.apache.lucene.search.PrefixQuery]
Lucene支持指定距离查询，你可以使用波浪号“~”加数字在查询词后。举例来说搜索“apache”和“jakarta”距离10个字符以内，你可以使用如下语法：
"jakarta apache"~10
通过这个语法支持，我们可以单字索引，分词查询，分词完后，满足每个词的单字必须间距为1。这样可以保证100%的召回率，但是在索引方面将造成索引臃肿，同时查询速度也将在某程度上降低，一般来说，在150W文章数据到200W数据的时候性能将会明显的降低。

Range Searches [org.apache.lucene.search.RangeQuery]
范围查询允许你指定某个字段最大值和最小值，查询在二者之间的所有文档。范围查询可以包含或者不包含最大值和最小值，排序是按照字典顺序来排序的。
mod_date:[20020101 TO 20030101]
这个将查找满足mode_date字段在大于等于20020101，小于等于20030101范围的所有文档，注意：范围查询并不是为日期字段专设的，你也可以对非日期字段进行范围查询。
title:{Aida TO Carmen}
这个将查找所有标题在Aida和Carmen之间但不包含Aida和Carmen的文档。包含最大值和最小值的查询使用方括号，排除则使用花括号。

三、优先级
Boosting a Term
Lucene支持给不同的查询词设置不同的权重。设置权重使用“^”符号，将“^”放于查询词的尾部，同时跟上权重值，权重因子越大，该词越重要。设置权重允许你通过给不同的查询词设置不同的权重来影响文档的相关性，假如你在搜索：
jakarta apache
如果你认为“jakarta”在查询时中更加重要，你可以使用如下语法：
jakarta^4 apache
这将使含有Jakarta的文档具有更高的相关性，同样你也可以给短语设置权重如下：
"jakarta apache"^4 "jakarta lucene"
在默认情况下，权重因子为1，当然权重因子也可以小于1。

四、Term操作符
Boolean operators
布尔操作符可以将多个Term合并为一个复杂的逻辑查询。Lucene支持AND，
+，OR，NOT， -作为操作符号。注意，所有的符号必须为大写。

OR
OR操作符默认的连接操作符。这意味着，当没有给多个Term显式指定操作符时，将使用OR，只要其中一个Term含有，则可以查询出文档，这跟逻辑符号||的意思相似。假设我们查询一个文档含有“jakarta apache”或者“jakarta”时，我们可以使用如下语法：
"jakarta apache" jakarta
或者
"jakarta apache" OR jakarta

AND
AND操作符规定必须所有的Term都出现才能满足查询条件，这跟逻辑符号&&意思相似。如果我们要搜索一个文档中同时含有“jakarta apache”和“jakarta lucene”，我们可以使用如下语法：
"jakarta apache" AND "jakarta lucene"

+
+操作符规定在其后的Term必须出现在文档中，也就是查询词中的MUST属性。举个例子来说，当我们要查询一个文档必须包含“jakarta”，同时可以包含也可以不包含“lucene”时，我们可以使用如下语法：
+jakarta apache

NOT
NOT操作符规定查询的文档必须不包含NOT之后的Term，这跟逻辑符号中的!相似。当我们要搜索一篇文档中必须含有“jakarta apache”同时不能含有“Jakarta lucene”时，我们可以使用如下查询；
"jakarta apache" NOT "jakarta lucene"
注意：NOT操作符不能使用在单独Term中，举例来说，以下查询将返回无结果：
NOT "jakarta apache"

-
-操作符排除了包含其后Term的文档，跟NOT有点类似，假设我们要搜索“Jakarta apache”但不包含“Jakarta lucene”时，我们使用如下语法：
"jakarta apache" -"jakarta lucene"

Grouping
Lucene支持使用圆括号来将查询表达式分组，这将在控制布尔控制查询中非常有用。举例来说：当搜索必须含有“website”，另外必须含有“jakarta”和“apache”之一，我们可以用如下语法：
(jakarta OR apache) AND website
这种语法对消除歧义，确保查询表达式的正确性具有很大的意义。

Field Grouping
Lucene支持对字段用圆括号来进行分组，当我们要查询标题中含有“return”和“pink ranther”时，我们可以使用如下语法：
title:(+return +"pink panther")

Escaping Special Characters
Lucene支持转义查询中的特殊字符，以下是Lucene的特殊字符清单：
+ - && || ! ( ) { } [ ] ^ " ~ * ? : \
转义特殊字符我们可以使用符号“\”放于字符之前。比如我们要搜索(1+1):2，我们可以使用如下语法：
\(1\+1\)\:2

Tips: QueryParser.escape(q) 可转换q中含有查询关键字的字符！如：* ,? 等

英文原文地址：http://lucene.apache.org/java/2_4_0/queryparsersyntax.html

修改自：http://hi.baidu.com/expertsearch/blog/item/8d4f7d355a2e413c5ab5f547.html

转自：https://www.oschina.net/question/1092_560

lucene查询解析器语法的更多相关文章

Solr搜索解析及查询解析器用法概述
一.简介大多数查询都使用了标准的Solr语法.这种语法是Solr最常见的,由默认查询解析器负责处理.Solr的默认查询解析器是Lucene查询解析器[LuceneQParserPlugin类实现] ...
Solr查询配置及优化【eDisMax查询解析器】
一.简介 Lucene查询解析器语法支持创建任意复杂的布尔查询,但还有一些缺点,它不是用户查询处理的理想解决方案.这里面最大的问题是Lucene查询解析器的语法要求严格,一旦破坏就会抛出异常.指望用户 ...
Solr Dismax查询解析器-深入分析
Solr 支持多种查询解析,给搜索引擎开发人员提供灵活的查询解析.Solr 中主要包含这几个查询解析器:标准查询解析器.DisMax 查询解析器,扩展 DisMax 查询解析器(eDisMax) Di ...
solr 查询解析器
定义查询解析器用于将查询语句(q参数)解析成搜索语法. 默认解析器:lucene Solr在查询的时候,用到了QueryParser对用户输入做解析,solr默认使用的解析器是lucene,被称之为 ...
kotlin 写的一个简单 sql 查询解析器
package com.dx.efuwu.core import org.apache.commons.lang.StringUtils import java.sql.PreparedStateme ...
Solr系列五：solr搜索详解（solr搜索流程介绍、查询语法及解析器详解）
一.solr搜索流程介绍 1. 前面我们已经学习过Lucene搜索的流程,让我们再来回顾一下流程说明: 首先获取用户输入的查询串,使用查询解析器QueryParser解析查询串生成查询对象Query ...
query_string查询支持全部的Apache Lucene查询语法低频词划分依据模糊查询 Disjunction Max
3.3 基本查询3.3.1词条查询词条查询是未经分析的,要跟索引文档中的词条完全匹配注意:在输入数据中,title字段含有Crime and Punishment,但我们使用小写开头的crime来搜 ...
lucene查询索引之QueryParser解析查询——（八）
0.语法介绍:
在.NET Core中使用Irony实现自己的查询语言语法解析器
在之前<在ASP.NET Core中使用Apworks快速开发数据服务>一文的评论部分,.NET大神张善友为我提了个建议,可以使用Compile As a Service的Roslyn为语 ...

随机推荐

WebForm与MVC混用 (转)
http://blog.csdn.net/leftfist/article/details/11591231
Mybatis学习笔记(一) —— mybatis介绍
一.Mybatis介绍 MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,并且改名 ...
win10 cmd 替换 powershell
打开注册表编辑器,定位至: \HKEY_CLASSES_ROOT\Directory\Background\shell\Powershell\command cmd: cmd.exe /s /k p ...
读经典——《CLR via C#》(Jeffrey Richter著) 笔记_方法执行
[前言] 方法执行前,CLR 会检测方法内代码引用的所有类型.同时 CLR 会分配一个内部数据结构,用来管理对所有引用的类型的访问. 首次执行方法时,托管程序集会把 IL 转换成本地 CPU 指令,并 ...
[CF1051F]The Shortest Statement （LCA+最短路）（给定一张n个点m条有权边的无向联通图，q次询问两点间的最短路）
题目:给定一张n个点m条有权边的无向联通图,q次询问两点间的最短路 n≤100000,m≤100000,m-n≤20. 首先看到m-n≤20这条限制,我们可以想到是围绕这个20来做这道题. 即如果我们 ...
Codeforces Round #529 (Div. 3) C. Powers Of Two
http://codeforces.com/contest/1095/problem/C 题意:给n找出k个2的幂,加起来正好等于n.例如 9,4:9 = 1 + 2 + 2 + 4 思路:首先任何数 ...
服务器运行两个或两个以上的tomcat
一:解决方法转载: https://www.cnblogs.com/xiaobai1226/p/7662392.html 二:解决方法将tocmat下 bin---->tomcat8w.e ...
Lonsdor K518ISE Key Programmer Review
Lonsdor K518ISE key programmer is the latest version of Lonsdor, with wider vehicle coverage in key ...
js input复选框选中父级同时子级也选中
js实现复选框选中父级元素子级元素也选中,没有子级元素选中父级也不选中的效果 HTML <tr> <td> <label> <input name=" ...
mapreduce求平均数
1. 现有某电商关于商品点击情况的数据文件,表名为goods_click,包含两个字段(商品分类,商品点击次数),分隔符“ ”,由于数据很大,所以为了方便统计我们只截取它的一部分数据,内容如下 ...

lucene查询解析器语法

lucene查询解析器语法的更多相关文章

随机推荐

热门专题