solr 通过【配置、多值字段、动态字段】来解决文本表达式查询精确到句子的问题

一、Solr Multivalue field属性positionIncrementGap理解

分类：Lucene

2014-01-22 10:39阅读(3596)评论(0)

参考：http://rockiee281.blog.163.com/blog/static/19385222920127225619919/

Solr里头可以设计Field为Multivalue类型，这样的一个好处是可以很方便的设置copyField，在我们的项目中也有使用。

但是一直以来都有一个问题困扰着我，就是对multivalue里头多个值域的搜索问题。多个value之间我认为应该是保持相互独立的，但是在实际搜索中感觉solr把所有的值域都串在一起，当作一个长value来处理，没有达到我想要的效果。后来通过搜索，我发现solr的field type中有一个positionIncrementGap字段，

，在网上看到一段讨论：http://lucene.472066.n3.nabble.com/positionIncrementGap-in-schema-xml-td488338.html。其中有人举了一个例子：

一看之下大喜过望，这不是就是我想要的效果么马上去翻我solr的schema.xml的配置，一看我就凉了：

</tokenizer>

</analyzer>

</tokenizer>

</analyzer>

</fieldtype>

居然之前已经配置过了！！！那就是这个配置没有生效，是什么造成的呢？因为我没有使用solr自己的standardTokenizerFactory，而是为了中文分词使用了MMSeg4J的类，我就把怀疑的目光放到了MMSeg4J身上。检查了MMSegTokenizerFactory的源代码，发现里头木有对positionIncrementGap的处理，以为问题出在这里，但是在深入对比MMSegTokenizerFactory和StandardTokenizerFactory及相关的代码类之后，感觉问题不应该出在建立索引的环节。

之后就是搜了一堆的资料，了解了positionIncrementGap这个字段的含义，其作用就是在对Multivalue Field进行处理的时候，给两个field中相隔的词人为的插入一段固定的distance，然后在使用Lucene/Solr做Phrase query的时候，如果没有指定Slop(对slop的介绍，可以参考:http://blog.csdn.net/rick_123/article/details/6708527)，会默认Slop为0，即查询的短语之间应该紧紧挨着，这样对很多情况下都得不到用户想要的结果。解决的办法就是使用phrase query，同时设置一个适当的Slop值，然后为了不让lucene的搜索跨越多个Field Value，设置一个远大于slop的positionIncrementGap，就可以达到目标。在这里不用担心positionIncrementGap设置过大会影响效率，尽情的设吧……

既然了解positionIncrementGap的含义，问题就一目了然，楼主为了查询的方便，使用自定的QueryParser替换了Solr自己默认的，将Phrase search改为了BooleanSearch，所以实际上导致了positionIncrementGap的失效。解决办法就是将BooleanSearch改为MultiPhraseQuery，同时调用MultiPhraseQuery.setSlop(int slop)方法设置slop为50（经验值，根据索引的数据设定，只要远小于positionIncrementGap即可）。测试ok达到效果！

二、多值字段 针对多值字段，查询表达式仍然会被拆分为一个一个的关键词，然后去跨句子去匹配。

三、动态字段 针对动态字段，查询表达式可以精确查到句子，但是不能确保通配查询。

solr 通过【配置、多值字段、动态字段】来解决文本表达式查询精确到句子的问题的更多相关文章

SQL Server 动态行转列（参数化表名、分组列、行转列字段、字段值）
一.本文所涉及的内容(Contents) 本文所涉及的内容(Contents) 背景(Contexts) 实现代码(SQL Codes) 方法一:使用拼接SQL,静态列字段: 方法二:使用拼接SQL, ...
mysql 动态拼接表字段，值 mybatis 动态获取表字段
-- 取表所有字段,自动用逗号分开 select GROUP_CONCAT(DISTINCT COLUMN_NAME) from information_schema.columns where ta ...
mysql 之编码配置、引擎介绍、字段操作、数据类型及约束条件
数据库的配置 # 通过配置文件统一配置的目的: 统一管理服务端(mysqld) 客户端(client) 配置了mysqld(服务端)的编码为utf8, 那么再创建的数据库,默认编码都采用utf8. ...
mybatis操作动态表+动态字段+存储过程
存储过程 statementType="CALLABLE"  <update id="getCalcDistributo ...
sap 动态字段的使用
1.sap中的动态字段其实类似c#里面的指针,都是指向的地址. 只是写法不同,sap 中的field-symbols就是类似指针. , b TYPE i. FIELD-SYMBOLS <fs&g ...
Vue 利用后端的数据字典和Map对象实现表格列字段动态转义的处理方案
1.前言 Vue中,使用el-table组件,经常遇到列字段转义的问题.常规处理方法有以下两种: 方法1:在模板中使用v-if,直接转义.如: <el-table-column label= ...
C# 禁止修改已装箱了的值类型的字段值，但是可以通过接口的方式实现
C# 默认是不能修改已装箱了的值类型中字段的值,但是可以通过值类型实现指定的接口来改变首先定义一个接口 interface IChange { void Change(int a, int b); ...
【mybatis】mybatis自定义动态字段查询，mybatis实现动态字段查询，如果某个条件为null，则不查询某个字段，否则就查询某个字段
mybatis实现动态字段查询,如果某个条件为null,则不查询某个字段,否则就查询某个字段先看一下怎么实现动态的自定义字段查询: 例如: 而field 就是数据表中的某一个字段 String f ...
PHP使用array_filter查找二维数组中符合字段和字段值的数据集合
1.方法: /** * 获取符合字段和字段值的数组集合 * @param array $data 待过滤数组 * @param string $field 要查找的字段 * @param $value ...

随机推荐

【机器学习算法】bagging算法
参考 1.AdaBoost从原理到实现: 完
DHT11
主机开始发送信号:先拉低至少18ms,然后在拉高20~40us,然后DHT11响应, 拉低数据线40~50us,接着在拉高40~50us,之后再开始输出数据. 输出0是的时序:先12.14us低电平, ...
有道词典安卓版更新日志 - imsoft.cnblogs
手机词典更新日志: 2014年4月23日 v5.0.4版本 · 新增“全球发音”功能,带来世界各国的英文口音,体验原汁原味的英语发音: · 新增“发现频道”,打造移动 ...
long long 与 int
hdu1080 DP（类最长公共子序列）
题意,有两个字符串,分别由四个字母构成,字母之间有不同的相似度,允许在两个字符串都按原顺序排列的情况下进行字母与字母之间的匹配,也可以让字母与空格匹配,即相当于在字符串中间加空格来一一匹配,每个字母与 ...
java反射+java泛型，封装BaseDaoUtil类。供应多个不同Dao使用
当项目是ssh框架时,每一个Action会对应一个Service和一个Dao.但是所有的Ation对应的Dao中的方法是相同的,只是要查的表不一样.由于封装的思想,为了提高代码的重用性.可以使用jav ...
test20180919 递归问题
题意定义 \[ f(n)=\left\{ \begin{array}{} 1 & n=1\\ f(n-f(f(n-1)))+1 & n>1 \end{array} \right ...
How Distributed Outer Joins on PostgreSQL with Citus Work
转自: https://docs.citusdata.com/en/v7.5/articles/outer_joins.html SQL is a very powerful language for ...
Web Js推断键盘出发事件
window.document.onkeydown = disableRefresh; function disableRefresh(evt){ evt = (evt) ? evt : wind ...
div+css 怎么让一个小div在另一个大div里面垂直居中
div+css 怎么让一个小div在另一个大div里面垂直居中方法1: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 .parent { width:800 ...

solr 通过【配置、多值字段、动态字段】来解决文本表达式查询精确到句子的问题

一、Solr Multivalue field属性positionIncrementGap理解

solr 通过【配置、多值字段、动态字段】来解决文本表达式查询精确到句子的问题的更多相关文章

随机推荐

热门专题