Lucene搜索/索引过程笔记

lucene索引文档过程：

> 初始化IndexWriter

> 构建Document

> 调用IndexWriter.addDocument执行写入

    > 初始化DocumentWriter。参数指定写出位置为内存

    > 生成自增段ID

    > 调用DocumentWriter.addDocument(); 执行写入

        > 写出FieldInfos到内存

        > 写出FieldValues到内存

        > 计算词元列表

        > 排序词元列表

        > 写出词元到内存文件

        > 写出归一化变量到内存文件

    > 全局变量segmentInfos添加新增段

    > 增量合并段

> 调用IndexWriter.optimize()优化索引

    > 合并内存中的段并将合并后的段写出到磁盘

    > 如果当前索引里有多个索引，则合并这些索引

> 调用IndexWriter.close()关闭索引

归一化变量是什么？ 干什么用的？

为什么要在searchable接口上放一个rewrite方法？

为什么Weight的创建要用query的createWeight，而不是直接new Weight();

　　

为什么search接口不返回一个包含查询结果的list，而是把查询过程包含在返回对象的构造方法里面？

　　searcher可以执行多次Query，query和result是绑定的，如果search接口只返回一个list，那同一个查询后面页数查询的时候又待重新parse等一些过程，把查询过程包含在返回对象中实现了一个query的自治，可以在返回对象中做一些优化，比如缓存啥的

为什么searcher不能带pageNo pageSize？

　　打分是在内存里做的，肯定需要把所有符合的文档全都查出来

为什么要把搜索任务放在query头上？不同的query搜索逻辑有什么不一样？

　　如果要把搜索逻辑放在searcher上，则在搜索的时候需要判断是哪类搜索然后从里面取出来参数，与其这样判断，不如直接把搜索逻辑放在query上，以后加新的query逻辑也不需要修改已有的代码

Term搜索过程：

> 初始化IndexSearcher

> 根据查询语句和解析器解析出Query

> 调用IndexSearcher.search(query); 执行搜索

    > 执行搜索，获取前100条

        > 重写query

        > 创建Weight

            > 计算Weight的平方和(?)

            > 计算权重归一化因子(?)

            > 执行weight的归一化操作

        > 创建Scorer

            > 通过reader获取命中的文档列表

            > 获取搜索term所属field的归一化因子

            > 获取当前Query的相似性算法

            > 返回TermScorer

        > 通过Scorer对命中的文档打分，并获取得分前100条文档

    > 计算得分归一化值

    > 将命中的100条文档得分乘上归一化因子，然后添加到hitDocs缓存中

> 遍历hitDocs获取最终命中的文档列表数据

    > 如果当前遍历的文档没有文档内容数据，则通过searcher获取该文档内容

    > 如果遍历超过100条，则重新执行搜索获取当前遍历的位置数据

lucene文档得分是如何计算的？ 计算公式是什么？

Query是如何简单化的？

BoolQuery执行步骤？
　　由QueryParser生成BoolQuery， 每添加一个子句都会给这个子句添加required和prohibited参数，required表示这个子句必须满足，prohibited表示这个子句一定不能满足
　　当所有的子句都必须满足，且所有的子句已经是最基础子句了，则使用ConjunctionScorer打分器，该打分器里会通过一个算法来获取多个子句都包含的文档。具体代码如下：

while (more && first().doc() < last().doc()) { // find doc w/ all clauses
  more = first().skipTo(last().doc());      // skip first upto last
  scorers.addLast(scorers.removeFirst());   // move first to last
}
注： 所有Scorer的doc都是按照从小到大排序的，这个在写索引的时候就确定下来了(termQuery),在ConjunctionScorer里第一次执行next时，会对所有的子Scorer按照第一个文档编号从小到大排序，
每当执行next寻找下一个文档时，先看排在第一位的Scorer当前文档号是否小于排在最后一位的Scorer的当前文档号，如果小于，则表明排在第一位的Scorer当前文档并不是所有Scorer都具备的，所以
排在第一位的Scorer会跳到排在最后一位Scorer当前文档编号的位置，一直找到排在第一位的Scorer和排在最后一位Scorer都具备的一个文档，这样的文档满足AND的关系，可以返回。
　　对于子句不满足所有子句都是required的情况，使用BooleanScorer，BooleanScorer的逻辑是，每往该打分器里添加一个子Scorer，这个子Scorer都带rquired和prohibited属性，至于这两个属性是从哪里得来的，
目前我猜测应该是从QueryParser中已经计算好的。每调用BooleanScorer的next时，都会按顺序从添加进来的子Scorer中取命中的文档（批量取），然后判断取的这个文档是否应该排除掉(所属的子Scorerprohibited属性值为true),
如果应该排除掉，则直接丢弃，再取下一个，直到找到一个文档符合所有子打分器要求，然后返回。重要的代码片段如下：

while (bucketTable.first != null) {         // more queued
  current = bucketTable.first;
  bucketTable.first = current.next;         // pop the queue

  // check prohibited & required
  if ((current.bits & prohibitedMask) == 0 && // prohibitedMask里每一位代表一个子打分器的prohibited属性，1表示决定不能匹配
      (current.bits & requiredMask) == requiredMask) { // requierdMask里每一位代表一个子打分器required属性，1表示必须匹配
    return true;
  }
}
在取命中的文档ID的时候，是批量取的，内存里会缓存在一个叫BucketTable的数据结构里面，按照文档ID分组缓存。 比如第一批缓存的文档ID为 0 ~ 1024。 第二组为 1024 ~ 2048 ... 为什么要这样取，而不是先取100个，再取一百个？ 
我理解应该是为了防止一直遍历一个必须排除掉的子打分器命中的文档，这样可能会大大增加搜索的延迟，通过文档ID，可以将缓存的文档均匀的分散在多个打分器上，增加命中文档的比率。那为啥不先遍历required=true的打分器命中的文档呢？
如果先遍历这样的打分器，命中率不是更高么？我理解是应该可以这样来优化的，先遍历requrired=true的子打分器，然后再遍历prohibited=true的打分器，增加文档命中率。不知道作者这样写是不是有什么其他的考虑，关键代码如下：

// refill the queue
  more = false;
  end += BucketTable.SIZE;
  for (SubScorer sub = scorers; sub != null; sub = sub.next) { // 按照子打分器add的顺序遍历
    Scorer scorer = sub.scorer;
    while (!sub.done && scorer.doc() < end) { // 每一个文档都取文档ID在固定范围内的命中文档
      sub.collector.collect(scorer.doc(), scorer.score());
      sub.done = !scorer.next();
    }
    if (!sub.done) {
      more = true;
    }
  }
} while (bucketTable.first != null | more);

queryParser是如何解析查询脚本的？ 

是不是索引都会加载到内存里？ 
　　这不是的，在根据Term搜索的时候，只会把tii文件内容加载到内存里，tii文件是词元字典的索引，在初始化tisReader的时候就会把所有tii文件中的内容给加载到内存里

SkipInterval是干什么用的？
　　frq文件中存储了某个词元命中的文档列表，skipInterval记录了隔几个文档记录一下该词元命中的文档列表索引
TermVector干啥用的？ 可以实现从文档到属性到词元的映射

段合并是如何维护合并后文档ID的？ 
　　1. 在写合并文档数据(.fdt)数据时，是按照SegmentInfos里的顺序按顺序写入的。
　　2. 在合并时写出合并的词元数据时，会修改每个词元下的文档ID，会把当前词元所属段的base documentid加上写出的文档ID

如果在查询时写入的文档导致同一个查询结果不一样lucene是如何处理的？
先前查询的不会变化，但是新页的数据是按照新查询的结果分页得到。因为ES用了一个缓存，先前查询的不会再更新。

每一次查询都会把所有符合的文档和相应的打分加载到内存里，然后在内存里做排序、过滤、分页

Lucene搜索/索引过程笔记的更多相关文章

Lucene学习笔记：五，Lucene搜索过程解析
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
lucene学习笔记：三，Lucene的索引文件格式
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
Lucene学习总结之七：Lucene搜索过程解析
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene构建索引时的一些概念和索引构建的过程
在搜索文档内容之前要做的事情就是对从各种不同来源(网页,数据库,电子邮件等)的文档进行索引,索引的过程就是对内容进行提取,规范化(通过对内容进行建模来实现),然后存储. 在索引的过程中有几个基本的概念 ...
Lucene建立索引搜索入门实例
第一部分:Lucene建立索引 Lucene建立索引主要有以下两步:第一步:建立索引器第二步:添加索引文件准备在f盘建立lucene文件夹,然后 ...
Lucene学习总结之七：Lucene搜索过程解析 2014-06-25 14:23 863人阅读评论(1) 收藏
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之三：Lucene的索引文件格式(1)
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
ElasticSearch优化系列六：索引过程
大家可能会遇到索引数据比较慢的过程.其实明白索引的原理就可以有针对性的进行优化.ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展,而这ES主要是用tranlog进行各节点之间的数据平衡. ...
Lucene学习之四：Lucene的索引文件格式(1)
本文转载自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html Lucene的索引里面存了些什么,如何存放的,也即 ...

随机推荐

DesignPattern系列__09设计模式概述
设计模式介绍设计模式是程序员在面对同类软件工程设计问题所总结出来的有用的经验,模式不是代码,而是某类问题的通用解决方案, 设计模(Design pattern)代表了最佳的实践.这些解决方案是众多软 ...
Android框架Volley使用：Json请求实现
首先我们在项目中导入这个框架: implementation 'com.mcxiaoke.volley:library:1.0.19' 在AndroidManifest文件当中添加网络权限: < ...
当cell中有UItextfiled或者UITextVIew时，弹出键盘把tableview往上,但是有的cell没有移动
cell中有UITextView时,输入文字是需要将tableView向上移,基本的做法是,注册键盘变化的通知在通知的方法中做tableVIew的位置调整, 一,一般做法 - (void)regist ...
UIAlertView和UIAlertController
UIAlertView 随着苹果上次iOS 5的发布,对话框视图样式出现在了我们面前,直到现在它都没有发生过很大的变化.下面的代码片段展示了如何初始化和显示一个带有“取消”和“好的”按钮的对话框视图. ...
nginx高级用法
功能说明配置语法配置位置配置举例结果验证备注 rewrite 跳转重定向(不同于代理的跳转重定向,此处nginx不是代理服务器,而是本身就是web服务器) rewrite 正则表达式 re ...
easyui权限
实现权限目的: 是为了让不同的用户可以操作系统中不同资源直接点说就是不同的用户可以看到不同的菜单我们先来看下3张接下来用到的数据表 1.菜单表(t_easyui_menu) 2.用户菜单中间表(t ...
redis常规命令记录
概述因为redis是单线程执行,所以不用关心并发问题. 简单记录一下redis的操作命令,留作查阅,回头再整理一下事物等操作. reids中存储的是kev-value形式, 其中的value有几 ...
G1 垃圾收集器架构和如何做到可预测的停顿(阿里)
CMS垃圾回收机制参考:图解 CMS 垃圾回收机制原理,-阿里面试题 CMS与G1的区别参考:CMS收集器和G1收集器优缺点写这篇文章是基于阿里面试官的一个问题:众所周期,G1跟其他的垃圾回收算 ...
Python基础之猜数游戏
例题一:猜数游戏.在程序中预设一个0~9之间的整数,让用户通过键盘输入所猜的数,如果大于预设的数,显示“遗憾,太大了”:小于预设的数,显示“遗憾,太小了”,如此循环,直至猜中该数,显示“预测N次,你猜 ...
Vue的实例对象（三）
一.创建一个 Vue 实例每个 Vue 应用都是通过用 Vue 函数创建一个新的 Vue 实例开始的: var vm = new Vue({ // 选项 }) 当创建一个 Vue 实例时,你可以传入 ...

Lucene搜索/索引过程笔记

Lucene搜索/索引过程笔记的更多相关文章

随机推荐

热门专题