Lucene搜索核心代码TermInfosReader
TermInfosReader类是Lucene搜索的核心代码,所有的搜索最终都是落到通过term查询,TermInfosReader里定义了支持的基础的term查询功能。
前置知识:
词元字典文件(tis):
文件描述:
文件中的term按照从小到大排序,排序规则:先按照属性名排,如果属性名相同,再按照词元内容排,简单的字符比较。tis文件中存储的词元列表按照IndexInterval分成多个块,后面在查询逻辑里叙述通过块如何优化搜索。
文件结构:
TermInfos --> <TermInfo>TermCount
TermInfo --> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta>
词元索引文件(tii):
文件描述:
tii文件是tis文件的索引文件,按照tis文件中存储的IndexInterval间隔存储tii文件,tii文件中词元内容和tis一样,除了词元外,tii文件中每个词元附加一个IndexDelta数据,存储了该词元在tis文件中的位置,
文件结构:
TermIndices --> <TermInfo, IndexDelta>IndexTermCount
IndexDelta --> VInt // IndexDelta表示这个索引词元在tis文件中的具体位置,类似指针
核心方法一:
TermInfo get(Term term)
方法描述:
方法传入term,返回TermInfo,通过TermInfo里的freqPointer和proxPointer可以从.frq文件中取包含该词元的文档列表,和从.prx文件中取词元在每个文档中出现的位置。get方法是用于查询指定存在的term,如果term不存在这个方法返回一个null
逻辑描述:
系统初始化时将tii文件中的所有数据加载到内存中,具体是代码TermInfosReader里的indexTerms和indexInfos还有indexPointers变量中,indexTerms中存储.tii文件中所有的词元数据,indexInfos存储词元附加信息,比如词元在frq文件和prox文件中的相应数据的位置,indexPointers存储每个.tii文件中索引词元在.tis文件中的原始位置。这几个变量都是数组,按照下标一一对应。
词元都是从小到大排好顺序的,所以要搜索入参term在tis文件中的位置,就要从前往后一个一个遍历。
优化点1:
通过上面已经加载到内存中的tii文件数据可以优化这个查找过程,具体过程如下:
先通过参数term到indexTerms变量中找到一个比自己小而且是最接近的索引词元。在1.4里实现是通过二分查找
然后通过indexTerms、indexInfos、indexPointers这三个变量在下标上的对应关系找到这个最接近且比参数小的索引词元在tis文件中的原始位置,这个数据在indexInfos里有记录。
然后上面的从前往后一个一个遍历可以优化为从上面得到的索引词元开始往后遍历。
优化点2:
这里还有一个优化点,对于顺序查找且在同一个块内的词元时,其实不需要去索引词元列表里找下标,然后通过下标往后遍历,这时候可以直接通过第一次查询的词元(遍历的当前词元)的位置往后遍历。通过tii文件找也是为了找到一个和当前查询词元最接近的索引词元,现在这种场景下第一次查询的词元是最接近的,所以不需要在使用索引词元查找。
核心方法2:
SegmentTermEnum terms(Term term)
方法描述:
get方法查询指定的词元,terms方法查询匹配的多个词元,用于范围搜索场景,比如前缀查询、模糊查询等。terms方法是基于get方法来实现的,get方法还有个副作用,在执行get方法时会移动当前遍历的指针,如果查询到某个词元,则指针指向该词元,如果没有查询到词元,则把指针定位到与查询词元最近的一个比查询词元大的词元位置。
逻辑描述:
terms方法正是通过这个副作用来工作的,terms的代码很简单:
get(term);
return (SegmentTermEnum)getEnum().clone();
先通过get定位到最小的词元位置,然后返回以命中的最小词元为头的词元链表,调用方可以通过这个链表获取到所有相似的词元以及包含每个词元的文档列表。
Lucene搜索核心代码TermInfosReader的更多相关文章
- Lucene核心--构建Lucene搜索(上篇,理论篇)
2.1构建Lucene搜索 2.1.1 Lucene内容模型 一个文档(document)就是Lucene建立索引和搜索的原子单元,它由一个或者多个字段(field)组成,字段才是Lucene的真实内 ...
- Lucene系列六:Lucene搜索详解(Lucene搜索流程详解、搜索核心API详解、基本查询详解、QueryParser详解)
一.搜索流程详解 1. 先看一下Lucene的架构图 由图可知搜索的过程如下: 用户输入搜索的关键字.对关键字进行分词.根据分词结果去索引库里面找到对应的文章id.根据文章id找到对应的文章 2. L ...
- Ajax (Asynchronous javascript xml) 搜索框核心代码(JQuery) Ajax判断用户名存在核心代码 附:原生js的Ajax代码 其中有json的一句话解释
前端 <script type="text/javascript"> $(function(){ $("#tid").keyup(function( ...
- Lucene学习笔记: 五,Lucene搜索过程解析
一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
- Lucene学习总结之七:Lucene搜索过程解析
一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
- Lucene学习总结之七:Lucene搜索过程解析 2014-06-25 14:23 863人阅读 评论(1) 收藏
一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
- Lucene搜索方式大合集
package junit; import java.io.File; import java.io.IOException; import java.text.ParseException; imp ...
- lucene 搜索demo
package com.ljq.utils; import java.io.File; import java.util.ArrayList; import java.util.List; impor ...
- 【五子棋AI循序渐进】关于VCT,VCF的思考和核心代码
前面几篇发布了一些有关五子棋的基本算法,其中有一些BUG也有很多值得再次思考的问题,在框架和效果上基本达到了一个简单的AI的水平,当然,我也是初学并没有掌握太多的高级技术.对于这个程序现在还在优化当中 ...
随机推荐
- 【微信小程序】App.js生命周期
1.小程序的生命周期-App.js App() 必须在 app.js 中注册,且不能注册多个.所以App()方法在一个小程序中有且仅有一个. App({ onLaunch: function () { ...
- [转]Eclipse插件开发之基础篇(6) SWT简介
原文地址:http://www.cnblogs.com/liuzhuo/archive/2010/09/01/eclipse_plugin_1_3_1.html SWT(Standard Widget ...
- 海思屏幕HAL代码解析
显示屏幕(LCD)模块提供屏幕相关功能接口,调用者为上层应用模块(含 init.状态机.ui),上下文依赖关系,如图 3-7 所示. 系统框架为 linux+Huawei LiteOS 双系统架构,媒 ...
- caffe初体验
caffe是一个深度学习的框架, 具体我也不太清楚, 可以自行百度吧, 我也是刚刚知道有这么一个框架, 才疏学浅啊. 在安装完caffe, 我的第一个想法就是, 别管他是个啥东西, 总得先让我运行一些 ...
- 4.Python网络编程_一般多线程创建步骤
#该程序使用命令行执行,IDE执行会有其他线程附加 import threading import time #初始化一个线程 #t=threading.Thread(target=func) #fu ...
- jmeter beanshell断言接口自动化实例
一.JMeter介绍 Apache JMeter是一款优秀的开源性能测试工具,在国外无论是在性能测试还是接口测试领域都有着非常高的使用率,但由于本身没有完善的中文文档以及典型开源工具特点(界面不美观) ...
- SCOI 2005 互不侵犯
洛谷 P1896 [SCOI2005]互不侵犯 洛谷传送门 题目描述 在N×N的棋盘里面放K个国王,使他们互不攻击,共有多少种摆放方案.国王能攻击到它上下左右,以及左上左下右上右下八个方向上附近的各一 ...
- html各种弹出框和提示框
控制台输出 console.log() console.info() confirm() alert() promt() 提示对话框
- vue-cli2.0和vue-cli3.0中当发布到生产环境时禁用console.log
vue-cli2.0中的方法 1.安装插件 npm install uglifyjs-webpack-plugin --save-dev 2.修改webpack.prod.conf.js配置文件 co ...
- 【转】 AOP(面向切面编程)、Filter(过虑器)、Interceptor(拦截器)
AOP(面向切面编程) 面向切面编程(AOP是Aspect Oriented Program的首字母缩写) ,我们知道,面向对象的特点是继承.多态和封装.而封装就要求将功能分散到不同的对象中去,这在软 ...