xapian倒排索引的归并流程
Xapian的检索流程和大部分搜索系统都一样,就先从倒排表抽取候选文档,然后结合其他信息进行排序,取top文档作为搜索结果,具体流程如下:
  
图1 xapian搜索流程
具体流程
- 在terms中找到documents
- 查询这些文档对应的values,进行排序,如果候选document比较多,这个过程就会很慢。
- 给出top结果,一般会读取data数据。
和别的搜索系统一样,提高搜索速度,主要靠优化第一步,较少允许量,或者缩减到下一步的候选文档数目。
xapian倒排索引的归并中,对and的归并采用的是一般的一次一文档的方法DAAT(Document and a time)的方法,但对于OR检索则做了优化,好比query里面包含100个词,如果采用常用的每个词搜索一次,速度会很慢,因此可以采用可一种优化的方法。
Xapian对于OR检索,同事也是并行的读取倒排列表的,但这样做的一个问题就是很难调表(jump),这时就需要将其转换为AND检索。具体方式和WAND算法的思路基本一样。
其基本假设为: 我们只需要很少的top结果,这样,我们只需要追踪这个结果集合的最小值,然后估算每个term能够带来的权重的上界,如果这个上界<下界,则两者都需要,这样就变成了AND计算,然后将这个方法应用于整个query树,
Xapian::Enquire 提供检索服务的类,检索服务主要在这里,Xapian的or检索执行的是Probabilistic queries。
一个很好的xapian介绍ppt: http://www.slideshare.net/panjunyong/xapian
一个xapian速度优化的ppt:http://www.slideshare.net/rboulton/optimising-xapian
xapian倒排索引的归并流程的更多相关文章
- [Search Engine] 搜索引擎技术之倒排索引
		倒排索引是搜索引擎中最为核心的一项技术之一,可以说是搜索引擎的基石.可以说正是有了倒排索引技术,搜索引擎才能有效率的进行数据库查找.删除等操作. 1. 倒排索引的思想 倒排索引源于实际应用中需要根据属 ... 
- DS    图解归并排序
		经典排序三剑客: 归并,堆排,快排. 今天,图解归并,一步步带你手撕代码~ 归并排序,是采用"分而治之"思想的一个典型应用. 分治法精髓: 1.分 --- 将问题分解成若干个规模更 ... 
- [转帖]时序数据库技术体系 – InfluxDB TSM存储引擎之数据写入
		时序数据库技术体系 – InfluxDB TSM存储引擎之数据写入 http://hbasefly.com/2018/03/27/timeseries-database-6/ 2018年3月27日 ... 
- 【转】Elasticsearch学习笔记
		一.常用术语 索引(Index).类型(Type).文档(Document) 索引Index是含有相同属性的文档集合.索引在ES中是通过一个名字来识别的,且必须是英文字母小写,且不含中划线(-):可类 ... 
- Xapian的内存索引-添加文档
		本文主要记录Xapian的内存索引在添加文档过程中,做了哪些事情. 内容主要为函数执行过程中的流水线. demo代码: Xapian::WritableDatabase db = Xapian::In ... 
- XAPIAN简单介绍(三)
		今天主要介绍的是Xapian::Database这个类.先上图 看上去就非常恐怖的吧,我们一点点的说. 首先一切的開始都来自那个include目录中的database.h,他的直接实现是在omdata ... 
- elasticsearch的数据写入流程及优化
		Elasticsearch 写入流程及优化 一. 集群分片设置:ES一旦创建好索引后,就无法调整分片的设置,而在ES中,一个分片实际上对应一个lucene 索引,而lucene索引的读写会占用很多的系 ... 
- MapReduce剖析笔记之七:Child子进程处理Map和Reduce任务的主要流程
		在上一节我们分析了TaskTracker如何对JobTracker分配过来的任务进行初始化,并创建各类JVM启动所需的信息,最终创建JVM的整个过程,本节我们继续来看,JVM启动后,执行的是Child ... 
- 步步深入:MySQL架构总览->查询执行流程->SQL解析顺序
		前言: 一直是想知道一条SQL语句是怎么被执行的,它执行的顺序是怎样的,然后查看总结各方资料,就有了下面这一篇博文了. 本文将从MySQL总体架构--->查询执行流程--->语句执行顺序来 ... 
随机推荐
- DropDownList绑定多个字段值
			发觉这个问题还是挺多人问的,简单写几个例子: 假设现有1张表名为:XUDAXIA , 该表里有2个字段: NAME , GENDER 达到效果: 将这2个字段绑定到DropDownList的Lis ... 
- Java SE   Java EE   Java ME 的区别
			Java SE(Java Platform,Standard Edition) Java SE 以前称为 J2SE.它允许开发和部署在桌面.服务器.嵌入式环境和实时环境中使用的 Java 应用程序.J ... 
- C# 调用AForge类库操作摄像头
			如有雷同,不胜荣幸,若转载,请注明 最近做项目需要操作摄像头,在网上百度了很多资料,很多都是C#调用window API 发送SendMessage,实现操作摄像头,但是C#调用window API的 ... 
- c语言字符数组与字符串的使用详解
			转自:http://www.jb51.net/article/37456.htm 1.字符数组的定义与初始化字符数组的初始化,最容易理解的方式就是逐个字符赋给数组中各元素.char str[10]={ ... 
- 利用toString做类型的判断
			//利用toString做类型的判断 : /*var arr = []; alert( Object.prototype.toString.call(arr) == '[object Array]' ... 
- 零售ERP开发(一)
			随着企业信息化不断提高,各种企业管理系统应用而生:怎么才能开发一套简洁.易用.功能健全的管理系统,尤其是能够帮助企业做出重大策略的系统,一致是我们追求的目标.近些年,接触的Erp系统主要包括国内比较知 ... 
- php Imagick库readImage()报Postscript delegate failed 解决方法(失效)
			需要安装 ghostscript http://www.ghostscript.com/download/gsdnld.html 
- POJ 2049 Finding Nemo  bfs  建图很难。。
			Finding Nemo Time Limit: 2000MS Memory Limit: 30000K Total Submissions: 6952 Accepted: 1584 Desc ... 
- ASP.NET MVC轻教程 Step By Step 11——数据注解
			将验证规则写在Cotroller里不是一个好办法,这样会显得代码很啰嗦,更重要的是将业务逻辑写入Controller,使得Controller变得更“重”,不符合设计原则.更好的办法是使用验证注解属性 ... 
- Contest20140710 eagleeggs
			eagleeggs|eagleeggs.in|eagleeggs.out 题目描述: 共有N个硬度相同的鹰蛋,硬度是一个整数(并且已知其不大于H),表示这个蛋从天上掉下来不摔碎的最大高度.为了找出这个 ... 
