用xapian来做索引

最近一个项目需要正则搜索MongoDB，400多万的数据一次查询要20s以上，需要建立一个前端索引服务。本着部署简单、开发容易的原则，找到了xapian这个索引库。

我使用的是Python的接口，xapian的服务API相当简单，基本的流程是打开库、设置查询条件、取得查询结果。

_enquire = xapian.Enquire(xapian.Database(conf.IDX_DATABASE))

_enquire.set_query(xapian.Query(xapian.Query.OP_AND, keys))

matches = _enquire.get_mset(offset, limit)

logging.info(json.dumps({'ids': [m.document.get_data() for m in matches], 'total': matches.get_matches_estimated()})

建立索引的过程类似，难点在于如何建立索引以便于查询。长的文字可以用mmseg做分词，按分词结果建立索引，短的可以对单字建索引做联合查询。不考虑业务逻辑，建索引的流程就是在xapian的Document里面放原始数据，在term中放索引，加入DB，提交。

_db = xapian.WritableDatabase(conf.IDX_SONGS, xapian.DB_CREATE_OR_OPEN)
_enquire = xapian.Enquire(_db)
_enquire.set_query(xapian.Query(_id))

matches = _enquire.get_mset(0, 1)
if force or matches.empty():
   if matches.empty():
        doc= xapian.Document()
        doc.set_data(_id)
   else:
        doc= matches[0].document
        doc.clear_terms()

doc.add_term(_id)

if doc.get_docid() <= 0:
    _db.add_document(doc)
else:
    _db.replace_document(doc.get_docid(), doc)
_db.commit()

以下是部分相关博客：

用xapian来做索引的更多相关文章

Xapian的内存索引-添加文档
本文主要记录Xapian的内存索引在添加文档过程中,做了哪些事情. 内容主要为函数执行过程中的流水线. demo代码: Xapian::WritableDatabase db = Xapian::In ...
Xapian的内存索引
关键字:xapian.内存索引 xapian除了提供用于生产环境的磁盘索引,也提供了内存索引(InMemoryDatabase).内存索引.我们可以通过观察内存索引的设计,来了解xapian的设计思路 ...
enum可以做索引
enum可以做索引 enum可以做索引, 配上虚函数,或者函数指针,可以实现上层的统一封装和快速索引. 点击(此处)折叠或打开 MoTbl.cpp #include <stdio.h> # ...
redis为何单线程效率还这么高为何使用跳表不使用B+树做索引(阿里)
如果想了解 redis 与Memcache的区别参考:Redis和Memcache的区别总结阿里的面试官问问我为何redis 使用跳表做索引,却不是用B+树做索引因为B+树的原理是叶子节点存储数 ...
python中list不能做索引
先看python中内置的list不能作为字典的key. 可将list或者ndarray转化为tuple再做索引. list不能进行hash: import numpy as np a1 = np.ar ...
2020-05-18：MYSQL为什么用B+树做索引结构？平时过程中怎么加的索引？
福哥答案2020-05-18:此答案来自群员:因为4.0成型那个年代,B树体系大量用于文件存储系统,甚至当年的Longhorn的winFS都是基于b树做索引,开源而且好用的也就这么个体系了.B+树的磁 ...
MySQL用B+树(而不是B树)做索引的原因
众所周知,MySQL的索引使用了B+树的数据结构.那么为什么不用B树呢? 先看一下B树和B+树的区别. B树维基百科对B树的定义为"在计算机科学中,B树(B-tree)是一种树状数据结构, ...
为什么Mysql用B+树做索引而不用B-树或红黑树
B+树做索引而不用B-树那么Mysql如何衡量查询效率呢?– 磁盘IO次数. 一般来说索引非常大,尤其是关系性数据库这种数据量大的索引能达到亿级别,所以为了减少内存的占用,索引也会被存储在磁盘上. ...
为什么用B+树做索引&MySQL存储引擎简介
索引的数据结构为什么不是二叉树,红黑树什么的呢? 首先,一般来说,索引本身也很大,不可能全部存在内存中,因此索引往往以索引文件的方式存在磁盘上.然后一般一个结点一个磁盘块,也就是读一个结点要进行一次 ...

随机推荐

【eclipse】启动不了报错java was started but returned exit code=13
原因是jdk与eclipse的版本不对,一个是32位的一个是64位的.
RMQ问题 - ST表的简单应用
2017-08-26 22:25:57 writer:pprp 题意很简单,给你一串数字,问你给定区间中最大值减去给定区间中的最小值是多少? 用ST表即可实现一开始无脑套模板,找了最大值,找了最小值 ...
url拼接
在做网页抓取的时候经常会遇到一个问题就是页面中的链接是相对链接,这个时候就需要对链接进行url拼接,才能得到绝对链接. url严格按照一定的格式构成,一般为如下5个字段: 详细可参考RFC:http: ...
python2.7.10 VS2015编译方法
打开 Python-2.7.10\PCbuild目录然后设置只编译python和pythoncore: 好了,编译试一试. 出现了好几个错误.由于 VS2015 取消了 timezone 的定义,改 ...
PHP 数组遍历 foreach 语法结构
foreach 语法结构用于遍历数组. foreach() PHP foreach() 语法结构用于遍历操作或输出数组,foreach() 仅能用于遍历数组或对象,当试图将其用于其它数据类型或者一个未 ...
JavaScript设计模式与开发实践：惰性函数
Web开发中,因为浏览器之间的差异实现差异,一些嗅探工作总是不可避免的,比如我们需要在各个浏览器中能够通用事件绑定函数addEvent //一般写法 //缺点:当他每次被调用的时候都都会执行里面的if ...
.net core mvc部署到IIS导出Word 提示80070005拒绝访问
项目中相信大家经常会遇到导出Word.Excel等需求,在实际开发环境中,一般不会出现什么问题,但当发布到IIS上后可能会遇到各种各样的问题,一般都是权限的问题.前几天把公司项目发布后,出现Word导 ...
kindeditor支持flv视频播放方法
打开plugins\media下面的media.js,打开,找到下面的代码: var html = K.mediaImg(self.themesPath + ‘common/blank.gif’, { ...
Spring Cloud实战
Spring Cloud实战(一)-Spring Cloud Config Server https://segmentfault.com/a/1190000006149891 https://seg ...
Java多态性的理解2
多态的基础理解请参考:http://www.cnblogs.com/liujinhong/p/6003144.html Java的多态一直是我们理解的一个难点.在读过<深入理解Java虚拟机&g ...

用xapian来做索引

折腾XAPIAN的那点事 1

Python bindings for Xapian

In search of an inverted index library

MMSEG 中文分词算法

用xapian来做索引的更多相关文章

随机推荐

热门专题