xapian搜索系统存储结构解读

　　Xapian的database是所有用于检索的信息表的集合，以下的表是必需的：

posting list table 保存了被每一个term索引的document，实际上保存的应该是document在database中的Id，此Id是唯一的。这个就是倒排表。
record table 保存了每一个document所关联的data，data不能通过query检索，只能通过document来获取。这个相当于快照。
term list table 保存了索引每个document的所有的term。这个相当于正排表。
position list table 保存了每一个Term出现在每一个document中的位置。就是term位置表。

　　其他可选的表还包括，value table 保存了每一个document的values，values是用作保存、排序或其它作用的。 + spelling table 保存了拼写纠正的数据。 + synonym table 保存术语的字典，例如NBA、C#或C++等。

　　目前最新版本的xapian，一个表一般会包含三个数据，如termlist表会被存储为以下三个文件“termlist.baseA”、“termlist.baseB”、“termlist.dB”。在这些文件中，其实只有”.db”文件存储了真实的数据，“.baseA”和“baseB”文件是用作跟踪如果于“.dB”文件中查找数据。

图 1 一个实际的xapian文件列表示意图

　　term可以用作有效地查找它的posting list，在posting list里，每一个document带有一个很短的标识符，就是document id。简单来说，一个posting list可以被认为是一个由document ids组成的集合。而term list则是一个字符串组成的集合。在某些IR系统的内部是使用数字来表示term的，因此在这些系统中，term list则是数字组成的集合，而Xapian则不是这样，它使用原汁原味的term，而使用前缀来压缩存储空间。

一个例子：

    Xapian::Document doc;

    doc.add_term("K你好");

    doc.add_term("K那里");

    //posting是带position的term

    doc.add_posting("K吃饭", 14);

    doc.add_posting("K玩耍", 8);

    /*

    这里最好先用一个map<string, int>放置value的名称和索引的配对

    这里使用起来像Lucene的SortField一样了。

    */

    doc.add_value(1, "1");

    doc.set_data("你好啊，在那里玩耍呢？还没吃饭吗？");

    //创建一个可写的db

    Xapian::WritableDatabase db("c:\\db");

    //将document加入到db中,返回document的id，此id在db中是唯一的

    Xapian::docid id = db.add_document(doc);

    //刷新到硬盘中

    db.flush();

获取document信息的例子：

//获取

    Xapian::Document doc = db.get_document(id);

    string v = doc.get_value(1);

    printf(v);//输出

    string data = doc.get_data();

    printf(data);//输出"你好啊，在那里玩耍呢？还没吃饭吗？"

    for (Xapian::TermIterator iter = doc.termlist_begin(); iter != doc.termlist_end(); ++iter)

    {

        printf(*iter);//依次输出term和posting

    }

读取倒排列表(posting table的例子)
相关的类主要有两个，一个是PositionIterator,一个是PostingSource
其中
PositionIterator用来遍历一个term的所有docid列表
PostingSource则用来提供postings的扩展数据资源。

string t_name = "K你好";
cout<<"is exist "<<db.term_exists(t_name) <<endl;
PostingIterator term_begin = db.postlist_begin(t_name);
PostingIterator term_end = db.postlist_end(t_name);

for (PostingIterator iter=term_begin; iter != term_end ; iter++)
{
cout<<"doc id "<<*iter<<endl; //读取docid
cout<<"term freq "<<iter.get_wdf()<<endl; //读取文档内词频，tf
}

xapian搜索系统存储结构解读的更多相关文章

Atitit.数据索引的种类以及原理实现机制索引常用的存储结构
Atitit.数据索引的种类以及原理实现机制索引常用的存储结构 1. 索引的分类1 1.1. 按照存储结构划分btree,hash,bitmap,fulltext1 1.2. 索引的类型按查找 ...
IplImage 结构解读
IplImage 结构解读: typedef struct _IplImage { int nSize; /* IplImage大小,等于wi ...
Oracle_高级功能(4) 数据库存储结构
数据库存储结构分为:物理存储结构和逻辑存储结构.物理结构和逻辑结构分开,对物理数据的存储不会影响对逻辑结构的访问.1.物理存储结构数据库文件 os block2.逻辑存储结构 tablespace ...
ElasticSearch 2 (13) - 深入搜索系列之结构化搜索
ElasticSearch 2 (13) - 深入搜索系列之结构化搜索摘要结构化查询指的是查询那些具有内在结构的数据,比如日期.时间.数字都是结构化的.它们都有精确的格式,我们可以对这些数据进行逻 ...
Atitit.数据索引的种类以及原理实现机制索引常用的存储结构
Atitit.数据索引的种类以及原理实现机制索引常用的存储结构 1. 索引的分类1 1.1. 索引的类型按查找方式分,两种,分块索引 vs编号索引1 1.2. 按索引与数据的查找顺序可分为正 ...
使用elasticsearch搭建自己的搜索系统
什么是elasticsearch Elasticsearch 是一个开源的高度可扩展的全文搜索和分析引擎,拥有查询近实时的超强性能. 大名鼎鼎的Lucene 搜索引擎被广泛用于搜索领域,但是操作复杂繁 ...
搜索系统核心技术概述【1.5w字长文】
前排提示:本文为综述性文章,梳理搜索相关技术,如寻求前沿应用可简读或略过搜索引擎介绍搜索引擎(Search Engine),狭义来讲是基于软件技术开发的互联网数据查询系统,用户通过搜索引擎查询所需 ...
innodb的存储结构
如下所示,innodb的存储结构包含:表空间,段,区,页(块),行 innodb存储结构优化的标准是:一个页里面存放的行数越多,其性能越高表空间:零散页+段独立表空间存放的是:数据.索引.插入缓冲 ...
人人都是 DBA（VIII）SQL Server 页存储结构
当在 SQL Server 数据库中创建一张表时,会在多张系统基础表中插入所创建表的信息,用于管理该表.通过目录视图 sys.tables, sys.columns, sys.indexes 可以查看 ...

随机推荐

js EasyUI前台价格=数量*单价联动的实现
废话,不多说,,效果图如下:
PL/SQL 访问网页（get or post方式）
在我们开发plsql程序的过程中,有时候难免要访问一些外部网站的数据.这个时候我们就要用到utl_http包. 使用utl_http包前需要注意的是,当前的用户下是否有访问外部网络的权限. 如下是自己 ...
JS操作SELECT方法
1.判断select选项中是否存在Value="paraValue"的Item2.向select选项中加入一个Item3.从select选项中删除一个Item4.修改sele ...
MySql模糊查询like通配符使用详细介绍
MySQL提供标准的SQL模式匹配,以及一种基于象Unix实用程序如vi.grep和sed的扩展正则表达式模式匹配的格式. 一.SQL模式 SQL的模式匹配允许你使用“_”匹配任何单个字符,而“%”匹 ...
Source kit service terminated Editor functionality temporarily limited
这下可好. Source kit service terminated Editor functionality temporarily limited 运行以下代码出现了以上的提示...另外,还压根 ...
为何要fork()两次来避免产生僵尸进程??
最近安装书上说的,开始搞多进程了..看到了一个好帖子,学习学习 http://blog.sina.com.cn/s/blog_9f1496990100y420.html 首先我们要明白,为什么要避免僵 ...
ASP.NET MVC轻教程 Step By Step 4——Model、View和Controller
ASP.NET MVC中的Model(数据模型)主要包括定义数据结构.数据库读写.数据验证等等和对象处理相关的工作. 在解决方案资源管理器中找到Model文件夹,点击右键,添加一个新类,名为“Mess ...
反射 DataTable拓展方法转实体对象、实体集合、JSON
Mapper类 using System; using System.Collections.Generic; using System.Data; using System.Globalizatio ...
css3 3D盒子效果
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
LightOj_1027 A Dangerous Maze
题目链接题意: 你在一个迷宫里, 开始的时候你面前有n个门, 选择每个门的概率相等, 有两种结果: 1)回到|x|分钟之前(x为负时) 2)x分钟之后出迷宫(x为正时) 每次回到|x|分钟之前, 你 ...

xapian搜索系统存储结构解读

xapian搜索系统存储结构解读的更多相关文章

随机推荐

热门专题