http://www.cnblogs.com/LBSer/p/4417074.html

1 背景

以商家(Poi)维度来展示各种服务(比如团购(deal)、直连)正变得越来越流行(图1a), 比如目前美食、酒店等品类在移动端将团购信息列表改为POI列表页展示。

                 

图1   a:商家维度展示信息; b:join示意

这给筛选带来了复杂性。之前的筛选是平面的,如筛选poi列表时仅仅利用到poi的属性(如评价、品类等),筛选deal列表时也仅仅根据deal的属性(房态、价格等)。而现在的筛选是具有层次关系的,我们需要根据deal的属性来筛选Poi,举个例子,我们需要筛选酒店列表,这些酒店必须要有价格在100~200之间的团购。

这种筛选本质是种join操作,其核心是要将poi与deal关联起来。从数据库视角上看(图1 b),我们有poi表以及deal表,deal表存储了外键(parentid)用于指示该deal所属的poi,上述筛选分为三步:1)先筛选出价格区间在100~200的deal(得到dealid为2和3的deal);2)找出deal对应的poi(得到poiid为1和1的poi);3)去重,因为可能多个deal对应同一个poi,而我们需要返回不重复poi。

目前我们使用lucene来提供筛选服务,那么lucene如何解决这种带有join的筛选呢?

2 lucene join解决方案

在我们应用中,一个poi存储为一个document,一个deal也存储为一个document,Join的核心在于将poi以及deal的document进行关联。lucene提供了两种join的方式,分别是query time join和index time join,下文将分别展开。

2.1. query time join

query time join是通过类似数据库“外键“方法来建立deal和poi document的关联关系。

a)索引

分别创建poi的document和deal的document,在建立deal document的时候用一个字段(parentid)将deal与poi关联起来,本例中创建了parentid这个field,里面存的是该deal对应的poiid,可以简单将其看做外键。

public static Document createPoiDocument(PoiMsg poiMsg) {
Document document = new Document();
document.add(new StringField("poiid", String.valueOf(poiMsg.getId()), Field.Store.YES));
document.add(new StringField("name", poiMsg.getName(), Field.Store.YES));
return document;
}

  

public static Document createDealDocument(DealModel dealModel, PoiMsg poiMsg) {
Document document = new Document();
document.add(new StringField("did", String.valueOf(dealModel.getDid()), Field.Store.YES));
document.add(new StringField("name", dealModel.getBrandName(), Field.Store.YES));
document.add(new DoubleField("price", dealModel.getPrice(), Field.Store.YES));
document.add(new StringField("parentid", String.valueOf(poiMsg.getId()), Field.Store.YES));
return document;
}

  

IndexWriter writer = new IndexWriter(directory, config);
writer.addDocument(createPoiDocument(poiMsg1));
writer.addDocument(createPoiDocument(poiMsg2));
writer.addDocument(createDealDocument(dealModel1, poiMsg2));
writer.addDocument(createDealDocument(dealModel2, poiMsg1));
writer.addDocument(createDealDocument(dealModel3, poiMsg1));

  

b)查询

需查询两次:首先查询deal document,之后通过deal中的parentId查询poi document。

1)第一次查询发生在JoinUtil.createJoinQuery中。首先创建了TermsCollector这个收集器, 该收集器将满足fromQuery的doc的parentid字段收集起来,之后创建了TermsQuery。

本例执行之后TermsCollector集合里有两个terms,分别是”1”和”1”;

2)执行TermsQuery,查询toField在TermsCollector terms集合中存在的doc,最后找出toField为“1”的doc。

IndexSearcher indexSearcher = new IndexSearcher(indexReader);
String fromFields = "parentid";
Query fromQuery = NumericRangeQuery.newIntRange("price", 100, 200, false, false);
String toFields = "poiid";
Query toQuery = JoinUtil.createJoinQuery(fromFields, false, toFields, fromQuery, indexSearcher, ScoreMode.Max);
TopDocs results = indexSearcher.search(toQuery, 10);

  

JoinUtil.createJoinQuery代码
TermsCollector termsCollector = TermsCollector.create(fromField, multipleValuesPerDocument);
fromSearcher.search(fromQuery, termsCollector);
return new TermsQuery(toField, fromQuery, termsCollector.getCollectorTerms());

  

c)优缺点

query time join优点是非常直观且灵活;缺点是不能进行打分排序,此外由于查询两遍性能会下降。

2.2. index time join

query time join通过显式的在deal document上增加一个“外键”来建立关系,找到deal之后需要找出这些deal document的parentid集合,之后再次查询找出poiId在parentid集合内的poi document。在找到deal之后如果能马上找到对应的poi document,那将大大提高效率。index time join干的就是这样的事情,其通过一种精巧的方法建立了deal document id和poi document id的映射关系。

a)原理

如何通过一个deal document id来找到poi document id?

在lucene中,doc id是自增的,每写入一个document,doc id加1(简单起见可以理解)。 index time join要求写索引的时候要按先后关系写入,先写子document,再写父document。比如我们有poi1和poi2两个poi,其中poi1下有deal2和deal3,而poi2下只有deal1,这时需要先写入deal2、deal3,再写入deal2和deal3对应的poi1 document,依次类推,最后形成如图2所示的结构。

这样索引建立之后,我们得到了父document的id集合(3,5)。当我们根据deal的属性查出deal document id时,比如我们查出满足条件的deal是deal3,其document id=2,这时候只需要到父document id集合里去查找第一个比2大的id,在本例中马上就找到3。

图2

lucene自己实现了BitSet来保存id,lucene内部实现代码如图3所示。

图3 实现原理

b)索引

从上述原理得知我们需要建立有层次关系的索引。

首先创建document数组,该数组有个特点, 最后一个必须是poi,之前都是deal。然后调用writer.addDocument(documents); 将这个数组写入。

public static Document createPoiDocument(PoiMsg poiMsg) {
Document document = new Document();
document.add(new StringField("poiid", String.valueOf(poiMsg.getId()), Field.Store.YES));
document.add(new StringField("name", poiMsg.getName(), Field.Store.YES));
document.add(new StringField("doctype", "poi", Field.Store.YES));
return document;
}

  

public static Document createDealDocument(DealModel dealModel) {
Document document = new Document();
document.add(new StringField("did", String.valueOf(dealModel.getDid()), Field.Store.YES));
document.add(new StringField("name", dealModel.getBrandName(), Field.Store.YES));
document.add(new DoubleField("price", dealModel.getPrice(), Field.Store.YES));
return document;
}

  

IndexWriter writer = new IndexWriter(directory, config);
List<Document> documents = new ArrayList<Document>();
documents.add(createDealDocument(dealModel2));
documents.add(createDealDocument(dealModel3));
documents.add(createPoiDocument(poiMsg1));
writer.addDocument(documents);
documents.clear();
documents.add(createDealDocument(dealModel1));
documents.add(createPoiDocument(poiMsg2));
writer.addDocument(documents);

c)查询

Filter poiFilter = new CachingWrapperFilter(new QueryWrapperFilter(new TermQuery(new Term(PoiLuceneField.ATTR_DOCTYPE, "poi")))); //筛选出poi
ToParentBlockJoinQuery query = new ToParentBlockJoinQuery(dealQuery, poiFilter, ScoreMode.Max);
ToParentBlockJoinCollector collector = new ToParentBlockJoinCollector(
sort, // sort
(getOffset() + getLimit()), // poi分页numHits
true, // trackScores
false // trackMaxScore
);
collector = (ToParentBlockJoinCollector) indexSearcher.search(query, collector);
Sort childSort = new Sort(new SortField(DealLuceneField.ATTR_PRICE, SortField.Type.DOUBLE));
TopGroups hits = collector.getTopGroups(
query.getToParentBlockJoinQuery(),
childSort,
query.getOffset(), // parent doc offset
100, // maxDocsPerGroup
0, // withinGroupOffset
true // fillSortFields
);

  

3 实践

官方文档显示index time join效率更高,比query time join快30%以上。因此我们在项目中使用了index time join方式,目前服务运行良好。

检索实践文章系列:

lucene字典实现原理

lucene索引文件大小优化小结

排序学习实践

lucene如何通过docId快速查找field字段以及最近距离等信息?

lucene join解决父子关系索引的更多相关文章

  1. AJ学IOS 之控制器view显示中view的父子关系及controller的父子关系_解决屏幕旋转不能传递事件问题

    AJ分享,必须精品 一:效果 二:项目代码 这个Demo用的几个控制器分别画了不通的xib,随便拖拽了几个空间,主要是几个按钮的切换,主要代码展示下: // // NYViewController.m ...

  2. Lucene 查询原理 传统二级索引方案 倒排链合并 倒排索引 跳表 位图

    提问: 1.倒排索引与传统数据库的索引相比优势? 2.在lucene中如果想做范围查找,根据上面的FST模型可以看出来,需要遍历FST找到包含这个range的一个点然后进入对应的倒排链,然后进行求并集 ...

  3. 读《深入理解Elasticsearch》点滴-对象类型、嵌套文档、父子关系

    一.对象类型 1.mapping定义文件 "title":{ "type":"text" }, "edition":{ ...

  4. [转]NHibernate之旅(9):探索父子关系(一对多关系)

    本节内容 引入 NHibernate中的集合类型 建立父子关系 父子关联映射 结语 引入 通过前几篇文章的介绍,基本上了解了NHibernate,但是在NHibernate中映射关系是NHiberna ...

  5. elasticsearch 基础 —— Jion父子关系

    前言 由于ES6.X版本以后,每个索引下面只支持单一的类型(type),因此不再支持以下形式的父子关系: PUT /company { "mappings": { "br ...

  6. iOS 父子关系

    1.面向对象特征,类的继承 成员变量(实例变量) 子类继承父类所有功能,只能直接(访问)调用父类中的.h中的protect和public成员变量(实例变量)及方法, .h中的私有的成员变量,子类不能直 ...

  7. oracle处理节点之间的父子关系

    通常当与树的结构之间的关系处理,这是一个很复杂的事情,我们可以通过程序代码去逐层遍历父或子节点,这样做的缺点是很明显,效率不高,操作复杂性是比较大的.而当我们使用Oracle当数据库,我们可以有一个简 ...

  8. SQL SERVER 2000 遍历父子关系数据的表(二叉树)获得所有子节点 所有父节点及节点层数函数

    ---SQL SERVER 2000 遍历父子关系數據表(二叉树)获得所有子节点 所有父节点及节点层数函数---Geovin Du 涂聚文--建立測試環境Create Table GeovinDu([ ...

  9. vue-自主研发非父子关系组件之间通信的问题

    相信很多人都知道解决组件间通信:vuex,今天的主角不是它. element-ui里解决组件间通信的思路:emitter.js ,但是如果你拿来你会发现它解决的是父子组件之间的通信问题.如果我们通信的 ...

随机推荐

  1. 使用C# WinForm窗体制作经理评分项目 ——S2 2.2

    在窗口加载时初始化三个员工对象 用数组存放 这是员工类的大致字段和属性. 在FrmMain中给对象数组附初值 以上 FrmMain中用一个ListView控件展示员工信息,通过以上代码将对象数组中的内 ...

  2. Selenium2+python自动化17-JS处理滚动条

    前言 selenium并不是万能的,有时候页面上操作无法实现的,这时候就需要借助JS来完成了. 常见场景: 当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的. 这时候 ...

  3. SQLServer语句 汇总

    SQL Server语句 序号 功能 语句 1 创建数据库(创建之前判断该数据库是否存在) if exists (select * from sysdatabases where name='data ...

  4. vim 分屏

    分屏启动Vim 使用大写的O参数来垂直分屏. vim -On file1 file2 ... 使用小写的o参数来水平分屏. vim -on file1 file2 ... 注释: n是数字,表示分成几 ...

  5. SAS文档:简单的随机点名器

    本次实验,我们设计了一个简单的随机点名系统,下面我来介绍一下它的SRS文档. 1.功能需求: 1.1 模块1 在此模块中,我们设置了RandomName类,创建一个随机点名器,里面加入了所在课程的名单 ...

  6. 在Spring项目中使用Log4j记录日志

    (1)引入log4j的jar包: 官网下载地址:http://logging.apache.org/log4j/1.2/download.html (2)在web.xml中添加log4j配置: 1 2 ...

  7. [学习笔记] 七步从AngularJS菜鸟到专家(4和5):指令和表达式 [转]

    这一篇包含了"AngularJS - 七步从菜鸟到专家"系列的第四篇(指令)和第五篇(表达式). 之前的几篇展示了我们应用的核心组件,以及如何设置搭建一个Angular.js应用.在这一部分,我们会厘 ...

  8. struts2的result的type属性

    一共有两个属性name和type name这里就不介绍了 type    返回结果的类型,值可以从default-struts.properties中看到看到 常用的值:dispatcher (默认) ...

  9. 读取iOS通讯录

    首先导入头文件 #import <AddressBook/AddressBook.h> 获取权限 读取通讯录 - (void)loadPerson { ABAddressBookRef a ...

  10. [VBS]关机恶作剧

    一.关于脚本 1)本文中的脚本完成以下功能: 随机生成3道二位数加法题,如果答题错误则在60秒后关机. 如果全答对了,也会在60后关机,但脚本会提示解除定时关机的办法 2)在脚本运行过程中,退出本脚本 ...