Lucene系列-facet

1.facet的直观认识

facet：面、切面、方面。个人理解就是维度，在满足query的前提下，观察结果在各维度上的分布（一个维度下各子类的数目）。

如jd上搜“手机”，得到4009个商品。其中品牌、网络、价格就是商品的维度(facet)，点击某个品牌或者网络，获取更细分的结果。

点击品牌小米，获得小米手机的结果，显示27个。

点击移动4G，获得移动4G、小米手机，显示4个。

2.facet特性

facet counting：返回一个facet下某子类的结果数。如上面的品牌维度下小米子类中满足查询"手机"的结果有27个。
facet associations：一个文档与某子类的关联度，如一本书30%讲lucene，70%讲solor，这个百分比就是书与分类的关联度(匹配度、信心度)。
multiple facet requests：支持多facet查询（多维度查询）。如查询品牌为小米、网络为移动4G的手机。

3.实例

一个facet简单使用例子，依赖于lucene-facet-4.10.0。讲述了从搜手机到品牌、到网络向下browser的过程。

public class SimpleFacetsExample {

    private final Directory indexDir = new RAMDirectory();

    private final Directory taxoDir = new RAMDirectory();

    private final FacetsConfig config = new FacetsConfig();

    /** Empty constructor */

    public SimpleFacetsExample() {

        config.setHierarchical("Publish Date", true);

    }

    /** Build the example index. */

    private void index() throws IOException {

        IndexWriter indexWriter = new IndexWriter(indexDir, new IndexWriterConfig(Version.LUCENE_4_10_0,

                new WhitespaceAnalyzer()));

        // Writes facet ords to a separate directory from the main index

        DirectoryTaxonomyWriter taxoWriter = new DirectoryTaxonomyWriter(taxoDir);

        Document doc = new Document();

        doc.add(new TextField("device", "手机", Field.Store.YES));

        doc.add(new TextField("name", "米1", Field.Store.YES));

        doc.add(new FacetField("brand", "小米"));

        doc.add(new FacetField("network", "移动4G"));

        indexWriter.addDocument(config.build(taxoWriter, doc));

        doc = new Document();

        doc.add(new TextField("device", "手机", Field.Store.YES));

        doc.add(new TextField("name", "米4", Field.Store.YES));

        doc.add(new FacetField("brand", "小米"));

        doc.add(new FacetField("network", "联通4G"));

        indexWriter.addDocument(config.build(taxoWriter, doc));

        doc = new Document();

        doc.add(new TextField("device", "手机", Field.Store.YES));

        doc.add(new TextField("name", "荣耀6", Field.Store.YES));

        doc.add(new FacetField("brand", "华为"));

        doc.add(new FacetField("network", "移动4G"));

        indexWriter.addDocument(config.build(taxoWriter, doc));

        doc = new Document();

        doc.add(new TextField("device", "电视", Field.Store.YES));

        doc.add(new TextField("name", "小米电视2", Field.Store.YES));

        doc.add(new FacetField("brand", "小米"));

        indexWriter.addDocument(config.build(taxoWriter, doc));

        taxoWriter.close();

        indexWriter.close();

    }

    private void facetsWithSearch() throws IOException {

        DirectoryReader indexReader = DirectoryReader.open(indexDir);

        IndexSearcher searcher = new IndexSearcher(indexReader);

        TaxonomyReader taxoReader = new DirectoryTaxonomyReader(taxoDir);

        FacetsCollector fc = new FacetsCollector();

        //1.查询手机

        System.out.println("-----手机-----");

        TermQuery query = new TermQuery(new Term("device", "手机"));

        FacetsCollector.search(searcher, query, 10, fc);

        Facets facets = new FastTaxonomyFacetCounts(taxoReader, config, fc);

        List<FacetResult> results = facets.getAllDims(10);

        //手机总共有3个,品牌维度：小米2个，华为1个;网络维度：移动4G 2个，联通4G 1个

        for (FacetResult tmp : results) {

            System.out.println(tmp);

        }

        //2.drill down，品牌选小米

        System.out.println("-----小米手机-----");

        DrillDownQuery drillDownQuery = new DrillDownQuery(config, query);

        drillDownQuery.add("brand", "小米");

        FacetsCollector fc1 = new FacetsCollector();//要new新collector，否则会累加

        FacetsCollector.search(searcher, drillDownQuery, 10, fc1);

        facets = new FastTaxonomyFacetCounts(taxoReader, config, fc1);

        results = facets.getAllDims(10);

        //获得小米手机的分布，总数2个，网络：移动4G 1个，联通4G 1个

        for (FacetResult tmp : results) {

            System.out.println(tmp);

        }

        //3.drill down，小米移动4G手机

        System.out.println("-----移动4G小米手机-----");

        drillDownQuery.add("network", "移动4G");

        FacetsCollector fc2 = new FacetsCollector();

        FacetsCollector.search(searcher, drillDownQuery, 10, fc2);

        facets = new FastTaxonomyFacetCounts(taxoReader, config, fc2);

        results = facets.getAllDims(10);

        for (FacetResult tmp : results) {

            System.out.println(tmp);

        }

        //4.drill sideways，横向浏览

        //如果已经进入了小米手机，但是还想看到其他牌子(华为)的手机数目，就用到了sideways

        System.out.println("-----小米手机drill sideways-----");

        DrillSideways ds = new DrillSideways(searcher, config, taxoReader);

        DrillDownQuery drillDownQuery1 = new DrillDownQuery(config, query);

        drillDownQuery1.add("brand", "小米");

        DrillSidewaysResult result = ds.search(drillDownQuery1, 10);

        results = result.facets.getAllDims(10);

        for (FacetResult tmp : results) {

            System.out.println(tmp);

        }

        indexReader.close();

        taxoReader.close();

    }

    /** Runs the search and drill-down examples and prints the results. */

    public static void main(String[] args) throws Exception {

        SimpleFacetsExample example = new SimpleFacetsExample();

        example.index();

        example.facetsWithSearch();

    }

}

输出：

-----手机-----

//总数3个，2个子类

dim=brand path=[] value=3 childCount=2

  小米 (2)

  华为 (1)

dim=network path=[] value=3 childCount=2

  移动4G (2)

  联通4G (1)

-----小米手机-----

//普通向下浏览，丢失了同一维度，其他子类的统计

dim=brand path=[] value=2 childCount=1

  小米 (2)

dim=network path=[] value=2 childCount=2

  移动4G (1)

  联通4G (1)

-----移动4G小米手机-----

dim=brand path=[] value=1 childCount=1

  小米 (1)

dim=network path=[] value=1 childCount=1

  移动4G (1)

-----小米手机drill sideways-----

//drill sideways, 保留了该drill维度的其他子类统计

dim=brand path=[] value=3 childCount=2

  小米 (2)

  华为 (1)

//小米手机中的网络分布

dim=network path=[] value=2 childCount=2

  移动4G (1)

  联通4G (1)

Lucene系列-facet的更多相关文章

Lucene系列二：Lucene（Lucene介绍、Lucene架构、Lucene集成）
一.Lucene介绍 1. Lucene简介最受欢迎的java开源全文搜索引擎开发工具包.提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言).Lucene的目的是为软件开发人 ...
Lucene系列-facet--转
https://blog.csdn.net/whuqin/article/details/42524825 1.facet的直观认识 facet:面.切面.方面.个人理解就是维度,在满足query的前 ...
lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现
http://stackoverflow.com/questions/185697/the-most-efficient-way-to-find-top-k-frequent-words-in-a-b ...
Lucene系列-FieldCache
域缓存,加载所有文档中某个特定域的值到内存,便于随机存取该域值. 用途及使用场景当用户需要访问各文档中某个域的值时,IndexSearcher.doc(docId)获得Document的所有域值,但 ...
[lucene系列笔记1]lucene6的安装与配置（Windows系统）
lucene是一个java开源的高效全文检索工具包,最近做项目要用到,把学习的过程记录一下. 第一步:下载安装jdk 1.首先从官网下载jdk(下载之前先查看你的电脑是多少位操作系统,如果是32就下载 ...
Lucene系列-索引文件
本文介绍下lucene生成的索引有哪些文件组成,每个文件包含了什么信息.基于Lucene 4.10.0. 数据结构索引(index)包含了存储的文档(document)正排.倒排信息,用于文本搜索. ...
Lucene系列-近实时搜索(1)
近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容,介于immediate和eventual之间,在数据比较大.更新较频繁的情况下使用.本文主要来介绍下如何 ...
Lucene系列-搜索
Lucene搜索的时候就要构造查询语句,本篇就介绍下各种Query.IndexSearcher是搜索主类,提供的常用查询接口有: TopDocs search(Query query, int n); ...
Lucene系列-分析器
分析器介绍搜索的基础是对文本信息进行分析,Lucene的分析工具在org.apache.lucene.analysis包中.分析器负责对文本进行分词.语言处理得到词条,建索引和搜索的时候都需要用到分 ...

随机推荐

ie8 iframe去掉边框的属性
<iframe src="" id="Iframe" height="200" frameborder="0" s ...
css3的transition过渡
从*开始样式*,经过指定*时间*后,缓慢过渡到*结束样式* 语法:transition:要变化的属性名持续时间速度变化类型延迟强调:写在开始样式中如何实现多个属性同时过渡:2种办法: 1. ...
关于libsvm工具箱在64位matlab下的安装说明
LIBSVM工具箱的安装基本方法: 1.在网上下载LIBSVM工具箱. http://www.csie.ntu.edu.tw/~cjlin/libsvm/ 2.将LIBSVM工具箱所在目录添加到MA ...
安装vs2010，vs2015后，删除2015，导致vs2016打不开
报错:Cannot evaluate the property expression "$([MSBuild]::ValueOrDefault('$(VCTargetsPath)','$(M ...
电子科技大学第八届ACM趣味程序设计竞赛第四场（正式赛）题解
A. Picking&Dancing 有一列n个石子,两人交替取石子,每次只能取连续的两个,取走后,剩下的石子仍然排成1列.问最后剩下的石子数量是奇数还是偶数. 读懂题意就没什么好说的. #i ...
Centos 反向代理创建资料
1. yum update 2. sh centos.sh 3. sh upgrade_nginx.sh nginx 1.7.0 4. cd /usr/local/nginx/conf/ upload ...
Unsupported major.minor version 51.0解决方法
jdk1.6工程中使用外部jar包中类出现:Unsupported major.minor version 51.0 问题原因:外部jar包使用jdk1.7(jdk7)编译,而使用此jar包的工程jd ...
Java printf
boost的编译
第1步: 先从官网(www.boost.org)下载最新版的BOOST源码,如图所示我这里下的是zip的那个第2步:编译源代码(放心.这里是傻瓜式的操作,很容易操作)(1)先把源代码放在E盘,例如 ...
List<String[]>
1.List<Sttring[]>的用法 List<String[]> list = new ArrayList<String[]>();//声明一个List< ...

Lucene系列-facet

Lucene系列-facet的更多相关文章

随机推荐

热门专题