Elasticsearch强大的聚合功能Facet

在常规数据库中，我们都知道有一个sql就是group，分组。如果主表只有对应的一个列记录的分组的ID，那么还好统计，比如说每本书book表，有一个分类catId，记录是属于哪一类的书，那么直接按照catId进行分组即可。可是在实际应用种，并非如此简单。一本书往往属于多个分类，比如：某本书既属于科技类书，又属于儿童类书，要求按照这两种条件进行筛选，都能筛选出来，如果要求按照分类进行统计数量，数据库怎么group?我们且抛开种种解决方案，来看看Elasticsearch里面对这种需求，是多么的容易统计。

首先，我们需要造些数据，需要用到一个模型，这个模型定义了一个type，就算类型吧，我们用这个属性来演示常规的group。还有一个catIds的列表模型，这个来解决我们上面描述的一本书对应多个分类的需求。模型定义如下：

import java.io.Serializable;

import java.util.ArrayList;

import java.util.List;

import java.util.Random;  

import com.donlianli.es.ESUtils;

/**

 * 这个是为分组定义的一个模型

 * catIds通常为一对多的分类ID

 * @author donlian

 */

public class FacetTestModel implements Serializable {

    private static final long serialVersionUID = 3174577828007649745L;

    /**

     * 随便编写的一些值，type属性只能取这里面的其中一个

     */

    private String[] types= new String[]{

            "type1","type2","type3","type4","type5","type6","type7",

            "type11","type12","type13","type14","type15","type16","type17"

    };

    //主ID

    private long id;

    //类型，为types之一

    private String type;

    /**

     * 所属分类，范围为1-50

     */

    private List<Integer> catIds;  

    public FacetTestModel(){

        Random r = new Random();

        int n = Math.abs(r.nextInt());

        int index = n%14;

        this.type = types[index];

        this.id = Math.abs(r.nextLong());  

        n = n%50;

        catIds = new ArrayList<Integer>();

        catIds.add(n);

        int ys = n%3;

        if(ys!=0){

            for(int i=1;i<ys+1;i++){

                catIds.add(n+i);

            }

        }

    }

    public static void main(String[] argv){

        for(int i=0;i<10;i++){

            FacetTestModel f = new FacetTestModel();

            System.out.println(ESUtils.toJson(f));

        }

    }

    set,get方法，自己写吧

}

接着就是初始化数据。

import org.elasticsearch.action.bulk.BulkRequestBuilder;

import org.elasticsearch.action.bulk.BulkResponse;

import org.elasticsearch.action.index.IndexRequestBuilder;

import org.elasticsearch.client.Client;  

import com.donlianli.es.ESUtils;

import com.donlianli.es.model.FacetTestModel;  

public class BulkIndexTest {  

    public static void main(String[] args) {

        Client client = ESUtils.getClient();

        BulkRequestBuilder bulkRequest = client.prepareBulk();

        for(int i=0;i<10;i++){

            String json = ESUtils.toJson(new FacetTestModel());

            IndexRequestBuilder indexRequest = client.prepareIndex("test", "test")

            //指定不重复的ID

            .setSource(json).setId(String.valueOf(i));

            //添加到builder中

            bulkRequest.add(indexRequest);

        }  

        BulkResponse bulkResponse = bulkRequest.execute().actionGet();

        if (bulkResponse.hasFailures()) {

            System.out.println(bulkResponse.buildFailureMessage());

        }

    }

}

接下来，我们首先对type进行统计。在elasticsearch中，分组的功能叫facet，不知道为啥起这个名称。总之，就是对type的每一个值的数量进行统计，注意，要设置里面的size条件，否则默认只返回10个。

import org.elasticsearch.action.search.SearchResponse;

import org.elasticsearch.client.Client;

import org.elasticsearch.index.query.FilterBuilders;

import org.elasticsearch.search.facet.FacetBuilders;

import org.elasticsearch.search.facet.Facets;

import org.elasticsearch.search.facet.terms.TermsFacet;

import org.elasticsearch.search.facet.terms.TermsFacetBuilder;  

import com.donlianli.es.ESUtils;  

public class GroupTest {

    public static void  main(String[] argv){

        Client client = ESUtils.getClient();

        TermsFacetBuilder facetBuilder = FacetBuilders.termsFacet("typeFacetName");

        facetBuilder.field("type").size(Integer.MAX_VALUE);

        facetBuilder.facetFilter(FilterBuilders.matchAllFilter());

        SearchResponse response = client.prepareSearch("test")

                .setTypes("test")

                .addFacet(facetBuilder)

                .setFilter(FilterBuilders.matchAllFilter())

                .execute()

                .actionGet();

        Facets f = response.facets();

        //跟上面的名称一样

        TermsFacet facet = (TermsFacet)f.getFacets().get("typeFacetName");

        for(TermsFacet.Entry tf :facet.entries()){

            System.out.println(tf.getTerm()+"\t:\t" + tf.getCount());

        }

        client.close();

    }

}

运行程序后，大概得到如下结果：

type3   :   4

type7   :   1

type6   :   1

type4   :   1

type13  :   1

type12  :   1

type11  :   1

正好10个。初始化代码能对的上。

下面，我们就要对catIds进行统计了，再统计之前，我们先看看es里面都存储的是那些数据。

{id=3683174899323317453, catIds=[4, 5], type=type3}

{id=271209313870366004, catIds=[26, 27, 28], type=type3}

{id=348654892174153835, catIds=[41, 42, 43], type=type4}

{id=6826187683023110944, catIds=[46, 47], type=type7}

{id=3437591661789488747, catIds=[22, 23], type=type3}

{id=6365837443081614150, catIds=[37, 38], type=type11}

{id=2387331048448677498, catIds=[20, 21, 22], type=type3}

{id=5595404824923951817, catIds=[31, 32], type=type13}

{id=3593797446463621044, catIds=[30], type=type12}

{id=5824112111832084165, catIds=[1, 2], type=type6}

怎么对catIds进行统计呢，代码跟上面进行单个统计一样。

import org.elasticsearch.action.search.SearchResponse;

import org.elasticsearch.client.Client;

import org.elasticsearch.index.query.FilterBuilders;

import org.elasticsearch.search.facet.FacetBuilders;

import org.elasticsearch.search.facet.Facets;

import org.elasticsearch.search.facet.terms.TermsFacet;

import org.elasticsearch.search.facet.terms.TermsFacetBuilder;  

import com.donlianli.es.ESUtils;  

public class GroupTest2 {

    public static void  main(String[] argv){

        Client client = ESUtils.getClient();

        TermsFacetBuilder facetBuilder = FacetBuilders.termsFacet("catIdName");

        facetBuilder.field("catIds").size(Integer.MAX_VALUE);

        facetBuilder.facetFilter(FilterBuilders.matchAllFilter());

        SearchResponse response = client.prepareSearch("test")

                .setTypes("test")

                .addFacet(facetBuilder)

                .setFilter(FilterBuilders.matchAllFilter())

                .execute()

                .actionGet();

        Facets f = response.facets();

        //跟上面的名称一样

        TermsFacet facet = (TermsFacet)f.getFacets().get("catIdName");

        for(TermsFacet.Entry tf :facet.entries()){

            System.out.println("键:"+tf.getTerm()+"\t;数量:\t" + tf.getCount());

        }

        client.close();

    }

}

运行结果：

键:22    ;数量:    2

键:47    ;数量:    1

键:46    ;数量:    1

键:43    ;数量:    1

键:42    ;数量:    1

键:41    ;数量:    1

键:38    ;数量:    1

键:37    ;数量:    1

键:32    ;数量:    1

键:31    ;数量:    1

键:30    ;数量:    1

键:28    ;数量:    1

键:27    ;数量:    1

键:26    ;数量:    1

键:23    ;数量:    1

键:21    ;数量:    1

键:20    ;数量:    1

键:5 ;数量:    1

键:4 ;数量:    1

键:2 ;数量:    1

键:1 ;数量:    1

再和上面的数据对对，是不是除了22，其他的都是一个？

在分组这方面，ES真的很强大，除了上面的支持列表分组外，还支持范围分组rangeFacet，多个分组可以一次全部发送给ES等等，更多功能，大家还是自己多多验证。

对这类话题感兴趣？欢迎发送邮件至donlianli@126.com;或者关注我的微信公众号“猿界汪汪队”

关于我：邯郸人，擅长Java，Javascript，Extjs，oracle sql。

Elasticsearch强大的聚合功能Facet的更多相关文章

SSRS 系列 - 使用带参数的 MDX 查询实现一个分组聚合功能的报表
SSRS 系列 - 使用带参数的 MDX 查询实现一个分组聚合功能的报表 SSRS 系列 - 使用带参数的 MDX 查询实现一个分组聚合功能的报表 2013-10-09 23:09 by BI Wor ...
点聚合功能---基于ARCGIS RUNTIME SDK FOR ANDROID
一直不更新博客的原因,如果一定要找一个,那就是忙,或者说懒癌犯了. 基于ArcGIS RunTime SDK for Android的点聚合功能,本来是我之前做过的一个系统里面的一个小部分,今天抽出一 ...
MongoCola使用教程 1 - MongoDB的基本操作和聚合功能---Mongdb客户端软件操作说明
前言在开始正文之前,感谢博客园的Nosql爱好者对于MongoCola工具的试用(使用).特别感谢呆呆这位朋友的Bug报告,让我纠正了一个很严重的Bug.同时也感谢以前的多个网友在博客留言中给我 ...
jQuery Validate 插件为表单提供了强大的验证功能
之前项目开发中,表单校验用的jQuery Validate 插件,这个插件为表单提供了强大的验证功能,让客户端表单验证变得更简单,同时提供了大量的定制选项,满足应用程序各种需求.该插件捆绑了一套有用的 ...
php图像处理（thinkphp框架有相对强大的图像处理功能）
php图像处理(thinkphp框架有相对强大的图像处理功能) 一.总结 1.php处理图像:php处理图像需要安装外库(gd库) 2.gd库函数可以非常完美的操作图像:安装好库之后,这个库里面的函数 ...
借助Mac自带的强大的搜索功能，如何快速搜索打开Tuxera Disk Manager
现在很多小伙伴们在遇到Mac读写NTFS格式硬盘问题的时候,都会选择使用Tuxera NTFS这个磁盘读写工具.因为这款读写工具不仅可以帮助我们进行读写工作,还具有一个磁盘管理工具Disk Manag ...
小试牛刀ElasticSearch大数据聚合统计
ElasticSearch相信有不少朋友都了解,即使没有了解过它那相信对ELK也有所认识E即是ElasticSearch.ElasticSearch最开始更多用于检索,作为一搜索的集群产品简单易用绝对 ...
Django之强大的Form功能
转载: http://www.cnblogs.com/0820-zq/p/5807980.html Form Form的验证思路前端:form表单后台:创建form类,当请求到来时,先匹配,匹配出 ...
java使用elasticsearch分组进行聚合查询（group by）-项目中实际应用
java连接elasticsearch 进行聚合查询进行相应操作一:对单个字段进行分组求和 1.表结构图片: 根据任务id分组,分别统计出每个任务id下有多少个文字标题 .SQL:select id ...

随机推荐

用Windows Server 2003搭建企业内部邮件服务器
公司要搭建一个邮件服务器,方便内部邮件的发送.而且要求每位员工都可以使用自己的账号和密码.领导将这份工作交给我,不过,这可难不倒我.只要借助Windows Server 2003就可以轻松建起内部邮件 ...
浅谈用java解析xml文档（二）
上一文中总结了dom解析xml文档的方式,本文开始总结使用SAX解析xml 的方式及它的优缺点! SAX(Simple API for XML),是指一种接口,或者一个软件包. 首先我们应该知道SAX ...
论js中的prototype
今天在阅读代码时,碰到了prototype //判断是否是数组function isArray(obj) { return Object.prototype.toString.call(obj) == ...
Android——将图片加入到系统相册里面
Adnroid中保存图片的方法可能有如下两种: 第一种是自己写方法,如下代码: public static File saveImage(Bitmap bmp) { File appDir = new ...
Spring 3.x 实践第一个例子（Spring 3.x 企业应用开发实战读书笔记第二章）
前言:工作之后一直在搞android,现在需要更多和后台的人员交涉,技术栈不一样,难免鸡同鸭讲,所以稍稍学习下. 这个例子取自于<Spring 3.x 企业应用开发实战>一书中的第二章,I ...
hive外部表自动读取文件夹里的数据
我们在创建表的时候可以指定external关键字创建外部表,外部表对应的文件存储在location指定的目录下,向该目录添加新文件的同时,该表也会读取到该文件(当然文件格式必须跟表定义的一致),删除外 ...
jsp页面在IE8下文本模式自动为“杂项（Quirks）”导致页面显示错位
最近在修改网站的响应式的页面时,由于都是套样式页面,修改过程都是粘贴复制,导致了一些细节问题在IE8下暴露出来: 遇到的问题就是在在Chrome,火狐页面都正常,唯独在IE8下页面样式显示乱样了,但是 ...
ios 经典错误
1 - [person test]:unrecognized selector sent to instance. 给penson对象发送一个不能识别的消息:test 2 set/get方法死循环 ...
css3中的BFC,IFC,GFC和FFC(转载)
作者原文网址:http://www.cnblogs.com/dingyufenglian/p/4845477.html What‘s FC? 一定不是KFC,FC的全称是:Formatting C ...
IP address/地址检查
1.Determine if a string is a valid IP address in C Beej's Guide to Network Programming 2.9.14. inet_ ...

Elasticsearch强大的聚合功能Facet

Elasticsearch强大的聚合功能Facet的更多相关文章

随机推荐

热门专题