elasticsearch中如何高效的使用filter

这里有一篇很好的文章，很不错，翻译和整理了一下，英文不错的，建议直接看原文：http://euphonious-intuition.com/2013/05/all-about-elasticsearch-filter-bitsets/

elasticsearch里面有BOOL filter、AND、OR、NOT filter，这几个看起来很相似，都有什么区别呢？什么时候用boolfilter？什么时候用AND filter呢？

事实上，bool filter和AND 、OR、NOT filter 是完全不同，在查询性能上面的影响是非常大的。

首先咱们需要了解的是filter里面都是怎么工作的，其中核心的一个东西叫BitSet，可以理解为一个很大的bit数组，数组里面的每个元素有2个状态:0和1（bloom filter知道么？），而filter大家都知道，只处理文档是否匹配与否，不涉及文档评分操作。如果一个文档和filter查询匹配，那么其对应的bit位就设置为1，匹配不上则设置为0。

es在执行filter查询过滤的时候，会打开lucene的每个segment段文件，然后去判断里面的文档符合该filter与否，这个匹配的结果我们就可以用bitset来存储起来，下次同样的filter查询过来，我们就直接使用内存里面的bitset来进行判断就行了，而不需要再打开lucene的segment文件了，避免了io的操作，这样就可以大大提高查询处理的速度，这也是为什么filter这么高效的原因。

因为lucene的segment段文件是不变的，lucene会产生新段，但是旧段是不变的，所以bitset是重复利用的，根据不同的filter条件和不同的段，会产生相应的bitset，另外不同的查询可能会涉及到多个bitset的做交集，计算机对这种bit位处理过程是非常拿手的，速度很快。

另外，如果filter的结果如果是空的，那么里面的bitset位都是0，es以后在处理该filter的时候，会把该bitset整个忽略掉，提高性能。

前面说完了基础内容，咱们再看看bool filter和AND filter这些的区别吧

bool filter会使用到前面提到过的bitset数据结构（bitset派），而AND \OR\ NOTfilter则不能利用到bitset（non-bitset派），为什么呢？

AND、OR、NOT filter是doc by doc的逐个文档的处理，es逐个加载文档里面的字段内容，然后检查字段的内容是否满足查询条件，不满足的文档就排除在结果集之外，依次迭代进行，直到过完一遍所有的文档，这中间的过程用不到前面提到过的bitset，也就不能重复利用缓存资源

如果你有多个filter条件，即一个AND、OR、NOT里面包含多个filter过滤条件（支持数组的方式），那么处理的逻辑就是每个filter会将依次将生成的结果集传到下一个filter，理论上处理的文档数会越来越少，因为只会过滤减少，不会增加，这样依次过滤，所以一般限制条件比较苛刻的可以放前面执行，这样后面的filter需要处理的文档数就会很小，这样可以大大提高整体处理的速度，另外除了数量上的考虑外，还需要考虑filter的效率问题，一些filter执行效率很低，如Geo filter（大量计算）或者script based filter（动态脚本），建议将这些性能开销比较大的查询放最后执行来提高整体的处理速度。

好了，现在应该有这么一个概念了，AND、OR、NOT是文档by文档，依次处理，如果你的结果集很大，即一个很宽松的查询，命中很多，那么你使用AND、OR、NOT filter是不合适的，但是有些filter是必须文档by文档处理的，如下面的这几个filter：

Geo* filters
Scripts
Numeric_range

所以除了上面那几个没有办法的，其它的filter应该一律使用bool filter来提高查询性能。

如果你的查询里面需要同时使用到bitset和non-bitset类型的filter，则可以组合起来使用bool filter和AND\OR\NOT filter，

前面说了，AND 是结果集依次向后传递，所以我们把性能比较好的放前面，non-bitset放AND的filter的后面，如下面一个包含多个filter类型的复杂的filter

{

  "and" : [

    {

      "bool" : {

        "must" : [

          { "term" : {} },

          { "range" : {} },

          { "term" : {} }

        ]

      }

    },

    {

      "or" : [

        { "custom_script" : {} },

        { "geo_distance" : {} }

      ]

    }

  ]

}

and 在最外层做wrapper，第一个filter是一个bool filter，里面有3个must的子filter，处理完了之后，得到文档结果集，然后再执行一个or的子filter，OR里面两个查询会分别进行，最终的文档结果集就是我们的搜索结果了。

总之，filter使用的时候，一定要优先使用bitset流，然后还要考虑filter顺序和组合的问题

Geo, Script or Numeric_range filter: 使用 And/Or/Not Filters
所有其它的: 使用 Bool Filter

掌握了以上这些，就不难写出高性能的查询了。

本文出自：http://log.medcl.net/item/2013/09/elasticsearch-inside-the-various-filter/

elasticsearch中如何高效的使用filter的更多相关文章

在elasticsearch里如何高效的使用filter
今天在做查询category的时候,遇到一个问题,查询出来的cateogry为food,fun的形式.但是我需要的只是food或者fun 不包含逗号. 开始想着在aggs后再做过滤,这样有些麻烦.遂在 ...
高效管理 Elasticsearch 中基于时间的索引——本质是在利用滚动模式做数据的冷热分离，热索引可以用ssd
高效管理 Elasticsearch 中基于时间的索引转自:http://stormluke.me/es-managing-time-based-indices-efficiently/ 用 Ela ...
elasticsearch中filter执行原理深度剖析（bitset机制与caching机制）
(1)在倒排索引中查找搜索串,获取document list date来举例 word doc1 doc2 doc3 2017-01-01 * *2017-02-02 * *2017-03-03 ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
如何在Elasticsearch中安装中文分词器(IK+pinyin)
如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组. ...
在Elasticsearch中查询Term Vectors词条向量信息
这篇文章有点深度,可能需要一些Lucene或者全文检索的背景.由于我也很久没有看过Lucene了,有些地方理解的不对还请多多指正. 更多内容还请参考整理的ELK教程关于Term Vectors 额, ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
ElasticSearch中的简单查询
前言最近修改项目,又看了下ElasticSearch中的搜索,所以简单整理一下其中的查询语句等.都是比较基础的.PS,好久没写博客了..大概就是因为懒吧.闲言少叙书归正传. 查询示例 http:// ...
elasticsearch中的mapping映射配置与查询典型案例
elasticsearch中的mapping映射配置与查询典型案例 elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题".&q ...

随机推荐

怎么解决ZBrush保存历史记录太多问题
经常有用户反映说ZBrush ®保存历史记录太多了,导致文件太大了!模型已经是降低级别保存了,在保存历史记录的时候还是很慢很慢,不知道怎么才能减少ZBrush保存的历史步骤的多少.针对这一问题,小编统 ...
USACO3.1Humble Numbers[...]
题目背景对于一给定的素数集合 S = {p1, p2, ..., pK},考虑一个正整数集合,该集合中任一元素的质因数全部属于S.这个正整数集合包括,p1.p1*p2.p1*p1.p1*p2*p3. ...
Carcraft
魔兽登录系统创建魔兽系统相关窗体: 登录窗体(frmLogin) 注册窗体(frmRegister) 主窗体 (frmMain) 实现魔兽登录系统: 登录的界面如下实现思路: 1.创建一个 ...
JavaScript RegExp 对象
JavaScript RegExp 对象 RegExp 对象用于规定在文本中检索的内容. 什么是 RegExp? RegExp 是正则表达式的缩写. 当您检索某个文本时,可以使用一种模式来描述要检索的 ...
JProfiler
1 前言回答之前先让我们来看看什么是jProfiler:JProfiler是一个商业授权的Java剖析工具,由EJ技术有限公司,针对Java EE和Java SE应用程序开发的.它允许两个内存剖面 ...
git删除文件需要注意的事项
当commit提交一个文件a到本地仓库中,然后又git rm a 删除这个文件(),再执行git push后,同样会把a文件push到远程仓库.并且这个时候执行git pull并不会从远程仓库拉取a文 ...
EEG: electrode positions & Broadmann atlas
Source: http://www.brainm.com/software/pubs/dg/BA_10-20_ROI_Talairach/nearesteeg.htm Area LEFT RIG ...
条件注释判断浏览器版本 除IE外都可识别 <!--[if IE]> 所有的IE可识别 <![e ...
OkHttp使用教程
Android系统提供了两种HTTP通信类,HttpURLConnection和HttpClient.关于HttpURLConnection和HttpClient的选择>>官方博客尽管Go ...
logstash搭建日志追踪系统
前言开始博客之前,首先说下10月份没写博客的原因 = =. 10月份赶上国庆,回了趟老家休息了下,回来后自己工作内容发生了点改变,开始搞一些小架构的东西以及研究一些新鲜东西,当时我听到这个消息真的是 ...

elasticsearch中如何高效的使用filter

elasticsearch中如何高效的使用filter的更多相关文章

随机推荐

热门专题