Elasticsearch慢查询故障诊断

最近在做ES搜索调优，看了一些lucene搜索的文档和代码，本文用于总结调优过程中学到的知识和自己的思考。

在抓到ES慢查询之后，会通过profile或者kibana的Search Profiler console查看具体慢在了哪里。一般在执行profile search之前，需要稍微改变query语句里的查询内容，防止cache影响测试效果。

profile主要包括shard级别的query耗时、query语句rewrite耗时以及最终lucene collector的耗时。

一般主要关注query的耗时，profile返回的query部分详细的展示了被rewrite后的查询语句以及每个子查询的耗时。包括子查询的类型(type)，子查询语句(description)，子查询耗时(time_in_nanos)和一个breakdown集合包含了lucene segements search各阶段的耗时。从这个breakdown集合中能比较清晰的看到耗时的原因，当然，前提是要理解breakdown里每个指标代表什么意思和内部的实现逻辑。

breakdown里的主要指标及lucene中的实现：

build_scorer:构造一个scorer的耗时。scorer主要用于对matching的doc进行打分和排序。build_scorer内部构造了迭代器，这个迭代器可以遍历所有matched document，构造迭代器是非常耗时的操作，因为涉及到对各子查询的docId结果集构造倒排链或bitset，并且做conjunction生成最终可被迭代的docId bitset或倒排链。大多数查询主要耗时在这一步。

next_doc: 寻找下一个匹配的document Id。这里keyword, text等文本类型的字段会利用skipList，数值类型的数据会利用Tree结构快速找的下一个匹配的docoument Id。同时，这里会记录该doc命中的子查询数量，用于最终的min_should_match之类的过滤。

advance: 类似于一个low level的next_doc。并不是所有的query都能实现next_doc，比如must查询走的advance去找下一个匹配的文档。

score: 记录socrer中对文档打分的耗时，通过Freq，normal等数据结合tf-idf等算法计算出得分。

match: 记录第二阶段打分的耗时。有些查询需要两阶段打分，比如短语查询(phrase query) "chinese love china", 第一阶段先找所有包含“chinese”、“love”、“china”三个term的文档。第二阶段再在第一阶段匹配到到的所有文档中计算“chinese”,"love","china"三个单词的位置和顺序是否满足条件，这一操作非常耗时，所以通过第一阶段缩小匹配文档的范围。

create_weight: 创建weight过程的耗时，weight就相当于lucene查询的context，里面包含了query，collector，indexreader等。

*_count: 记录方法调用次数，比如next_doc_count:2，代表next_doc方法被调用了两次。

除了query过程的详细统计，还包括：

rewrite_time: query语句被重写的耗时，lucene自己维护了一套查询语句重写逻辑，比如terms查询中如果要查询的terms个数小于16，会被重写成多个TermQuery做or结合；如果大于16会被重写成TermInSetQuery。

collector: query数据收集阶段的各种指标。包括query用到的collector的个数，类型和耗时。ES默认使用的是SimpleTopScoreDocCollector。lucene的collector主要通过reduce方法对每个segment上匹配的结果进行合并和排序，返回topN。

故障诊断过程中，除了通过profile API定位慢查询，也需要关注ES集群的整体资源使用情况，比如data node的CPU, Mem, 磁盘IO是否有瓶颈，单节点shard个数是否过多等。一般可以通过cerebro或者elasticsearch_exporter+Prometheus来监控集群状态, 也可以通过ES API查看相关指标。

Elasticsearch慢查询故障诊断的更多相关文章

【转】elasticsearch的查询器query与过滤器filter的区别
很多刚学elasticsearch的人对于查询方面很是苦恼,说实话es的查询语法真心不简单- 当然你如果入门之后,会发现elasticsearch的rest api设计是多么有意思. 说正题,ela ...
基于百度地图SDK和Elasticsearch GEO查询的地理围栏分析系统（1）
本文描述了一个系统,功能是评价和抽象地理围栏(Geo-fencing),以及监控和分析核心地理围栏中业务的表现. 技术栈:Spring-JQuery-百度地图WEB SDK 存储:Hive-Elast ...
Elasticsearch Kibana查询语法
Elasticsearch Kibana查询语法 2018年06月03日 23:52:30 wangpei1949 阅读数:3992 Elasticsearch Kibana Discover的搜 ...
ElasticSearch—分页查询
ElasticSearch查询—分页查询详解 Elasticsearch中数据都存储在分片中,当执行搜索时每个分片独立搜索后,数据再经过整合返回.那么,如何实现分页查询呢? 按照一般的查询流程来说,如 ...
Elasticsearch 邻近查询示例
Elasticsearch 邻近查询示例(全切分分词) JAVA API方式: SpanNearQueryBuilder span = QueryBuilders.spanNearQuery(); s ...
elasticsearch简单查询
elasticsearch简单查询示例: { "from": "0", //分页,从第一页开始 "size": "10" ...
ElasticSearch高级查询
ElasticSearch高级查询 https://www.imooc.com/video/15759/0 ElasticSearch查询 1,子条件查询:特定字段查询所指特定值 1.1query c ...
elasticsearch 分页查询实现方案——Top K+归并排序
elasticsearch 分页查询实现方案 1. from+size 实现分页 from表示从第几行开始,size表示查询多少条文档.from默认为0,size默认为10,注意:size的大小不能超 ...
ELK 学习笔记之 elasticsearch 基本查询
elasticsearch 基本查询: 基本查询: term查询: terms查询: from和size查询: match查询: match_all查询: match_phrase查询: multi_ ...

随机推荐

2018-9-30-C#-从零开始写-SharpDx-应用-画三角
title author date CreateTime categories C# 从零开始写 SharpDx 应用画三角 lindexi 2018-09-30 18:30:14 +0800 20 ...
Java练习 SDUT-1171_保留整数
C语言实验--保留整数 Time Limit: 1000 ms Memory Limit: 65536 KiB Problem Description 输入一个字符串str1,把其中的连续非数字的字符 ...
day6_python之pickle、shelve序列化和反序列化
pickle.shelve,python私有,支持所有python数据类型一.pickle dic={'name':'egon','age':18} print(pickle.dumps(dic)) ...
github下载慢，轻松提速教程
获取github的IP地址访问:https://www.ipaddress.com/ 网址依次获取以下三个网址的IP github.comgithub.global.ssl.fastly.netco ...
jQuery的引入和使用
https://www.cnblogs.com/sandraryan/ 前端代码优化:无效循环越少越好,DOM节点操作越少越好,HTTP请求越少越好 jq是一个js库.(不是框架) JQ优点 1. 方 ...
H3C PAP验证
ios9.3.3 h5的js代码全部失效
做微信公众号页面时,ios9.3.3 h5的js代码全部失效描述: 机型iphone6 plus,ios9.3.3js代码全部失效,刚开始还以为是ios和jq兼容问题, 后来发现是es6语法不能读,导 ...
软件自动化测试 selenium IDE + Firebug + python脚本
按顺序步骤来一.安装软件 1.1.1 webDriver(就是selenium IDE) 解析:本来这两个东西就合成一个了,但是更新到后来,安装的时候又独立安装的. 安装 Python ...
指针版的PStash(用一个void指针数组, 来保存存入元素的地址) 附模板化实现 p321
由容器PStash的使用者,负责清除容器中的所有指针.所以用户必须记住放到容器中的是什么类型,在取出时,把取出的void指针转换成对应的类型指针,然后 'delete 转换后的对象指针',才能在清除时 ...
Codeforces Round #529 (Div. 3) E. Almost Regular Bracket Sequence（思维）
传送门题意: 给你一个只包含 '(' 和 ')' 的长度为 n 字符序列s: 给出一个操作:将第 i 个位置的字符反转('(' ')' 互换): 问有多少位置反转后,可以使得字符串 s 变为&quo ...

Elasticsearch慢查询故障诊断

Elasticsearch慢查询故障诊断的更多相关文章

随机推荐

热门专题