1.集群监控

集群监控主要包括两个方面的内容，分别是集群健康情况和集群的运行状态。

集群健康状态可以通过以下api获取：

http://ip:9200/_cluster/health?pretty

关键指标说明：

 status：

 #集群状态，分为green、yellow和red。 

 number_of_nodes/number_of_data_nodes:

 #集群的节点数和数据节点数。 

 active_primary_shards：

 #集群中所有活跃的主分片数。 

 active_shards：

 #集群中所有活跃的分片数。
 

 relocating_shards：

#当前节点迁往其他节点的分片数量，通常为0，当有节点加入或者退出时该值会增加。 

initializing_shards：

#正在初始化的分片。 

unassigned_shards：

#未分配的分片数，通常为0，当有某个节点的副本分片丢失该值就会增加。 

number_of_pending_tasks：

#是指主节点创建索引并分配shards等任务，如果该指标数值一直未减小代表集群存在不稳定因素。 

active_shards_percent_as_number：

#集群分片健康度，活跃分片数占总分片数比例。 

number_of_pending_tasks：

#pending task只能由主节点来进行处理，这些任务包括创建索引并将shards分配给节点。

集群状态信息主要包含整个集群的一些统计信息，例如文档数、分片数、资源使用情况等。

集群状态信息可以由以下api获取：

http://ip:9200/_cluster/stats?pretty

关键指标说明：

 indices.count：

 #索引总数。
 

 indices.shards.total：

 #分片总数。
 

 indices.shards.primaries：

 #主分片数量。 

 docs.count：

#文档总数。 

store.size_in_bytes：

#数据总存储容量。
 

segments.count：

#段总数。 

nodes.count.total：

#总节点数。 

nodes.count.data：

#数据节点数。 

nodes. process. cpu.percent：

#节点CPU使用率。 

fs.total_in_bytes：

#文件系统使用总容量。 

fs.free_in_bytes：

#文件系统剩余总容量。

2.节点监控

节点监控主要针对各个节点，有很多指标对于保证ES集群的稳定运行非常重要。

可以通过以下api获取：

http://ip:9200/_nodes/stats?pretty

关键指标说明：

 name：

 #节点名。 

 roles：

 #节点角色。 

 indices.docs.count：

 #索引文档数。 

 segments.count：

 #段总数。 

 jvm.heap_used_percent：

#内存使用百分比。 

thread_pool.{bulk, index, get, search}.{active, queue, rejected}：

#线程池的一些信息，包括bulk、index、get和search线程池，主要指标有active（激活）线程数，线程queue（队列）数和rejected（拒绝）线程数量。

以下一些指标是一个累加值，当节点重启之后会清零。

 indices.indexing.index_total：

 #索引文档数。 

 indices.indexing.index_time_in_millis：

 #索引总耗时。 

 indices.get.total：

 #get请求数。 

 indices.get.time_in_millis：

 #get请求总耗时。 

 indices.search.query_total：

#search总请求数。 

indices.search.query_time_in_millis：

#search请求总耗时。indices.search.fetch_total：fetch操作总数量。 

indices.search.fetch_time_in_millis：

#fetch请求总耗时。 

jvm.gc.collectors.young.collection_count：

#年轻代垃圾回收次数。 

jvm.gc.collectors.young.collection_time_in_millis：

#年轻代垃圾回收总耗时。 

jvm.gc.collectors.old.collection_count：

#老年代垃圾回收次数。 

jvm.gc.collectors.old.collection_time_in_millis：

#老年代垃圾回收总耗时。

一些需要计算的指标：节点监控的计算指标主要分为两类，分别为请求速率指标和请求处理延迟指标，下面作具体介绍。

 index_per_min：

 #每分钟索引请求数量。计算公式如下：

 #索引请求率=(index_total两次采集差值)/(系统时间差值（ms）)×60000 (公式1)

 indexAverge_per_min：

 #索引请求处理延迟。计算公式如下：

 #索引延迟=(index_time_in_millis两次采集差值)/(index_total两次采集差值)  (公式2)

 get_per_min：

 #每分钟get请求数量，计算公式如(公式1)，更改相应参数。 

 getAverage_per_min：

#get请求处理延迟，计算公式如(公式2) ，更改相应参数。 

merge_per_min：

#每分钟merge请求数量，计算公式如(公式1)，更改相应参数。 

mergeAverage_per_min：

#merge请求处理延迟，计算公式如(公式2) ，更改相应参数。 

searchQuery_per_min：

#每分钟query请求数量，计算公式如(公式1)，更改相应参数。 

searchQueryAverage_per_min：

#query请求延迟，计算公式如(公式2) ，更改相应参数。 

searchFetch_per_min：

#每分钟fetch请求数量，计算公式如(公式1)，更改相应参数。 

searchFetchAverage_per_min：

#fetch请求延迟，计算公式如(公式2) ，更改相应参数。 

youngGc_per_min：

#每分钟young gc数量，计算公式如(公式1)，更改相应参数。 

youngGcAverage_per_min：

#young gc请求延迟，计算公式如(公式2) ，更改相应参数。 

oldGc_per_min：

#每分钟old gc数量，计算公式如(公式1)，更改相应参数。 

oldGcAverage_per_min：

#old gc请求延迟，计算公式如(公式2) ，更改相应参数。

3.索引监控

索引监控指标主要针对单个索引，不过也可以通过“_all”对集群中所有索引进行监控。

节点监控指标可以通过以下api获取：

http://ip:9200/_stats?pretty

关键指标说明：

http://ip:9200/_stats?pretty。

#关键指标说明： 

indexname.primaries.docs.count：

#索引文档数量。

以下一些指标是一个累加值，当节点重启之后会清零。

 indexname.primaries.indexing.index_total：

 #索引文档数。 

 indexname.primaries.indexing.index_time_in_millis：

 #索引总耗时。 

 indexname.primaries.get.total：

 #get请求数。 

 indexname.primaries.get.time_in_millis：

 #get请求总耗时。 

 indexname.primaries.search.query_total：

#search总请求数。 

indexname.primaries.search.query_time_in_millis：

#search请求总耗时。indices.search.fetch_total：fetch操作总数量。 

indexname.primaries.search.fetch_time_in_millis：

#fetch请求总耗时。 

indexname.primaries.refresh.total：

#refresh请求总量。 

indexname.primaries.refresh.total_time_in_millis：

#refresh请求总耗时。
 

indexname.primaries.flush.total：

#flush请求总量。 

indexname.primaries.flush.total_time_in_millis：

#flush请求总耗时。

理解了上面的指标

就可以使用Prometheus和Grafana进行监控展示

下面是我们测试环境的Grafana上展示的Elasticsearch集群的状态

可以看到prometheus采集到的的指标信息还是比较全面的

Elasticsearch 监控指标解析的更多相关文章

es相关监控指标梳理
###################ElasticSearch监控指标梳理########################### #author:lugh1 # #date:2021-09-26 # ...
prometheus 监控ElasticSearch核心指标
ES监控方案本文主要讲述使用 Prometheus监控ES,梳理核心监控指标并构建 Dashboard ,当集群有异常或者节点发生故障时,可以根据性能图表以高效率的方式进行问题诊断,再对核心指标筛选 ...
渣渣菜鸡的 ElasticSearch 源码解析 —— 启动流程（下）
关注我转载请务必注明原创地址为:http://www.54tianzhisheng.cn/2018/08/12/es-code03/ 前提上篇文章写完了 ES 流程启动的一部分,main 方法都入 ...
渣渣菜鸡的 ElasticSearch 源码解析 —— 启动流程（上）
关注我转载请务必注明原创地址为:http://www.54tianzhisheng.cn/2018/08/11/es-code02/ 前提上篇文章写了 ElasticSearch 源码解析 -- ...
Elasticsearch 监控
导语 Elasticsearch(文中简称ES)是分布式全文搜索引擎,产品提供高可用.易扩展以及近实时的搜索能力,广泛应用于数据存储.搜索和实时分析.很多服务的可用性对ES重度依赖.因此,保障ES自身 ...
【0.2】【MySQL】常用监控指标及监控方法（转）
[MySQL]常用监控指标及监控方法转自:https://www.cnblogs.com/wwcom123/p/10759494.html 对之前生产中使用过的MySQL数据库监控指标做个小结. ...
【转载】apache kafka系列之-监控指标
原文地址:http://blog.csdn.net/lizhitao/article/details/24581907 1.监控目标 1.当系统可能或处于亚健康状态时及时提醒,预防故障发生 2.报警提 ...
awr相关指标解析
awr相关指标解析 2016年11月11日 15:09
apache kafka系列之-监控指标
apache kafka中国社区QQ群:162272557 1.监控目标 1.当系统可能或处于亚健康状态时及时提醒,预防故障发生 2.报警提示 a.短信方式 b.邮件 2.监控内容 2.1 机器监控 ...

随机推荐

Matplotlib入门简介
Matplotlib是一个用Python实现的绘图库.现在很多机器学习,深度学习教学资料中都用它来绘制函数图形.在学习算法过程中,Matplotlib是一个非常趁手的工具. 一般概念图形(figur ...
物联网架构成长之路(47)-利用GitLab实现CI持续集成
0.前言前段时间,考虑到要练习部署一套CI/CD的系统.一开始考虑到Jenkins,随着这两天的了解,发现最新版的GitLab已经提供有CI/CD集成了.所以本次博客,干脆一步到位,直接用GitLa ...
Linux(CentOS65)
首先下载VMware,然后下载CentOS镜像文件,VM的版本尽量高一点,因为软件一般都有向下兼容性,如果版本太低,可能匹配不了CentOS. 安装VMTools工具主要用于虚拟主机显示优化与调整, ...
python变量、输入输出-xdd
1.注释 #输入身高,计算BMI 注释1,单行注释... 注释2,多行注释xiedong.. 2.中文编码声明,UTF-8编码声明 # coding=编码 # coding=utf-8 3.建议每行不 ...
ReactRouter中HashRouter和BrowserRouter的区别
仅个人理解,如有不当请指正一.从原理上 HashRouter在路径中包含了#,相当于HTML的锚点定位.(# 符号的英文叫hash,所以叫HashRouter,和散列没关系哦)) 而BrowserR ...
攻略前端面试官（一）：JS的数据类型和内存机制浅析
原文地址:http://rainykane.cn/2019/09/29/与K_K君一起攻略前端面试官(一):JS的数据类型和内存机制浅析/ 背就完事了介绍:一些知识点相关的面试题和答案使用姿势:看 ...
复制节点（cloneNode）
DOM提供用来复制节点方法. cloneNode():将为给定节点创建一个副本,这个方法的返回值是一个指向新建克隆节点的引用指针, reference = node.cloneNode(deep) 这 ...
Windows的定时任务(Schedule Task)设置
一.设置 1 点击“开始” 2 点击“控制面板” 3 双击“任务计划” 4 双击“添加任务计划” 5 到了“任务计划向导”界面,点击“下一步” 6 点击“浏览”选择需要定时运行的程序(exe文件,ba ...
Python高级数据结构-Collections模块
在Python数据类型方法精心整理,不必死记硬背,看看源码一切都有了之中,认识了python基本的数据类型和数据结构,现在认识一个高级的:Collections 这个模块对上面的数据结构做了封装,增加 ...
Block-wise 2D kernel PCA/LDA for face recognition-笔记
In the present work, we propose a framework for kernel-based 2D feature extraction algorithms tailor ...

Elasticsearch 监控指标解析

1.集群监控

集群健康状态可以通过以下api获取：

关键指标说明：

集群状态信息可以由以下api获取：

关键指标说明：

2.节点监控

可以通过以下api获取：

关键指标说明：

3.索引监控

节点监控指标可以通过以下api获取：

关键指标说明：

Elasticsearch 监控指标解析的更多相关文章

随机推荐

热门专题