Elasticsearch集群调优
系统调优
禁用swap
使用swapoff命令可以暂时关闭swap。永久关闭需要编辑/etc/fstab,注释掉swap设备的挂载项。swapoff -a
如果完全关闭swap不可行,可以试着降低swap使用的优先级,执行
sysctl vm.swappiness = 1
并编辑/etc/sysctl.conf,加入swappiness设置。
如果因为一些原因,无法对swap进行操作,可以将ES配置中的memory_lock设置为true,从JVM层面保证内存数据交换到swap中。
bootstrap.memory_lock: true
要注意的是,linux系统对lock memory的大小有限制(调整方法见下),可以通过ES接口查看是否设置成功。
GET /_nodes?filter_path=**.mlockall&pretty
- 调整io策略
推荐使用的调度策略如下:
HDD: cfq
SSD: noop / deadline
NVMe: none
io策略通过block scheduler接口查看和调整。
/sys/block/sd*/queue/scheduler
关闭Access Time更新
挂载目录时,指定文件系统选项"noatime","nodiratime",关闭文件access time更新,可以节省大量的io带宽。调整系统限额
调整打开文件数量限制ulimit -n 65535
调整lock memory大小限制
ulimit -l unlimited
调整stack大小限制
ulimit -s unlimited
ES使用mmapfs方式,将磁盘文件映射到内存上,这会导致占用大量的虚拟地址空间。系统默认值并不能满足要求,可以通过sysctl调整。
sysctl -w vm.max_map_count=262144
以上命令只是暂时生效,想要持久化配置可以编辑/etc/security/limits.conf,/etc/sysctl.conf。
ES调优
集群规划
分离master节点,data节点和client节点。data节点只用来存储,索引数据,外部的索引和查询请求全部导向client节点,降低data节点的压力。(data节点故障和恢复时,涉及到分片的恢复和迁移,会造成比较大的io负载,影响集群整体索引和查询性能。)内存!内存!
对于ES的jvm内存设置,推荐不要超过32G,超过32G一方面会降低内存利用效率,降低GC效率,消耗cpu带宽(参见jvm compressed oops机制),另一方面可能导致不可知的问题。
同时,要为ES所依赖的底层索引库Lucene预留同等大小的内存。例如,一台内存64G(官方推荐配置,ideal sweet spot)大小的机器,可以为ES配置32G内存,另外32G预留给Lucene使用。
对于大配置的机器,也不推荐为ES配置超过32G的内存,仍要坚持50%策略,通过单台多node的方式充分利用配置。例如,内存128G的机器,可以配置两个node节点,每个node节点分配32G内存。
同一台机器配置有多个data节点时,要防止单个分片的主副本都落在同一个机器上,失去副本的意义。设置如下:cluster.routing.allocation.same_shard.host:true
另外,内存32G大小的限制,目前是为了触发jvm的compressed oops机制,提高内存使用效率,但是由于平台和jvm版本的差异,这个阈值并不是恰好为32G,需要自行进行测试,获取一个最佳值。
java -Xmx32600m -XX:+PrintFlagsFinal 2> /dev/null | grep UseCompressedOops
- 分片建议
分片的大小和数量之间需要一个平衡:分片过小数量过大会产生更大的集群状态信息,更多的segment文件,占用更多jvm内存,分片过大数量过小则会影响查询性能。
- 使用time-base的索引格式,控制索引(分片)大小,便于动态调整。
- 单分片平均大小在20G~40G之间,不要超过50G。
- 保证每GB内存对应20~25分片
- 通过测试获取最佳值benchmark using realistic data and queries
集群发现使用单播
出于可靠和安全考虑,使用单播方式做集群发现。discovery.zen.ping.unicast.hosts: ["host1", "host2:port"]
关闭Data节点http
对于数据加点,关闭http功能,同时也不要安装head, bigdesk, marvel等监控插件,保证数据节点只处理索引,查询,合并等相关数据操作。http.enabled: false
设置最小选举数
防止脑裂,将最小选举数discovery.zen.minimum_master_nodes:
设置为
(number of master-eligible nodes / 2) + 1
设置故障恢复阈值
ES集群在故障恢复的初期,由于部分节点还未恢复服务,ES会检测到大量分片处于非健康状态,而进行分片的重建,迁移,造成不需要的资源开销。通过合理设置恢复参数,可以有效避免上述问题:
最小恢复节点数(存活节点数达到这个阈值,才会进行恢复)gateway.recover_after_nodes: 80
集群节点数
gateway.expected_nodes: 100
恢复等待时间(达到节点规模阈值后,多久后开始执行恢复)
gateway.recover_after_time: 5m
参考文献:
Elasticsearch Reference
Elasticsearch集群调优的更多相关文章
- Elasticsearch 6.x版本全文检索学习之集群调优建议
1.系统设置要到位,遵照官方建议设置所有的系统参数. https://www.elastic.co/guide/en/elasticsearch/reference/6.7/setup.html 部署 ...
- hadoop集群调优-OS和文件系统部分
OS and File System 根据Dell(因为我们的硬件采用dell的方案)关于hadoop调优的相关说明,改变几个Linux的默认设置,Hadoop的性能能够增长大概15%. open f ...
- hadoop 集群调优实践总结
调优概述# 几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子: 索引 ...
- hadoop集群调优-hadoop settings and MapReduce
Hadoop Settings 由于Hadoop节点的系统配置,一些hadoop的设置可以减少运行系统中的瓶颈.首先,提高Java运行时的堆内存容量,也要和系统中的整体内存容量相关:其次,保持hado ...
- Elasticsearch集群架构的部署和调优(一)
[root@es-node1 ~]# mkdir /usr/java[root@es-node1 ~]# tar zxvf jdk1.8.0_131.tar.gz -C /usr/java/ [roo ...
- PB 级大规模 Elasticsearch 集群运维与调优实践
PB 级大规模 Elasticsearch 集群运维与调优实践 https://mp.weixin.qq.com/s/PDyHT9IuRij20JBgbPTjFA | 导语 腾讯云 Elasticse ...
- Elasticsearch 集群和索引健康状态及常见错误说明
之前在IDC机房线上环境部署了一套ELK日志集中分析系统, 这里简单总结下ELK中Elasticsearch健康状态相关问题, Elasticsearch的索引状态和集群状态传达着不同的意思. 一. ...
- Elasticsearch 集群 单服务器 超级详细教程
前言 之前了解了Elasticsearch的基本概念.将spring boot + ElasticSearch + head插件 搞通之后.紧接着对es进行下一步的探索:集群.查阅资料的过程中,找到了 ...
- Elasticsearch学习总结 (Centos7下Elasticsearch集群部署记录)
一. ElasticSearch简单介绍 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticse ...
随机推荐
- java 多态(动态绑定)
一.面向对象最核心的机制--动态绑定,也叫多态 1.1.通过下面的例子理解动态绑定,即多态 1 package javastudy.summary; 2 3 class Animal { 4 /** ...
- C#设计模式之四抽象工厂模式(AbstractFactory)【创建型】
一.引言 写了3篇有关设计模式的文章了,大家有了些反馈,说能从中学到一些东西,我感到很欣慰,那就继续努力.今天我要写第四个模式了,该模式叫抽象工厂.上一篇文章我们讲了[工厂方法]模式,它是为了 ...
- [js高手之路] html5新增的定时器requestAnimationFrame实战进度条
在requestAnimationFrame出现之前,我们一般都用setTimeout和setInterval,那么html5为什么新增一个requestAnimationFrame,他的出现是为了解 ...
- 洗礼灵魂,修炼python(3)--从一个简单的print代码揭露编码问题,运行原理和语法习惯
前期工作已经准备好后,可以打开IDE编辑器了,你可以选择python自带的IDLE,也可以选择第三方的,这里我使用pycharm--一个专门为python而生的IDE 按照惯例,第一个python代码 ...
- Python数据分析流程
一.数据分析的步骤: 1.查看数据并提出问题 2.数据清洗 3.代码编写,提取出结果数据,并分析是否有异常数据,修改代码 4.根据数据选择合适的图表进行展示 5.根据图表小组讨论交流获得最终的结果 二 ...
- Linux安装mysql-5.7.17
一.检查系统是否有自带安装MySQL 1.检查 [root@centos ~]# rpm -qa | grep -i mysql mysql-libs-5.1.71-1.el6.x86_64 2.卸载 ...
- asp.net中使用Global.asax文件中添加应用出错代码,写入系统日志文件或数据库
void Application_Error(object sender, EventArgs e) { // 在出现未处理的错误时运行的代码 Exception objErr = Server.Ge ...
- Spring3实战第二章第一小节 Spring bean的初始化和销毁三种方式及优先级
Spring bean的初始化和销毁有三种方式 通过实现 InitializingBean/DisposableBean 接口来定制初始化之后/销毁之前的操作方法: 优先级第二通过 <bean& ...
- HTTP错误代码大全
HTTP出错大全 101 - Switching Protocols Top Success Codes 200 - OK201 - Created202 - Accepted203 - Non-Au ...
- ajax请求service报405错误 - 【服务器不允许的方法】
产生原因:web服务器找不到service方法处理请求. 检查方向: ① service方法名称写错 ② service方法参数类型与标准不一致 ③ service方法异常,返回值类型和标准不一致 ④ ...