elasticsearch性能调优

集群规划

独立的master节点，不存储数据, 数量不少于2
数据节点(Data Node)
查询节点(Query Node)，起到负载均衡的作用

Linux系统参数配置

文件句柄

Linux中，每个进程默认打开的最大文件句柄数是1000,对于服务器进程来说，显然太小，通过修改/etc/security/limits.conf来增大打开最大句柄数

* - nofile 65535

虚拟内存设置

max_map_count定义了进程能拥有的最多内存区域

sysctl -w vm.max_map_count=262144

修改/etc/elasticsearch/elasticsearch.yml

bootstrap.mlockall: true

修改/etc/security/limits.conf, 在limits.conf中添加如下内容

* soft memlock unlimited

* hard memlock unlimited

memlock 最大锁定内存地址空间，要使limits.conf文件配置生效，必须要确保pam_limits.so文件被加入到启动文件中。

确保/etc/pam.d/login文件中有如下内容

session required /lib/security/pam_limits.so

验证是否生效

curl localhost:9200/_nodes/stats/process?pretty

磁盘缓存相关参数

vm.dirty_background_ratio 这个参数指定了当文件系统缓存脏页数量达到系统内存百分之多少时（如5%）就会触发pdflush/flush/kdmflush等后台回写进程运行，将一定缓存的脏页异步地刷入外存；

vm.dirty_ratio

该参数则指定了当文件系统缓存脏页数量达到系统内存百分之多少时（如10%），系统不得不开始处理缓存脏页（因为此时脏页数量已经比较多，为了避免数据丢失需要将一定脏页刷入外存）；在此过程中很多应用进程可能会因为系统转而处理文件IO而阻塞。
把该参数适当调小，原理通（1）类似。如果cached的脏数据所占比例（这里是占MemTotal的比例）超过这个设置，系统会停止所有的应用层的IO写操作，等待刷完数据后恢复IO。所以万一触发了系统的这个操作，对于用户来说影响非常大的。

sysctl -w vm.dirty_ratio=10

sysctl -w vm.dirty_background_ratio=5

为了将设置永久保存，将上述配置项写入/etc/sysctl.conf文件中

vm.dirty_ratio = 10

vm.dirty_background_ratio = 5

swap调优

swap空间是一块磁盘空间，操作系统使用这块空间保存从内存中换出的操作系统不常用page数据，这样可以分配出更多的内存做page cache。这样通常会提升系统的吞吐量和IO性能，但同样会产生很多问题。页面频繁换入换出会产生IO读写、操作系统中断，这些都很影响系统的性能。这个值越大操作系统就会更加积极的使用swap空间。

调节swappniess方法如下

sudo sh -c 'echo "0">/proc/sys/vm/swappiness'

io sched

如果集群中使用的是SSD磁盘，那么可以将默认的io sched由cfq设置为noop

sudo sh -c 'echo "noop">/sys/block/sda/queue/scheduler'

JVM参数设置

在/etc/sysconfig/elasticsearch中设置最大堆内存，该值不应超过32G

ES_HEAP_SIZE=32g

ES_JAVA_OPTS="-Xms32g"

MAX_LOCKED_MEMORY=unlimited

MAX_OPEN_FILES=65535

indice参数调优

以创建demo_logs模板为例，说明可以调优的参数及其数值设定原因。

PUT _template/demo_logs

{

      "order": 6,

      "template": "demo-*",

      "settings": {

         "index.merge.policy.segments_per_tier": "25",

         "index.mapping._source.compress": "true",

         "index.mapping._all.enabled": "false",

         "index.warmer.enabled": "false",

         "index.merge.policy.min_merge_size": "10mb",

         "index.refresh_interval": "60s",

         "index.number_of_shards": "7",

         "index.translog.durability": "async",

         "index.store.type": "mmapfs",

         "index.merge.policy.floor_segment": "100mb",

         "index.merge.scheduler.max_thread_count": "1",

         "index.translog.translog.flush_threshold_size": "1g",

         "index.merge.policy.merge_factor": "15",

         "index.translog.translog.flush_threshold_period": "100m",

         "index.translog.sync_interval": "5s",

         "index.number_of_replicas": "1",

         "index.indices.store.throttle.max_bytes_per_sec": "50mb",

         "index.routing.allocation.total_shards_per_node": "2",

         "index.translog.flush_threshold_ops": "1000000"

      },

      "mappings": {

         "_default_": {

            "dynamic_templates": [

               {

                  "string_template": {

                     "mapping": {

                        "index": "not_analyzed",

                        "ignore_above": "10915",

                        "type": "string"

                     },

                     "match_mapping_type": "string"

                  }

               },

               {

                  "level_fields": {

                     "mapping": {

                        "index": "no",

                        "type": "string"

                     },

                     "match": "Level*Exception*"

                  }

               }

            ]

         }

        }

      "aliases": {}

   }

replica数目

为了让创建的es index在每台datanode上均匀分布，同一个datanode上同一个index的shard数目不应超过3个。

计算公式: (number_of_shard * (1+number_of_replicas)) < 3*number_of_datanodes

每台机器上分配的shard数目

"index.routing.allocation.total_shards_per_node": "2",

refresh时间间隔

默认的刷新时间间隔是1s，对于写入量很大的场景，这样的配置会导致写入吞吐量很低，适当提高刷新间隔，可以提升写入量，代价就是让新写入的数据在60s之后可以被搜索，新数据可见的及时性有所下降。

"index.refresh_interval": "60s"

translog

降低数据flush到磁盘的频率。如果对数据丢失有一定的容忍，可以打开async模式。

"index.translog.flush_threshold_ops": "1000000",

"index.translog.durability": "async",

merge相关参数

"index.merge.policy.floor_segment": "100mb",

"index.merge.scheduler.max_thread_count": "1",

"index.merge.policy.min_merge_size": "10mb"

mapping设置

对于不参与搜索的字段(fields), 将其index方法设置为no, 如果对分词没有需求，对参与搜索的字段，其index方法设置为not_analyzed

多使用dynamic_template

集群参数调优

{

   "persistent": {

      "cluster": {

         "routing": {

            "allocation": {

               "enable": "new_primaries",

               "cluster_concurrent_rebalance": "8",

               "allow_rebalance": "indices_primaries_active",

               "node_concurrent_recoveries": "8"

            }

         }

      },

      "indices": {

         "breaker": {

            "fielddata": {

               "limit": "30%"

            },

            "request": {

               "limit": "30%"

            }

         },

         "recovery": {

            "concurrent_streams": "10",

            "max_bytes_per_sec": "200mb"

         }

      }

   },

   "transient": {

      "indices": {

         "store": {

            "throttle": {

               "type": "merge",

               "max_bytes_per_sec": "50mb"

            }

         },

         "recovery": {

            "concurrent_streams": "8"

         }

      },

      "threadpool": {

         "bulk": {

            "type": "fixed"

            "queue_size": "1000",

            "size": "30"

         },

         "index": {

            "type": "fixed",

            "queue_size": "1200",

            "size": "30"

         }

      },

      "cluster": {

         "routing": {

            "allocation": {

               "enable": "all",

               "cluster_concurrent_rebalance": "8",

               "node_concurrent_recoveries": "15"

            }

         }

      }

   }

}

避免shard的频繁rebalance，将allocation的类型设置为new_primaries, 将默认并行rebalance由2设置为更大的一些的值

避免每次更新mapping, 针对2.x以下的版本

"indices.cluster.send_refresh_mapping": false

调整threadpool, size不要超过core数目，否则线程之间的context switching会消耗掉大量的cpu时间，导致load过高。如果没有把握，那就不要去调整。

定期清理cache

为避免fields data占用大量的jvm内存，可以通过定期清理的方式来释放缓存的数据。释放的内容包括field data, filter cache, query cache

curl -XPOST "localhost:9200/_cache/clear"

其它

marvel: 安装marvel插件，多观察系统资源占用情况，包括内存，cpu
日志: 对es的运行日志要经常查看，检查index配置是否合理，以及入库数据是否存在异常

调优之后的运行效果

写入量稳定在30K/s

elasticsearch运维实战之2 - 系统性能调优的更多相关文章

Linux运维最佳实践之网站调优
高性能静态网站: 1.静态页面中针对图片进行浏览器(客户端)缓存,如公共JavaScript(jQuery,jQuery-1.12.1.min.js)进行缓存 2.对网站输入内容压缩(gzip) 3. ...
Elasticsearch 运维实战之1 -- 集群规划
规划一个可用于生产环境的elasticsearch集群. 集群节点划分整个集群的节点分为以下三种主要类型 Master nodes -- 负责维护集群状态,不保存index数据, 硬件要求: 一般性 ...
Elasticsearch运维经验总结
Elasticsearch运维经验总结 2018年12月10日 16:38:41 运小白阅读数 3811 版本说明:5.6.4(要严格注意ES及其插件.第三方工具的版本匹配关系) 系统负载:(日 ...
《Splunk智能运维实战》——1.7　为本书加载样本数据
本节书摘来自华章计算机<Splunk智能运维实战>一书中的第1章,第1.7节,作者 [美]乔史·戴昆(Josh Diakun),保罗R.约翰逊(Paul R. Johnson),德莱克·默 ...
CentOS7系统管理与运维实战
CentOS7系统管理与运维实战下载地址 https://pan.baidu.com/s/1KFHVI-XjGaLMrh39WuhyCw 扫码下面二维码关注公众号回复100007 获取分享码本书目 ...
Istio 运维实战系列（2）：让人头大的『无头服务』-上
本系列文章将介绍用户从 Spring Cloud,Dubbo 等传统微服务框架迁移到 Istio 服务网格时的一些经验,以及在使用 Istio 过程中可能遇到的一些常见问题的解决方法. 什么是『无头服 ...
Istio 运维实战系列（3）：让人头大的『无头服务』-下
本系列文章将介绍用户从 Spring Cloud,Dubbo 等传统微服务框架迁移到 Istio 服务网格时的一些经验,以及在使用 Istio 过程中可能遇到的一些常见问题的解决方法. 失败的 Eur ...
运维实战案例之“Too many open files”错误与解决方法
运维实战案例之"Too many open files"错误与解决方法技术小甜 2017-11-16 15:02:00 浏览869 服务器 shell tomcat 脚本 o ...
net 关于系统性能调优了解和看法
系统性能调优这是每个大中型项目的必要手段,当系统运行积累到一定量的时候这个时候就需要一个质变的过程那这个时候就少不了优化和调整 (前几天看了一篇文章感觉写的挺好,也挺实在的链接:http:// ...

随机推荐

UVA2322
题目:https://icpcarchive.ecs.baylor.edu/index.php?option=com_onlinejudge&Itemid=8&page=show_pr ...
JS date常用代码积累
Date.prototype.Format = function(fmt) { var o = { "M+" : this.getMonth()+1, //月份 "d+& ...
linux启动和关闭
startup,startup mount,startup nomount之间的区别: STARTUP NOMOUNT选项:(读初始化参数文件,启动实例)STARTUP NOMOUNT选项启动实例,但 ...
jquery向苹果或者android发送请求
var browser={ versions:function(){ var u = navigator.userAgent, app = navigator.appVersion; return { ...
Java中的Serializable接口transient关键字，及字节、字符、对象IO
1.什么是序列化和反序列化Serialization是一种将对象转为为字节流的过程:deserialization是将字节流恢复为对象的过程. 2.什么情况下需要序列化a)当你想把的内存中的对象保存到 ...
LeetCode 26 Remove Duplicates from Sorted Array
Problem: Given a sorted array, remove the duplicates in place such that each element appear only onc ...
使用Fiddler搭建手机调试环境（我做得项目是调试微信的公众号）
部分内容参考:http://ju.outofmemory.cn/entry/22854 我们在测试微信企业号的时候,由于微信的限制,不能把它拿到chrome浏览器中进行调试,所以就不能实时的看到页面变 ...
LeetCode之104. Maximum Depth of Binary Tree
-------------------------------- 递归遍历即可 AC代码: /** * Definition for a binary tree node. * public clas ...
python开发目录合并小工具 PathMerge
前言这个程序陆陆续续开发了几天,正好我在学Python,就一边做一边学,倒是学到不少东西. 不得不说python是快速开发的好工具. 程序做了一些改进,这两天又忙着毕设,现在才想起来发到博客上.想想 ...
基于Libevent的HTTP Server
简单的Http Server 使用Libevent内置的http相关接口,可以很容易的构建一个Http Server,一个简单的Http Server如下: #include <event2/e ...

elasticsearch运维实战之2 - 系统性能调优