ElasticSearch优化系列三：机器设置（内存）

heap参数设置优化命令行修改 ./bin/elasticsearch -Xmx10g -Xms10g xmx-JVM最大允许分配的堆内存,按需分配 xms-JVM初始分配的堆内存此值设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存. 对Unix系统,可修改./bin/elasticsearch.in.sh文件: 一般分配主机1/4-1/2的内存 if [ "x$ES_MIN_MEM" = "x" ]; then ES_MIN_MEM=12g fi…

ElasticSearch实战系列三: ElasticSearch的JAVA API使用教程

前言在上一篇中介绍了ElasticSearch实战系列二: ElasticSearch的DSL语句使用教程---图文详解,本篇文章就来讲解下 ElasticSearch 6.x官方Java API的使用. ElasticSearch JAVA API 目前市面上有几种常见的ElasticSearch Java API架包,JestClient.SpringBoot整合的SpringData.Spring整合的ElasticsearchTemplate.Elasticsearch Bboss等一…

ElasticSearch优化系列二：机器设置（内存）

预留一半内存给Lucene使用一个常见的问题是配置堆太大.你有一个64 GB的机器,觉得JVM内存越大越好,想给Elasticsearch所有64 GB的内存. 当然,内存对于Elasticsearch来说绝对是重要的,用于更多的内存数据提供更快的操作.而且还有一个内存消耗大户-Lucene Lucene的设计目的是把底层OS里的数据缓存到内存中.Lucene的段是分别存储到单个文件中的,这些文件都是不会变化的,所以很利于缓存,同时操作系统也会把这些段文件缓存起来,以便更快的访问. Lucen…

ElasticSearch优化系列五：机器设置（硬盘、CPU）

硬盘对集群非常重要,特别是建索引多的情况.磁盘是一个服务器最慢的系统,对于写比较重的集群,磁盘很容易成为集群的瓶颈. 如果可以承担的器SSD盘,最好使用SSD盘.如果使用SSD,最好调整I/O调度算法.RAID0是加快速度的不错方法. ES建议机器配置:64G内存 SSD硬盘 RAID0,不要使用NAS. 自动调整存储带宽在2.0.0之前,elasticsearch会限制合并速度(merges),默认为20MB/sec.但是这个速率经常是显得太小,导致合并速度落后于索引速度,进而限制了索引速度…

ElasticSearch优化系列七：优化建议

尽量运行在Sun/Oracle JDK1.7以上环境中,低版本的jdk容易出现莫名的bug,ES性能体现在在分布式计算中,一个节点是不足以测试出其性能,一个生产系统至少在三个节点以上. ES集群节点规划良好,master.node.client分离开来,data节点关闭http功能. 合理利用内存. a) JVM内存设置不要超过机器的一半内存,并且不超过32G.(./bin/elasticsearch -Xmx10g -Xms10g或者修改./bin/elasticsearch.in.sh文件:…

ElasticSearch优化系列六：索引过程

大家可能会遇到索引数据比较慢的过程.其实明白索引的原理就可以有针对性的进行优化.ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展,而这ES主要是用tranlog进行各节点之间的数据平衡.所以从上我可以通过索引的settings进行第一优化: "index.translog.flush_threshold_ops":"10000" "refresh_interval" : "1s" 这两个参数第一是到translo…

ElasticSearch优化系列一：集群节点规划

节点职责单一,各司其职 elasticSearch的配置文件中有2个参数:node.master和node.data.这两个参数搭配使用时,能够帮助提供服务器性能. 数据节点node.master: false node.data: true 该node服务器只作为一个数据节点,只用于存储索引数据.使该node服务器功能单一,只用于数据存储和数据查询,降低其资源消耗率. master节点node.master: true node.data: false 该node服务器只作为一个主节点,但…

SSE图像算法优化系列三：超高速导向滤波实现过程纪要（欢迎挑战）

自从何凯明提出导向滤波后,因为其算法的简单性和有效性,该算法得到了广泛的应用,以至于新版的matlab都将其作为标准自带的函数之一了,利用他可以解决的所有的保边滤波器的能解决的问题,比如细节增强.HDR压缩.细节羽化.去雾.风格化,而且由于其保边特性,如果很多传统函数中使用高斯滤波或者均值滤波的地方用他代替,能很好解决一些强边缘的过渡不自然问题,比如retinex.Highlight/shadow等应用中,因此,快速的实现该算法具有很强的适用意义. 本文简要的记录了本人在优化导向滤波实现的过程中…

性能优化系列三：JVM优化

一.几个基本概念 GCRoots对象都有哪些所有正在运行的线程的栈上的引用变量.所有的全局变量.所有ClassLoader... 1.System Class.2.JNI Local3.JNI Global4.Thread Block5.Busy Monitor6.Java Local7.Native Stack8.Unfinalized9.Unreachable10.Java Stack Frame11.Unknown 栈帧的解释 Java虚拟机栈(Java Virtual Machine…

SSE图像算法优化系列三十一：Base64编码和解码算法的指令集优化。

一.基础原理 Base64是一种用64个Ascii字符来表示任意二进制数据的方法.主要用于将不可打印的字符转换成可打印字符,或者简单的说是将二进制数据编码成Ascii字符.Base64也是网络上最常用的传输8bit字节数据的编码方式之一. 标准的Base64编码方式过程可简单描述如下: 第一步,将每三个字节作为一组,一共是24个二进制位. 第二步,将这24个二进制位分为四组,每个组有6个二进制位. 第三步,在每组前面加两个00,扩展成32个二进制位,即四个字节. 第四步,根据下表,得到扩…

ElasticSearch优化系列四：ES的heap是如何被瓜分掉的

以下分别解读几个我知道的内存消耗大户: Segment Memory Segment不是file吗?segment memory又是什么?前面提到过,一个segment是一个完备的lucene倒排索引,而倒排索引是通过词典(Term Dictionary)到文档列表(Postings List)的映射关系,快速做查询的.由于词典的size会很大,全部装载到heap里不现实,因此Lucene为词典做了一层前缀索引(Term Index),这个索引在Lucene4.0以后采用的数据结构是FST (F…

SSE图像算法优化系列三十：GIMP中的Noise Reduction算法原理及快速实现。

GIMP源代码链接:https://gitlab.gnome.org/GNOME/gimp/-/archive/master/gimp-master.zip GEGL相关代码链接:https://gitlab.gnome.org/GNOME/gegl/-/archive/master/gegl-master.zip 最近因为要研究下色温算法,顺便下载了最新的GIMP软件,色温算法倒是找到了(有空单独来讲下),也顺便看看GIMP都有些什么更新,嗯,更新还是蛮多的,界面UI上有很多改动,有些已经改的…

SSE图像算法优化系列三十二：Zhang\Guo图像细化算法的C语言以及SIMD指令优化

二值图像的细化算法也有很多种,比较有名的比如Hilditch细化.Rosenfeld细化.基于索引表的细化.还有Opencv自带的THINNING_ZHANGSUEN.THINNING_GUOHALL喜欢等等.这些都属于迭代的细化方式,当然还有一种是基于二值图像距离变换的细化方法,二值想比较,我个人认为是基于迭代的效果稳定.可靠,但是速度较慢,且速度和图片的内容有关,基于距离变换的版本,优点是速度稳定,但是效果差强人意.本文这里还是选择基于迭代的方式予以实现. 相关的参考文章有:http://c…

Elasticsearch学习系列三（搜索案例实战）

Query DSL Es提供了基于JSON的完整查询DSL(Domain Specific Language 特定域的语言)来定义查询.将查询DSL视为查询的AST(抽象语法树).它由两种子句组成: 叶子查询子句叶子查询子句,在特定域中寻找特定的值,如match.term或range查询复合查询子句复合查询子句包装其他叶子查询或复合查询,并用于以逻辑方式组合多个查询.如bool.dis_max.constant_score查询 1. 查询所有 POST /索引名称/_search { "q…

ElasticSearch实战系列九: ELK日志系统介绍和安装

前言本文主要介绍的是ELK日志系统入门和使用教程. ELK介绍 ELK是三个开源软件的缩写,分别表示:Elasticsearch , Logstash, Kibana , 它们都是开源软件.新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具. Elasticsearch是个开源分布式搜索引擎,提供搜集.分析.存储数据三大功能.它的特点有:分布式,零配置,自动发现,索引自动…

ElasticSearch实战系列十一: ElasticSearch错误问题解决方案

前言本文主要介绍ElasticSearch在使用过程中出现的各种问题解决思路和办法. ElasticSearch环境安装问题 1,max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144] 原因: 内存限制太小了! 解决办法: 修改最大内存限制! 修改sysctl.conf文件 vim /etc/sysctl.conf 在末尾增加如下配置: vm.max_map_coun…

ElasticSearch实战系列四: ElasticSearch理论知识介绍

前言在前几篇关于ElasticSearch的文章中,简单的讲了下有关ElasticSearch的一些使用,这篇文章讲一下有关 ElasticSearch的一些理论知识以及自己的一些见解. 虽然本人是一个实战派,不太喜欢讲这些理论知识,因为这块可以查看官方文档,那里会写得非常详细,但是在使用了ElasticSearch之后,发现有的知识点需要掌握一定的理论知识才能理解,对于初学者来说有的不好理解,因此写下该篇文章,希望读者在看完之后能够有所帮助. ElasticSearch 理论知识介绍 Ela…

ElasticSearch实战系列七: Logstash实战使用-图文讲解

前言在上一篇中我们介绍了Logstash快速入门,本文主要介绍的是ELK日志系统中的Logstash的实战使用.实战使用我打算从以下的几个场景来进行讲解. 时区问题解决方案在我们使用logstash将采集的数据传输到ES中的时候,会发现采集的时间@timestamp的时间和我们本地的不一致,这个主要是因为时区的问题导致的,我们在计算时间的时候需要将这个时间增加8小时,但是这样会很不方便.为了永久解决这个问题,我们可以在logstash中的filter中对该字段进行转换,增加8小时. 添加的配…

ElasticSearch实战系列十: ElasticSearch冷热分离架构

前言本文主要介绍ElasticSearch冷热分离架构以及实现. 冷热分离架构介绍冷热分离是目前ES非常火的一个架构,它充分的利用的集群机器的优劣来实现资源的调度分配.ES集群的索引写入及查询速度主要依赖于磁盘的IO速度,冷热数据分离的关键点为使用固态磁盘存储数据.若全部使用固态,成本过高,且存放冷数据较为浪费,因而使用普通机械磁盘与固态磁盘混搭,可做到资源充分利用,性能大幅提升的目标.因此我们可以将实时数据(5天内)存储到热节点中,历史数据(5天前)的存储到冷节点中,并且可以利用ES自身的…

ElasticSearch实战系列八: Filebeat快速入门和使用---图文详解

前言本文主要介绍的是ELK日志系统中的Filebeat快速入门教程. ELK介绍 ELK是三个开源软件的缩写,分别表示:Elasticsearch , Logstash, Kibana , 它们都是开源软件.新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具. Elasticsearch是个开源分布式搜索引擎,提供搜集.分析.存储数据三大功能.它的特点有:分布式,零配置,…

ElasticSearch实战系列五: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合

Title:ElasticSearch实战系列四: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合前言在上上一篇中介绍了ElasticSearch实战系列三: ElasticSearch的JAVA API使用教程,介绍了ElasticSearch Java API基础的语法,基本的增删改查(对应SQL语句), 本篇则来介绍一下ElasticSearch 聚合查询的使用JAVA API 和 DSL语句的使用 . ElasticSearch Aggregation 聚…

ElasticSearch实战系列六: Logstash快速入门和实战

前言本文主要介绍的是ELK日志系统中的Logstash快速入门和实战 ELK介绍 ELK是三个开源软件的缩写,分别表示:Elasticsearch , Logstash, Kibana , 它们都是开源软件.新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具. Elasticsearch是个开源分布式搜索引擎,提供搜集.分析.存储数据三大功能.它的特点有:分布式,零配置,…

JVM系列三:JVM参数设置

JVM系列三:JVM参数设置.分析不管是YGC还是Full GC,GC过程中都会对导致程序运行中中断,正确的选择不同的GC策略,调整JVM.GC的参数,可以极大的减少由于GC工作,而导致的程序运行中断方面的问题,进而适当的提高Java程序的工作效率.但是调整GC是以个极为复杂的过程,由于各个程序具备不同的特点,如:web和GUI程序就有很大区别(Web可以适当的停顿,但GUI停顿是客户无法接受的),而且由于跑在各个机器上的配置不同(主要cup个数,内存不同),所以使用的GC种类也会不同(如…

JVM性能优化系列-(2) 垃圾收集器与内存分配策略

2. 垃圾收集器与内存分配策略垃圾收集(Garbage Collection, GC)是JVM实现里非常重要的一环,JVM成熟的内存动态分配与回收技术使Java(当然还有其他运行在JVM上的语言,如Scala等)程序员在提升开发效率上获得了惊人的便利.理解GC,对于理解JVM和Java语言有着非常重要的作用.并且当我们需要排查各种内存溢出.内存泄漏问题时,当垃圾收集称为系统达到更高并发量的瓶颈时,只有深入理解GC和内存分配,才能对这些"自动化"的技术实施必要的监控和调节. GC主要需…

Expert 诊断优化系列------------------内存不够用么？

现在很多用户被数据库的慢的问题所困扰,又苦于花钱请一个专业的DBA成本太高.软件维护人员对数据库的了解又不是那么深入,所以导致问题迟迟不能解决,或只能暂时解决不能得到根治.开发人员解决数据问题基本又是搜遍百度各种方法尝试个遍,可能错过诊断问题的最佳时机又可能尝试一堆方法最后无奈放弃. 怎么样让琐事缠身的程序维护人员,用最快的方式解决数据库出现的问题?怎么让我们程序员的痛苦降低到最小...每天喝喝茶水,看看新闻平安度过一天呢?本系列重要通过Expert for sqlserver工具讲解下数据库遇…