1.系统设置要到位,遵照官方建议设置所有的系统参数. https://www.elastic.co/guide/en/elasticsearch/reference/6.7/setup.html 部署Elasticsearch集群之前将操作系统的配置设置好. 之前部署单机版.集群报了很多错误,嗯,就是这里可以解决你的问题,提前看下英文文档,解决这些问题. https://www.elastic.co/guide/en/elasticsearch/reference/6.7/system-conf…
1.Elasticsearch 6.x版本全文检索学习之分布式特性介绍. 1).Elasticsearch支持集群默认,是一个分布式系统,其好处主要有两个. a.增大系统容量,如内存.磁盘.使得es集群可以支持PB级别的数据. b.提供系统可用性,即使部分节点停止服务,整个集群依然可以正常服务. 2).Elasticsearch集群由多个es实例组成. a.不同集群通过集群名字来区分,可以通过cluster.name进行修改,默认为elasticsearch. b.每个es实例本质上是一个JVM…
Elasticsearch 6.x版本全文检索学习之Search API. 1).Search API,实现对es中存储的数据进行查询分析,endpoind为_search,如下所示. 方式一.GET /_search,对es中所有的数据进行查询. 方式二.GET /my_index/_search,针对单个索引的数据进行查询. 方式三.GET /my_index1,my_index2/_search,针对两个索引的数据进行查询. 方式四.GET /my_*/_search,指定索引查询,可以一…
Beats,Logstash负责数据收集与处理.相当于ETL(Extract Transform Load).Elasticsearch负责数据存储.查询.分析.Kibana负责数据探索与可视化分析. 1.Elasticsearch的常见术语.注意:Elasticsearch6.x版本以后概念发生了变化. 2.索引Index:由具有相同字段的文档列表组成.索引Index是文档的集合.相当于数据库中的数据表. Elasticsearch 6.x版本以后,一个索引Index下面最多只能建一个Type…
系统调优 禁用swap 使用swapoff命令可以暂时关闭swap.永久关闭需要编辑/etc/fstab,注释掉swap设备的挂载项. swapoff -a 如果完全关闭swap不可行,可以试着降低swap使用的优先级,执行 sysctl vm.swappiness = 1 并编辑/etc/sysctl.conf,加入swappiness设置. 如果因为一些原因,无法对swap进行操作,可以将ES配置中的memory_lock设置为true,从JVM层面保证内存数据交换到swap中. boots…
OS and File System 根据Dell(因为我们的硬件采用dell的方案)关于hadoop调优的相关说明,改变几个Linux的默认设置,Hadoop的性能能够增长大概15%. open file descriptors and files 文件描述符是一个索引值,指向内核为每一个进程所维护的该进程打开文件的记录表.当程序打开一个现有文件或者创建一个新文件时,内核向进程返回一个文件描述符.在程序设计中,一些涉及底层的程序编写往往会围绕着文件描述符展开,文件描述符这一概念往往只适用于UN…
调优概述# 几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子: 索引 分组 数据倒入导出 数据移动和转换   CPU受限例子: 聚类/分类 复杂的文本挖掘 特征提取 用户画像 自然语言处理   我们需要从硬件规划和软件规划等多方面结合实现性能和效率的提升. 硬件规划# 评估集群规模# 我们需要搭建多少节点的hadoop集群?回答这个问题考虑的因素比较多:预算?数据量?…
Hadoop Settings 由于Hadoop节点的系统配置,一些hadoop的设置可以减少运行系统中的瓶颈.首先,提高Java运行时的堆内存容量,也要和系统中的整体内存容量相关:其次,保持hadoop中派生的task数量与处理器数量相关. 一个比较好的规则是一个Reducer或两个Mapper分配一个处理器:如果系统拥有足够多的内存容量,设置Java堆的最大大小为1GB或更大.此外,还需要注意的是一个任务要有3个Java虚拟机在运行,所以必要还要至少保留每个任务3GB的内存, Hard Dr…
1.什么是聚合分析? 答:聚合分析,英文为Aggregation,是es除搜索功能外提供的针对es数据做统计分析的功能.特点如下所示: a.功能丰富,提供Bucket.Metric.Pipeline等多种分析方式,可以满足大部分的分析需求. b.实时性高,所有的计算结果都是即时返回的,而hadoop等大数据系统一般都是T+1级别的. 2.聚合分析的分类.为了便于理解,es将聚合分析主要分为如下4类. 答:a.Bucket,分桶类型,类似SQL语法中的group bu语法. b.Metric,指标…
1.什么是数据建模. 答:数据建模,英文为Data Modeling,为创建数据模型的过程.数据模型Data Mdel,对现实世界进行抽象描述的一种工具和方法,通过抽象的实体及实体之间联系的形式去描述业务规则,从而实现对现实世界的映射. 2.数据建模的过程. 答:第一步.概念模型,确定系统的核心需求和范围边界,设计实体和实体间的关系. 第二步.逻辑模型,进一步梳理业务需求,确定每个实体的属性,关系和约束等等. 第三步.物理模型,结合具体的数据库产品,在满足业务读写性能等需求的前提下确定最终的定义…