logstash高可用体现为不丢数据(前提为服务器短时间内不可用后可恢复比如重启服务器或重启进程),具体有两个方面: 进程重启(服务器重启) 事件消息处理失败 在logstash中对应的解决方案为: Persistent Queues Dead Letter Queues 默认都没有开启: 另外可以通过docker或marathon或systemd来实现进程的自动重启: As data flows through the event processing pipeline, Logstash m…
一.Zookeeper集群搭建 为保证集群高可用,Zookeeper 集群的节点数最好是奇数,最少有三个节点,所以这里搭建一个三个节点的集群. 1.1 下载 & 解压 下载对应版本 Zookeeper,这里我下载的版本 3.4.14.官方下载地址:https://archive.apache.org/dist/zookeeper/ # 下载 wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.…
高可用(Hign Availability,HA) 一.概念 作用:用于解决负载均衡和故障转移(Failover)问题. 问题描述:一个NameNode挂掉,如何启动另一个NameNode.怎样让两个NameNode数据同步. 实现原理: 在另一台服务器上有一个相同的NameNode节点,这台服务器上的 NameNode的状态为standBy.正在运行的NameNode的状态为Active. 解决两个NameNode信息同步问题:因为如果一个NameNode挂掉,另一个NameNode的edit…
一.集群规划 这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务.同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务,Master 服务由 Zookeeper 集群进行协调管理,如果主 Master 不可用,则备用 Master 会成为新的主 Master. 二.前置条件 搭建 Spark 集群前,需要保证 JDK 环境.Zookeeper 集群和…
一个logstash很容易通过http打断成两个logstash实现跨服务器或者跨平台间数据同步,比如原来的流程是 logstash: nginx log -> kafka 打断成两个是 logstash1: nginx log -> http out logstash2: http in ->kafka 具体如下 http out filter {    ruby {      code => "event.cancel if not event.get('messag…
Logstash 6.6.2 官方:https://www.elastic.co/products/logstash 一 简介 Centralize, Transform & Stash Your Data Logstash is an open source, server-side data processing pipeline that ingests data from a multitude of sources simultaneously, transforms it, and…
应用一:mysql数据增量同步到kafka 1 准备mysql测试表 mysql> create table test_sync(id int not null auto_increment, name varchar(32), description varchar(64), create_time timestamp, update_time timestamp, primary key(id)); Query OK, 0 rows affected (0.04 sec) mysql> i…
有两种方式来监控logstash: api ui(xpack) When you run Logstash, it automatically captures runtime metrics that you can use to monitor the health and performance of your Logstash deployment.You can use the basic monitoring APIs provided by Logstash to retrieve…
从nginx日志中进行url解析 /v1/test?param2=v2&param3=v3&time=2019-03-18%2017%3A34%3A14->{'param1':'v1','param2':'v2','param3':'v3','time':'2019-03-18 17:34:14'} nginx日志示例: 1.119.132.168 - - [18/Mar/2019:09:13:50 +0000] "POST /param1/test?param2=1&am…
logstash input插件之mongodb是第三方的,配置如下: input { mongodb { uri => 'mongodb://mongo_server:27017/db' placeholder_db_dir => '/path/to/db_dir/' placeholder_db_name => 'table.db' collection => 'table' batch_size => 5000 } } 安装 ./logstash-plugin inst…