漫谈ELK在大数据运维中的应用

圈子里关于大数据、云计算相关文章和讨论是越来越多，愈演愈烈。行业内企业也争前恐后，群雄逐鹿。而在大数据时代的运维挑站问题也就日渐突出，任重而道远了。众所周知，大数据平台组件是很复杂的。而这庞大的系统整合问题，对于运维来说是很头疼的。所以，在大数据时代下的运维问题是日渐尖锐。

有人把运维比作医生给病人看病，那么日志则是病人对自己的陈述。所以只有在海量分布式日志系统中有效的提取关键信息，才能对症下药。如果能把这些日志集中管理，并提供全文检索功能，不仅可以提高诊断的效率，同时可以起到实时系统监测、网络安全、事件管理和发现bug等功能。基于此，本文向大家推荐一款开源利器——ELK组件，提供分布式的实时日志（数据）搜集和分析的监控系统。

ELK简介

Logstash 早期曾经自带了一个特别简单的 logstash-web 用来查看 ES 中的数据。其功能太过简单，于是 Rashid Khan 用 PHP 写了一个更好用的 web，取名叫 Kibana。这个 PHP 版本的 Kibana 发布时间是 2011 年 12 月 11 日。

Kibana 迅速流行起来，不久的 2012年8月19日，Rashid Khan 用 Ruby 重写了 Kibana，也被叫做 Kibana2。因为 Logstash 也是用 Ruby 写的，这样 Kibana 就可以替代原先那个简陋的 logstash-web 页面了。

目前我们看到的 angularjs 版本 kibana 其实原名叫 elasticsearch-dashboard，但跟 Kibana2 作者是同一个人，换句话说，kibana 比 logstash 还早就进了 elasticsearch 名下。这个项目改名 Kibana 是在 2014 年 2 月，也被叫做 Kibana3。全新的设计一下子风靡 DevOps 界。随后其他社区纷纷借鉴，Graphite 目前最流行的 Grafana 界面就是由此而来，至今代码中还留存有十余处 kbn 字样。

2014年4月，Kibana3 停止开发，ES公司集中人力开始Kibana4的重构，在 2015 年初发布了使用 JRuby 做后端的 beta 版后，于 3 月正式推出使用 node.js 做后端的正式版。由于设计思路上的差别，一些 K3 适宜的场景并不在 K4 考虑范围内，所以，至今 K3 和 K4 并存使用。

2016-10-27 发布了 Elastic Stack 5.0 版

ELK架构原理

ELK是Elasticsearch、Logstash、Kibana的简称，这三者是核心套件，但并非全部

Elasticsearch是实时全文搜索和分析引擎，提供搜集、分析、存储数据三大功能；是一套开放REST和JAVA API等结构提供高效搜索功能，可扩展的分布式系统。它构建于Apache Lucene搜索引擎库之上。
Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志，包括系统日志、错误日志和自定义应用程序日志。它可以从许多来源接收日志，这些来源包括 syslog、消息传递（例如 RabbitMQ）和JMX，它能够以多种方式输出数据，包括电子邮件、websockets和Elasticsearch。
Kibana是一个基于Web的图形界面，用于搜索、分析和可视化存储在 Elasticsearch指标中的日志数据。它利用Elasticsearch的REST接口来检索数据，不仅允许用户创建他们自己的数据的定制仪表板视图，还允许他们以特殊的方式查询和过滤数据。

ELK优点

Elastic Stack 在最近两年迅速崛起，成为机器数据分析，或者说实时日志处理领域，开源界的第一选择。和传统的日志处理方案相比，Elastic Stack 具有如下几个优点：

处理方式灵活。Elasticsearch 是实时全文索引，不需要像 storm 那样预先编程才能使用；
配置简易上手。Elasticsearch 全部采用 JSON 接口，Logstash 是 Ruby DSL 设计，都是目前业界最通用的配置语法设计；
检索性能高效。虽然每次查询都是实时计算，但是优秀的设计和实现基本可以达到全天数据查询的秒级响应；
集群线性扩展。不管是 Elasticsearch 集群还是 Logstash 集群都是可以线性扩展的；
前端操作炫丽。Kibana 界面上，只需要点击鼠标，就可以完成搜索、聚合功能，生成炫丽的仪表板。

ELK用途

日志，对于不同团队来说会有不同的使用目的：

对于数据仓库团队来说，日志是他们要分析的信息数据来源之一；
对于安全团队来说，日志是他们构建安全防御与漏洞挖掘的一种特征来源和触发信号源；
对于应用团队来说，日志是他们了解自己的系统运行状态与排除错误的一种手段；

在服务结点不多的情况下，各个团队怎么使用这些日志或许可以百花齐放，但在中大规模服务部署的情况下，日志类别 * 技术方案 * 对接的系统等等这些因素的组合将极大加重系统研发和维护的负担，所以，我们需要一套分布式环境下集中采集，分析和管理日志的技术体系。

ELK日志采集和分析体系的建立

一套日志的管理体系通常需要处理以下几个阶段的工作：

日志的采集
日志的汇总与过滤
日志的存储
日志的分析与查询

1 日志的采集

灵活性是我们选择日志采集方案更看重的因素，所以logstash属于首先方案，它可以兼顾多种不同系统和应用类型等因素的差异，从源头上进行一些初步的日志预处理。

logstash唯一的小缺憾是它的不轻便，因为它是使用jruby开发并跑在java虚拟机上的agent，当然啦，同时也是优点，即各种平台上都可以用。

2日志的汇总与过滤

kafka在我们挖财已经属于核心的中间件服务，所以，日志的汇总自然而然会倾向于使用kafka。

日志的过滤和处理因为需求的多样性，可以直接对接订阅kafka，然后根据各自的需求进行日志的定制处理，比如过滤和监控应用日志的异常，即使通过zabbix进行预警；或者数据仓库方面在原始日志的基础上进行清洗和转换，然后加载到新的数据源中；

3日志的存储

原始的日志存储我们采用ElasticSearch，即ELK技术栈中E的原本用途，遵循ELK技术栈中各个方案之间的通用规范，比如日志如索引采用logstash与kibana之间约定的index pattern。

4日志的分析与查询

ELK技术栈中的Kibana已经可以很好的满足这一需求，通过在web页面对日志进行搜索查询、图表关联.

5日志报警功能与zabbix的集成

我们的监控平台选择了使用zabbix，所以各个系统如果有监控需求，最好都对接zabbix，避免维护多套不必要的运维系统。

在应用日志处理过程中，我们希望可以识别错误或者异常信号，然后通过zabbix报警和通知相应devops人员，为了达到这一目的，我们可以复用zabbix中的action/user/usergroup等实体配置，并且配置相应的虚拟host/item/trigger等实体，然后由日志处理系统在需要的时候，直接通过active的方式上报数据，具体操作方式为：

① 在日志处理系统中，通过zabbix_sender或者根据zabbix_sender的通信协议，在合适的时机发送状态数据；

② 在zabbix中，配置相应的host/item/trigger， item为zabbix trapper类型，key与zabbix_sender发送的key相对应；

日志系统亦可通过微信公众号进行规则报警，我们可以通过关注微信公众号，对匹配到并触发报警规则的日志进行查看，进行业务、服务的分析和日志定位。可以很方便的对监控字段建立起预警机制，在错误大规模爆发前进行预警。

漫谈ELK在大数据运维中的应用的更多相关文章

大数据运维尖刀班 | 集群_监控_CDH_Docker_K8S_两项目_腾讯云服务器
说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会.如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课:https://url.cn/5HIqOOr,主要是实战强.含金 ...
谦先生-hadoop大数据运维纪实
1.NN宕掉切不过去先看zkfc的log引起原因是dfs.ha.fencing.ssh.private-key-files的配置路径配错造成以致无法找到公钥 2.dfs.namenode.shared ...
linux运维中的命令梳理（一）
在linux日常运维中,我们平时会用到很多常规的操作命令. 下面对常用命令进行梳理: 命令行日常系快捷键(不分大小写)CTRL + A 移动光标到行首CTRL + E 移动光标到行末CTRL + U ...
DBA避坑宝典：Oracle运维中的那些事儿
对于Oracle运维中的那些事儿,我的最终目的:不是比谁更惨,而是能够从中吸取经验和教训. 从我的理解来看,我会从下面的几个方面来进行说明DBA运维中的一些事儿. 每个部分都是非常关键的,缺一不可,而 ...
Hadoop集群-HDFS集群中大数据运维常用的命令总结
Hadoop集群-HDFS集群中大数据运维常用的命令总结作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客会简单涉及到滚动编辑,融合镜像文件,目录的空间配额等运维操作简介.话 ...
HDFS datanode心跳与运维中的实际案例
分布式系统的节点之间常采用心跳来维护节点的健康状态,如yarn的rm与nm之间,hdfs的nn与dn之间.DataNode会定期(dfs.heartbeat.interval配置项配置,默认是3秒)向 ...
安全运维中基线检查的自动化之ansible工具巧用
i春秋作家:yanzm 原文来自:安全运维中基线检查的自动化之ansible工具巧用前几周斗哥分享了基线检查获取数据的脚本,但是在面对上百台的服务器,每台服务器上都跑一遍脚本那工作量可想而知,而且都 ...
autohotkey在运维中的应用
AutoHotkey是一个自由.开源的宏生成器和自动化软件工具,它让用户能够自动执行重复性任务.AutoHotkey可以修改任何应用程序的用户界面(例如,把默认的Windows按键控制命令替 ...
ELK基础架构解说-运维笔记
一.ELK日志分析工具介绍1) Elasticsearch1.1) Elasticsearch介绍ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索 ...

随机推荐

My sql添加远程用户root密码为password
添加远程用户root密码为password grant all privileges on *.* to root@localhost identified by '123321' with gran ...
A start job is running for xxx to stop
CentOS7开机时,遇到这样的问题已经好多回了,查阅了许多这样的问题,总是没能找到自己想要的答案. 今天本来启动顺利,但是设置mysql.httpd服务开机启动之后,再次开机时又遇到这样的问题. 这 ...
iOS实现Android中Gone的功能
实现隐藏view但不占位置的需求是很常见的(Android里的view.GONE),可iOS里并没有这玩意,只有hidden.于是自己写了一个一般情况下用的category,特殊情况就得看情况做了.其 ...
Spring+SpringMVC+MyBatis深入学习及搭建(十三)——SpringMVC入门程序（二）
1.非注解的处理器映射器和适配器 1.1非注解的处理器映射器前面我们配置的org.springframework.web.servlet.handler.BeanNameUrlHandlerMapp ...
使用Linux环境变量
bash shell用一个叫做环境变量的特性来存储有关shell会话和工作环境的信息. 全局环境变量这对shell 会话和所有生成的子shell都是可见的.局部变量只对创建他们的shell可见. 系 ...
机器学习 —— 基础整理（五）线性回归；二项Logistic回归；Softmax回归及其梯度推导；广义线性模型
本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型闲话:二项Logistic回归是我去年入门机器学习时学的第一个模 ...
(转载) java:IO流学习小结
今天刚刚看完Java的io流操作,把主要的脉络看了一遍,不能保证以后使用时都能得心应手,但是最起码用到时知道有这么一个功能可以实现,下面对学习进行一下简单的总结: IO流主要用于硬板.内存.键盘等处理 ...
JAVA 中BIO,NIO,AIO的理解以及同步异步阻塞非阻塞
在高性能的IO体系设计中,有几个名词概念常常会使我们感到迷惑不解.具体如下: 序号问题 1 什么是同步? 2 什么是异步? 3 什么是阻塞? 4 什么是非阻塞? 5 什么是同步阻塞? 6 什么是同步 ...
Python爬虫从入门到放弃（二十一）之 Scrapy分布式部署
按照上一篇文章中我们将代码放到远程主机是通过拷贝或者git的方式,但是如果考虑到我们又多台远程主机的情况,这种方式就比较麻烦,那有没有好用的方法呢?这里其实可以通过scrapyd,下面是这个scrap ...
git分支管理之Feature分支
软件开发中,总有无穷无尽的新的功能要不断添加进来. 添加一个新功能时,你肯定不希望因为一些实验性质的代码,把主分支搞乱了,所以,每添加一个新功能,最好新建一个feature分支,在上面开发,完成后,合 ...

漫谈ELK在大数据运维中的应用

漫谈ELK在大数据运维中的应用

漫谈ELK在大数据运维中的应用的更多相关文章

随机推荐

热门专题