本文介绍了通过Monitor,如何实现大规模容器运维平台的自动化监控需求。

尽管Docker技术目前还处于不稳定的发展与标准制定阶段,但这门技术已经呈现了极其火热的增长状态,却已经是不争的实事。到底有多火热?让我们先来看一张来自国外监控公司DataDog 2016年最新调查报告:

从图中可以看出,自2015年5月后,采用容器技术的应用呈现了30%的大幅增长,放弃容器技术的的应用,则已经出现了平衡状态。

此消彼长,随着容器技术的推广,本文的主人公老葛,某互联网金融资深运维工程师,也开始受其波及。最近,老葛的公司开始也使用Docker来交付线上的应用了,一上来的第一个应用,就产生了50+的应用容器。老葛带领着运维与研发团队经过一趟艰难迈坑之旅,终于让线上的应用跑起来了。但成功的喜悦转瞬即逝,马上老葛的脸上又出现了囧字,如何优雅地监控容器平台,成了运维团队的大问号?

让我们跟随老葛的视角,来逐个审视团队面临的挑战,首先第一个问题是:

问题1:如何对容器的可用性与资源消耗进行监控?

经过一番选择后,老葛采用优云Monitor来作线上的容器监控,通过在Docker宿主机上部署Agent,实现了所有容器的动态监控,如下图所示:

监控代理通过获取Docker Daemon API(其本质在Docker的容器管理API与cgroup资源统计),其监控到的指标包含:运行容器数(个),停止容器数(个),容器CPU使用率(%),容器RAM使用率(%),容器磁盘读速率(B/S),容器磁盘写速率(B/S),容器文件系统大小(B)、容器文件变更大小(B)、容器网络发送速率(B/S),容器网络接收速率(B/S)。

同时Monitor Agent也针对操作系统本身进行监控,对OS、Docker的各类指标可以达到秒极的监测粒度,完全满足了团队的系统监控要求。

其次还面临:

问题2:如何对容器内的应用进行监控?

通过Monitor Agent,可以针对每一种容器应用,启用特定的采集插件,实现针对其特定应用的指标监控。如问题1中的图形所示,Agent可以通过Net端口,访问特定容器的应用,来实现应用的可用性监控与性能指标的监控。

优云Monitor支持大量的传统资源与互联网资源:

在解决上述两个问题后,工作很快走上了正轨。但应用是有生命的,它在不断发展,随着实例的增加、容器编排能力的使用,应用开始做弹性扩缩,马上新的问题又出现了:

问题3:如何对快速变更下的新增容器进行监控?

经过与优云的技术团队的沟通,老葛团队对Docker宿主机增加了容器变更触发脚本,利用Monitor Agent易于自动化配置的特性,通过脚本自动生成新容器的监控配置项,满足了对新增容器的应用自动监控。

最后,由于大量的应用使用了分布式微服务,相同的微服务在整个网络中运行了多个实例,过去再以单个应用为单位的监控已经无法满足要求,因为单个指标无法代表整个应用的性能水平,所以团队又碰到了一个监控可视化的问题:

问题4:如何可视化分布式应用的整体性能指标?

比如,目前上线的应用有6个Jetty微服务,同时还会不断增加,那么如何确认所有业务Jetty服务的负载是否均衡?

利用Agent监控时,可以为指标数据设置“来源标签”的特性,我们可以将这个应用的6个Jetty服务以及自动新增的Jetty服务,都设置上“app=shop.portal”。

然后,通过优云Monitor的多种仪表盘,通过标签可以提取到这些数据,结合奇妙的数据汇聚公式与丰富的图表,对这6个Jetty服务进行了流量访问趋势、流量访问合计、负载排名、资源消耗等可视化,如下图所示:

同时类似的问题还包括,“集群中的多个Nginx服务,总共有多少HTTP连接会话?”,“集群中所有节点当前成功处理的交易量是多少?”,“集群中所有节点的CPU利用率排名是怎样的?”等等。

从老葛团队容器监控运维历程,我们发现优云Monitor天然地支持对容器以及容器内应用的监控,并且可以敏捷的应对容器的弹性扩缩容,实现自动化容器监控。同时,Monitor还拥有非常棒的数据汇聚与可视化手段,摆脱了运维人员需要逐个面对监控指标的情况,实现监控整体应用,掌控全局。

作者简介:

蒋君伟

IT运维领域资深专家,优云软件产品总监,拥有10年运维实战经验;

先后研发了网络管理、系统管理、CMDB、ITSM等产品,并成功建设了多个全国性的网络运维管理项目;

其主导研发的产品广泛应用于海关、税务、公安、社保、银行、保险、能源等20多个行业。

大规模Docker平台自动化监控之路的更多相关文章

  1. Legolas工业自动化平台案例 —— 水源地自动化监控系统

    天津港爆炸事件后,除了安置群众.追究事故责任外,人们最关心的莫过于爆炸污染物对于周边环境的影响,其中最重要的一块就是饮用水的安全.所幸的是,水源的安全监测是实实在在有据可依的.环保单位和供水企业在建设 ...

  2. Docker容器的自动化监控实现

    本文由  网易云 发布. 近年来容器技术不断成熟并得到应用.Docker作为容器技术的一个代表,目前也在快速发展中,基于 Docker的各种应用也正在普及,与此同时 Docker对传统的运维体系也带来 ...

  3. 自动化监控利器-Zabbix

    转自: http://www.xuliangwei.com/xubusi/117.html   1.1为何需要监控系统 在一个IT环境中会存在各种各样的设备,例如:硬件设备.软件设备.其系统的构成也是 ...

  4. .NET持续集成与自动化部署之路第一篇——半天搭建你的Jenkins持续集成与自动化部署系统

    .NET持续集成与自动化部署之路第一篇(半天搭建你的Jenkins持续集成与自动化部署系统) 前言     相信每一位程序员都经历过深夜加班上线的痛苦!而作为一个加班上线如家常便饭的码农,更是深感其痛 ...

  5. 阿里巴巴CI:CD之分层自动化实践之路

    阿里巴巴CI:CD之分层自动化实践之路 2018-05-30 摘自:阿里巴巴CI:CD之分层自动化实践之路 目录 1 自动化  1.1 为什么要做自动化?  1.2 自动化的烦恼  1.3 自动化的追 ...

  6. 使用Grafana 展示Docker容器的监控图表并设置邮件报警规则

    一.Docker 容器监控报警方式 接着上篇文章的记录,看到grafana的版本已经更新到4.2了,并且在4.0以后的版本中,加入了Alert Notifications 功能,这样在对容器 监控完, ...

  7. 第5章Zabbix自动化监控

    p.MsoNormal,li.MsoNormal,div.MsoNormal { margin: 0cm; margin-bottom: .0001pt; text-align: justify; t ...

  8. 基于ASP.Net Core学习Docker技术第一步:在CentOS7安装Docker平台

    Docker技术几年前就火了,伴随着今年来devops的流行,这项技术一直被技术社区追捧.提起Docker很容易被默认为是Linux平台下的技术,.NET的技术跟他似乎没有沾边,不过那是对非.NET ...

  9. inux监控平台搭建-监控项

    linux监控平台搭建-监控项 本人运维某生态互联网监控平台服务.过程中遇见了很多问题.目前互联网有很多的开源监控工具:nagios.zabbix.falcon.cacti...各有优点.这里不讲解监 ...

随机推荐

  1. 【Java面试题】56 在JAVA中如何跳出当前的多重嵌套循环?

    在Java中,要想跳出多重循环,可以在外面的循环语句前定义一个标号,然后在里层循环体的代码中使用带有标号的break 语句,即可跳出外层循环.例如, public class xunhuan { pu ...

  2. 【Java面试题】8 面向对象的特征有哪些方面 ?

    面向对象的编程语言有封装.继承 .抽象.多态等4个主要的特征. 1封装: 封装是保证软件部件具有优良的模块性的基础,封装的目标就是要实现软件部件的“高内聚.低耦合”,防止程序相互依赖性而带来的变动影响 ...

  3. Linux(Ubuntu)下搭建ASP.NET Core环境

    今天来学习一下ASP.NET Core 运行在Ubuntu中.无需安装mono . 环境 Ubuntu 14.04.4 LTS 服务器版 全新安装系统. 下载地址:http://mirrors.neu ...

  4. 远程数据库备份到本地出现“Access denied for user 'root'@localhost(using password: YES)”的问题

    由于另外一个人在用远程的server做测试,导致我访问这个远程机器的mysql提示“too many connections”的问题,于是想到干脆把数据库当下来做测试好了,结果用heidiSQLs进行 ...

  5. quick-cocos2d-x游戏开发【10】——触摸捕获事件 cc.NODE_TOUCH_CAPTURE_EVENT

    假设看过sample中touch的代码,你会发现演示样例中有一个cc.NODE_TOUCH_CAPTURE_EVENT事件.它和cc.NODE_TOUCH_EVENT触摸事件一样,是引擎级别的事件,我 ...

  6. 端口占用处理(Windows)

    1. netstat -ano 看看 443端口被占用没 ,一般是本地地址加上端口号,那个端口号就是你要找的,同时最后一列是PID,即进程号. (常用的软件有虚拟机.VisualSVNServer)2 ...

  7. remove()

    remove() 用于从列表中删除指定的元素 In [35]: l = ['a', 'b', 'c'] In [36]: l.remove('b') In [37]: l Out[37]: ['a', ...

  8. 说说M451的例程库的说明

    Directory Information Document   Driver reference manual and reversion history. Library         Driv ...

  9. C++11新特性之九——function、bind以及lamda表达式总结

    本文是C++0x系列的第四篇,主要是内容是C++0x中新增的lambda表达式, function对象和bind机制.之所以把这三块放在一起讲,是因为这三块之间有着非常密切的关系,通过对比学习,加深对 ...

  10. linux 下 git gem 等代理设置问题

    github.com,作为程序员的代码仓库,我们经常会用到.但有时候我们不能直接通过网络链接它,只能通过代理. 这里我有一台代理服务器,起初我以为在终端设置了代理环境就行了,其设置为在你的~/.bas ...