经典案例复盘——运维专家讲述如何实现K8S落地 背景介绍 运满满自开始微服务改造以来,线上线下已有数千个微服务的 Java 实例在运行中.这些 Java 实例部署在数百台云服务器或虚机上,除少数访问量较高的关键应用外,大部分实例均混合部署. 这些实例的管理,采用自研平台结合开源软件的方式,已实现通过平台页面按钮菜单执行打包.部署.启动.停止以及回滚指定的版本等基本功能,取得了不错的效果.但仍然存在如下几个痛点: 实例间资源隔离,尤其在高峰期或故障期间,单服务器上不同实例间 CPU 和内存资源的争…
以下是运满满K8s容器化进程记录,摘抄一下,方便以后查阅. 背景介绍 运满满自开始微服务改造以来,线上线下已有数千个微服务的 Java 实例在运行中.这些 Java 实例部署在数百台云服务器或虚机上,除少数访问量较高的关键应用外,大部分实例均混合部署. 这些实例的管理,采用自研平台结合开源软件的方式,已实现通过平台页面按钮菜单执行打包.部署.启动.停止以及回滚指定的版本等基本功能,取得了不错的效果.但仍然存在如下几个痛点: 实例间资源隔离,尤其在高峰期或故障期间,单服务器上不同实例间 CPU 和…
Nginx+Lua+Redis整合实现高性能API接口 - 网站服务器 - LinuxTone | 运维专家网论坛 - 最棒的Linux运维与开源架构技术交流社区! - Powered by Discuz! log.latermoon.com/…
一.Volume介绍 容器和Pod是短暂的,它们的生命周期可能很短,会被频繁的销毁和创建,存在容器中的数据会被清除,为了持久化保存容器的数据,k8s提供了Volume.Volume的生命周期独立于容器,它是一个目录,Volume会被mount到Pod,Pod中的所有容器都可以访问这个Volume,和Docker Volume类似.Volume支持的类型:emptyDir.hostPath.AWS Elastic Block Store.NFS.Ceph等. 1.emptyDir        e…
一.通过Service访问Pod 每个Pod都有自己的IP地址,当Controller用新的Pod替换发生故障的Pod时,新Pod会分配到新的IP地址,例如:有一组Pod对外提供HTTP服务,它们的IP很可能发生变化,那么客户端如何找到并访问这个服务呢,Service由此而生.Service从逻辑上代表了一组Pod,具体是哪些则由label来挑选,Service有自己的IP,并且这个IP是不变的,客户端只需要访问Service IP,无论后端Pod如何变化,对客户端访问不会有任何影响,k8s负责…
一.Deployment         k8s通过各种Controller管理Pod的生命周期,为了满足不同的业务场景,k8s提供了Deployment.ReplicaSet.DaemonSet.StatefuleSet.Job等多种资源类型. 1.创建Deployment应用 kubectl run nginx-deployment --image=nginx: --replicas=  上述命令部署了包含两个副本的nginx-deployment,容器的image为nginx:1.7.9…
一.Health Check介绍         强大的自愈能力是k8s容器编排引擎一个重要特性,自愈能力的默认实现方式为自动重启发生故障的容器,另外还可以利用Liveness和Readiness探测机制设置更精细的健康检查. 零停机部署 避免部署无效的镜像 更加安全的滚动升级 二.K8S健康检查方式 1.k8s默认的健康检查        每个容器启动时都会执行一个进程,此进程由Dockerfile的CMD或ENTRYPOINT指定.如果进程退出返回码为非0,则认为容器发生故障,k8s会根据r…
一.滚动更新        应用程序一次只更新一小部分副本,更新成功后,再更新更多的副本,最终完成所有副本的更新. 滚动更新的优点:零停机,整个更新过程始终有副本在运行,从而保证了业务的连续性. 1.创建三个副本Httpd服务,初始镜像为httpd:2.2.31,然后滚动更新至httpd:2.2.32 ###cat httpd.yaml### apiVersion: apps/v1beta2 kind: Deployment metadata: name: httpd spec: replica…
线路图: Linux运维架构师 基础提高篇(120课时) 基础提高篇(240课时) Linux系统基础及系统管理 Shell编程入门及进阶 linux安全管理和企业级安全防范策略 企业级集群/存储专题 http代理加速.应用服务器Nginx.Haproxy.Varnish 虚拟化及IaaS云技术专题kvm.Openstack Linux平台常见网络服务入门和掌握 Mysql企业级入门和提升 自动化运维相关专题 海量数据并行处理系统(Hadoop) 中级班: 实训主题 实训内容 实训目标 1.操作…
说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会.如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课:https://url.cn/5HIqOOr,主要是实战强.含金量高.专注度高,有6个专题+2个大型项目+腾讯云服务器,真枪实弹传授上千大数据集群运维经验.   课程介绍:   这是专门为IT运维人员设计的高端大数据课程,可能也是目前的 only  one!课程内容从100多份招聘要求中萃取知识点,再邀请几位年薪60W+的大数据运维专家共同商讨打磨而成.传统运维…
云计算和AI时代,运维应该如何做好转型? 今天我们来聊一聊,在云计算和AI时代,运维应该如何做好转型?今天的内容可以说是我们前面运维组织架构和协作模式转型的姊妹篇.针对运维转型这个话题,谈谈我的思考和建议. 总结运维转型案例 我们先来看业界的三个典型案例,一个来自国外,一个来自国内,最后一个是我自己团队的案例,都非常具有代表性. 国外Netflix的模式. Netflix从一开始就强调开发人员进行自助化运维.我们第一篇文章中就介绍到,Netflix内部的运维工作全部都由开发人员完成,平台也由开发…
去年,GOPS全球运维大会在深圳出发,当时门票提前几周收盘,2017年,承载着运维人的期望,GOPS全球运维大会再次来到了深圳.第六届GOPS2017全球运维大会深圳站(本次)将于2017年4月21日-22日在深圳举行,历届金牌讲师精选亮相,各种精彩等您发掘.下面和活动家一起来盘点GOPS2017全球运维大会嘉宾! (该场会议报名火爆,可能提前截止报名,如您需要参加,请尽早通过活动家在线报名.快捷报名:http://www.huodongjia.com/event-231365274.html)…
虎牙直播运维负责人张观石 本文是根据虎牙直播运维负责人张观石10月20日在msup携手魅族.Flyme.百度云主办的第十三期魅族开放日<虎牙直播平台SRE实践>演讲中的分享内容整理而成. 张观石,拥有10余年网站开发.架构.运维经验:目前关注互联网服务可靠性系统工程.运维平台的规划建设.网站高可用架构等方面:在音视频传输质量评估.微服务运维方面积累了丰富的经验. 目录 一. 直播平台的架构及运维挑战 (一) 音视频传输流程及挑战 (二) 一个直播间的流程 (三) 直播平台的运维挑战 二. 我们…
GOPS· 2017全球运维大会北京站于2017年7月28日-29日在北京隆重举办,汇聚国内一线运维专家和诸多运维同仁达800余名.作为长期致力于企业级高端运维市场软件开发和咨询服务的优云软件受邀参与本次运维界的盛会. ▲全球运维大会北京站现场情况 ▲优云软件展台 ▲优云软件技术专家向参会者介绍全栈双态运维管理平台 在云计算.大数据和物联网的时代,企业同时面临着数字化和“互联网+”转型的双重挑战,而企业IT架构随着业务转型而急需变革,运维也面临着迭代升级.在此背景下,2016年广通软件率先在业内…
他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名“辟拾(P10)”:他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路:他爱好清奇,练就了能在 20 秒内从20000个像素块里找出不同颜色像素的“特异功能”:他乐观豁达,一言不合就讲段子的性格让他成为身边同事的“开心果”:临近不惑之年的他,经历过很多故事,但他在用自己的行动向这个世界诠释着什么是 IT 工程师告别平庸的“不惑生活”. 在阿里云视频云团队的一次集体活动上,有一个工程师的“特殊才艺”引起…
他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名“辟拾(P10)”:他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路:他爱好清奇,练就了能在 20 秒内从20000个像素块里找出不同颜色像素的“特异功能”:他乐观豁达,一言不合就讲段子的性格让他成为身边同事的“开心果”:临近不惑之年的他,经历过很多故事,但他在用自己的行动向这个世界诠释着什么是 IT 工程师告别平庸的“不惑生活”. 在阿里云视频云团队的一次集体活动上,有一个工程师的“特殊才艺”引起…
目录 1. 运维的本质 2. 电脑与服务器 2.1 电脑的种类 2.2 服务器种类 2.3 服务器品牌 2.4 服务器尺寸 2.5 服务器内部组成 3. 磁盘阵列 4. 系统简介 5. 虚拟化 6. 虚拟机安装 1. 运维的本质 运维:运行维护应用程序 岗位需求:自动化运维.DBA.docker+K8s... 运维职责: 1.尽可能保证应用程序24小时不间断运行 2.尽可能保证数据的安全 3.尽可能提升程序的响应速度 ps:上述三个职责也是服务器应该具备的 2. 电脑与服务器 2.1 电脑的种类…
Linux运维之道(大量经典案例.问题分析,运维案头书,红帽推荐) 丁明一 编   ISBN 978-7-121-21877-4 2014年1月出版 定价:69.00元 448页 16开 编辑推荐 1.<Linux运维之道>从运维工作的实际需求出发,全面讲解相关的技术.经典案例,以及常见问题的解决方案. 2.作者丁明一具有丰富的实践及教学经验,且非常认真,本书是其呕心沥血之作,不仅内容精益求精,代码的编排作者也花了一些心思,可见其缜密. 3.本书得到了多位业内专家的强烈推荐,包括红帽大中华区考…
阿里云资深DBA专家罗龙九:云数据库十大经典案例分析 2016-07-21 06:33 本文已获阿里云授权发布,转载具体要求见文末 摘要:本文根据阿里云资深DBA专家罗龙九在首届阿里巴巴在线峰会的<云数据库十大经典案例分析>的分享整理而成.罗龙九以MySQL数据库为例,分析了自RDS成立至今,用户在使用RDS过程中最常见的问题,包括:索引.SQL优化.锁.延迟.参数优化.连接数.CPU.Iops.磁盘.内存等.罗龙九通过对十大经典案例的总结,还原问题原貌,给出分析问题的思路,旨在帮助用户在使用…
2019年9月20日,经过为期一个多月的紧张测试,北京润科通用技术有限公司为中车某机车单位倾力打造的“机车运用数据智能诊断系统”正式上线运行,标志着润科通用在轨道交通智慧运维领域的又一案例成功落地. 近年来,我国机车出口业务快速增长.客户的某型柴油电力机车是早期出口非洲的一个主力车型,也是我国“铁路外交”的一张靓丽名片.当地地理环境特殊,具有早晚温差大.湿度差大.海拔落差大的特点,机车单程运行里程长,途径草原.丘陵.湿地.平原等多种地形.由于机车远在国外运营.当地维保设施智能化程度低.难以调配大…
<循序渐进DB2(第2版)——DBA系统管理.运维与应用案例> 基本信息 作者: 牛新庄    出版社:清华大学出版社 ISBN:9787302323013 上架时间:2013-7-3 出版日期:2013 年7月 开本:16开 页码:612 版次:2-1 所属分类:计算机 > 数据库 > DB2 更多关于 >>>< 循序渐进DB2(第2版)——DBA系统管理.运维与应用案例> 内容简介     计算机书籍 DB2数据库是IBM公司关系型数据库核心产品,…
1.企业Shell面试题1:批量生成随机字符文件名案例 使用for循环在/oldboy目录下批量创建10个html文件,其中每个文件需要包含10个随机小写字母加固定字符串oldboy,名称示例如下: 1 2 3 4 5 [root@oldgirl C19]# ls /oldboy apquvdpqbk_oldboy.html  mpyogpsmwj_oldboy.html  txynzwofgg_oldboy.html bmqiwhfpgv_oldboy.html  mtrzobsprf_old…
写在前面的废话: 很久没有更新文章了,这段时间一直忙于项目落地,虽然很忙,但是感觉没有总结,没有提炼的日子,总是让人感觉飘飘忽忽的. 所幸放下一些事,抽出一些时间,把近期的项目做一些整理与记录.也算是阶段性的收拾过去,整装再发吧. 作为程序员嘛,总要整理整理自己的,不管是知识储备,还是项目应用,亦或者生活种种,都要隔一段时间,整理一下,这样心不会乱,回首亦有节点. 序: 今天要讲解的课程是<物联网3D,使用webgl(three.js)与物联网设备监控运维展示>课程之物业基础设施3D运维篇.…
一 Ansible自动化运维工具 Python 在运维工作中的经典应用 ansible(批量管理操作) .安装ansible(需要bese epel 2种源) wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo yum i…
​​关注嘉为科技,获取运维新知 Exchange后端数据库故障,一般都会是比较严重的紧急故障,因为这会直接影响到大面积用户的正常使用,而且涉及到用户数据.一旦遇到这种级别的故障,管理员往往都是在非常紧张.压力非常大的状态下进行恢复操作,需要在高压状态下迅速做出决策,下一步应该如何做.本文将总结数据库紧急故障下的恢复思路,希望对遇到这种紧急情况的邮件系统管理员有所帮助. 注:以下案例仅针对Exchange 2010版本. 一般邮件数据库的紧急故障,首先判断数据库状态是否正常,是否可以挂载使用:数据…
Flume实战案例运维篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Flume概述 1>.什么是Flume Flume是一个分布式.可靠.高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接收方. 官方地址:http://flume.apache.org/. 2>.Flume特性 ()高可靠性 Flume提供了end to end的数据可靠性机制 ()易于扩展 Agent为分布式架构,可水平…
关于故障的事后复盘,英文名 Case Study是非常有必要做的,当然是根据故障的级别,不可能做到每个故障都Case Study,除非人员和时间充足: 文档能力也是能力的一种,一般工程师的文档能力比较薄弱或者一般 ,但是一般各种类型的文档其实都有模板,根据模板填充内容也能事半功倍. 故障要有记录, 每个公司应当都有wiki,这些复盘应当记录下来,能学习到很多.Case Study会占用大量的时间, 但是中级以及重大故障还是有必要的. 下面介绍的就是复盘的整体套路: 故障描述 xxx业务状态码报警…
运维实战案例之"Too many open files"错误与解决方法   技术小甜 2017-11-16 15:02:00 浏览869 服务器 shell tomcat 脚本 open Security ulimit   一.问题现象 这是一个基于Java的Web应用系统,在后台添加数据时提示无法添加,于是登录服务器查看tomcat日志,发现了如下异常信息: java.io.IOException: Too many open files 通过这个错误,基本判断是系统可用的文件描述符…
转眼间,2021年的第一个季度已经到了最后一个月了,由于疫情原因,最近一段时间一直在北京,基本上没有出差,每天上班下班的日子感觉时间过的好快,新的一年继续努力奋斗啊. 仔细回想一下,自己踏入到sql server的领域也已经三年之久了,从刚开始只会简单的增删该查,到现在2020年自己支持的一百多家客户的日常数据库运维,现在回想一下,还是成长蛮多的(小夸自己一下) 现在想通过博客记录一下我的日常工作状态,回顾下这几年来在数据库遇到的各种各样的问题,给大家分享一下,欢迎各路大神前来指点.废话不多说,…
1.错误现象 运维的监控系统发来通知,报告一台服务器空间满了,登陆服务器查看,根分区确实没有空间了,如下图所示: 这里首先说明一下服务器的一些删除策略,由于Linux没有回收站功能,我们的线上服务器所有要删除的文件都会首先移动到系统/tmp目录下,然后定期清除/tmp目录下的数据.这个策略本身没有问题,但是通过检查发现这台服务器的系统分区中并没有单独划分/tmp分区,这样/tmp下的数据其实是占用了根分区的空间.既然找到了问题,那么删除/tmp目录下一些大数据即可,执行如下命令,检查/tmp下最…