很久没有写KM了,最近lester这边在梳理CDB这边存在的问题,并推动那些问题解决措施的落地。无疑当前CDB存在比较多的问题,也有很多坑。需要我们运维和开发的同学多思考问题的根源和解决办法,并付诸实践,成为问题的终结者,而不是成为一个会发现问题而不知道解决问题或者只是一个制造问题的人。通过最近对CDB运维兄弟们的观察,发现大家做事情的思路和执行力有了很大的提高。这里通过一个case来分享一下关于做事的一些想法。

事情的起因是由于同事调岗lester这边在接手和梳理内部CDB的相关业务,在接手的过程中遇到了一些坑,其中包括OSS容灾、OSS DB容灾和同步等问题,当主OSS出现硬件故障无法启动,尤其是有一些OSS的机器是比较老的C1机器。当时遇到的一个问题是主OSS所在的服务器硬盘故障,而且里面的数据也无法读取出来。默认CDB的OSS都有备机,但是由于OSS备机的信息是记录在OSS主机的配置文件中,当OSS主机的数据无法读取的时候,压根就不知道备份的机器在哪里。写脚本扫描了半天才找到备机的OSS。经过2个小时的各种配置终于恢复的。心中一万个草泥马奔腾而过。

碰上了这个坑,促使我们运维的同学去深入思考。无疑这种坑的存在是对我们运维不专业的一个嘲讽,这里体现出几个漏洞:

  • OSS配置除了主备外没有做备份,有的OSS连备机也没有。
  • OSS备机不一定OK
  • OSS DB主从没有监控,有的OSS DB没有从DB。

虽然之前CDB的OSS和OSS DB一直在开发的手里,然后毕竟我们是干运维的,我们运维存在的价值就是确保线上稳定运营和数据安全。将这个问题简单讨论后初步确定运维侧需要将CDB的OSS和OSS DB进行备份起来,出现的问题能快速进行修复。

接下来这个大坑就由我们组的zhaodeluo负责牵头搞起,接下来要重点介绍的就是zhaode同学做事情的思路和态度,对于一个可以说是非常小的备份的事情,zhaode同学能从这个坑入手延伸出好几公里,功力深厚令人赞叹,处理问题的思路值得我们所有运维的同学思考和学习。他的处理方式如下:

  1. 统计出CDB所有集群OSS的容灾情况(是否都有从机、从机是否真的生效、OSS的机型、是否过保?)
  2. 统计出CDB所有集群的OSS DB的容灾情况(是否有从DB、从DB同步是否正常)
  3. 写脚本备份CDB所有集群的OSS数据。
  4. 写脚本将CDB所有集群的从DB的同步都监控起来。
  5. 写脚本备份CDB所有OSS DB主库的数据。
  6. 研究CDB集群OSS的搭建、从OSS的搭建,完善之前的安装文档。
  7. 实践CDB集群切换到从OSS的详细操作,并整理成可以操作的详细文档。
  8. 实践在备份完集群主OSS和DB后进行恢复验证,确保备份是有效的。

看完zhaode同学的思路,不得不另我这个工作了8年,自以为解决问题有自己方法论的人感到大吃一惊,不愧是曾经在百度和IBM成长起来的大牛。我从中学到的是一个老员工踏踏实实做事,认认真真地做事的态度。这不就是用心做事最好的诠释么?

经常听人用心做事、用心思考。对应用心做事,无关乎技术、无关乎职级、无关乎岗位,关于的只有你做事的心态。我想对于用心做事的人,事情无大小,当你真正的将心沉浸其中,即使是再小的事情,你也能将它做得出彩。当一个小事你能做得让别人觉得出彩的时候,你将会有更大的舞台。还是那句话,我们的生活是被许许多多平平凡凡的事情包围,当你将平凡的事情做得不平凡,那么你也注定会不平凡。

小小的一个做事的case,加个小班,写出来,和各位CDB开发和运维的同学共勉!

一个关于运维人员做事的很好的case,拿出来和大家共勉的更多相关文章

  1. linux运维人员成长

    原文地址:https://blog.csdn.net/kwame211/article/details/78059331 初级篇 linux运维人员常用工具拓扑详见: 1rsync工具 很多地方经常会 ...

  2. 编写一个BAT脚本协助运维人员遇到问题时候调测数据库是否有效连接成功的操作攻略

    简单摘要: 1.内网系统出现故障需要排查 2.运维人员不熟悉数据库操作,没法通过连接数据库和执行SQL语句的方式排查数据库及数据是否正常 3.解决方案:编写一个bat脚本,运维人员双击运行即可.   ...

  3. 一切从“简”,解放IT运维人员

    运维人的神技 运维既是个技术活儿也是个苦差事,而运维人员被期望有着无限的技能:主机.存储.网络.操作系统样样精通,而且还要会写SQL.shell.开发语言java..net.python等等,对业务更 ...

  4. Linux运维人员如何学习python编程

    Linux运维人员如何学习python编程 从不会写代码,到自己独立能写代码解决问题 .这个问题很重要!盲目学习所谓的项目,最后 还是不会自己写代码解决问题.首先解决了独立能写代码解决问题,再通过项目 ...

  5. Linux运维人员共用root帐户权限审计

    Linux运维人员共用root帐户权限审计 2016-11-02 运维部落 一.应用场景 在中小型企业,公司不同运维人员基本都是以root 账户进行服务器的登陆管理,缺少了账户权限审计制度.不出问题还 ...

  6. 值得IT运维人员警示的“一件事儿”

    昨天,一个用户打来了紧急求助电话,并且发了邮件,弄得我当时紧张了一下,以为他们那里又出了什么乱子.用户在电话里说:应用系统性能很差,运行很慢,几近“卡死”的感觉,而且重启了多次应用和数据库服务器,最终 ...

  7. 运维人员:走好你的IT运维路

      转自 http://os.51cto.com/art/201303/387120.htm   现阶段,大多数运维人员只是处于被动低效率手工救火的状态,企业对其重视程度不高,导致部分运维人员对自己的 ...

  8. Linux运维人员共用root帐户权限审计(转至马哥Linux运维)

    一.应用场景 在中小型企业,公司不同运维人员基本都是以root 账户进行服务器的登陆管理,缺少了账户权限审计制度.不出问题还好, 出了问题,就很难找出源头.这里介绍下,如何利用编译bash 使不同的客 ...

  9. Linux 之不同运维人员共用root 账户权限审计

    一.为什么? 在中小型企业,公司不同运维人员基本都是以root 账户进行服务器的登陆管理,缺少了账户权限审计制度.不出问题还好,出了问题,就很难找出源头. 这里介绍下,如何利用编译bash 使不同的客 ...

随机推荐

  1. Vue的常用指令v-if, v-for, v-show,v-else, v-bind, v-on

    Vue.js的指令是以v-开头的,它们作用于HTML元素,指令提供了一些特殊的特性,将指令绑定在元素上时,指令会为绑定的目标元素添加一些特殊的行为,我们可以将指令看作特殊的HTML特性(attribu ...

  2. TP5使用PHPMAILER发送邮件

    TP使用PHPMAILER发送邮件 1.申请一个SMTP服务的邮箱. 我申请的是smtp.163.com的服务,注意SMTP服务密码不是登陆密码,需要单独设置 2.下载phpmailer类库文件htt ...

  3. Mongodb副本集+分片集群环境部署

    前面详细介绍了mongodb的副本集和分片的原理,这里就不赘述了.下面记录Mongodb副本集+分片集群环境部署过程: MongoDB Sharding Cluster,需要三种角色: Shard S ...

  4. 项目笔记:导出Excel功能设置导出数据样式

    /** * 导出-新导出 * * @return * @throws IOException */ @OperateLogAnn(type = OperateEnum.EXPORT, hibInter ...

  5. 为什么实现Serializbale接口就能够进行序列化?

    从所周知,Serializbale接口是个空的接口,并没有定义任何方法.那么问题来了,为什么需要序列化的接口只要实现Serializbale接口就能够进行序列化? 这要从序列化过程的源码说起.举个例子 ...

  6. oracle闪回flashback_transaction_query知识点

    查询更新记录: select t.start_timestamp, t.commit_timestamp, t.logon_user, t.operation, t.table_name, t.tab ...

  7. 【BIEE】03_BIEE数据源配置

    声明:此时说的是Oracle数据源配置 BIEE数据源配置有两种方法 ①直接使用字符串连接 ②将tnsnames.ora文件覆盖到obiee目录下 直接使用字符串 直接使用字符串连接很简单 首先打开资 ...

  8. 【BIEE】01_下载安装BIEE(Business Intelligence)11g 11.1.1.9.0

    环境准备 安装文件 如果操作系统是64位,则下载64位版本,我安装的系统是64位的 1.下载所有安装文件 1.1 Oracle Database 11g R2 下载地址: http://www.ora ...

  9. 3D版翻页公告效果

    代码地址如下:http://www.demodashi.com/demo/12830.html 前言: 在逛小程序蘑菇街的时候,看到一个2D版滚动的翻页公告效果.其实看到这个效果的时候,一点都不觉得稀 ...

  10. git个人使用总结(界面版)

    最近开始使用GIT来管理测试文档,从0到1开始使用git 1.首先,使用网页登录GIT后,创建项目 2.创建项目后,需要配置一下访问者权限 3.然后在网页版GIT复制地址,git clone到 本地 ...