ceph集群故障运维--持续更新】的更多相关文章

作者:vivo 互联网服务器团队-Zhang Rong 一.背景 随着vivo业务迁移到K8s的增长,我们需要将K8s部署到多个数据中心.如何高效.可靠的在数据中心管理多个大规模的K8s集群是我们面临的关键挑战.kubernetes的节点需要对OS.Docker.etcd.K8s.CNI和网络插件的安装和配置,维护这些依赖关系繁琐又容易出错. 以前集群的部署和扩缩容主要通过ansible编排任务,黑屏化操作.配置集群的inventory和vars执行ansible playbook.集群运维的主…
hadoop集群日常运维命令 #1.namenode hadoop namenode -format #格式化,慎用 su hdfs hadoop-daemon.sh start namenode hadoop-daemon.sh stop namenode #2.journalnode hadoop-daemon.sh start journalnode hadoop-daemon.sh stop journalnode #3.zkfc hdfs zkfc -formatZK #格式化,慎用…
低级集群运维包括启动.停止.重启集群内的某个具体守护进程:更改某守护进程或子系统配置:增加或拆除守护进程.低级运维还经常遇到扩展.缩减 Ceph 集群,以及更换老旧.或损坏的硬件. 一.增加/删除 OSD 如果您的集群已经在运行,你可以在运行时添加或删除 OSD . 增加 OSD 你迟早要扩容集群, Ceph 允许在运行时增加 OSD .在 Ceph 里,一个 OSD 一般是一个 ceph-osd 守护进程,它运行在硬盘之上,如果你有多个硬盘,可以给每个硬盘启动一个 ceph-osd 守护进程.…
案例说明: 在KingbaseES V8R6集群备库执行"repmgr standby switchover"时,切换失败,并且在执行过程中,伴随着"repmr standby follow"操作,本案例详细记录了解决此问题的过程. 适用版本: KingbaseES V8R6 集群节点信息: 一.备库执行switchover操作 1.执行switchover切换 [kingbase@node101 bin]$ ./repmgr standby switchover…
(一)备份namenode的元数据 namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用.因此应该经常对元数据进行备份,最好是异地备份. 1.将元数据复制到远程站点 (1)以下代码将secondary namenode中的元数据复制到一个时间命名的目录下,然后通过scp命令远程发送到其它机器 #!/bin/bash export dirname=/mnt/tmphadoop/dfs/namesecondary/current/`date +%y%m%d%H` if [ ! -d…
一 数据同步方案  1 ES-JDBC  不能实现删除同步操作.MYSQL如果删除,ES不会删除  2 logstash-input-jdbc  能实现insert update,但是仍然不能实现删除操作  3 canal+Bulk API  能同步实现mysql内部的所有操作,消费binlog(推荐使用)二 注意点  1 设定好分片数量和index结构  2 避免关联查询三 定义  1 全文检索    将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据…
(一)备份namenode的元数据 namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用.因此应该经常对元数据进行备份,最好是异地备份. 1.将元数据复制到远程站点 (1)以下代码将secondary namenode中的元数据复制到一个时间命名的目录下,然后通过scp命令远程发送到其它机器 #!/bin/bash export dirname=/mnt/tmphadoop/dfs/namesecondary/current/`date +%y%m%d%H` if [ ! -d…
1.编写pod yaml文件时绑定调度标签,必须要给指定节点绑定标签,否则无法调度到指定节点上,报错: Events: Type Reason Age From Message ---- ------ ---- ---- ------- Warning FailedScheduling 62s (x2 over 62s) default-scheduler / nodes are available: node(s) didn't have free ports for the requeste…
场景介绍:在我们的IDC中,存在着运行了3-6年的Ceph集群的服务器,这些服务器性能和容量等都已经无法满足当前业务的需求,在购入一批高性能机器后,希望将旧机器上的集群整体迁移到新机器上,当然,是保证业务不中断的前提下,再将旧机器下架回收.本文就介绍了一种实现业务不中断的数据迁移方案,并已经在多个生产环境执行. 本文的环境均为:Openstack+Ceph 运行虚拟机的场景,即主要使用RBD,不包含RGW,MDS.虚机的系统盘(Nova),云硬盘(Cinder),镜像盘(Glance)的块均保存…
kolla-ceph来源: 项目中的部分代码来自于kolla和kolla-ansible kolla-ceph的介绍: 1.镜像的构建很方便, 基于容器的方式部署,创建.删除方便 2.kolla-ceph的操作幂等,多次执行不会产生副作用 3.使用kolla-ceph(基于ansible)流程化部署 4.通过给磁盘打上相应标签,创建osd非常简单 5.升级便捷,通过构建新的ceph镜像,upgrade既可 6.自动根据osd节点数量来设置故障域: "osd" 或 "host&…