作者:王文洋
链接:https://www.zhihu.com/question/30753842/answer/49334210
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

以下是前公司的关于异地容灾备份的介绍:
根据国际标准SHARE78的定义,灾难恢复解决方案根据方案的成本和将带来的效益程度不同而分为七级,这将方案的成本和RTO和RPO联系在一起
是RTO (Recovery Time Objective):是指灾难发生后,从I/T系统停机导致业务停顿开始,到IT系统恢复可以支持业务恢复运营之时,所需要的时间
RPO (Recovery Point Objective):发生意外灾难事件时可能丢失的数据量。是指能够恢复至可以支持业务运作,系统及数据恢复到怎样的更新程度—可以是上一周的备份数据,也可以是上一次交易的实时数据。

在此基础上,灾难备份技术方案可以分为四种类别考虑规划:
关键业务应用灾难备份方案(热备份)
关键业务应用灾难备份方案对应国际标准SHARE 78的定义灾难备份技术方案的第7级,在对数据提供最高级别的保护的基础上,增加了自动化功能,在出现问题或发生灾难时发出报警,一旦客户决定把应用切换到灾难备份中心,则自动完成灾难备份中心应用启动需要的各个操作步骤,保证业务在最短的时间内恢复。
适用环境:
RPO ≈0,没有或基本没有数据丢失;
RTO < 1h,应用恢复时间在1~2个小时内;
技术方案:
- 专用的,活动的灾备中心
- 最高级别的业务连续性
- 端到端的灾备服务,包括应用和流程
- 自动监测应用运行状态
- 自动完成应用和业务切换
存储为中心的灾难备份方案(温备份)
存储为中心的灾难备份基本对应国际标准SHARE 78的定义灾难备份技术方案的第5和第6级,采用数据复制技术,是对数据进行保护的数据最高级别灾难备份方案。
适用环境:
RPO ≈0 ,对于非常重要的数据,没有或基本没有数据丢失;
RTO< 4h,应用恢复时间在几个小时内;
技术方案:
- 专用的灾备中心
- 数据的最高级别保护 – 没有或基本没有数据丢失
- 采用同步(同城近距离)或异步(不受限制远距离)磁盘镜像技术,与应用无关
- 灾难时根据预先定义的流程,手工恢复
中等程度应用灾难备份方案(冷备份)
中等重要程度应用灾难备份方案对应国际标准SHARE 78的定义灾难备份技术方案的第3和第4级。
适用环境:
RPO ≤24h, 对于比较重要的数据,允许的数据丢失量在1天以内;
RTO ≤24h ,应用恢复时间在1天以内;
技术方案:
- 建立灾备中心
- 重要数据一天内进行多次备份,备份数据通过网络异步传输到备份中心
- 制定备份策略,利用数据备份软件和工具进行备份
- 灾难时根据预先定义的流程,手工恢复
数据磁带远程传送灾难备份方案(无应用备份)
数据磁带远程传送方案对应国际标准SHARE 78的定义灾难备份技术方案的第1和第2级,是最基本的磁带备份解决方案。
适用环境:
RPO ≥24h ,允许的数据丢失量在1天;
RTO >24h ,应用恢复时间在1天以上;
技术方案:
- 不需要自己建立灾备中心
- 把数据的备份介质运输到保存地
- 发生灾难时,采用数据中心外包或使用第三方机房恢复数据和应用
如果完全按照这个标准制定解决方案以及维护方案基本可以避免造成停机一天以及丢失大量数据灾难。

RTO & RPO的更多相关文章

  1. 伟哥对RTO & RPO的通俗理解

    RTO (Recovery Time Objective,复原时间目标)是企业可容许服务中断的时间长度.比如说灾难发生后半天内便需要恢复,RTO值就是十二小时: RPO (Recovery Point ...

  2. 理解 OpenStack 高可用(HA)(1):OpenStack 高可用和灾备方案 [OpenStack HA and DR]

    本系列会分析OpenStack 的高可用性(HA)概念和解决方案: (1)OpenStack 高可用方案概述 (2)Neutron L3 Agent HA - VRRP (虚拟路由冗余协议) (3)N ...

  3. oracle rac理解和用途扩展

    Oracle RAC的优势在于利用多个节点(数据库实例)组成一个数据库,这样在保证了数据库高可用性的情况下更充分的利用了多个主机的性能,而且可以通过增加节点进行性能的扩展.实现Oracle RAC需要 ...

  4. 瞧一瞧!这儿实现了MongoDB的增量备份与还原(含部署代码)

    一 需求描述 我们知道数据是公司的重要资产,业务的系统化.信息化就是数字化.数据高效的存储与查询是系统完善和优化的方向,而数据库的稳定性.可靠性是实现的基础.高可用和RPO(RecoveryPoint ...

  5. 转-4年!我对OpenStack运维架构的总结

    4年!我对OpenStack运维架构的总结 原创: 徐超 云技术之家 今天 前言 应“云技术社区”北极熊之邀,写点东西.思来想去云计算范畴实在广泛,自然就聊点最近话题异常火热,让广大云计算从业者爱之深 ...

  6. 016.OpenStack及云计算(面试)常见问题

    什么是云计算? 云计算是一种采用按量付费的模式,基于虚拟化技术,将相应计算资源(如网络.存储等)池化后,提供便捷的.高可用的.高扩展性的.按需的服务(如计算.存储.应用程序和其他 IT 资源).   ...

  7. 《GB/T 20988-2007:信息系统灾难恢复规范》[中](国家质检总局 & 国标委)阅读笔记

    第 0 章:引言 [感]GB/T 20988 引用了 SHARE 78 会议(标准)上的有关内容和思想,并结合国家重要信息系统行业技术发展和实践经验制定而成. GB/T 20988 提出了信息系统灾难 ...

  8. openStack灾备方案说明

    本系列会分析OpenStack 的高可用性(HA)概念和解决方案: (1) OpenStack 高可用方案概述 (2) Neutron L3 Agent HA - VRRP (虚拟路由冗余协议) (3 ...

  9. openStack高可用性和灾备方案

    1. 基础知识 1.1 高可用 (High Availability,简称 HA) 高可用性是指提供在本地系统单个组件故障情况下,能继续访问应用的能力,无论这个故障是业务流程.物理设施.IT软/硬件的 ...

随机推荐

  1. BM算法  Boyer-Moore高质量实现代码详解与算法详解

    Boyer-Moore高质量实现代码详解与算法详解 鉴于我见到对算法本身分析非常透彻的文章以及实现的非常精巧的文章,所以就转载了,本文的贡献在于将两者结合起来,方便大家了解代码实现! 算法详解转自:h ...

  2. AJAX 异步交互基本总结

    AJAX (Asynchronous JavaScript and Xml) 直译中文 - javascript和XML的异步 同步与异步的区别: 同步交互 执行速度相对比较慢 响应的是完整的HTML ...

  3. HDU 5742 It's All In The Mind (贪心) 2016杭电多校联合第二场

    题目:传送门. 题意:求题目中的公式的最大值,且满足题目中的三个条件. 题解:前两个数越大越好. #include <iostream> #include <algorithm> ...

  4. HDU 5512 Pagodas (gcd)

    题目:传送门. 题意:t组数据,每组数据给定n,a,b,a!=b,在[1,n]的这些点中,每次选取a+b或a-b或b-a点,选取过的点在下次选取的时候可以当做ab来用继续选取,谁不能继续选取谁就输,问 ...

  5. UVA 11827 Maximum GCD (输入流)

    题目:传送门 题意:求n个数的最大公约数,暴力不会超时,难点在没有个数控制的输入. 题解:用特殊方法输入. #include <iostream> #include <cmath&g ...

  6. vmware安装linux.iso

    安装方法 : .进入Fedora后,在虚拟机选项栏中选VM->install vmware tools 拷贝VMware Tools.tar.gz到指定文件夹,解压缩 进入超级终端:在-> ...

  7. C++文件读写详解(ofstream,ifstream,fstream)

    C++文件读写详解(ofstream,ifstream,fstream) 这里主要是讨论fstream的内容: #include <fstream> ofstream //文件写操作 内存 ...

  8. mysql_4(解决中文乱码问题)

    mysql> create database if not exists xdb default character set utf8;Query OK, 1 row affected (0.0 ...

  9. Javascript模块化编程之路——(require.js)

    转自:http://www.ruanyifeng.com/blog/2012/10/javascript_module.html Javascript模块化编程(一):模块的写法 随着网站逐渐变成&q ...

  10. JUC回顾之-Semaphore底层实现和原理

    1.控制并发线程数的Semaphore Semaphore(信号量)是用来控制同时访问特定资源的线程数量,它通过协调各个线程,保证合理的使用公共资源. 线程可以通过acquire()方法来获取信号量的 ...