作者:范军 (Frank Fan) 新浪微博:@frankfan7 Stretched Cluster是一把双刃剑,会用的如行云流水,用不好反而受其限制. 传统的vSphere Cluster是指一个Cluster内的所有ESXi主机都在一个物理机房内.Stretched Cluster顾名思义是把Cluster的概念扩展到了不受物理位置的限制.主机可以是在同一个数据中心的不同物理机房,甚至可以分布在不同城市的数据中心.听上去很酷吧, 是否采用Stretched Cluster需要缜密的评估和设…
作者:范军 (Frank Fan) 新浪微博:@frankfan7 VPLEX等存储设备的出现,可以实现双活数据中心,最大程度的有效利用运算和存储资源. 在“容灾设计之三Stretched Cluster”中我们介绍了Stretched Cluster的概念,EMC VPLEX是Stretched Cluster支持的存储设备之一.本文大概介绍EMC VPLEX和VMware Stretched Cluster的集成.当然VPLEX也可以独立使用.   一 VPLEX简介 Stretched C…
在[虚拟化实战]存储设计之五IOPS中我们讲了评估存储性能的三个关键指标.也就是Throughput,IOPs和latency.以及三者之间的关系.本文深入介绍Latency过高的原因和一些建议. Latency过高直接导致在该存储上执行虚拟机以及其应用的性能减少.终于用户可能抱怨程序打不开,执行慢,响应时间长等等. 一   怎样衡量Latency? Latency或者respondingtime,指完毕一个IO请求所须要的时间.往往以milliseconds来衡量. 应用端发出的一个IO请求,…
作者:范军 (Frank Fan) 新浪微博:@frankfan7 从本文开始,我们将介绍一系列的关于容灾的解决方案.先探讨应用的场景,然后再深入介绍技术架构. 情景一: 某小型公司的虚拟化环境中,在5台ESXi服务器上运行100台虚拟机.采用NFS存储.其中需要异地恢复的虚拟机10台.对于异地容灾RPO的要求是30分钟,RTO是1小时.已经使用vSphereStandard 许可.软件购买成本有限. 建议: 采用vSphere Replication (VR) VR对于已经使用vSphere …
摘要:本文主要是探讨OLAP关系型数据库框架的数据仓库平台如何设计双集群系统,即增强系统高可用的保障水准,然后讨论一下GaussDB(DWS)的容灾应该如何设计. 当前社会.企业运行当中,大数据分析.数据仓库平台已逐渐成为生产.生活的重要地位,不再是一个附属的可有可无的分析系统,外部监控要求.企业内部服务,涌现大批要求7*24小时在线的应用,逐步出现不同等级要求的双集群系统. 数据仓库主流数据库平台均已存在多重高可靠保障措施设计,如硬盘冗余的raid设计.数据表冗余.节点备用冗余.机柜备用数据交…
作者:范军 (Frank Fan) 新浪微博:@frankfan7 虚拟机需要多少个vCPU呢?是不是个数越多性能越好呢?这方面存在着很多误区.给VM配置CPU资源的时候,要精打细算才能最大可能的利用已有资源,来满足商业应用的需要.有的情况下为某个VM设置过多vCPU数目,反而会造成该应能的性能下降.也造成整个系统的资源浪费. 本文从概念到实战来阐述如何做好虚拟机上CPU资源规划. 一概念: 首先我们明确一些概念. Socket A CPU socket or a CPUpackage refe…
容灾全景图: 按照距离划分:分为本地容灾 同城容灾 异地容灾  本地容灾包括本地高可用和本地主备.(本数据中心的两机房.机柜) 本地高可用这个方案为了保持业务的连续性,从两个层面来考虑: ①一个是从主机.服务器这个层面考虑,假如这个服务器上的虚拟机或者业务挂了,可以自动的从其他服务器上把它拉活,以此来保证业务的连续性,主要是通过集群HA.DRS.DPM的这些特性. ②另一个就是从存储层面来考虑,使用的Hypermetro特性/ HyperMirror+SmartVirtualization(异构…
本章目录 0x00 数据持久化 1.RDB 方式 2.AOF 方式 如何抉择 RDB OR AOF? 0x01 备份容灾 一.备份 1.手动备份redis数据库 2.迁移Redis指定db-数据库 3.Redis集群数据备份与迁移 二.恢复 1.系统Redis用户被删除后配置数据恢复流程 2.Kubernetes中单实例异常数据迁移恢复实践 3.当Redis集群中出现从节点slave,fail,noaddr问题进行处理恢复流程. 前置知识学习补充 Redis数据库基础入门介绍与安装 - http…
本文由  网易云发布. 数字化转型浪潮之下,采用云计算服务提升业务敏捷性.降低运维成本,成为了传统企业的优选方案.网易云资深解决方案架构师张亮通过某物流企业客户的实际案例,分享了传统业务系统在云上的架构设计如何满足数据高可靠.业务高可用的需求,并总结了传统业务上云的常见问题和解决方案. 物流企业业务系统上云需求 对于物流企业来说,内部沟通.供应链协同对优化供应链效率提升核心竞争力非常重要.作为行业翘楚,该物流企业客户建立了一个企业级移动办公平台,该平台集成了即时通讯(IM).企业内部的ERP.O…
关于Windows Server的虚拟化网络,前文描述了在操作系统层面上的出现的配置变化.其中的一些配置通过Windows Server提供的小工具即可实现,如网卡组的配置,而有些需要安装Windows Server的服务器角色,如Hyper-V,然后通过Hyper-V Manager或者其命令行工具来配置虚拟交换机.但是要进行全局配置管理和实现一些高级功能,就需要接下来介绍的主角System Center Virtual Machine Manager(SCVMM).关于SCVMM的安装和部署…
源地址:http://www.cnblogs.com/SuperXJ/p/3480929.html 数据复制技术很多,初步比较如下. 后面重点讨论银行最常用的存储复制和数据库复制..当然,我最推荐的还是应用方式..只有应用做好了才能做到真正的多活应用!!!银行需要加大研发力度, 摆脱厂商的束缚,长远来看,肯定是节约成本的.但是目前由于风险问题,还是很少这方面的尝试 类别 方案 描述 优点 缺点 应用 应用双写 应用同时连接两个数据库将数据写入的方式,或应用将产生的文件写入到两个存储位置. 数据保…
在上一篇:微软分布式云计算框架Orleans(1):Hello World,我们大概了解了Orleans如何运用,当然上一篇的例子可以说是简单且无效的,因为用了Orleans不可能只写一个Hello World吧,Orleans是为分布式和云计算而生的框架,那么今天我们就简单说一说容灾.集群.容灾与集群在Orleans中的运用. 集群是什么? 下面摘抄自百度百科: 集群(cluster)技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能.可靠性.灵活性方面的相对较高的收益,…
Redis容灾部署(哨兵Sentinel) 哨兵的作用 1. 监控:监控主从是否正常2. 通知:出现问题时,可以通知相关人员3. 故障迁移:自动主从切换4. 统一的配置管理:连接者询问sentinel取得主从的地址 Raft分布式算法 1. 主要用途:用于分布式系统,系统容错,以及选出领头羊2. 作者:Diego Ongaro,毕业于哈佛3. 目前用到这个算法的项目有: a. CoreOS : 见下面 b. ectd : a distributed, consistent shared conf…
实验简单来讲就是 1. put 一个600M文件,分散3个replica x 9个block 共18个blocks到4个datanode 2. 我关掉了两个datanode,使得大部分的block只在一个datanode上存在,但因为9个很分散,所以文件能正确取回(靠的是checksum来计算文件值) 3. hadoop namenode很迅速的复制了仅有一个replica的block使之成为 3 replica(2) but only found 2 4. 我再关掉一个datanode,结果发…
redis主从集群搭建及容灾部署(哨兵sentinel) Redis也用了一段时间了,记录一下相关集群搭建及配置详解,方便后续使用查阅. 提纲 l  Redis安装 l  整体架构 l  Redis主从结构搭建 l  Redis容灾部署(哨兵sentinel) l  Redis常见问题 Redis安装 发行版:CentOS-6.6 64bit 内核:2.6.32-504.el6.x86_64 CPU:intel-i7 3.6G 内存:2G 下载redis,选择合适的版本 [root@rocket…
欢迎大家前往云加社区,获取更多腾讯海量技术实践干货哦~ 作者简介:xianmau,2015 年加入腾讯 TEG 架构平台部,一直负责 QQ 相册平台的维护和建设,主导相册上传架构重构和容灾优化等工作.主要研究方向为口语对话系统.分布式系统架构设计和优化,发表对话系统相关学术论文 3 篇,系统架构相关专利 2 篇. 本文由腾讯技术工程官方号发布在云加社区. 写在前面 QQ 相册作为重量级资深业务,稳定运营.有效容灾,一直是相册团队追求的目标.QQ 相册架构一直在演变进化,本文重点介绍相册最新的一次…
场景分析 每个机房的Ceph都是独立的cluster,彼此之间没有任何关系. 多个机房都独立的提供对象存储功能,每个Ceph Radosgw都有自己独立的命名空间和存储空间. 这样带来两个问题: 针对Radosgw来说,我们的业务没法提供统一的命名空间: 没有机房级别的容灾,若一个机房Radosgw无法访问,则机房提供的对象存储瘫痪: Realm: Zonegroup: 理解为数据中心,由一个或多个Zone组成,每个Realm有且仅有 一个Master Zonegroup,用于处理系统变更,其他…
介绍两种HBase的数据备份或者容灾方案:Snapshot,Replication: 一.Snapshot 开启快照功能,在hbase-site.xml文件中添加如下配置项: <property> <name>hbase.snapshot.enabled</name> <value>true</value> </property> 在hbase shell中使用clone_snapshot, delete_snapshot, list…
在kbmMW均衡负载与容灾(1)中,介绍了利用ClientTransport的OnReconnect事件,对联接的应用服务器的地址进行更换,做容灾处理.实际上,作者还给我们提供了另外一种机制,直接在ClientTransport中定义可联接服务器及如何切换.具体来说就是三个属性,如下图: 1.FallbackServers:定义可访问的应用服务器的列表:利用Add,每次加一个AppServer地址联接串,即服务地址. 2.AutoFallback:启用FallbackServers地址:如果定义…
Redis也用了一段时间了,记录一下相关集群搭建及配置详解,方便后续使用查阅. 提纲 Redis安装 整体架构 Redis主从结构搭建 Redis容灾部署(哨兵sentinel) Redis常见问题 Redis安装 发行版:CentOS-6.6 64bit 内核:2.6.32-504.el6.x86_64 CPU:intel-i7 3.6G 内存:2G 下载redis,选择合适的版本 [root@rocket software]# wget http://download.redis.io/re…
在灾难恢复方面,目前业界公认有三个目标值得努力.一是恢复时间,企业能忍受多长时间没有 IT,处于停业状态:二是网络多长时间能够恢复:三是业务层面的恢复.整个恢复过程中,最关键的衡量指标有两个:一个是 RTO,另一个是 RPO.所谓 RTO,Recovery Time Objective,它是指灾难发生后,从 IT 系统当机导致业务停顿之时开始,到 IT 系统恢复至可以支持各部门运作.恢复运营之时,此两点之间的时间段称为 RTO.所谓 RPO,Recovery Point Objective,是指…
实验简单来讲就是 1. put 一个600M文件,分散3个replica x 9个block 共18个blocks到4个datanode 2. 我关掉了两个datanode,使得大部分的block只在一个datanode上存在,但因为9个很分散,所以文件能正确取回(靠的是checksum来计算文件值) 3. hadoop namenode很迅速的复制了仅有一个replica的block使之成为 3 replica(2) but only found 2 4. 我再关掉一个datanode,结果发…
HBase的数据备份或者容灾方案有这几种:Distcp,CopyTable,Export/Import,Snapshot,Replication,以下分别介绍(以下描述的内容均是基于0.94.20版本). 一.Distcp 在使用distcp命令copy hdfs文件的方式实现备份时,需要禁用备份表确保copy时该表没有数据写入,对于在线服务的hbase集群,该方式不可用,而且在一些文章中可以看到通过distcp文件恢复hbase表时需使用: bin/hbase org.jruby.Main b…
elasticsearch专栏:https://www.cnblogs.com/hello-shf/category/1550315.html 一.集群健康 Elasticsearch 的集群监控信息中包含了许多的统计数据,其中最为重要的一项就是集群健康,它在 status 字段中展示为 green . yellow 或者 red. 在kibana中执行:GET /_cat/health?v 1 epoch timestamp cluster status node.total node.dat…
Hbase数据备份&&容灾方案 标签(空格分隔): Hbase 一.Distcp 在使用distcp命令copy hdfs文件的方式实现备份时,需要禁用备份表确保copy时该表没有数据写入,对于在线服务的hbase集群,该方式不可用,将静态此目录distcp 到其他HDFS文件系统时候,可以通过在其他集群直接启动新Hbase 集群将所有数据恢复. 二.CopyTable 执行命令前,需在对端集群先创建表 支持时间区间.row区间,改变表名称,改变列簇名称,指定是否copy删除数据等功能,例…
RAC容灾演练:在节点一进行验证:步骤 操作命令关闭步骤 检测RAC集群资源状态 crsctl status resource -t 关闭监听 srvctl stop listener -n <node_name> 关闭数据库实例 srvctl stop instance -d <db_unique_name> -n <node_name> 关闭nodeapps srvctl stop nodeapps -n <node_name> 关闭集群(root权限)…
说到公有云容灾,大家首先想到的是云上数据备份. 然而,随着企业核心业务逐渐从线下迁移到云上,客户提出了更高的要求.如何确保云上业务的高可用.数据的高可靠,这对云厂商提出了新的挑战. 腾讯云作为全球领先的云厂商,服务了上百万家客户.在公有云服务之初,就凭借自身业务的多年积累,从机房基础设施建设,到计算.存储.网络.安全等各种服务,为客户在云上构建高可用.数据高可靠的业务,提供了完善的产品和解决方案. 业务的容灾涉及到诸多方面,以典型的三层架构为例,架构上要确保每一层都具备高可用能力,才能保障整体业…
系列文章 实战使用Axure设计App,使用WebStorm开发(1) – 用Axure描述需求  实战使用Axure设计App,使用WebStorm开发(2) – 创建 Ionic 项目   实战使用Axure设计App,使用WebStorm开发(3) – 构建页面架构  实战使用Axure设计App,使用WebStorm开发(4) – 实现页面UI 实战使用Axure设计App,使用WebStorm开发(5) – 实现页面功能 实战使用Axure设计App,使用WebStorm开发(6) –…
系列文章 实战使用Axure设计App,使用WebStorm开发(1) – 用Axure描述需求  实战使用Axure设计App,使用WebStorm开发(2) – 创建 Ionic 项目   实战使用Axure设计App,使用WebStorm开发(3) – 构建页面架构  实战使用Axure设计App,使用WebStorm开发(4) – 实现页面UI 实战使用Axure设计App,使用WebStorm开发(5) – 实现页面功能 实战使用Axure设计App,使用WebStorm开发(6) –…
系列文章 实战使用Axure设计App,使用WebStorm开发(1) – 用Axure描述需求  实战使用Axure设计App,使用WebStorm开发(2) – 创建 Ionic 项目   实战使用Axure设计App,使用WebStorm开发(3) – 构建页面架构  实战使用Axure设计App,使用WebStorm开发(4) – 实现页面UI 实战使用Axure设计App,使用WebStorm开发(5) – 实现页面功能 实战使用Axure设计App,使用WebStorm开发(6) –…