HA cluster

------------恢复内容开始------------

集群分类：

LB负载均衡集群（lvs/nginx（http/upstream, stream/upstream）），HA高可用集群，HP高性能集群。
高可用集群，英文原文为High Availability Cluster，简称HA Cluster，简单的说，集群（cluster）就是一组计算机，它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点（node）。高可用性集群（HA cluster）是指如单系统一样地运行并支持（计算机）持续正常运行的一个主机群。
高可用集群的出现是为了使集群的整体服务尽可能可用，从而减少由计算机硬件和软件易错性所带来的损失。如果某个节点失效，它的备援节点将在几秒钟的时间内接管它的职责。因此，对于用户而言，集群永远不会停机。高可用集群软件的主要作用就是实现故障检查和业务切换的自动化。
只有两个节点的高可用集群又称为双机热备即使用两台服务器互相备份。当一台服务器出现故障时，可由另一台服务器承担服务任务，从而在不需要人工干预的情况下，自动保证系统能持续对外提供服务。双机热备只是高可用集群的一种，高可用集群系统更可以支持两个以上的节点，提供比双机热备更多、更高级的功能，更能满足用户不断出现的需求变化。

高可用集群目的

1、利用集群方案解决单点故障SPoF（Single Point of Failure）。
2、提高系统可用性，降低MTTR。
A=MTBF平均故障间隔时间/（MTBF平均故障间隔时间+MTTR平均恢复时间）
高可用集群的标准有: 99%, 99.5%, ...., 99.999%，99.9999%；
3、利用集群方案解决硬件和软件故障：设计缺陷、wear out、自然灾害等。

高可用集群解决手段

手段：冗余方案（redundant）
集群主机分为：active/passive（一主多备），active/active（双主）
- 主备方式
  集群中的节点以主备的方式运行，主机处于工作状态，备机处于监控准备状态；当主机出现宕机状态时，备机接管主机的一切工作，待主机恢复正常后，备机再根据事先设置的设定来决定是否把服务切换到主机上运行。
- 双主方式
  集群中的节点均已主机方式运行，互相之间同时运行维护各自的服务工作并相互检测。当任意一台主机宕机后，另一台主机会接管它的一切工作，保证服务正常运行。
解决方案的开源软件有：keepalived 、heartbeat、corosyns
一般采用奇数主机方案3/5/7个

高可用集群原理：

HA nginx service：概念可以理解为高可用的是“服务”，组成一个高可用服务的“组件”叫做资源；
节点主机相互通信可以分为以下：

1.信息层(Messaging)

也叫底层基础架构层，主要用于节点之间传递心跳信息，也称为心跳层，节点之间传递心跳信息可以通过广播组播，单播等方式
心跳信息：集群中每一台服务器都不停的将自己在线的信息通告给集群中的其他主机
心跳信息的传递是基于套接字通信的，通过软件提供服务箭筒套接字，实现数据发送，请求，必须安装软件，并开启服务，这时实现高可用集群的基础

2.成员层（Membership）

这层最重要的作用是通过Cluster Consensus Menbership Service（CCM)这种服务由Messaging层提供的信息，来产生一个完整的成员关系。
CCM 组件（Cluster Consensus Menbership Service）：作用，承上启下，监听底层接受的心跳信息，当监听不到心跳信息的时候就重新计算整个集群的票数和收敛状态信息，并将结果转递给上层，让上层做出决定采取怎样的措施。CCM 还能够生成一个各节点状态的拓扑结构概览图，以本节点做为视角，保证该节点在特殊情况下能够采取对应的动作。
Messaging & Membership一般由同一软件实现。

3.资源分配层(Resource Allocation)

也叫资源管理器层，真正实现集群服务的层。包含CRM(集群资源管理器,cluster Resource Manager），CIB（集群信息基库，Cluster Infonation Base）,PE（策略引擎，Policy Engine）,TE（实施引擎,Transition Engine）, LRM（Local Resource Manager，本地资源管理器）。
CRM组件：核心组件，实现资源的分配和管理。每个节点上的CRM都维护一个CIB用来定义资源特定的属性，哪些资源定义在同一个节点上。主节点上的CRM被选举为DC(Designated Coordinator指定协调员，主节点挂掉会选出新的DC)，成为管理者，它的工作是决策和管理集群中的所有资源。
任何DC上会额外运行两个进程，一个叫PE，；一个叫TEPE ：定义资源转移的一整套转移方式，但只做策略，并不亲自来参加资源转移的过程，而是让TE来执行自己的策略。
TE : 就是来执行PE做出的策略的并且只有DC上才运行PE和TE。
CIB组件：XML格式的配置文件，工作的时候常驻内存，只有DC才能对CIB进行修改，其他节点上的复制DC上的CIB而来。集群的所有信息都会反馈在CIB中。
LRM组件：是执行CRM传递过来的在本地执行某个资源的执行和停止的具体执行人。
资源(补充)：

在集群中构成一个完整服务的每一部分都叫资源，都需要配置和管理。

以web应用为例：vip是资源，web服务器是资源，存储也是资源。不同的服务的资源也不尽相同，其中存储资源的选择、配置、管理是高可用集群中的难点问题。

4.资源代理层（Resource Agents）

集群资源代理,能够管理本节点上的属于集群资源的某一资源的启动，停止和状态信息的脚本，资源代理分为：LSB（/etc/init.d/*）,OCF(比LSB更专业，更加通用)。
任何资源代理都要使用同一种风格，接收四个参数：{start|stop|restart|status}，每个种资源的代理都要完成这四个参数据的输出。

工作机制：

PE根据CIB获取资源的配置信息(集群上的所有信息都会收集到DC的CIB，同步到其它节点)，而后做出决策，一旦做得决策就会进行资源的管理。PE借助于本地的CCM通知给其它节点CIB来实现对某些资源管理信息的传递，比如说通告其它CRM要启动某一资源了，收到信息后CRM并不负责启动，转由LRM(Local Resource Manager本地资源管理)启动，而并发资源又借助于RA(Resource Agent资源代理)实现资源管理。

故障切换过程

Failover：故障切换，即某资源的主节点故障时，将资源转移至其它节点的操作；

Failback：故障移回，即某资源的主节点故障后重新修改上线后，将转移至其它节点的资源重新切回的过程

两个节点集群方案辅助设备：

NodePing：提供网站和服务器可用性监控。在最基本的,服务允许用户输入一个地址的网站地址列表或其他基于互联网的服务,然后检查网站或服务是正常。如果一个网站或其他服务不正确的反应,服务通过电子邮件自动通知别人。
quorum disk：仲裁磁盘( Quorum Disk)，其作用是在协调集群节点间的故障转移

共用存储器解决：

NAS：文件共享服务器；
SAN：存储区域网络，块级别的共享；

HA cluster的更多相关文章

1、HA Cluster基础原理
Linux Cluster --> linux集群类型分三种: LB:负载均衡,LoadBalance HA:双机集群系统,指高可用性集群,High Available HP:Hadoop ...
spark standalone ha spark submit
when you build a spark standalone ha cluster, when you submit your app, you should send it to the l ...
HADOOP cluster some issue for installation
给namenode搭建了HA,然后根据网上的配置也配置了secondary namenode, 但是一直没有从日志中看到启动secondnary namenode,当然进程也没有. 找了很多资料,按照 ...
motan源码分析五：cluster相关
上一章我们分析了客户端调用服务端相关的源码,但是到了cluster里面的部分我们就没有分析了,本章将深入分析cluster和它的相关支持类. 1.clustersupport的创建过程,上一章的Ref ...
Flink JobManager HA模式部署（基于Standalone）
参考文章:https://ci.apache.org/projects/flink/flink-docs-release-1.3/setup/jobmanager_high_availability. ...
架构之高可用性(HA)集群(Keepalived)
Keepalived简介 Keepalived是Linux下一个轻量级别的高可用解决方案.高可用(High Avalilability,HA),其实两种不同的含义:广义来讲,是指整个系统的高可用行,狭 ...
vsphere HA内幕变化
see aslo:http://www.yellow-bricks.com/vmware-high-availability-deepdiv/ HA Deepdive My posts on VMwa ...
HA 部署wordpress
前提: 1.保证免密认证ssh 2.NTP时间是否同步: 3.保证防火墙,selinux关闭: 4.用户名互相能够解析:在hosts文件设置: 环境: 系统:centos6.8和centos7.2 I ...
Dream------Hadoop--Hadoop HA QJM （Quorum Journal Manager）
In a typical HA cluster, two separate machines are configured as NameNodes. At any point in time, ex ...

随机推荐

The Reset Method of Te Philips VTR 5210
Pull down and hold the ON/OFF buttun, Then press the play button
hdu 1133 卡特兰高精度
Buy the Ticket Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) T ...
LK光流算法公式详解
由于工程需要用到 Lucas-Kanade 光流,在此进行一下简单整理(后续还会陆续整理关于KCF,PCA,SVM,最小二乘.岭回归.核函数.dpm等等): 光流,简单说也就是画面移动过程中,图像上每 ...
Nginx访问非常慢
由于域名绑定服务器IP,而服务器上部署了多个应用,想都通过域名访问,故弄了个Nginx转发. 加了Nginx以后,服务访问明显卡顿. 查看配置: location / { proxy_pass htt ...
Qt网络获取本机网络信息
下面我们就讲解如何获取自己电脑的IP地址以及其他网络信息.这一节中,我们会涉及到网络模块(QtNetwork Module)中的QHostInfo ,QHostAddress ,QNetworkInt ...
Flume-几种拓扑结构
一.串联 Flume Agent 连接这种模式是将多个 flume 顺序连接起来了,从最初的 source 开始到最终 sink 传送的目的存储系统.此模式不建议桥接过多的 flume 数量,flu ...
ansiblle---roles
使用ansible中的roles来管理主机. 剧本中的roles你现在已经学过 tasks 和 handlers,那怎样组织 playbook 才是最好的方式呢?简单的回答就是:使用 roles ! ...
leetcode94 不同的二叉搜索树
solution 1:**动态规划 class Solution { public: int numTrees(int n) { vector<int> g={1,1,2}; for(in ...
NLP之电影评分数据的情感分析
1.基于词袋模型的逻辑回归情感分类 # coding: utf-8 import re import numpy as np import pandas as pd from bs4 import B ...
JAVA反射机制，总结下
1.总体概述 Java反射机制指的是在Java程序运行状态中,对于任何一个类,都可以获得这个类的所有属性和方法:对于给定的一个对象,都能够调用它的任意一个属性和方法.这种动态获取类的内容以及动态调用对 ...