环境说明

参照上章已完成postgresql流复制配置,并关闭postgres服务。

su - postgres
pg_ctl -D /data/postgresql/data/ stop -m fast

配置集群环境

安装pacemaker和corosync

需要在所有节点执行

yum install -y pacemaker pcs psmisc policycoreutils-python postgresql-server
关闭防火墙

需要在所有节点执行

systemctl disable firewalld.service
systemctl stop firewalld.service
启用PCS

需要在所有节点执行

[root@master ~]# systemctl start pcsd.service
[root@master ~]# systemctl enable pcsd.service
Created symlink from /etc/systemd/system/multi-user.target.wants/pcsd.service to /usr/lib/systemd/system/pcsd.service.
[root@master ~]# echo hacluster |  passwd hacluster --stdin
更改用户 hacluster 的密码 。
passwd:所有的身份验证令牌已经成功更新。
集群认证

在任意机器执行,选择master执行

[root@master ~]# pcs cluster auth -u hacluster -p hacluster 192.168.174.200 192.168.174.201
192.168.174.200: Authorized
192.168.174.201: Authorized
同步设置

选择master执行

[root@master ~]# pcs cluster setup --last_man_standing=1 --name pgcluster 192.168.174.200 192.168.174.201
Destroying cluster on nodes: 192.168.174.200, 192.168.174.201...
192.168.174.200: Stopping Cluster (pacemaker)...
192.168.174.201: Stopping Cluster (pacemaker)...
192.168.174.200: Successfully destroyed cluster
192.168.174.201: Successfully destroyed cluster Sending 'pacemaker_remote authkey' to '192.168.174.200', '192.168.174.201'
192.168.174.200: successful distribution of the file 'pacemaker_remote authkey'
192.168.174.201: successful distribution of the file 'pacemaker_remote authkey'
Sending cluster config files to the nodes...
192.168.174.200: Succeeded
192.168.174.201: Succeeded Synchronizing pcsd certificates on nodes 192.168.174.200, 192.168.174.201...
192.168.174.200: Success
192.168.174.201: Success
Restarting pcsd on the nodes in order to reload the certificates...
192.168.174.200: Success
192.168.174.201: Success
启动集群

选择master执行

[root@master ~]# pcs cluster start --all
192.168.174.200: Starting Cluster...
192.168.174.201: Starting Cluster...
验证

验证corosync,选择在master执行

[root@master ~]# pcs status corosync

Membership information
----------------------
Nodeid Votes Name
1 1 192.168.174.200 (local)
2 1 192.168.174.201

验证pacemaker,选择在master执行

[root@master ~]# pcs status
Cluster name: pgcluster
WARNING: no stonith devices and stonith-enabled is not false
WARNING: corosync and pacemaker node names do not match (IPs used in setup?)
Stack: unknown
Current DC: NONE
Last updated: Fri Apr 13 21:24:51 2018 Last change: 0 nodes configured
0 resources configured No resources Daemon Status:
corosync: active/disabled
pacemaker: active/disabled
pcsd: active/enabled

配置自由切换

注意:在配置自动切换前,一定要先把master、slave1上的PostgreSQL服务停掉

选择在master执行

vim cluster_setup.sh
# 将cib配置保存到文件
pcs cluster cib pgsql_cfg
# 在pacemaker级别忽略quorum
pcs -f pgsql_cfg property set no-quorum-policy="ignore"
# 禁用STONITH
pcs -f pgsql_cfg property set stonith-enabled="false"
# 设置资源粘性,防止节点在故障恢复后发生迁移
pcs -f pgsql_cfg resource defaults resource-stickiness="INFINITY"
# 设置多少次失败后迁移
pcs -f pgsql_cfg resource defaults migration-threshold="3"
# 设置master节点虚ip
pcs -f pgsql_cfg resource create vip-master IPaddr2 ip="192.168.174.210" cidr_netmask="24" op start timeout="60s" interval="0s" on-fail="restart" op monitor timeout="60s" interval="10s" on-fail="restart" op stop timeout="60s" interval="0s" on-fail="block"
# 设置slave节点虚ip
pcs -f pgsql_cfg resource create vip-slave IPaddr2 ip="192.168.174.211" cidr_netmask="24" op start timeout="60s" interval="0s" on-fail="restart" op monitor timeout="60s" interval="10s" on-fail="restart" op stop timeout="60s" interval="0s" on-fail="block"
# 设置pgsql集群资源
# pgctl、psql、pgdata和config等配置根据自己的环境修改,node list填写节点的hostname,master_ip填写虚master_ip
pcs -f pgsql_cfg resource create pgsql pgsql pgctl="/usr/bin/pg_ctl" psql="/usr/bin/psql" pgdata="/var/lib/pgsql/data/" config="/var/lib/pgsql/data/postgresql.conf" rep_mode="sync" node_list="master slave1" master_ip="192.168.174.210" repuser="replicator" primary_conninfo_opt="password=123456 keepalives_idle=60 keepalives_interval=5 keepalives_count=5" restore_command="cp /var/lib/data/pgsql/xlog_archive/%f %p" restart_on_promote='true' op start timeout="60s" interval="0s" on-fail="restart" op monitor timeout="60s" interval="4s" on-fail="restart" op monitor timeout="60s" interval="3s" on-fail="restart" role="Master" op promote timeout="60s" interval="0s" on-fail="restart" op demote timeout="60s" interval="0s" on-fail="stop" op stop timeout="60s" interval="0s" on-fail="block"
# 设置master/slave模式,clone-max=2,两个节点
pcs -f pgsql_cfg resource master pgsql-cluster pgsql master-max=1 master-node-max=1 clone-max=2 clone-node-max=1 notify=true
# 配置master ip组
pcs -f pgsql_cfg resource group add master-group vip-master
# 配置slave ip组
pcs -f pgsql_cfg resource group add slave-group vip-slave
# 配置master ip组绑定master节点
pcs -f pgsql_cfg constraint colocation add master-group with master pgsql-cluster INFINITY
# 配置启动master节点
pcs -f pgsql_cfg constraint order promote pgsql-cluster then start master-group symmetrical=false score=INFINITY
# 配置停止master节点
pcs -f pgsql_cfg constraint order demote pgsql-cluster then stop master-group symmetrical=false score=0
# 配置slave ip组绑定slave节点
pcs -f pgsql_cfg constraint colocation add slave-group with slave pgsql-cluster INFINITY
# 配置启动slave节点
pcs -f pgsql_cfg constraint order promote pgsql-cluster then start slave-group symmetrical=false score=INFINITY
# 配置停止slave节点
pcs -f pgsql_cfg constraint order demote pgsql-cluster then stop slave-group symmetrical=false score=0
# 把配置文件push到cib
pcs cluster cib-push pgsql_cfg

注意:

# 设置pgsql集群资源
# pgctl、psql、pgdata和config等配置根据自己的环境修改,node list填写节点的hostname,master_ip填写虚master_ip
pcs -f pgsql_cfg resource create pgsql pgsql pgctl="/usr/bin/pg_ctl" psql="/usr/bin/psql" pgdata="/var/lib/pgsql/data/" config="/var/lib/pgsql/data/postgresql.conf" rep_mode="sync" node_list="master slave1" master_ip="192.168.174.210"  repuser="replicator" primary_conninfo_opt="password=123456 keepalives_idle=60 keepalives_interval=5 keepalives_count=5" restore_command="cp /var/lib/data/pgsql/xlog_archive/%f %p" restart_on_promote='true' op start   timeout="60s" interval="0s"  on-fail="restart" op monitor timeout="60s" interval="4s" on-fail="restart" op monitor timeout="60s" interval="3s"  on-fail="restart" role="Master" op promote timeout="60s" interval="0s"  on-fail="restart" op demote  timeout="60s" interval="0s"  on-fail="stop" op stop    timeout="60s" interval="0s"  on-fail="block"       

执行文件

sh cluster_setup.sh

验证

[root@master ~]# pcs status
Cluster name: pgcluster
WARNING: corosync and pacemaker node names do not match (IPs used in setup?)
Stack: corosync
Current DC: slave1 (version 1.1.16-12.el7_4.8-94ff4df) - partition with quorum
Last updated: Fri Apr 13 21:30:29 2018
Last change: Fri Apr 13 21:29:56 2018 by root via crm_attribute on master 2 nodes configured
4 resources configured Online: [ master slave1 ] Full list of resources: Master/Slave Set: pgsql-cluster [pgsql]
Masters: [ master ]
Slaves: [ slave1 ]
Resource Group: master-group
vip-master (ocf::heartbeat:IPaddr2): Started master
Resource Group: slave-group
vip-slave (ocf::heartbeat:IPaddr2): Started slave1 Daemon Status:
corosync: active/disabled
pacemaker: active/disabled
pcsd: active/enabled

注意:当vip-master和vip-slave都是Started状态时,集群节点配置正确。否则,请检查你的配置是否有误

查看同步状态

在master查询:select * from pg_stat_replication;

#查询结果
6305 16384 replicator slave1 192.168.174.201 60052 2018-04-13 13:29:47.76656+00 streaming 0/5000408 0/5000408 0/5000408 0/5000408 1 sync

测试故障转移

在master执行,模拟故障关闭服务

[root@master ~]# su - postgres
上一次登录:五 4月 13 22:01:13 CST 2018
-bash-4.2$ pg_ctl -D /var/lib/pgsql/data/ stop -m fast
等待服务器进程关闭 ..... 完成
服务器进程已经关闭

现master上数据库访问不通,访问slaver1上数据库可提供数据读写服务。

现向slaver1数据库插入几条数据

insert into mytab(id) values (4);
insert into mytab(id) values (5);
insert into mytab(id) values (6);

恢复服务,在master上执行

-bash-4.2$ pg_ctl -D /var/lib/pgsql/data/ start
正在启动服务器进程
-bash-4.2$ 日志: 数据库上次关闭时间为 2018-04-13 14:01:25 GMT
cp: 无法获取"/var/lib/data/pgsql/xlog_archive/00000002.history" 的文件状态(stat): 没有那个文件或目录
日志: 正在进入备用模式
cp: 无法获取"/var/lib/data/pgsql/xlog_archive/000000010000000000000006" 的文件状态(stat): 没有那个文件或目录
日志: 在0/6000080上已到达一致性恢复状态
日志: 在 0/6000080 位置有零长度的记录
cp: 无法获取"/var/lib/data/pgsql/xlog_archive/000000010000000000000006" 的文件状态(stat): 没有那个文件或目录
日志: 数据库系统准备接受只读请求的连接
cp: 无法获取"/var/lib/data/pgsql/xlog_archive/00000002.history" 的文件状态(stat): 没有那个文件或目录
日志: 流复制成功连接到主服务器
日志: redo 在 0/6000080 开始

在master上查询:select * from mytab;发现已同步为最新数据。

在slaver1上查询:select * from pg_stat_replication;

#查询结果
58621 16384 replicator master 192.168.174.200 52578 2018-04-13 14:02:39.701236+00 streaming 0/6000548 0/6000548 0/6000548 0/6000548 1 sync

对比两次的查询结果

--6305	16384	replicator	slave1	192.168.174.201		60052	2018-04-13 13:29:47.76656+00	streaming	0/5000408	0/5000408	0/5000408	0/5000408	1	sync
--58621 16384 replicator master 192.168.174.200 52578 2018-04-13 14:02:39.701236+00 streaming 0/6000548 0/6000548 0/6000548 0/6000548 1 sync

发现master在模拟故障后从主机变为从机。

至此双机热备方案已全部完成!

采用pacemaker+corosync实现postgresql双机热备、高可用方案的更多相关文章

  1. Mysql+Keepalived双主热备高可用操作记录

    我们通常说的双机热备是指两台机器都在运行,但并不是两台机器都同时在提供服务.当提供服务的一台出现故障的时候,另外一台会马上自动接管并且提供服务,而且切换的时间非常短.MySQL双主复制,即互为Mast ...

  2. 使用Keepalived实现Nginx的自动重启及双主热备高可用

    1.概述 之前我们使用Keepalived实现了Nginx服务的双机主备高可用,但是有几个问题没有解决,今天一起探讨一下. 1)在双机主备机制中,Keepalived服务如果宕了,会自动启用备机进行服 ...

  3. postgresql双机热备、高可用方案(采用pacemaker+corosync实现)

    http://blog.csdn.net/qguanri/article/details/51151974 需求描述 我们有两台centos7的数据库主机A.B.要对A.B实现双机热备,A作为数据库m ...

  4. mysql+keepalived 双主热备高可用

    理论介绍:我们通常说的双机热备是指两台机器都在运行,但并不是两台机器都同时在提供服务.当提供服务的一台出现故障的时候,另外一台会马上自动接管并且提供服务,而且切换的时间非常短.MySQL双主复制,即互 ...

  5. Redis双机热备方案--转

    http://luyx30.blog.51cto.com/1029851/1350832 参考资料: http://patrick-tang.blogspot.com/2012/06/redis-ke ...

  6. 云数据库Redis版256M双机热备款

    云数据库Redis版是兼容Redis协议标准的.提供持久化的缓存式数据库服务,基于高可靠双机热备架构:全新推出的256M小规格款,适用于高QPS.小数据量业务,并支持免费全量迁移,完美服务于个人开发者 ...

  7. Pacemaker实现双机热备

    在互联网高速发展的今天,尤其在电子商务的发展,要求服务器能够提供不间断服务.在电子商务中,如果服务器宕机,造成的损失是不可估量的.要保证服务器不间断服务,就需要对服务器实现冗余.在众多的实现服务器冗余 ...

  8. Nginx+keepalived双机热备(主从模式)

    负载均衡技术对于一个网站尤其是大型网站的web服务器集群来说是至关重要的!做好负载均衡架构,可以实现故障转移和高可用环境,避免单点故障,保证网站健康持续运行.关于负载均衡介绍,可以参考:linux负载 ...

  9. Nginx+keepalived 双机热备(主从模式)

    负载均衡技术对于一个网站尤其是大型网站的web服务器集群来说是至关重要的!做好负载均衡架构,可以实现故障转移和高可用环境,避免单点故障,保证网站健康持续运行.关于负载均衡介绍,可以参考:linux负载 ...

随机推荐

  1. USACO Overplanting ( 线段树扫描线 )

    题意 : 在二维平面上给出 N 个矩形,问你所有矩形构成的图案的面积是多少(相互覆盖的地方只计算一次) 分析 :  求矩形面积并可以模拟来做,不过使用线段树来辅助做扫描线可以更高效地求解 扫描线顾名思 ...

  2. Java——常用类(基础类型数据包装类)

    [包装类]   包装类(如Integer.Double等)这些类封装了一个相应的基础数据类型数值,并为其提供了一系列操作.     例如:java.lang.Integer类提供了以下构造方法:   ...

  3. 纯CSS手动滑动轮播图(隐藏滚动条)

    HTML: <div class="bigder"> <div class="big"> <dl> <dt>&l ...

  4. python中的实例属性和类属性

    在python中,类属性和实例属性的区别是什么? 我认为是作用域的不同,实例对象可以访问类属性,类对象不可以访问实例属性.(类的概念本身就是作用域的概念,你不能让一只猫会飞,猫属于猫类,这一类都不会飞 ...

  5. Linux添加目录到环境变量以及添加Sublime Text到环境变量

    本文主要介绍了Linux添加目录到环境变量以及添加Sublime Text到环境变量,通过具体的解释说明,让我们从中学到Linux添加目录到环境变量以及添加Sublime Text到环境变量的精髓所在 ...

  6. ORACLE 临时表空间管理

     临时表空间和临时段 临时表空间用于存放排序.临时表等数据,其信息不需要REDO,因此临时表的DML操作往往比普通表产生的REDO少很多.临时表数据变化不产生REDO,UNDO数据变化产生REDO.临 ...

  7. redux源码浅入浅出

    运用redux有一段时间了,包括redux-thunk和redux-saga处理异步action都有一定的涉及,现在技术栈转向阿里的dva+antd,好用得不要不要的,但是需要知己知彼要对react家 ...

  8. 006-unity3d GUI初识、贴图、自定义鼠标指针

    一.gui概念 无论摄像机拍摄到的图像怎么变换,GUI永远显示在屏幕上,不受变形.碰撞.光照的影响.对话框.战斗值.能量等.示例:用手机录像,摄像的参数不会随着拍摄场景变换.GUI基础GUI部分是每帧 ...

  9. log4j配置参数详解——按日志文件大小、日期切分日志文件

    项目中尽管对log4j有基本的配置,例如按天生成日志文件以作区分,但如果系统日志文件过大,则就需要考虑以更小的单位切分或者其他切分方式.下面就总结一下log4j常用的配置参数以及切分日志的不同方式. ...

  10. Newtonsoft.Json源码中的C#预处理指令

    cs文件中包含以指令: #if !(NET35 || NET20 || PORTABLE40) 记事本打开[Newtonsoft.Json.Net20.csproj]可看到以下代码: <Defi ...