环境说明

参照上章已完成postgresql流复制配置，并关闭postgres服务。

su - postgres

pg_ctl -D /data/postgresql/data/ stop -m fast

配置集群环境

安装pacemaker和corosync

需要在所有节点执行

yum install -y pacemaker pcs psmisc policycoreutils-python postgresql-server

关闭防火墙

需要在所有节点执行

systemctl disable firewalld.service

systemctl stop firewalld.service

启用PCS

需要在所有节点执行

[root@master ~]# systemctl start pcsd.service

[root@master ~]# systemctl enable pcsd.service

Created symlink from /etc/systemd/system/multi-user.target.wants/pcsd.service to /usr/lib/systemd/system/pcsd.service.

[root@master ~]# echo hacluster |  passwd hacluster --stdin

更改用户 hacluster 的密码 。

passwd：所有的身份验证令牌已经成功更新。

集群认证

在任意机器执行，选择master执行

[root@master ~]# pcs cluster auth -u hacluster -p hacluster 192.168.174.200 192.168.174.201

192.168.174.200: Authorized

192.168.174.201: Authorized

同步设置

选择master执行

[root@master ~]# pcs cluster setup --last_man_standing=1 --name pgcluster 192.168.174.200 192.168.174.201

Destroying cluster on nodes: 192.168.174.200, 192.168.174.201...

192.168.174.200: Stopping Cluster (pacemaker)...

192.168.174.201: Stopping Cluster (pacemaker)...

192.168.174.200: Successfully destroyed cluster

192.168.174.201: Successfully destroyed cluster

Sending 'pacemaker_remote authkey' to '192.168.174.200', '192.168.174.201'

192.168.174.200: successful distribution of the file 'pacemaker_remote authkey'

192.168.174.201: successful distribution of the file 'pacemaker_remote authkey'

Sending cluster config files to the nodes...

192.168.174.200: Succeeded

192.168.174.201: Succeeded

Synchronizing pcsd certificates on nodes 192.168.174.200, 192.168.174.201...

192.168.174.200: Success

192.168.174.201: Success

Restarting pcsd on the nodes in order to reload the certificates...

192.168.174.200: Success

192.168.174.201: Success

启动集群

选择master执行

[root@master ~]# pcs cluster start --all

192.168.174.200: Starting Cluster...

192.168.174.201: Starting Cluster...

验证

验证corosync，选择在master执行

[root@master ~]# pcs status corosync

Membership information

----------------------

    Nodeid      Votes Name

         1          1 192.168.174.200 (local)

         2          1 192.168.174.201

验证pacemaker，选择在master执行

[root@master ~]# pcs status

Cluster name: pgcluster

WARNING: no stonith devices and stonith-enabled is not false

WARNING: corosync and pacemaker node names do not match (IPs used in setup?)

Stack: unknown

Current DC: NONE

Last updated: Fri Apr 13 21:24:51 2018		Last change: 

0 nodes configured

0 resources configured

No resources

Daemon Status:

  corosync: active/disabled

  pacemaker: active/disabled

  pcsd: active/enabled

配置自由切换

注意：在配置自动切换前，一定要先把master、slave1上的PostgreSQL服务停掉

选择在master执行

vim cluster_setup.sh

# 将cib配置保存到文件

pcs cluster cib pgsql_cfg

# 在pacemaker级别忽略quorum

pcs -f pgsql_cfg property set no-quorum-policy="ignore"

# 禁用STONITH

pcs -f pgsql_cfg property set stonith-enabled="false"

# 设置资源粘性，防止节点在故障恢复后发生迁移

pcs -f pgsql_cfg resource defaults resource-stickiness="INFINITY"

# 设置多少次失败后迁移

pcs -f pgsql_cfg resource defaults migration-threshold="3"

# 设置master节点虚ip

pcs -f pgsql_cfg resource create vip-master IPaddr2 ip="192.168.174.210" cidr_netmask="24"    op start   timeout="60s" interval="0s"  on-fail="restart"    op monitor timeout="60s" interval="10s" on-fail="restart"    op stop    timeout="60s" interval="0s"  on-fail="block"

# 设置slave节点虚ip

pcs -f pgsql_cfg resource create vip-slave IPaddr2 ip="192.168.174.211" cidr_netmask="24"    op start   timeout="60s" interval="0s"  on-fail="restart"    op monitor timeout="60s" interval="10s" on-fail="restart"    op stop    timeout="60s" interval="0s"  on-fail="block"

# 设置pgsql集群资源

# pgctl、psql、pgdata和config等配置根据自己的环境修改,node list填写节点的hostname，master_ip填写虚master_ip

pcs -f pgsql_cfg resource create pgsql pgsql pgctl="/usr/bin/pg_ctl" psql="/usr/bin/psql" pgdata="/var/lib/pgsql/data/" config="/var/lib/pgsql/data/postgresql.conf" rep_mode="sync" node_list="master slave1" master_ip="192.168.174.210"  repuser="replicator" primary_conninfo_opt="password=123456 keepalives_idle=60 keepalives_interval=5 keepalives_count=5" restore_command="cp /var/lib/data/pgsql/xlog_archive/%f %p" restart_on_promote='true' op start   timeout="60s" interval="0s"  on-fail="restart" op monitor timeout="60s" interval="4s" on-fail="restart" op monitor timeout="60s" interval="3s"  on-fail="restart" role="Master" op promote timeout="60s" interval="0s"  on-fail="restart" op demote  timeout="60s" interval="0s"  on-fail="stop" op stop    timeout="60s" interval="0s"  on-fail="block"

 # 设置master/slave模式，clone-max=2，两个节点

pcs -f pgsql_cfg resource master pgsql-cluster pgsql master-max=1 master-node-max=1 clone-max=2 clone-node-max=1 notify=true

# 配置master ip组

pcs -f pgsql_cfg resource group add master-group vip-master

# 配置slave ip组

pcs -f pgsql_cfg resource group add slave-group vip-slave

# 配置master ip组绑定master节点

pcs -f pgsql_cfg constraint colocation add master-group with master pgsql-cluster INFINITY

# 配置启动master节点

pcs -f pgsql_cfg constraint order promote pgsql-cluster then start master-group symmetrical=false score=INFINITY

# 配置停止master节点

pcs -f pgsql_cfg constraint order demote  pgsql-cluster then stop  master-group symmetrical=false score=0

# 配置slave ip组绑定slave节点

pcs -f pgsql_cfg constraint colocation add slave-group with slave pgsql-cluster INFINITY

# 配置启动slave节点

pcs -f pgsql_cfg constraint order promote pgsql-cluster then start slave-group symmetrical=false score=INFINITY

# 配置停止slave节点

pcs -f pgsql_cfg constraint order demote  pgsql-cluster then stop  slave-group symmetrical=false score=0

# 把配置文件push到cib

pcs cluster cib-push pgsql_cfg

注意：

# 设置pgsql集群资源

# pgctl、psql、pgdata和config等配置根据自己的环境修改,node list填写节点的hostname，master_ip填写虚master_ip

pcs -f pgsql_cfg resource create pgsql pgsql pgctl="/usr/bin/pg_ctl" psql="/usr/bin/psql" pgdata="/var/lib/pgsql/data/" config="/var/lib/pgsql/data/postgresql.conf" rep_mode="sync" node_list="master slave1" master_ip="192.168.174.210" repuser="replicator" primary_conninfo_opt="password=123456 keepalives_idle=60 keepalives_interval=5 keepalives_count=5" restore_command="cp /var/lib/data/pgsql/xlog_archive/%f %p" restart_on_promote='true' op start timeout="60s" interval="0s" on-fail="restart" op monitor timeout="60s" interval="4s" on-fail="restart" op monitor timeout="60s" interval="3s" on-fail="restart" role="Master" op promote timeout="60s" interval="0s" on-fail="restart" op demote timeout="60s" interval="0s" on-fail="stop" op stop timeout="60s" interval="0s" on-fail="block"

执行文件

sh cluster_setup.sh

验证

[root@master ~]# pcs status

Cluster name: pgcluster

WARNING: corosync and pacemaker node names do not match (IPs used in setup?)

Stack: corosync

Current DC: slave1 (version 1.1.16-12.el7_4.8-94ff4df) - partition with quorum

Last updated: Fri Apr 13 21:30:29 2018

Last change: Fri Apr 13 21:29:56 2018 by root via crm_attribute on master

2 nodes configured

4 resources configured

Online: [ master slave1 ]

Full list of resources:

 Master/Slave Set: pgsql-cluster [pgsql]

     Masters: [ master ]

     Slaves: [ slave1 ]

 Resource Group: master-group

     vip-master	(ocf::heartbeat:IPaddr2):	Started master

 Resource Group: slave-group

     vip-slave	(ocf::heartbeat:IPaddr2):	Started slave1

Daemon Status:

  corosync: active/disabled

  pacemaker: active/disabled

  pcsd: active/enabled

注意：当vip-master和vip-slave都是Started状态时，集群节点配置正确。否则，请检查你的配置是否有误

查看同步状态

在master查询：select * from pg_stat_replication;

#查询结果

6305	16384	replicator	slave1	192.168.174.201		60052	2018-04-13 13:29:47.76656+00	streaming	0/5000408	0/5000408	0/5000408	0/5000408	1	sync

测试故障转移

在master执行，模拟故障关闭服务

[root@master ~]# su - postgres

上一次登录：五 4月 13 22:01:13 CST 2018

-bash-4.2$ pg_ctl -D /var/lib/pgsql/data/ stop -m fast

等待服务器进程关闭 ..... 完成

服务器进程已经关闭

现master上数据库访问不通，访问slaver1上数据库可提供数据读写服务。

现向slaver1数据库插入几条数据

insert into mytab(id) values (4);

insert into mytab(id) values (5);

insert into mytab(id) values (6);

恢复服务，在master上执行

-bash-4.2$ pg_ctl -D /var/lib/pgsql/data/ start

正在启动服务器进程

-bash-4.2$ 日志:  数据库上次关闭时间为 2018-04-13 14:01:25 GMT

cp: 无法获取"/var/lib/data/pgsql/xlog_archive/00000002.history" 的文件状态(stat): 没有那个文件或目录

日志:  正在进入备用模式

cp: 无法获取"/var/lib/data/pgsql/xlog_archive/000000010000000000000006" 的文件状态(stat): 没有那个文件或目录

日志:  在0/6000080上已到达一致性恢复状态

日志:  在 0/6000080 位置有零长度的记录

cp: 无法获取"/var/lib/data/pgsql/xlog_archive/000000010000000000000006" 的文件状态(stat): 没有那个文件或目录

日志:  数据库系统准备接受只读请求的连接

cp: 无法获取"/var/lib/data/pgsql/xlog_archive/00000002.history" 的文件状态(stat): 没有那个文件或目录

日志:  流复制成功连接到主服务器

日志:  redo 在 0/6000080 开始

在master上查询：select * from mytab;发现已同步为最新数据。

在slaver1上查询：select * from pg_stat_replication;

#查询结果

58621	16384	replicator	master	192.168.174.200		52578	2018-04-13 14:02:39.701236+00	streaming	0/6000548	0/6000548	0/6000548	0/6000548	1	sync

对比两次的查询结果

--6305	16384	replicator	slave1	192.168.174.201		60052	2018-04-13 13:29:47.76656+00	streaming	0/5000408	0/5000408	0/5000408	0/5000408	1	sync

--58621	16384	replicator	master	192.168.174.200		52578	2018-04-13 14:02:39.701236+00	streaming	0/6000548	0/6000548	0/6000548	0/6000548	1	sync

发现master在模拟故障后从主机变为从机。

至此双机热备方案已全部完成！

采用pacemaker+corosync实现postgresql双机热备、高可用方案的更多相关文章

Mysql+Keepalived双主热备高可用操作记录
我们通常说的双机热备是指两台机器都在运行,但并不是两台机器都同时在提供服务.当提供服务的一台出现故障的时候,另外一台会马上自动接管并且提供服务,而且切换的时间非常短.MySQL双主复制,即互为Mast ...
使用Keepalived实现Nginx的自动重启及双主热备高可用
1.概述之前我们使用Keepalived实现了Nginx服务的双机主备高可用,但是有几个问题没有解决,今天一起探讨一下. 1)在双机主备机制中,Keepalived服务如果宕了,会自动启用备机进行服 ...
postgresql双机热备、高可用方案（采用pacemaker+corosync实现）
http://blog.csdn.net/qguanri/article/details/51151974 需求描述我们有两台centos7的数据库主机A.B.要对A.B实现双机热备,A作为数据库m ...
mysql+keepalived 双主热备高可用
理论介绍:我们通常说的双机热备是指两台机器都在运行,但并不是两台机器都同时在提供服务.当提供服务的一台出现故障的时候,另外一台会马上自动接管并且提供服务,而且切换的时间非常短.MySQL双主复制,即互 ...
Redis双机热备方案--转
http://luyx30.blog.51cto.com/1029851/1350832 参考资料: http://patrick-tang.blogspot.com/2012/06/redis-ke ...
云数据库Redis版256M双机热备款
云数据库Redis版是兼容Redis协议标准的.提供持久化的缓存式数据库服务,基于高可靠双机热备架构:全新推出的256M小规格款,适用于高QPS.小数据量业务,并支持免费全量迁移,完美服务于个人开发者 ...
Pacemaker实现双机热备
在互联网高速发展的今天,尤其在电子商务的发展,要求服务器能够提供不间断服务.在电子商务中,如果服务器宕机,造成的损失是不可估量的.要保证服务器不间断服务,就需要对服务器实现冗余.在众多的实现服务器冗余 ...
Nginx+keepalived双机热备（主从模式）
负载均衡技术对于一个网站尤其是大型网站的web服务器集群来说是至关重要的!做好负载均衡架构,可以实现故障转移和高可用环境,避免单点故障,保证网站健康持续运行.关于负载均衡介绍,可以参考:linux负载 ...
Nginx+keepalived 双机热备（主从模式）
负载均衡技术对于一个网站尤其是大型网站的web服务器集群来说是至关重要的!做好负载均衡架构,可以实现故障转移和高可用环境,避免单点故障,保证网站健康持续运行.关于负载均衡介绍,可以参考:linux负载 ...

随机推荐

6.10&&6.12考试反思
考试结果:6.10AK 6.12:100(评测机)200(本地&&兼容评测机版) OI的考试做题流程无非是: 通读全部题目——>找一个最有把握/最简单的题——>分析思考—— ...
手把手教你学Vue-3(路由)
1.路由的作用 1.当我们有多个页面的时候 ,我们需要使用路由,将组件(components)映射到路由(routes),然后告诉 vue-router 在哪里渲染它们. 简单的路由 const ro ...
centos 6.x 安装配置 node.js 环境
下载可以在本地下载node.js最新版,然后通过ftp工具上传到服务器,或者直接在服务器终端使用wget命令下载(我当时下载的是node-v6.11.3-linux-x64版本,其他版本请查看上面链 ...
leetcode-mid-Linked list- 230 Kth Smallest Element in a BST
mycode 81.40% # Definition for a binary tree node. # class TreeNode(object): # def __init__(self, x ...
MongoDB学习【二】—MongoDB基础和数据类型
一.MongoDB基础知识在MongoDB中相关术语的解释和sql术语对应关系 SQL术语/概念 MongoDB术语/概念解释/说明 database database 数据库 table col ...
快速入门分布式消息队列之 RabbitMQ（1）
目录目录前言简介安装 RabbitMQ 基本对象概念 Message 消息 Producer 生产者 Consumer 消费者 Queue 队列 Exchange 交换机 Binding 绑定 ...
桌面应用开发用到的Framework
桌面应用开发用到的Framework https://github.com/zhangqs008/Framework_Winform
Python解决ModuleNotFoundError: No module named 'Queue'的问题
我们知道Python2和Python3两个版本之间,有些不兼容的地方,Python3中引入Queue会报出这个问题. Python3中要这样引入: import queue Python2中要这样引入 ...
Appium-入门实例1
参考:(https://blog.csdn.net/zh175578809/article/details/76862590) 第一步:启动虚拟设备在运行App之前,首先需要创建一个Android模 ...
Python笔记(二十五)_魔法方法_描述符
描述符的属性方法 __get__(self, instance, owner): 用于访问属性,返回属性的值 __set__(self, instance, value): 用于给属性赋值时,返回属性 ...

采用pacemaker+corosync实现postgresql双机热备、高可用方案

环境说明

配置集群环境

安装pacemaker和corosync

关闭防火墙

启用PCS

集群认证

同步设置

启动集群

验证

配置自由切换

测试故障转移

采用pacemaker+corosync实现postgresql双机热备、高可用方案的更多相关文章

随机推荐

热门专题