Oracle数据库由dataguard备库引起的log file sync等待

导读：

最近数据库经常出现会话阻塞的报警，过一会又会自动消失，昨天晚上恰好发生了一次，于是赶紧进行了查看，不看不知道，一看吓一跳，发现是由dataguard引起的log file sync等待。我们知道，通常log file sync等待都是由频繁写日志造成的，这次居然是由DG环境引起的。

（一）问题描述

数据库：Oracle 11.2.0.4，单机版，有Dataguard环境

操作系统：centos 7.4

通过zabbix监控到的会话阻塞信息如下图，这里是自定义的监控，解释如下：

用户usera,其session id为2663，session serial为27727，该会话未在执行SQL语句，但是却一直处于非空闲等待，等待的事件为log file sync，一共等待了548s

（二）分析

查看报警期间的历史会话信息：

select  sample_time, session_id,session_serial#,session_type,user_id,sql_id,sql_plan_operation,event,

        blocking_session,blocking_session_serial#,PROGRAM,MACHINE

from    v$active_session_history a

where   a.sample_time > to_date('2020-11-25 20:40:00','yyyy-mm-dd hh24:mi:ss')

and     a.sample_time < to_date('2020-11-25 20:59:00','yyyy-mm-dd hh24:mi:ss')

and     blocking_session is not null

order by a.sample_time;

可以看到，会话1333，2191，2663均被会话1331阻塞了，等待事件是log file sync，它们在等待的会话为1311。

查询1331会话信息，发现是日志写进程LGWR，1311会话不再被其它会话阻塞，可以判定该会话为阻塞源头，1331会话的等待事件是LGWR-LNS wait on channel。

select  sample_time, session_id,session_serial#,session_type,user_id,sql_id,event,

        blocking_session_status,blocking_session,PROGRAM,MACHINE

from    v$active_session_history a

where   a.sample_time > to_date('2020-11-25 20:40:00','yyyy-mm-dd hh24:mi:ss')

and     a.sample_time < to_date('2020-11-25 20:59:00','yyyy-mm-dd hh24:mi:ss')

and     a.session_id = 1331

order by a.sample_time;

在本案例中，一共出现了2种类型的非空闲等待事件：

log file sync
LGWR-LNS wait on channel（阻塞源头）

什么是log file sync：当用户提交一个事务之后就开始等待log file sync，直到LGWR进程完成了对SCN的传播和对应重做日志的写入操作。所以log file sync的等待时间是由重做日志I/O时间和SCN传播时间两部分构成的，如果还使用了DataGuard，且日志传送时使用了同步+确认(SYNC+AFFRIM)选项时，那么LGWR还需在用户提交事务之后将重做日志信息传递到远程备库节点。总结一下，log file sync的计算公式如下：

用户进程log file sync等待时间 = LGWR执行重做日志I/O时间 + SCN传播时间 + LGWR传送重做日志到备库的时间。

在数据库实例中，log file sync的等待步骤如下：

步骤①和②时所经历的时间就是log file sync所经历的时间。a1~a4是LGWR传送重做日志到备库的过程，b1~b4是LGWR传播SCN的过程，c1~c2是LGWR将重做日志写入到重做日志文件的过程。

a1~a4代表LGWR传送重做日志到DataGuard备库，过程如下：

a1：LGWR将事务对应的重做信息发送给本地节点的LNS(network server)进程

a2：LNS进程通过网络将重做信息发送给备库的RFS(remote file server)进程

a3：RFS进程将重做日志信息写入到备库的备用重做日志文件(Standby redo log)，返回消息给主库的LNS进程

a4：主库的LNS进程通知LGWR进程重做信息已经写入到备库的备用重做日志文件

b1~b4代表LGWR传播SCN，SCN是数据库内部的时钟，不重复，单项增长，SCN是针对数据库的，不是针对实例的，也就是说，对于RAC数据库，虽然有多个实例，这些实例会使用相同的SCN，但是每个实例都可以进行各自的任务，这就意味着实例之间需要传播SCN。对于分布式数据库（例如，使用了DB Link），也同样存在着同步SCN的概念。同步SCN的过程如下：

b1：LGWR进程将事务提交的SCN发送给本地的一个LMS进程

b2：本地节点的LMS进程将包含了SCN的消息发送给所有远程节点的LMS进程

b3：所有远程节点的LMS进程接受到了SCN消息并反馈给本地节点的LMS进程

b4：本地节点的LMS进程通知LGWR，所有远程节点都受到了事务的SCN

c1~c2代表LGWR执行重做日志写I/O。过程如下：

c1：LGWR进程将redo buffer cache中的日志写入到online redo log

c2：写完之后LGWR会收到通知已完成

在分析完log file sync等待事件的过程之后，基本上可以知道其形成原因了。然而，新的问题又来了，log file sync等待由3部分原因构成，在我的环境中，到底是LGWR执行重做日志比较慢，还是SCN传播时间存在异常等待，还是LGWR传送重做日志到备库存在性能瓶颈，这个时候我们就需要确认log file sync的并发现象了，我们继续分析。

（1）由LGWR执行重做日志I/O引起的log file sync

如果是由于LGWR将日志写入到online redo log引起的I/O问题，往往会伴随着log file parallel write等待事件出现，也就是说，如果log file sync和log file parallel write一起出现，那么往往是存放在线日志文件的磁盘I/O出问题了，有可能是磁盘吞吐量较差，也有可能是频繁的小I/O操作，磁盘I/O问题的主要解决方案如下：

优化了redo日志的I/O性能，尽量使用快速磁盘，不要把redo log file存放在raid 5的磁盘上；
加大日志缓冲区(log buffer)；
使用批量提交，减少提交的次数；

（2）由SCN传播引起的log file sync

由SCN传播引起的log file sync等待事件几乎没有见过，个人觉得SCN传播引起log file sync的概率较小，可以忽略

SQL> SELECT NAME FROM v$event_name a WHERE a.name LIKE '%SCN%' OR a.name LIKE '%LMS%';

NAME

----------------------------------------------------------------

retry contact SCN lock master

ges master to get established for SCN op

（3）由LGWR传送重做日志到备库引起的log file sync

需要特别注意的是，只有在LOG_ARCHIVE_DEST_n参数中使用了"SYNC，AFFIRM"属性时，log file sync等待事件才会与LGWR传送日志有关，如果使用了其它属性，不用考虑。

LNS进程DataGuard环境中主库用来传送日志到备库的进程，查看所有与之相关的等待事件。

SQL> SELECT NAME FROM v$event_name a WHERE a.name LIKE '%LNS%';

NAME

----------------------------------------------------------------

LNS wait on ATTACH

LNS wait on SENDREQ

LNS wait on DETACH

LNS wait on LGWR

LGWR wait on LNS

LNS ASYNC archive log

LNS ASYNC dest activation

LNS ASYNC end of log

LNS simulation latency wait

LGWR-LNS wait on channel

回过头，再次查看我们的生产环境的问题，是log file sync伴随着LGWR-LNS wait on channel出现，再次确认数据库的参数信息，发现数据库运行在最大可用模式，备库采用了同步(sync)方式传送数据。

SQL> select name,open_mode,database_role,protection_mode,protection_level from v$database;

NAME      OPEN_MODE            DATABASE_ROLE    PROTECTION_MODE      PROTECTION_LEVEL

--------- -------------------- ---------------- -------------------- --------------------

ORCL2     READ WRITE           PRIMARY          MAXIMUM AVAILABILITY MAXIMUM AVAILABILITY

SQL> show parameter log

NAME                          TYPE    VALUE

----------------------------- ------- ----------------------------------------------------------------------------------------------------

log_archive_dest_2            string  SERVICE=adg_orcl LGWR SYNC VALID_FOR=(ONLINE_LOGFILES,PRIMARY_ROLE)

                                      DB_UNIQUE_NAME=adg_orcl

再进一步分析"LGWR-LNS wait on channel"等待事件：

什么是LGWR-LNS wait on channel：这个等待事件监视LGWR或LNS进程等待在KSR通道上接收消息所花费的时间（This wait event monitors the amount of time spent by the log writer (LGWR) process or the network server processes waiting to receive messages on KSR channels. Data Guard Wait Events (Doc ID 233491.1) ）。

KSR通道的解释:https://docs.oracle.com/en/database/oracle/oracle-database/12.2/refrn/DBA_HIST_CHANNEL_WAITS.html#GUID-682C58F4-5787-4C8E-844C-9DFE04612BDD。

可以断定，数据库的异常等待是由于主库的LNS进程同步传送在线日志信息给DG环境引起的，且引起的瓶颈在备库端。想到我们的主库是高配的物理服务器，备库是低配的云主机(虚拟机)，出现这种问题也就不足为奇了。

（三）解决方案

使用异步方式传送日志信息，修改日志传送方式为异步(async)传送

SQL> alter system set log_archive_dest_2= SERVICE="adg_orcl" LGWR ASYNC VALID_FOR=(all_logfiles, primary_role) DB_UNIQUE_NAME="adg_orcl" scope=both;

-- 重新启用通道

SQL> alter system set log_archive_dest_state_2= defer;

SQL> alter system set log_archive_dest_state_2= enable;

【完】

Oracle数据库由dataguard备库引起的log file sync等待的更多相关文章

oracle之等待事件LOG FILE SYNC （awr）优化
log file sycn是ORACLE里最普遍的等待事件之一,一般log file sycn的等待时间都非常短 1-5ms,不会有什么问题,但是一旦出问题,往往都比较难解决.什么时候会产生log f ...
Oracle之等待事件log file sync + log file parallel write (awr优化)
这是3月份某客户的情况,原因是server硬件故障后进行更换之后,业务翻译偶尔出现提交缓慢的情况.我们先来看下awr的情况. 我们能够看到,该系统的load profile信息事实上并不高,每秒才21 ...
DataGuard备库ORA-01196故障恢复一则
问题现象在使用shutdown abort停DataGuard备库后.备库不能open,报ORA-01196错误. 详细例如以下: 发现一备库不能应用日志.查看备库日志没发现报错.怀疑是备库应用日志 ...
oracle 利用flashback将备库激活为read wirte(10g 及上)
oracle 利用flashback将备库激活为read wirte(10g 及上) 环境: OS: CENTOS 6.5 X64 DB: ORACLE 10.2.0.5 主库操作: SQL> ...
linux/windows系统oracle数据库简单冷备同步
linux/windows系统oracle数据库简单冷备同步我们有一个财务系统比较看重财务数据的安全性,同时我们拥有两套系统,一个生产环境(linux),一个应急备份环境(windows).备份环境 ...
oracle11g dataguard 备库数据同步的检查方法
概述: 一.环境主库: ip地址:192.168.122.203 oracle根目录:/data/db/oracle SID:qyq 数据文 ...
ORACLE Physical Standby 级联备库搭建
搭建oracle 级联DG 现有架构:physical standby 一主二备,在此基础上,在主库下新建备库standby3.级联备库cascade 数据库版本 11.2.0.4 db_name=p ...
Oracle DG强制激活备库
在实际运营环境中,我们经常碰到类似这样的需求,譬如想不影响现网业务评估DB补丁在现网环境中运行的时间,或者是想在做DB切换前想连接Standby DB做实际业务运行的测试,如果在9i版本的时候,想做到 ...
Oracle数据库学习1------数据库安装及客户端配置
1.注册Oracle账户: 注册地址:https://login.oracle.com/mysso/signon.jsp 注意:注册的时候尽量使用外国的邮箱,因为使用国内的邮箱可能收不到Oracle发 ...

随机推荐

Go module 本地导包方式
tip本文只讲关于Go module 本地导包方式,其他请自行查阅 Go module 导包方式,go mod init project-name,会得到一个go.mod文件,此文件是管理依赖的,通常 ...
2. HttpRunnner录制生成用例
录制生成用例为了简化测试用例的编写工作,HttpRunner 实现了测试用例生成的功能,对应的转换工具为一个独立的项目:har2case. 简单来说,就是当前主流的抓包工具和浏览器都支持将抓取得到的 ...
浅谈分布式共识算法raft
前言:在分布式的系统中,存在很多的节点,节点之间如何进行协作运行.高效流转.主节点挂了怎么办.如何选主.各节点之间如何保持一致,这都是不可不面对的问题,此时raft算法应运而生,专门用来解决上述问题 ...
C#4语法新特性
C#4,.NET Framework 4.0, Visual Studio 2010 C#4.0新引进的语法基于.Net Framework 4.0.主要引进的语法:动态类型,命名参数.可选参数,优 ...
3、编程语言与Python介绍
一引子基于上一章所学,有了计算机硬件,再在硬件之上安装好操作系统,我们就有了一个应用程序的运行平台,我们接下来的任务就是学习如何使用某款编程语言来开发应用程序. 本章的主题是先了解一下编程语言,然 ...
TRUNCATE 有约束的表
在有外键约束的情况下,truncate 表时,会报错, 我们可以设置外键检测为flase,执行完truncate命令后,再启用 SET foreign_key_checks = 0;TRUNCATE ...
Torrent文件的解析与转换
Torrent简介 BitTorrent协议的种子文件(英语:Torrent file)可以保存一组文件的元数据.这种格式的文件被BitTorrent协议所定义.扩展名一般为".torren ...
HTML 5 <input> multiple 属性
<form action="demo_form.asp" method="get"> Select images: <input type=& ...
调试HotSpot源代码（配视频）
本文将详细介绍在Ubuntu16.04 LTS上对OpenJDK8进行编译,为了方便大家快速搭建起OpenJDK8的调试开发环境,我还录制了对应的视频放到了B站上,大家可以参考. 视频地址:https ...
waf 引擎云原生平台tproxy 实现调研
了解了基本云原生架构,不清楚的查看之前的文章:https://www.cnblogs.com/codestack/p/13914134.html 现在来看看云原生平台tproxy waf引擎串联实现 ...

Oracle数据库由dataguard备库引起的log file sync等待

Oracle数据库由dataguard备库引起的log file sync等待的更多相关文章

随机推荐

热门专题