排查:AG超过RPO

在异步提交的secondary上执行了切换,你可能会发现数据的丢失大于RPO,或者在计算可以忍受的数据都是超过了RPO。

1.通常原因

1.网络延迟太高,网络吞吐量太低,导致Primary的日志堆积
2.磁盘IO瓶颈导致LOG固化速度降低

2. 网络延迟太高,网络吞吐量太低,导致Primary的日志堆积

很多超过RPO的原因是日志发送到secondary副本不够快。

原因:
Primary副本在日志发送启动了流量控制,因为日志发送超过了最大运行的非通知信息的量。直到这些信息被通知,不然不能在发新的信息到secondary副本。因为数据丢失会影响secondary副本的固化。这些没有发送的日志的数据就会被丢失。

诊断和解决:
日志高度重复,说明primary和secondary上的延迟很高。可以查看DMV的log_send_rate和性能指标log
bytes flushed/sec对比。如果flushed速度大于发送的速度,那么数据丢失会越来越大。
通过检查性能指标,SQL
Server:Availability Replica> Flow Control Time(ms/sec)和SQL
Server:Availability Replica > Flow Comtrol/sec。这2个性能指标可以说明上一秒有多少时间用来等待flow
control清理。Flow
control等待越久,发送速度越小。
以下是一组指标可以用来诊断网络延迟和吞吐量,也可以用一些Windows工具,比如ping,Resource
Monitor
, 和Network
Monitor
 :

·  DMV sys.dm_hadr_database_replica_states,
log_send_queue_size

·  DMV sys.dm_hadr_database_replica_states,
log_send_rate

·  Performance
counter SQL Server:Database
> Log Bytes Flushed/sec

·  Performance
counter SQL Server:Database
Mirroring > Send/Receive Ack Time

·  Performance
counter SQL
Server:Availability Replica > Bytes Sent to Replica/sec

·  Performance
counter SQL
Server:Availability Replica > Bytes Sent to Transport/sec

·  Performance
counter SQL
Server:Availability Replica > Flow Control Time (ms/sec)

·  Performance
counter SQL
Server:Availability Replica > Flow Control/sec

·  Performance
counter SQL
Server:Availability Replica > Resent Messages/sec

3.磁盘I/O瓶颈降低secondary副本的日志固化

根据数据库文件部署,日志固化会因为IO争用被降低。

原因:
只要日志被固化到磁盘,就可以防止数据丢失。因此隔离日志文件和数据文件的IO变的很重要。如果日志文件和数据文件使用同一个物理磁盘,IO密集型查询会消耗日志固化需要的IO能力。日志固化变慢会间接导致primary通知变慢,导致flow
control等待时间变长。

诊断和解决:
如果你诊断了网络,没有很高的延迟或者很低的吞吐量,然后你应该看看secondary是否有IO争用问题。
以下脚本可以让你知道每个数据文件和日志文件的读写次数。
SELECT DB_NAME(database_id) AS

[Database Name] ,

file_id ,

io_stall_read_ms ,

num_of_reads ,

CAST(io_stall_read_ms /( 1.0 + num_of_reads ) AS NUMERIC(10, 1)) AS [avg_read_stall_ms]
,

io_stall_write_ms ,

num_of_writes ,

CAST(io_stall_write_ms /( 1.0 + num_of_writes ) AS NUMERIC(10, 1)) AS [avg_write_stall_ms]
,

io_stall_read_ms + io_stall_write_ms AS
[io_stalls] ,

num_of_reads + num_of_writes AS [total_io] ,

CAST(( io_stall_read_ms + io_stall_write_ms ) /( 1.0 + num_of_reads

+ num_of_writes) AS NUMERIC(10,1)) AS [avg_io_stall_ms]

FROM sys.dm_io_virtual_file_stats(NULL, NULL)

WHERE DB_NAME(database_id) IN(SELECT DISTINCT database_name FROM sys.dm_hadr_database_replica_cluster_states)

ORDER BY avg_io_stall_ms DESC;

下面脚本提供了某个时间点IO请求被挂起的快照:
SELECT DB_NAME(mf.database_id) AS [Database] ,

mf.physical_name ,

r.io_pending ,

r.io_pending_ms_ticks ,

r.io_type ,

fs.num_of_reads ,

fs.num_of_writes

FROM sys.dm_io_pending_io_requests
AS r

INNER JOIN sys.dm_io_virtual_file_stats(NULL,
NULL) AS fs ON r.io_handle = fs.file_handle

INNER JOIN sys.master_files AS mf ON fs.database_id = mf.database_id

AND fs.file_id = mf.file_id

ORDER BY r.io_pending , r.io_pending_ms_ticks DESC;

你可以通过读写IO,来识别是否有IO争用问题。以下是一些关于IO的性能指标:
·  Physical Disk: all counters

·  Physical Disk: Avg.
Disk sec/Transfer

·  SQL Server: Databases
> Log Flush Wait Time

·  SQL Server: Databases
> Log Flush Waits/sec

·  SQL Server: Databases
> Log Pool Disk Reads/sec

如果你发现有IO瓶颈,并且log文件和数据文件在同一个磁盘下,第一件要做的事情就是把日志文件和数据文件分开。

[AlwaysOn Availability Groups]排查:AG超过RPO的更多相关文章

  1. [AlwaysOn Availability Groups]排查:AG配置

    排查AG配置 本文主要用来帮助排查在AG配置时出现的问题,包括,AG功能被禁用,账号配置不正确,数据库镜像endpoint不存在,endpoint不能访问. Section Description A ...

  2. [AlwaysOn Availability Groups]监控AG性能

    监控AG性能 AG的性能的性能方面,在关键任务数据库上进行语句级维护性能是很重要的.理解AG如何传输日志到secondary副本对评估RTO和RPO,表明AG是否性能不好. 1. 数据同步步骤 为了评 ...

  3. [AlwaysOn Availability Groups]排查:AG超过RTO

    排查:AG超过RTO 自动故障转移或者手动转移之后,没有数据都是,你可能会发现切换时间超过了你的RTO.或者当你评估切换时间同步提交secondary副本,发现超过了你的RTO. 1. 通常原因 通常 ...

  4. [AlwaysOn Availability Groups]排查:Primary上的修改无法在Secondary体现

    排查:Primary上的修改无法在Secondary体现 客户端进程在primary上修改成功,但是在Secondary上却无法看到修改结果.这个case假设你的可用性组有同步的健康问题.很多情况下这 ...

  5. [AlwaysOn Availability Groups]AG排查和监控指南

    AG排查和监控指南 1. 排查场景 如下表包含了常用排查的场景.根据被分为几个场景类型,比如Configuration,client connectivity,failover和performance ...

  6. [AlwaysOn Availability Groups]DMV和系统目录视图

    DMV和系统目录视图 这里主要介绍AlwaysON的动态管理视图,可以用来监控和排查你的AG. 在AlwaysOn Dashboard,你可以简单的配置的GUI显示很多可用副本的DMV和可用数据库通过 ...

  7. [SQL in Azure] Tutorial: AlwaysOn Availability Groups in Azure (GUI)

    http://msdn.microsoft.com/en-us/library/azure/dn249504.aspx Tutorial: AlwaysOn Availability Groups i ...

  8. [AlwaysOn Availability Groups]CLUSTER.LOG(AG)

    CLUSTER.LOG(AG) 作为故障转移资源,在SQL Server和windows故障转移集群服务的资源DLL(hadrres.dll)之间有额外的内部交流,DLL无法被SQL Server监控 ...

  9. [AlwaysOn Availability Groups]AG扩展事件

    AG扩展事件 SQL Server 2012定义了一些关于AlwaysOn的扩展事件.你可以监控这些扩展事件来帮助诊断AG的根本问题.你也可以使用以下语句查看扩展事件: SELECT * FROM s ...

随机推荐

  1. android 布局 使用 viewPager 时,如何解决 和 子页面 长按滑动 冲突问题

    使用 viewPager 时,如何解决 和 子页面 长按滑动 冲突问题. 我的问题原型: 这个问题,我相信遇到的人会比较少,我是在 一个 viewPager 中,其中 一个 fragment 中实现了 ...

  2. 如何设置SharePoint 2013 的根网站集下的“更改此术语的目标页面”

    起因: 首先看问题截图Figure 1,在术语驱动的页面中设置更改此术语的目标页面,会被警告“该URL 不指向某个页面”,原因是我所找到的这个目标页面是一个非aspx结尾的URL链接. Figure ...

  3. 根据起止日期构建指定查询条件:第N周(yyyy-MM-dd/yyyy-MM-dd)

    项目中有个查询模块中用到查询条件: 年和周. 以往我直接指定是第几周,后来测试反映如果直接选择周的话并不知道所选周代表的年月日,而无法最快查询数据,后更改查询条件如下: 指定一个起始年月,根据起始年月 ...

  4. 【集合框架】Java集合框架综述

    一.前言 现笔者打算做关于Java集合框架的教程,具体是打算分析Java源码,因为平时在写程序的过程中用Java集合特别频繁,但是对于里面一些具体的原理还没有进行很好的梳理,所以拟从源码的角度去熟悉梳 ...

  5. ECMAScript 5中属性的特性值

    这是<JavaScript高级程序设计(第三版)>第六章相关内容的总结. ECMAScript中有两种属性:数据属性和访问器属性.每种属性都有四个特性值. 数据属性的四个特性值: [[Co ...

  6. MathType应用:批量改变公式格式

    首先要安装好mathtype,一般装好后mathtype会嵌入到word里去(黄色和粉红的部分是今天的主角) 然后可以用带insert开头的选项(黄色部分)添加公式,但是添加公式后可能出现一下情况,即 ...

  7. XML文档操作集锦(C#篇)

    在JSON没流行起来的时候xml一直作为程序存储配置信息的主流介质:特别是小型数据表方面还是不错的选择,所以经常涉及到的操作无非也就是增删改查,这篇博客主要是对这些对比较常用的操作做了个简单的总结 文 ...

  8. 基于CkEditor实现.net在线开发之路(6)vs开发工具配合一起开发

    上一章讲解了利用CKEditor实现了一个简单的列表功能的查询,CKEditor编辑器是由js实现的,js是一门非常强大的语法,但是要用它实现Vs开发工具那样强大编辑器的功能,估计不可能,这就使得CK ...

  9. 背水一战 Windows 10 (32) - 控件(选择类): Selector, ComboBox

    [源码下载] 背水一战 Windows 10 (32) - 控件(选择类): Selector, ComboBox 作者:webabcd 介绍背水一战 Windows 10 之 控件(选择类) Sel ...

  10. Verilog学习笔记简单功能实现(二)...............全加器

    先以一位全加器为例:Xi.Yi代表两个加数,Cin是地位进位信号,Cout是向高位的进位信号.列表有:   Xi     Yi    Cin Sum Cout 0 0 0 0 0 0 0 1 1 0 ...