排查：AG超过RPO

在异步提交的secondary上执行了切换，你可能会发现数据的丢失大于RPO，或者在计算可以忍受的数据都是超过了RPO。

1.通常原因

1.网络延迟太高，网络吞吐量太低，导致Primary的日志堆积
2.磁盘IO瓶颈导致LOG固化速度降低

2. 网络延迟太高，网络吞吐量太低，导致Primary的日志堆积

很多超过RPO的原因是日志发送到secondary副本不够快。

原因：
Primary副本在日志发送启动了流量控制，因为日志发送超过了最大运行的非通知信息的量。直到这些信息被通知，不然不能在发新的信息到secondary副本。因为数据丢失会影响secondary副本的固化。这些没有发送的日志的数据就会被丢失。

诊断和解决：
日志高度重复，说明primary和secondary上的延迟很高。可以查看DMV的log_send_rate和性能指标log
bytes flushed/sec对比。如果flushed速度大于发送的速度，那么数据丢失会越来越大。
通过检查性能指标，SQL
Server:Availability Replica> Flow Control Time(ms/sec)和SQL
Server:Availability Replica > Flow Comtrol/sec。这2个性能指标可以说明上一秒有多少时间用来等待flow
control清理。Flow
control等待越久，发送速度越小。
以下是一组指标可以用来诊断网络延迟和吞吐量，也可以用一些Windows工具，比如ping，Resource
Monitor, 和Network
Monitor ：

· DMV sys.dm_hadr_database_replica_states,
log_send_queue_size

· DMV sys.dm_hadr_database_replica_states,
log_send_rate

· Performance
counter SQL Server:Database
> Log Bytes Flushed/sec

· Performance
counter SQL Server:Database
Mirroring > Send/Receive Ack Time

· Performance
counter SQL
Server:Availability Replica > Bytes Sent to Replica/sec

· Performance
counter SQL
Server:Availability Replica > Bytes Sent to Transport/sec

· Performance
counter SQL
Server:Availability Replica > Flow Control Time (ms/sec)

· Performance
counter SQL
Server:Availability Replica > Flow Control/sec

· Performance
counter SQL
Server:Availability Replica > Resent Messages/sec

3.磁盘I/O瓶颈降低secondary副本的日志固化

根据数据库文件部署，日志固化会因为IO争用被降低。

原因：
只要日志被固化到磁盘，就可以防止数据丢失。因此隔离日志文件和数据文件的IO变的很重要。如果日志文件和数据文件使用同一个物理磁盘，IO密集型查询会消耗日志固化需要的IO能力。日志固化变慢会间接导致primary通知变慢，导致flow
control等待时间变长。

诊断和解决：
如果你诊断了网络，没有很高的延迟或者很低的吞吐量，然后你应该看看secondary是否有IO争用问题。
以下脚本可以让你知道每个数据文件和日志文件的读写次数。
SELECT DB_NAME(database_id) AS

[Database Name] ,

file_id ,

io_stall_read_ms ,

num_of_reads ,

CAST(io_stall_read_ms /( 1.0 + num_of_reads ) AS NUMERIC(10, 1)) AS [avg_read_stall_ms]
,

io_stall_write_ms ,

num_of_writes ,

CAST(io_stall_write_ms /( 1.0 + num_of_writes ) AS NUMERIC(10, 1)) AS [avg_write_stall_ms]
,

io_stall_read_ms + io_stall_write_ms AS
[io_stalls] ,

num_of_reads + num_of_writes AS [total_io] ,

CAST(( io_stall_read_ms + io_stall_write_ms ) /( 1.0 + num_of_reads

+ num_of_writes) AS NUMERIC(10,1)) AS [avg_io_stall_ms]

FROM sys.dm_io_virtual_file_stats(NULL, NULL)

WHERE DB_NAME(database_id) IN(SELECT DISTINCT database_name FROM sys.dm_hadr_database_replica_cluster_states)

ORDER BY avg_io_stall_ms DESC;

下面脚本提供了某个时间点IO请求被挂起的快照：
SELECT DB_NAME(mf.database_id) AS [Database] ,

mf.physical_name ,

r.io_pending ,

r.io_pending_ms_ticks ,

r.io_type ,

fs.num_of_reads ,

fs.num_of_writes

FROM sys.dm_io_pending_io_requests
AS r

INNER JOIN sys.dm_io_virtual_file_stats(NULL,
NULL) AS fs ON r.io_handle = fs.file_handle

INNER JOIN sys.master_files AS mf ON fs.database_id = mf.database_id

AND fs.file_id = mf.file_id

ORDER BY r.io_pending , r.io_pending_ms_ticks DESC;

你可以通过读写IO，来识别是否有IO争用问题。以下是一些关于IO的性能指标：
· Physical Disk: all counters

· Physical Disk: Avg.
Disk sec/Transfer

· SQL Server: Databases
> Log Flush Wait Time

· SQL Server: Databases
> Log Flush Waits/sec

· SQL Server: Databases
> Log Pool Disk Reads/sec

如果你发现有IO瓶颈，并且log文件和数据文件在同一个磁盘下，第一件要做的事情就是把日志文件和数据文件分开。

[AlwaysOn Availability Groups]排查：AG超过RPO的更多相关文章

[AlwaysOn Availability Groups]排查：AG配置
排查AG配置本文主要用来帮助排查在AG配置时出现的问题,包括,AG功能被禁用,账号配置不正确,数据库镜像endpoint不存在,endpoint不能访问. Section Description A ...
[AlwaysOn Availability Groups]监控AG性能
监控AG性能 AG的性能的性能方面,在关键任务数据库上进行语句级维护性能是很重要的.理解AG如何传输日志到secondary副本对评估RTO和RPO,表明AG是否性能不好. 1. 数据同步步骤为了评 ...
[AlwaysOn Availability Groups]排查：AG超过RTO
排查:AG超过RTO 自动故障转移或者手动转移之后,没有数据都是,你可能会发现切换时间超过了你的RTO.或者当你评估切换时间同步提交secondary副本,发现超过了你的RTO. 1. 通常原因通常 ...
[AlwaysOn Availability Groups]排查：Primary上的修改无法在Secondary体现
排查:Primary上的修改无法在Secondary体现客户端进程在primary上修改成功,但是在Secondary上却无法看到修改结果.这个case假设你的可用性组有同步的健康问题.很多情况下这 ...
[AlwaysOn Availability Groups]AG排查和监控指南
AG排查和监控指南 1. 排查场景如下表包含了常用排查的场景.根据被分为几个场景类型,比如Configuration,client connectivity,failover和performance ...
[AlwaysOn Availability Groups]DMV和系统目录视图
DMV和系统目录视图这里主要介绍AlwaysON的动态管理视图,可以用来监控和排查你的AG. 在AlwaysOn Dashboard,你可以简单的配置的GUI显示很多可用副本的DMV和可用数据库通过 ...
[SQL in Azure] Tutorial: AlwaysOn Availability Groups in Azure (GUI)
http://msdn.microsoft.com/en-us/library/azure/dn249504.aspx Tutorial: AlwaysOn Availability Groups i ...
[AlwaysOn Availability Groups]CLUSTER.LOG(AG)
CLUSTER.LOG(AG) 作为故障转移资源,在SQL Server和windows故障转移集群服务的资源DLL(hadrres.dll)之间有额外的内部交流,DLL无法被SQL Server监控 ...
[AlwaysOn Availability Groups]AG扩展事件
AG扩展事件 SQL Server 2012定义了一些关于AlwaysOn的扩展事件.你可以监控这些扩展事件来帮助诊断AG的根本问题.你也可以使用以下语句查看扩展事件: SELECT * FROM s ...

随机推荐

Android Studio获取SHA1和MD5方法
1,点击Build > Generate Signed APK. 2,打开命令进入C:\Program Files\Java\jdk1.6.0_39\bin(任何已安装的Java目录) 3,键入 ...
mybatis入门基础(七)----延迟加载
一.什么是延迟加载 resultMap可以实现高级映射(使用association.collection实现一对一及一对多映射),association.collection具备延迟加载功能. 需求: ...
深入剖析tomcat之一个简单的web服务器
这个简单的web服务器包含三个类 HttpServer Request Response 在应用程序的入口点,也就是静态main函数中,创建一个HttpServer实例,然后调用其await()方法. ...
30行代码让你理解angular依赖注入：angular 依赖注入原理
依赖注入(Dependency Injection,简称DI)是像C#,java等典型的面向对象语言框架设计原则控制反转的一种典型的一种实现方式,angular把它引入到js中,介绍angular依赖 ...
xml html entity 列表
Name Character Unicode code point (decimal) Standard Description quot " U+0022 (34) XML 1.0 dou ...
LaTeX
毕业论文用LaTeX编辑,方便使用,专注于内容.无须分心于格式. 字符 - Char 希腊符号加粗 \usepackage{amsmath} \boldsymbol{\sigma} \usepack ...
Oracle取消用户连续登录失败次数限制
当用户连续登录失败次数过多时,Oracle会锁定该用户,“FAILED_LOGIN_ATTEMPTS”用于设置最大次数,超过该值则锁定该帐号. 要取消用户连续登录失败次数的限制可以按照以下方法操作: ...
php rsa加密解密实例
1.加密解密的第一步是生成公钥.私钥对,私钥加密的内容能通过公钥解密(反过来亦可以) 下载开源RSA密钥生成工具openssl(通常Linux系统都自带该程序),解压缩至独立的文件夹,进入其中的bin ...
file_get_contents()/file_put_contents()
PHP file_get_contents() 函数定义和用法 file_get_contents() 把整个文件读入一个字符串中. 该函数是用于把文件的内容读入到一个字符串中的首选方法.如果服务器 ...
Tomcat下使用c3p0配置jndi数据源
下载c3p0包: 下载地址:https://sourceforge.net/projects/c3p0/files/?source=navbar 解压后得到包:c3p0-0.9.2.jar,mchan ...