[AlwaysOn Availability Groups]排查:AG超过RPO
排查:AG超过RPO
在异步提交的secondary上执行了切换,你可能会发现数据的丢失大于RPO,或者在计算可以忍受的数据都是超过了RPO。
1.通常原因
1.网络延迟太高,网络吞吐量太低,导致Primary的日志堆积
2.磁盘IO瓶颈导致LOG固化速度降低
2. 网络延迟太高,网络吞吐量太低,导致Primary的日志堆积
很多超过RPO的原因是日志发送到secondary副本不够快。
原因:
Primary副本在日志发送启动了流量控制,因为日志发送超过了最大运行的非通知信息的量。直到这些信息被通知,不然不能在发新的信息到secondary副本。因为数据丢失会影响secondary副本的固化。这些没有发送的日志的数据就会被丢失。
诊断和解决:
日志高度重复,说明primary和secondary上的延迟很高。可以查看DMV的log_send_rate和性能指标log
bytes flushed/sec对比。如果flushed速度大于发送的速度,那么数据丢失会越来越大。
通过检查性能指标,SQL
Server:Availability Replica> Flow Control Time(ms/sec)和SQL
Server:Availability Replica > Flow Comtrol/sec。这2个性能指标可以说明上一秒有多少时间用来等待flow
control清理。Flow
control等待越久,发送速度越小。
以下是一组指标可以用来诊断网络延迟和吞吐量,也可以用一些Windows工具,比如ping,Resource
Monitor, 和Network
Monitor :
· DMV sys.dm_hadr_database_replica_states,
log_send_queue_size
· DMV sys.dm_hadr_database_replica_states,
log_send_rate
· Performance
counter SQL Server:Database
> Log Bytes Flushed/sec
· Performance
counter SQL Server:Database
Mirroring > Send/Receive Ack Time
· Performance
counter SQL
Server:Availability Replica > Bytes Sent to Replica/sec
· Performance
counter SQL
Server:Availability Replica > Bytes Sent to Transport/sec
· Performance
counter SQL
Server:Availability Replica > Flow Control Time (ms/sec)
· Performance
counter SQL
Server:Availability Replica > Flow Control/sec
· Performance
counter SQL
Server:Availability Replica > Resent Messages/sec
3.磁盘I/O瓶颈降低secondary副本的日志固化
根据数据库文件部署,日志固化会因为IO争用被降低。
原因:
只要日志被固化到磁盘,就可以防止数据丢失。因此隔离日志文件和数据文件的IO变的很重要。如果日志文件和数据文件使用同一个物理磁盘,IO密集型查询会消耗日志固化需要的IO能力。日志固化变慢会间接导致primary通知变慢,导致flow
control等待时间变长。
诊断和解决:
如果你诊断了网络,没有很高的延迟或者很低的吞吐量,然后你应该看看secondary是否有IO争用问题。
以下脚本可以让你知道每个数据文件和日志文件的读写次数。
SELECT DB_NAME(database_id) AS
[Database Name] ,
file_id ,
io_stall_read_ms ,
num_of_reads ,
CAST(io_stall_read_ms /( 1.0 + num_of_reads ) AS NUMERIC(10, 1)) AS [avg_read_stall_ms]
,
io_stall_write_ms ,
num_of_writes ,
CAST(io_stall_write_ms /( 1.0 + num_of_writes ) AS NUMERIC(10, 1)) AS [avg_write_stall_ms]
,
io_stall_read_ms + io_stall_write_ms AS
[io_stalls] ,
num_of_reads + num_of_writes AS [total_io] ,
CAST(( io_stall_read_ms + io_stall_write_ms ) /( 1.0 + num_of_reads
+ num_of_writes) AS NUMERIC(10,1)) AS [avg_io_stall_ms]
FROM sys.dm_io_virtual_file_stats(NULL, NULL)
WHERE DB_NAME(database_id) IN(SELECT DISTINCT database_name FROM sys.dm_hadr_database_replica_cluster_states)
ORDER BY avg_io_stall_ms DESC;
下面脚本提供了某个时间点IO请求被挂起的快照:
SELECT DB_NAME(mf.database_id) AS [Database] ,
mf.physical_name ,
r.io_pending ,
r.io_pending_ms_ticks ,
r.io_type ,
fs.num_of_reads ,
fs.num_of_writes
FROM sys.dm_io_pending_io_requests
AS r
INNER JOIN sys.dm_io_virtual_file_stats(NULL,
NULL) AS fs ON r.io_handle = fs.file_handle
INNER JOIN sys.master_files AS mf ON fs.database_id = mf.database_id
AND fs.file_id = mf.file_id
ORDER BY r.io_pending , r.io_pending_ms_ticks DESC;
你可以通过读写IO,来识别是否有IO争用问题。以下是一些关于IO的性能指标:
· Physical Disk: all counters
· Physical Disk: Avg.
Disk sec/Transfer
· SQL Server: Databases
> Log Flush Wait Time
· SQL Server: Databases
> Log Flush Waits/sec
· SQL Server: Databases
> Log Pool Disk Reads/sec
如果你发现有IO瓶颈,并且log文件和数据文件在同一个磁盘下,第一件要做的事情就是把日志文件和数据文件分开。
[AlwaysOn Availability Groups]排查:AG超过RPO的更多相关文章
- [AlwaysOn Availability Groups]排查:AG配置
排查AG配置 本文主要用来帮助排查在AG配置时出现的问题,包括,AG功能被禁用,账号配置不正确,数据库镜像endpoint不存在,endpoint不能访问. Section Description A ...
- [AlwaysOn Availability Groups]监控AG性能
监控AG性能 AG的性能的性能方面,在关键任务数据库上进行语句级维护性能是很重要的.理解AG如何传输日志到secondary副本对评估RTO和RPO,表明AG是否性能不好. 1. 数据同步步骤 为了评 ...
- [AlwaysOn Availability Groups]排查:AG超过RTO
排查:AG超过RTO 自动故障转移或者手动转移之后,没有数据都是,你可能会发现切换时间超过了你的RTO.或者当你评估切换时间同步提交secondary副本,发现超过了你的RTO. 1. 通常原因 通常 ...
- [AlwaysOn Availability Groups]排查:Primary上的修改无法在Secondary体现
排查:Primary上的修改无法在Secondary体现 客户端进程在primary上修改成功,但是在Secondary上却无法看到修改结果.这个case假设你的可用性组有同步的健康问题.很多情况下这 ...
- [AlwaysOn Availability Groups]AG排查和监控指南
AG排查和监控指南 1. 排查场景 如下表包含了常用排查的场景.根据被分为几个场景类型,比如Configuration,client connectivity,failover和performance ...
- [AlwaysOn Availability Groups]DMV和系统目录视图
DMV和系统目录视图 这里主要介绍AlwaysON的动态管理视图,可以用来监控和排查你的AG. 在AlwaysOn Dashboard,你可以简单的配置的GUI显示很多可用副本的DMV和可用数据库通过 ...
- [SQL in Azure] Tutorial: AlwaysOn Availability Groups in Azure (GUI)
http://msdn.microsoft.com/en-us/library/azure/dn249504.aspx Tutorial: AlwaysOn Availability Groups i ...
- [AlwaysOn Availability Groups]CLUSTER.LOG(AG)
CLUSTER.LOG(AG) 作为故障转移资源,在SQL Server和windows故障转移集群服务的资源DLL(hadrres.dll)之间有额外的内部交流,DLL无法被SQL Server监控 ...
- [AlwaysOn Availability Groups]AG扩展事件
AG扩展事件 SQL Server 2012定义了一些关于AlwaysOn的扩展事件.你可以监控这些扩展事件来帮助诊断AG的根本问题.你也可以使用以下语句查看扩展事件: SELECT * FROM s ...
随机推荐
- DOM 节点的克隆与删除
无奈的开头 关于DOM节点操作,如果仅仅是根据标准API来操作,那是最简单不过的了.但是现实中却哪有这么容易的问题让我们解决,其实不仅仅是节点的克隆与删除,节点的添加也是如此,而且添加节点需要考虑的情 ...
- 软件工程-构建之法 理解C#一小段程序
一.前言 老师给出的要求: 阅读下面程序,请回答如下问题: 问题1:这个程序要找的是符合什么条件的数? 问题2:这样的数存在么?符合这一条件的最小的数是什么? 问题3:在电脑上运行这一程序,你估计多长 ...
- Redis数据类型,以及应用场合
Redis常用的数据类型为String,Hash,List,Set等,简介如下: String 1.String 常用命令: 除了get.set.incr.decr mget等操作外,Redis还提供 ...
- 【中文分词】简单高效的MMSeg
最近碰到一个分词匹配需求--给定一个关键词表,作为自定义分词词典,用户query文本分词后,是否有词落入这个自定义词典中?现有的大多数Java系的分词方案基本都支持添加自定义词典,但是却不支持HDFS ...
- 记dynamic的一个小坑 -- RuntimeBinderException:“object”未包含“xxx”的定义
创建一个控制台程序和一个类库, 在控制台创建一个匿名对象,然后再在类库中访问它,代码如下: namespace ConsoleApplication1 { class Program { static ...
- WPF阴影效果(DropShadowEffect)
<TextBlock Text="阴影效果" FontSize="32"> <TextBlock.Effect> <DropSha ...
- VS2013设置护眼背景颜色
打开VS2013 —> 工具 —> 选项 —> 环境 —> 字体和颜色 —> 选择显示项中的纯文本 —> 项目背景 —> 自定义—> 色调位85.饱和度 ...
- asp.net的快捷实用分页类
KeleyiPager分页类,可以于对列表页进行分页浏览,代码是从HoverTreeCMS项目中COPY的,感觉很不错,使用简单方便,但是功能强大. 在线体验效果:http://cms.hovertr ...
- .net中创建xml文件的两种方法
.net中创建xml文件的两种方法 方法1:根据xml结构一步一步构建xml文档,保存文件(动态方式) 方法2:直接加载xml结构,保存文件(固定方式) 方法1:动态创建xml文档 根据传递的值,构建 ...
- linux下c程序的链接、装载和库(2)
5. 重定义错误. 一个最终的可执行文件里,绝对不允许出现两个同名的全局变量,也不允许出现同名的全局函数. 全局函数:只要不用 static 修饰符修饰的函数,全部都是全局的. 全局变量:函数外声明定 ...