[AlwaysOn Availability Groups]AG排查和监控指南
AG排查和监控指南
1. 排查场景
如下表包含了常用排查的场景。根据被分为几个场景类型,比如Configuration,client connectivity,failover和performance。
|
Scenario |
笔记 |
Scenario Type |
Description |
|
Troubleshoot AlwaysOn Availability Groups Configuration (SQL Server) |
Configuration |
提供了一些典型的配置AG实例发生问题的信息。比如AG被禁用,账号配置不正确,镜像endpoint不存在(SQL Server Error 1418)。网络访问不存在,join数据库失败(SQL Server Error 35250)。 |
|
|
Troubleshoot "Validating WSFC quorum vote configuration" warning |
Configuration |
当使用对话框创建AG时,收到一个警告: “The current WSFC cluster quorum vote configuration is not recommended for this availability group.” |
|
|
Troubleshoot issues when creating availability group listeners |
Configuration |
在创建AG Listener的时候发生错误。 |
|
|
Troubleshoot a Failed Add-File Operation (AlwaysOn Availability Groups) |
Configuration |
添加文件导致secondary数据库挂起,状态变为NOT SYNCHORNIZING |
|
|
Fix: Error 41009 when you try to create multiple availability groups |
Configuration |
创建多个AG时发生41009 错误 |
|
|
Cannot connect to availability group listener in a multi-subnet environment |
Client Connectivity |
创建了AG Listener之后,无法ping通和连接 |
|
|
Failover |
自动故障转移不能成功完成 |
||
|
Performance |
自动故障转移或者计划内的手动转移之后,切换时间超过了RTO时间 |
||
|
Performance |
强制故障转移后,都是的数据超过了RPO。或者异步提交的replica能够承受的数据丢失超过了RPO。 |
||
|
Troubleshoot: Changes on the Primary Replica are not Reflected on the Secondary Replica |
Performance |
客户端程序可以成功的完成primary的修改,但是查询replia却没有反应。 |
2. 排查工具
以下工具可以用来排查,配置时或者运行时发生的问题
|
Tool |
笔记 |
Description |
|
在UI接口下,获取某个时间点的AG健康情况。 |
||
|
被Alwayson Dashboard使用 |
||
|
记录AG,副本,数据库,其他AG主键的状态变化,和AG的错误 |
||
|
记录集群时间,包括AG资源的状态变化,SQL Server resource DDL的事件和错误。 |
||
|
记录SQL Server健康诊断被报告到WSFC集群,由sp_server_diagnostics (Transact-SQL)产生 |
||
|
Dynamic Management Views and System Catalog Views (AlwaysOn Availability Groups) |
报告AG的信息,比如配置,健康状况,性能问题 |
|
|
提供了详细AG信息用来诊断,分析起因 |
||
|
提供了AG特定的等待信息,用来调整性能 |
||
|
AlwaysOn Performance Counters |
监控AG的活动,反馈到系统监视器,用来调优,具体可以看 SQL Server, Availability Replica 和 SQL Server, Database Replica. |
|
|
记录SQL Server系统内部争端的警告,用来debug和AG有关的问题。 |
3. 监控AG
理想的排查时间是在故障转移之前。这个可以通过监控性能值,在超过SLA之前发送告警。比如同步secnodary副本有性能问题,因为预计failover时间增加。AG是高可用和灾难恢复解决访问,最重要的性能指标是切换时间,会影响RTO,灾难导致的数据丢失会影响RPO。
以下表文章用来监控AG的健康状况:
|
Topic |
笔记 |
Description |
|
描述AG数据同步,阀值控制,和一些有用的值用来监控AG,还有如何收集RTO,RPO的值。 |
||
|
提供一些AG监控工具 |
||
|
The AlwaysOn Health Model Part 1 -- Health Model Architecture |
提供一个Alwayson健康模型的概述 |
|
|
The AlwaysOn Health Model Part 2 -- Extending the Health Model |
如何用户定制Alwayson监控模型和用户定义Alwayson Dashboard,来显示额外的信息。 |
|
|
Monitoring AlwaysOn Health with PowerShell - Part 1: Basic Cmdlet Overview |
提供一些基本的Alwayson Powershell命令。用来监控AG的健康状况。 |
|
|
Monitoring AlwaysOn Health with PowerShell - Part 2: Advanced Cmdlet Usage |
提供一些高级的Alwayson Powershell命令。用来监控AG的健康状况。 |
|
|
Monitoring AlwaysOn Health with PowerShell - Part 3 : A Simple Monitoring Application |
显示如何使用城区监控AG。 |
|
|
Monitoring AlwaysOn Health with PowerShell - Part 4 : Integration with SQL Server Agent |
如何使用SQL Server Agent集成监控AG,并且在出问题的时候通知。 |
[AlwaysOn Availability Groups]AG排查和监控指南的更多相关文章
- [AlwaysOn Availability Groups]AG扩展事件
AG扩展事件 SQL Server 2012定义了一些关于AlwaysOn的扩展事件.你可以监控这些扩展事件来帮助诊断AG的根本问题.你也可以使用以下语句查看扩展事件: SELECT * FROM s ...
- [AlwaysOn Availability Groups]排查:AG配置
排查AG配置 本文主要用来帮助排查在AG配置时出现的问题,包括,AG功能被禁用,账号配置不正确,数据库镜像endpoint不存在,endpoint不能访问. Section Description A ...
- [AlwaysOn Availability Groups]DMV和系统目录视图
DMV和系统目录视图 这里主要介绍AlwaysON的动态管理视图,可以用来监控和排查你的AG. 在AlwaysOn Dashboard,你可以简单的配置的GUI显示很多可用副本的DMV和可用数据库通过 ...
- [SQL in Azure] Tutorial: AlwaysOn Availability Groups in Azure (GUI)
http://msdn.microsoft.com/en-us/library/azure/dn249504.aspx Tutorial: AlwaysOn Availability Groups i ...
- [AlwaysOn Availability Groups]CLUSTER.LOG(AG)
CLUSTER.LOG(AG) 作为故障转移资源,在SQL Server和windows故障转移集群服务的资源DLL(hadrres.dll)之间有额外的内部交流,DLL无法被SQL Server监控 ...
- [AlwaysOn Availability Groups]AlwaysOn等待类型
AlwaysOn等待类型 当排查AlwaysOn延迟,等待统计信息可以在DMV中查看累计的AlwaysOn等待类型. 查看AlwaysOn等待类型 SELECT * FROM sys.dm_os_wa ...
- [AlwaysOn Availability Groups]监控AG性能
监控AG性能 AG的性能的性能方面,在关键任务数据库上进行语句级维护性能是很重要的.理解AG如何传输日志到secondary副本对评估RTO和RPO,表明AG是否性能不好. 1. 数据同步步骤 为了评 ...
- [AlwaysOn Availability Groups]排查:AG超过RPO
排查:AG超过RPO 在异步提交的secondary上执行了切换,你可能会发现数据的丢失大于RPO,或者在计算可以忍受的数据都是超过了RPO. 1.通常原因 1.网络延迟太高,网络吞吐量太低,导致Pr ...
- [AlwaysOn Availability Groups]排查:AG超过RTO
排查:AG超过RTO 自动故障转移或者手动转移之后,没有数据都是,你可能会发现切换时间超过了你的RTO.或者当你评估切换时间同步提交secondary副本,发现超过了你的RTO. 1. 通常原因 通常 ...
随机推荐
- PHP安装mysql.so扩展
在PHP中mysql_connect模块已经逐渐被弃用,我在搭建环境时也没有再安装mysql扩展,但是今天在维护一个老项目时,出现报错 Fatal error: Uncaught Error: Cal ...
- Maven中安装本地Jar包到仓库中或将本地jar包上传
摘要 maven install 本地jar 命令格式 mvn install:install-file -DgroupId=<group_name> -DartifactId=<a ...
- IDEA+weblogic部署运行项目
前段时间再服务器上为了部署一个系统,一直存在各种问题,不过过程中倒是把weblogic的部署掌握地特别熟练,下面就一些主要步骤做个记录:1.自己用的是IDEA,所以打开项目之后需要设置src/main ...
- Unity3D中常用的数据结构总结与分析
来到周末,小匹夫终于有精力和时间来更新下博客了.前段时间小匹夫读过一份代码,对其中各种数据结构灵活的使用赞不绝口,同时也大大激发了小匹夫对各种数据结构进行梳理和总结的欲望.正好最近也拜读了若干大神的文 ...
- 【读fastclick源码有感】彻底解决tap“点透”,提升移动端点击响应速度
申明!!!最后发现判断有误,各位读读就好,正在研究中.....尼玛水太深了 前言 近期使用tap事件为老夫带来了这样那样的问题,其中一个问题是解决了点透还需要将原来一个个click变为tap,这样的话 ...
- iOS 编辑UITableView(根据iOS编程编写)
上个项目我们完成了 JXHomepwner 简单的应用展示,项目地址.本节我们需要在上节项目基础上,增加一些响应用户操作.包括添加,删除和移动表格. 编辑模式 UITableView 有一个名为 e ...
- 用C#实现MD5的加密(转载)
方法一 首先,先简单介绍一下MD5 MD5的全称是message-digest algorithm 5(信息-摘要算法,在90年代初由mit laboratory for computer scien ...
- 在node.js中,使用基于ORM架构的Sequelize,操作mysql数据库之增删改查
Sequelize是一个基于promise的关系型数据库ORM框架,这个库完全采用JavaScript开发并且能够用在Node.JS环境中,易于使用,支持多SQL方言(dialect),.它当前支持M ...
- 一次页面从Jq到Vuejs+PartialView的迁徙
题外话 本篇分享不能帮助你入门vue,入门的文章也是无意义的,官方文档http://cn.vuejs.org/v2/guide/ 已经写的不能再清晰了.希望我们勇敢的主动地给自己创造实践的机会. 手里 ...
- 在Azure上的VM镜像库中找到想要的镜像
Azure上的虚机镜像库中, 有很多的镜像,其中当然也包括了用户自定义上传的镜像. 在Powershell中如果想使用这些镜像的话, 则需要知道其名称 下面这条命令,可以获得所有的镜像信息 $imag ...