prometheus重启hang住问题记录】的更多相关文章

官方issue并不承认这是一个问题,参考: https://github.com/prometheus/prometheus/issues/5727 https://github.com/prometheus/prometheus/issues/4324 有人认为是磁盘读写慢导致的,参考 https://groups.google.com/forum/#!searchin/prometheus-users/prometheus$20hang$20$20component$3Dtsdb$20msg…
有一个应用truncate表等待了一晚上,一个定时任务,跑了几年了,今天早上来发现昨晚没有执行完成,hang住了,查询发现等待事件 fast object reuse. 10.2.0.4的库 Bug 7385253 - Slow Truncate / DBWR uses high CPU / CKPT blocks on RO enqueue (文档 ID 7385253.8) Bug 9761199 - PMON hang on 'enq: ro - fast object reuse' (文…
现象: 普通用户和sysdba都无法登陆,业务中断 分析过程: 1.先做hanganalyze和systemstate dump $sqlplus -prelim "/as sysdba" SQL> oradebug setmypid Statement processed. SQL> oradebug hanganalyze 3 Statement processed. SQL> oradebug hanganalyze 3 Statement processed.…
为了诊断oracle运行缓慢的问题首先要决定收集哪些论断信息,可以采取下面的诊断方法:1.数据库运行缓慢这个问题是常见还是在特定时间出现如果数据库运行缓慢是一个常见的问题那么可以在问题出现的时候收集这个时期的awr或者statspack报告(通常收集时间间隔是一个小时).生成awr报告的方法如下:awr是通过sys用户来收集持久系统性能统计信息并且这些信息保存在sysaux表空间.缺省情况下快照是一个小时生成一次并且保留7天.awr报告输出了基于指定快照之间的一系列的统计信息用于性能分析和调查其…
一.现象 在linux操作系统中,执行df -h命令,后hang住 二.思路 排查是否存在Nfs问题,无法正常挂载nfs路径导致的问题. 三.解决过程 3.1 cat /etc/rc.local #mount 10.8.4.11:/dbbak/yt3wdb /oracle/dbbak2 mount -t nfs -o rw,bg,hard,rsize=,wsize=,vers=,nointr,timeo=,tcp .40_yt3wdb /oracle/ dbbak 如上,可以发现,存在两个nfs…
实验操作环境:         操作系统:Red Hat Enterprise Linux ES release 4 (Nahant Update 6)                           数据库 : Oracle Database 10g Release 10.2.0.4.0 – Production  32bit 今晚使用shutdown immediate(其实是执行stop_oracle.sh脚本关闭数据库,如下所示)关闭数据库的时候, 1: [oracle@gsp-or…
新买的dell r430服务器,双CPU,64G内存,单CPU32g,swap 3G 出现故障现像:mysqldump时会hang住,innodb_buffer_pool_size        = 35G,数据量有187G 试验各种方法,最后发现关闭numa可正常导出 vi /etc/grub.conf ... numa=off 分析原因:单CPU只有32G,加交换3G=35G,需要分配的内存多于此数导致分配时hang住…
这两天有同学使用数据校验工具时发现进程hang住了,也不知道什么原因,我简单看了看进程堆栈,问题虽然很简单,但能导致程序hang住,也一定不是小问题.简单说明下程序组件的结构,程序由两部分构成,dbchk和dbchk_inner,dbchk采用python代码实现,dbchk_inner采用C语言实现.dbchk负责并发控制,dbchk_inner则负责具体的校验任务.用户通过运行dbchk命令即可达到校验的目的.进程关系如下: $ pstree 18649 dbchk─┬─sh───dbchk…
shutdown immediate 经常关库时hang住,在alert中有 License high water mark = 4All dispatchers and shared servers shutdown 多等一会会出现SHUTDOWN: Active processes prevent shutdown operation 造成这个现象的原因是(也可能是em的原因,这篇与em无关): 之前的session没有断开,而后又使用了host切换到OS提示符下,导致数据库无法正常关闭 […
原文地址:MySQL被慢sql hang住了,用shell脚本快速清除不断增长的慢sql的办法 作者:mchdba 某个初级dba误删index,mysql漫山遍野全是10S以上的慢sql,mysql服务被hang住了,而且慢sql不断在增加中,如果手动在mysql界面kill的话,根本来不及,这个时候,shell就必须要出手了,如下的shell脚本,大家可以参考: #It is used to kill processlist of mysql sleep #!/bin/sh while :…
当归档目录设置在闪回恢复区,并且闪回恢复区又满了的情况下, DB 就会无法归档而hang住或者无法打开. 这种情况下打开数据库会遇到如下错误信息: SQL> select status from v$instance; STATUS ------------ MOUNTED SQL> alter database open; alter database open * 第 1 行出现错误: ORA-16014: 日志 2 的序列号 27 未归档, 没有可用的目的地 ORA-00312: 联机日…
当指定asm disk 为FRA时.11.2.0.3的dbua hang住 来源于: 11.2.0.3 DBUA Hangs While Specifying ASM Disk To FRA (文档 ID 1427179.1) 适用于: Oracle Database Upgrade Assistant - Version 10.2.0.1 and later Oracle Server - Standard Edition - Version 10.2.0.1 and later Oracle…
问题描写叙述: 上午刚刚到办公室,就有监控人员邮件反馈,昨晚NDMCDB407数据库被重新启动过,让我分析一下数据库重新启动的原因.因为昨晚业务有版本号上线,所以短信警告关闭了,所以没有短信下发到我手机上,并且故障时相关人员也没有通知到我. 1     检查alert日志 从alert日志中,能够看到,先是在03:29时有一个job执行失败了: Fri Aug 22 03:29:29 2014 Errors in file/opt/oracle/diag/rdbms/ndmcdb/NDMCDB/…
现象: node manager起不来, 执行mapreduce 程序hang住 namenode 进程状态查询[root@hadp-master sbin]# jps8608 ResourceManager8257 NameNode9268 Jps8453 SecondaryNameNode datanode 进程状态查询 , 发现 nodemanager 没有起来[root@hadp-node1 hadoop]# jps4179 DataNode4940 Jps namenode 单独起 n…
当点击完 finishbutton后,dbca 或者dbua hang住 来源于: DBCA/DBUA APPEARS TO HANG AFTER CLICKING FINISH BUTTON (文档 ID 727290.1) 适用于: Oracle Database Configuration Assistant - Version 10.2.0.1 to 11.2.0.1 [Release 10.2 to 11.2] Information in this document applies…
背景 数据库分区表数据越来越大,需要对过期话的数据进行迁移,以及大的分区表需要进行数据的清理和删除,达到释放磁盘空间的目的. 问题说明 环境:linux 6.X 数据库:oracle 11.2.0.4 (PSU为2016年6月份的) 问题说明: S_T_RTNRP_STATUS_2017是分区表,每天一个分区,且一共使用了2.5TB的空间,现在需要进行空间清理,操作步骤是先对表进行truncate,然后删除表,后对相应的表空间的每个数据文件进行resize成1g,在进行删除表空间语句 drop…
一.场景说明: 客户环境需要部署OGG,同事在数据库中执行添加最小补充日志,会话Hang住 二.环境测试 本次测试环境进行模拟,添加最小补充日志的操作,怎么会被Hang住呢? 2.1 模拟会话hang住 添加最小补充日志测试 SQL> select database_role,SUPPLEMENTAL_LOG_DATA_MIN from v$database; DATABASE_ROLE SUPPLEME ---------------- -------- PRIMARY NO Sess1 SQ…
问题现象,测试环境执行SQL hang住 enmo:/home/oracle/worksh dg.sh SQL*Plus: Release Production on Mon May :: Copyright (c) , , Oracle. All rights reserved. Connected to: Oracle Database 11g Enterprise Edition Release - 64bit Production With the Partitioning, OLAP,…
线上发现执行某特定任务在某个特定时间点后不再work.该任务由线程池中线程执行定时周期性调度,根据日志查看无任何异常.从代码研判应该无关定时任务框架,因为对提交的定时任务做了wrap,会将异常都catch住,保证下次仍然能够正常调度. 通过jstack导出堆栈信息,发现问题线程的堆栈信息如下: "OperatorDispatch" #338 prio=5 os_prio=0 tid=0x00007f1140d63000 nid=0x2edc runnable [0x00007f101f…
当数据库出现严重的性能问题或者hang了的时候,我们非常需要通过systemstate dump来知道进程在做什么,在等待什么,谁是资源的持有者,谁阻塞了别人.在出现上述问题时,及时收集systemstate dump非常有助于问题原因的分析.在一些情况下,数据库会自动生成systemstate dump, 比如出现了“WAITED TOO LONG FOR A ROW CACHE ENQUEUE LOCK”.systemstate dump大部分时候需要手工生成,具体的命令为: (如果连接很多…
描述: 记录一次重大事故:根据IaaS资源业务要求,需要增加某些功能,所以要修改部署代码.修改后重推部署代码,检查发现没有什么异常. 但是一段时间后就收到用户的报障反馈,接连一个电话.2个电话.3个电话....慌了.... 业务故障表现,如下图 处理流程 首先查看ceph集群状态正常,排除ceph集群问题,如下图: 检查iaas平台nova.cinder.neutron服务均为正常. [回顾变更修改的操作]. 虚拟机在进行数据读写的时候通过public network(也就是平台的bondmg网…
数据库hang的时候,建议尽量收集以下信息: 1.hanganalyze和systemstate dumps 2.AWR报告 3.最近的RDA 如果是CDB环境,要确认是CDB级别的hang还是PDB级别的hang.如果是PDB级别的hang,只需要收集PDB的信息.如果无法确认,建议收集一下CDB的信息. hanganalyze:确认数据库是否真的hang或只是运行慢.提供了hang涉及的所有进程信息. systemstate dump:收集数据库中所有进程正在做什么. 如果不能登陆,使用sq…
环境: Windows server 2003 Oracle 11.2.0.1 问题: 一套老数据库在运行了很久后,突然就连接不上了,提示监听异常. 处理: 1.CMD命令行检查监听状态:无监听 2.检查监听服务:正常 3.手动启动监听:异常,提示: Service OracleOraDb11g_home1TNSListener already running和TNS-12560 4.根据处理经验,检查监听日志是否超限制:的确监听日志大于了4G [参考MOS官方文档:WINDOWS: Liste…
业务需求,对日志表历史数据进行清理.历史表均很大,使用delete 操作删除90天前的数据. 第一部分:快速删除数据 SQL> alter table CC.F_LOG parallel ; SQL>alter session enable parallel dml; SQL> delete FROM CC.F_LOG S WHERE S.CREATE_DATE>(SYSDATE-);执行计划确定并行 ----------------------------------------…
1.数据库正常启动: [oracle@db ~]$ sqlplus / as sysdba SQL*Plus: Release 11.2.0.4.0 Production on Sat Aug 24 12:09:04 2019 Copyright (c) 1982, 2013, Oracle. All rights reserved. Connected to an idle instance. SQL> startup ORACLE instance started. Total System…
用dmesg显示如下图信息 问题原因: 默认情况下, Linux会最多使用40%的可用内存作为文件系统缓存.当超过这个阈值后,文件系统会把将缓存中的内存全部写入磁盘, 导致后续的IO请求都是同步的. 将缓存写入磁盘时,有一个默认120秒的超时时间. 出现上面的问题的原因是IO子系统的处理速度不够快,不能在120秒将缓存中的数据全部写入磁盘.IO系统响应缓慢,导致越来越多的请求堆积,最终系统内存全部被占用,导致系统失去响应. 解决方法: 根据应用程序情况,对vm.dirty_ratio,vm.di…
突然有一天发现df执行卡住了,一直不显示结果. $ df -h Filesystem Size Used Avail Use% Mounted on /dev/sda3 221G 100G 121G 46% / devtmpfs 16G 0 16G 0% /dev tmpfs 16G 0 16G 0% /dev/shm tmpfs 16G 1.6G 14G 11% /run tmpfs 16G 0 16G 0% /sys/fs/cgroup /dev/sda1 494M 204M 291M 42…
一大早内存就报内存100% 处理流程 1.kmeminfo -u | more ,找出内存占用过大的进程ID ---------------------------------------------------------------------- Summary of processes memory usage:                         List sorted by physical size, in pages/bytes:                    …
详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt145 crontab各参数说明: crontab [-u user] [file] crontab [-u user] [-e|-l|-r] crontab -l -u root 查看root用户的任务表 注意crontab是分用户的,以谁登录就会编辑到谁的crontab -e : 执行文字编辑器来编辑crontab,内定的文字编辑器是VI-r : 删除目前的crontab…
排查了三四个小时,终于解决了这个GC问题,记录解决过程于此,希望对大家有所帮助.本文假定读者已具备基本的GC常识和JVM调优知识,关于JVM调优工具使用可以查看我在同一分类下的另一篇文章: http://my.oschina.net/feichexia/blog/196575 背景说明 发生问题的系统部署在Unix上,发生问题前已经跑了两周多了. 其中我用到了Hadoop源码中的CountingBloomFilter,并将其修改成了线程安全的实现(详情见:AdjustedCountingBloo…