记一次Oracle数据故障排除过程

前天在Oracle生产环境中，自己的存储过程运行时间超过1小时，怀疑是其他job运行时间过长推迟了自己job运行时间，遂重新跑job，发现同测试环境的确不同，运行了25分钟。

之后准备在测试环境中制造同数量级的数据进行分析，写了大概如下的存储过程，

create or replace PROCEDURE PERFORMANCE_TEST AS 

v_date date;

v_start_date date;

v_end_date date;

v_start_date_str varchar2(10) := '2017-01-31';

v_end_date_str varchar2(10) := '2017-07-31';

v_date_str varchar2(10);

BEGIN

  v_start_date := to_date(v_start_date_str, 'yyyy-mm-dd');

  v_end_date := to_date(v_end_date_str, 'yyyy-mm-dd');

  v_date := v_start_date;

  while v_date < v_end_date loop

    v_date_str := to_char(v_date, 'yyyy-mm-dd');

    insert into datacore.df_customer_static_report

    (

      data_date,

      cty_code,

      party_id,

      party_name,

      ho_domicile_cty,

      rm_code,

      rm_name,

      business_division

    )(

      select

        v_date_str,

        cty_code,

        party_id,

        party_name,

        ho_domicile_cty,

        rm_code,

        rm_name,

        business_division

      from datacore.df_customer_static_report

      where data_date = v_end_date_str

    );

    commit;

  end loop;

END PERFORMANCE_TEST;

犯了个致命错误，丢了v_date := v_date + 1; 存储过程陷入无限循环！在过了1个多小时后，意识到不对劲，遂查询了数据量，发现2017-01-31的数据量竟然达到了千万级。。。赶紧停止运行找原因，才发现无限循环插入数据。

剩下就是怎么删掉这些数据，毕竟千万级的数据占据存储空间太大了。简单的删除肯定不起作用，遂尝试分批删除，先试着删除1w条，结果运行很长时间后还是没有结束。这个时候，感觉之前那个无限循环应该还没有结束，在后台还在运行。因为其他事情捣乱，没来得及修正这个问题。第二天来，再次查询，发现数据量达到了快5千万条，欲哭无泪啊！赶紧删数据，分批次，1百万条的删，（这次加上累加条件了）

create or replace PROCEDURE DELETE_TEMP AS 

v_number number := 1;

v_number_end number := 50;

BEGIN

  while v_number <= v_number_end loop

    delete from datacore.df_customer_static_report nologging

    where data_date = '2017-01-31'

    and rownum < 1000000;

    commit;

    v_number := v_number + 1;

    dbms_output.put_line(v_number || ' end');

  end loop;

END DELETE_TEMP;

本想用TRUNCATE把所有数据都删掉，但是我这里只需要删掉表中‘2017-01-31’的数据，而且只是把千万条降低到万条。查了delete语句的优化，发现加上nologging会更快些（数据不做恢复）。

运行了大概1个小时后，感觉差不多了，遂手动终止了delete的运行。再次查询，‘2017-01-31’的数据降到9千多条。窃喜~

不过又想起昨天想到的“是否无限循环还在后台运行”？过了10几分钟后查询，发现数据又多了，欲哭无泪。。

怎么让这个讨厌的无限循环终止呢？因为使用的账号没有dba权限，所以想通过更改表的结构，让包含无限循环的存储过程异常终止。但估计不可行，因为数据库表一直被占用了。抱着试一试的想法，执行以下sql，

alter table datacore.df_customer_static_report

drop column rds_spread_code

报错“资源正忙, 但指定以 NOWAIT 方式获取资源, 或者超时失效；resource busy and acquire with NOWAIT specified”。

搜索后，果真有解决方案 - here，但还是需要dba权限（厚脸皮要吧）。

1. 用dba权限的用户查看数据库都有哪些锁

SELECT T2.USERNAME,T2.SID,T2.SERIAL#,T2.LOGON_TIME

FROM V$LOCKED_OBJECT T1,V$SESSION T2

WHERE T1.SESSION_ID=T2.SID ORDER BY T2.LOGON_TIME;

2. 根据sid查看具体的sql语句，如果sql不重要，可以kill

SELECT SQL_TEXT FROM V$SESSION A,V$SQLTEXT_WITH_NEWLINES B

WHERE DECODE(A.SQL_HASH_VALUE, 0, PREV_HASH_VALUE, SQL_HASH_VALUE)=B.HASH_VALUE

AND A.SID=&SID ORDER BY PIECE;

3. kill该事务

ALTER SYSTEM KILL SESSION '590,20839';

4. 再次查看数据库锁，发现锁消失。再次查询表数据，不再增加。

教训：以后写存储过程中的循环，千万注意条件的累加！

--------------------------------------------------------------------------------------------------------------------------------

-- index(索引)
select * from all_indexes;
select * from user_indexes;

select * from all_ind_columns;
select * from user_ind_columns;

select t.*,i.index_type
from user_ind_columns t,user_indexes i
where t.index_name = i.index_name
and t.table_name = i.table_name and t.table_name = 'DM_RR_GQ_FIN_FEDS';

select t.*,i.index_type
from all_ind_columns t,all_indexes i
where t.index_name = i.index_name
and t.table_name = i.table_name
and owner = 'FISP'
and t.table_name = 'FIS_OUT_FLEXI';

-- tables(表)
select * from user_tab_columns;
select * from all_tab_columns;

select * from user_col_comments;
select * from all_col_comments;

select * from user_tables;
select * from all_tables;

记一次Oracle数据故障排除过程的更多相关文章

记一次wiki数据爬取过程
最近有个爬取各国领导人信息的奇怪需求,要求百度和维基两种版本的数据,最要命的还要保持数据的结构不变.正好印象中隐约记得维基有专门的领导人列表页,不考虑爬取下来的格式不变的话应该很好爬的样子. 首先思路 ...
对NetBackup 问题进行故障排除的步骤
错误消息通常是指出哪里出现故障的手段.如果在界面上没有看到错误消息,但仍怀疑有问题,请检查报告和日志. NetBackup提供了各种报告和日志记录工具, 这些工具可提供错误消息,直接为您指出解决方案. ...
spark 性能优化数据倾斜故障排除
版本:V2.0 第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围 ...
Atitit.故障排除系列---php 计划网站数据库错误排除过程
Atitit.故障排除系列---php 计划网站数据库错误排除过程 Php页面报告的错误不能定位到myusql的db配置上...字说是db conn err Mysql 接入错误...大概查看哈能不能 ...
Confluence 6 数据中心的 SAML 单点登录最佳实践和故障排除
最佳实践 SAML 授权仅仅在有限的时间进行校验.你需要确定运行你的应用的计算机时间与 IdP 的时间是同步的. 如果你应用中的用户和用户组是通过用户目录进行配置的,你通常希望用户来源目录和你的 Id ...
记一次oracle 11g数据导入
1.ORACLE数据库数据导入到测试库环境 172.15.1.51 root kic@test 172.15.1.52 root 一般先将数据导入52的环境(配置比较低),再将数据导入51的环境(本 ...
理解 OpenStack + Ceph （7）: Ceph 的基本操作和常见故障排除方法
本系列文章会深入研究 Ceph 以及 Ceph 和 OpenStack 的集成: (1)安装和部署 (2)Ceph RBD 接口和工具 (3)Ceph 物理和逻辑结构 (4)Ceph 的基础数据结构 ...
学习笔记：CentOS7学习之十八：Linux系统启动原理及故障排除
目录学习笔记:CentOS7学习之十八:Linux系统启动原理及故障排除 18.1 centos6系统启动过程及相关配置文件 18.1.1 centos6系统启动过程 18.1.2 centos6启 ...

随机推荐

Nim积
假如把Nim游戏的取胜规则改为谁取走最后一个石子谁输的话先手必胜当且仅当: 1.所有堆的石子数都为1且游戏的SG值为0 2.有些堆的石子数大于1且游戏的SG值不为0
SQLite-FMDatabase用法
FMDatabase用法转载 http://blog.sina.com.cn/s/blog_94d94f1a01015gcr.html 以下是FMDB的一些基本使用,FMDB框架其实只是一层很薄的封 ...
Dictionary To Dynamic
原文发布时间为:2012-12-25 -- 来源于本人的百度文章 [由搬家工具导入] public static class DictionaryExt { /// <sum ...
使用C#的BitmapData
原文发布时间为:2009-01-16 -- 来源于本人的百度文章 [由搬家工具导入] 我在前两篇图片处理的文章里几乎都用BitmapData来做图片处理的，那么这个东东究竟是个什么玩意儿呢？ C#好是 ...
practical system design with mef & mef[ trans from arup.codeplex.com/]
Practical System Design using MEF MVVM RX MOQ Unit Tests in WPF Posted on May 21, 2015 by Arup Baner ...
[LeetCode] Surrounded Regions 广度搜索
Given a 2D board containing 'X' and 'O', capture all regions surrounded by 'X'. A region is captured ...
yoga安装kali备忘(连接wifi)
kali 2.0 iso win8 下安装用 WinSetupFromUSB-1-6-beta2 写入u盘,正常安装系统启动连接wifi 搜索信号,获取ssid iw wlan0 scan 查看是 ...
SQL存储过程基础
什么是存储过程呢?存储过程就是作为可执行对象存放在数据库中的一个或多个SQL命令. 通俗来讲:存储过程其实就是能完成一定操作的一组SQL语句. 那为什么要用存储过程呢?1.存储过程只在创造时进行编译, ...
C# 加载图片image --（C#）Image.FromFile 方法会锁住文件的原因及可能的解决方法
Image.FromFile 一旦使用后,对应的文件在一直调用其生成的Image对象被Disponse前都不会被解除锁定,这就造成了一个问题,就是在这个图形被解锁前无法对图像进行操作(比如删除,修改等 ...
JavaScripts广告轮播图以及定时弹出和定时隐藏广告
轮播图: 函数绑定在body标签内采用3张图,1.jpg 2.jpg 3.jpg 利用定时任务执行设置图片属性 src 利用for循环可以完成3秒一次一替换. 定时弹出广告: 由于bod ...

记一次Oracle数据故障排除过程

记一次Oracle数据故障排除过程的更多相关文章

随机推荐

热门专题