Oracle数据迁移后由列的直方图统计信息引起的执行计划异常

（一）问题背景

在使用impdp进行数据导入的时候，往往在导入表和索引的统计信息的时候，速度非常慢，因此我在使用impdp进行导入时，会使用exclude=table_statistics排除表的统计信息，从而加快导入速度，之后再手动收集统计信息。

图.impdp导入数据的时导入统计信息速度非常慢

导入语句如下：

impdp user/password directory=DUMPDIR dumpfile=TEST01.dmp logfile=TEST01.log remap_schema=TEST_USER:TEST_USER123 exclude=table_statistics

手动收集统计信息语句如下：

EXEC dbms_stats.gather_table_stats(ownname => 'LIJIAMAN',tabname => 'TEST01');

最近使用以上方法将数据还原到测试环境后，发现与生产环境执行计划存在偏差，本来应该走全表扫描的，却走了索引范围扫描。经过确认，是由于列的直方图统计信息未收集引发的执行计划偏差。

（二）列的直方图统计信息

什么是列的直方图统计信息呢？在Oracle数据库中，Oracle默认列上的值是在最小值与最大值之间均分布的，当在计算cardinatity时，会以均匀分布的方式计算，但是在实际生活中某些场景下数据并非均匀分布。举个列子，某公司有员工10000人，表A的列COL1记录员工的绩效(分别是：A、B、C、D，A最好，D最差)，那么可能A占了15%，B占了60，C占了20%，D占了5%。很明显在该场景下数据并非均匀分布，假如以均匀分布的方式去统计员工的绩效，可能会导致执行计划失准。

当列的数据分布不均匀的时候，就需要统计列上的数据分布情况，从而走出正确的执行计划，列的直方图统计信息就是记录列上的数据分布情况的。

（三）异常模拟

STEP1:创建测试表test01

create table test01

(id number,

name varchar2(10)

);

create index idx_test01_id on test01(id);

向test01中插入测试数据

begin

insert into test01 values(1,'a');

for i in 1..10 loop

insert into test01 values(2,'b');

end loop;

for i in 1..100 loop

insert into test01 values(3,'c');

end loop;

for i in 1..1000 loop

insert into test01 values(4,'d');

end loop;

commit;

end;

查看数据分布情况：

SQL> SELECT ID,NAME,COUNT(*) FROM test01 GROUP BY ID,NAME ORDER BY COUNT(*);

ID          NAME       COUNT(*)

---------- ---------- ----------

1           a          1

2           b          10

3           c          100

4           d          1000

STEP2:收集统计信息，因为上面查询过id列，故在收集统计信息的时候，会收集直方图的统计信息

EXEC dbms_stats.gather_table_stats(ownname => 'LIJIAMAN',tabname => 'TEST01');

查看是否已经收集了直方图信息，发现id列上已经收集

SQL> SELECT a.OWNER,a.TABLE_NAME,a.COLUMN_NAME,a.LOW_VALUE,a.HIGH_VALUE,a.NUM_BUCKETS,a.HISTOGRAM

2 FROM dba_tab_columns a

3 WHERE a.OWNER = 'LIJIAMAN' AND a.TABLE_NAME = 'TEST01';

OWNER     TABLE_NAME   COLUMN_NAME   LOW_VALUE     HIGH_VALUE    NUM_BUCKETS   HISTOGRAM

--------- -----------  ------------  ------------  ------------  -----------  ---------------

LIJIAMAN  TEST01       ID            C102          C105          4             FREQUENCY

LIJIAMAN  TEST01       NAME          61            64            1             NONE

查看直方图，已经将id列的4个值放入了4个bucket中：

SQL> SELECT * FROM dba_tab_histograms a WHERE a.OWNER = 'LIJIAMAN' AND a.TABLE_NAME = 'TEST01';

OWNER        TABLE_NAME    COLUMN_NAME    ENDPOINT_NUMBER    ENDPOINT_VALUE ENDPOINT_ACTUAL_VALUE

-----------  ------------  -------------  ---------------    -------------- ----------------------

LIJIAMAN     TEST01        ID                           1                 1

LIJIAMAN     TEST01        ID                          11                 2

LIJIAMAN     TEST01        ID                         111                 3

LIJIAMAN     TEST01        ID                        1111                 4

LIJIAMAN     TEST01        NAME                         0    5.036527952778

LIJIAMAN     TEST01        NAME                         1    5.192296858534

STEP3:查看id=1和id=4的执行计划，当id=1时，走索引范围扫描，当id=4时，走全表扫描

id列存在直方图统计信息，当id=1时，走索引范围扫描

id列存在直方图统计信息，当id=4时，走全表扫描

SELECT * FROM test01 WHERE ID=1

 Plan Hash Value  : 1151852672 

----------------------------------------------------------------------------------------

| Id  | Operation                     | Name          | Rows | Bytes | Cost | Time     |

----------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT              |               |    1 |     5 |    2 | 00:00:01 |

|   1 |   TABLE ACCESS BY INDEX ROWID | TEST01        |    1 |     5 |    2 | 00:00:01 |

| * 2 |    INDEX RANGE SCAN           | IDX_TEST01_ID |    1 |       |    1 | 00:00:01 |

----------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

------------------------------------------

* 2 - access("ID"=1)

SELECT * FROM test01 WHERE ID=4

 Plan Hash Value  : 262542483 

-----------------------------------------------------------------------

 | Id  | Operation           | Name   | Rows | Bytes | Cost | Time     |

-----------------------------------------------------------------------

 |   0 | SELECT STATEMENT    |        | 1000 |  5000 |    3 | 00:00:01 |

 | * 1 |   TABLE ACCESS FULL | TEST01 | 1000 |  5000 |    3 | 00:00:01 |

-----------------------------------------------------------------------

Predicate Information (identified by operation id):

 ------------------------------------------

 * 1 - filter("ID"=4)

STEP4:接下来模拟数据迁移，排除统计信息

导出表test01

expdp lijiaman/lijiaman directory=DUMPDIR tables=LIJIAMAN.TEST01 dumpfile =test01.dmp

删除原来的表：

SQL> drop table test01;

Table dropped

再次导入表，排除统计信息：

impdp lijiaman/lijiaman directory=DUMPDIR dumpfile =test01.dmp exclude=table_statistics

查看表的统计信息，不存在统计信息：

SQL> SELECT   a.OWNER,a.TABLE_NAME,a.COLUMN_NAME,a.LOW_VALUE,a.HIGH_VALUE,a.NUM_BUCKETS,a.HISTOGRAM

   2  FROM     dba_tab_columns a

   3  WHERE    a.OWNER = 'LIJIAMAN' AND a.TABLE_NAME = 'TEST01';

OWNER          TABLE_NAME      COLUMN_NAME     LOW_VALUE    HIGH_VALUE   NUM_BUCKETS HISTOGRAM

 -------------- --------------- --------------- ------------ ------------ ----------- ---------------

 LIJIAMAN       TEST01          ID                                                    NONE

 LIJIAMAN       TEST01          NAME                                                  NONE

STEP5:手动收集统计信息

EXEC dbms_stats.gather_table_stats(ownname => 'LIJIAMAN',tabname => 'TEST01');

发现统计信息已经收集，但是不存在直方图的统计信息

SQL> SELECT   a.OWNER,a.TABLE_NAME,a.COLUMN_NAME,a.LOW_VALUE,a.HIGH_VALUE,a.NUM_BUCKETS,a.HISTOGRAM

  2  FROM     dba_tab_columns a

  3  WHERE    a.OWNER = 'LIJIAMAN' AND a.TABLE_NAME = 'TEST01';

OWNER     TABLE_NAME  COLUMN_NAME  LOW_VALUE   HIGH_VALUE  NUM_BUCKETS HISTOGRAM

--------- ----------- -----------  ----------- ----------- ----------- ---------------

LIJIAMAN  TEST01      ID           C102        C105                  1 NONE

LIJIAMAN  TEST01      NAME         61          64                    1 NONE

STEP6:再次查看id=1和id=4的执行计划，当id=1或id=4时，都走索引范围扫描

id列未收集直方图统计信息，当id=1时，走索引范围扫描

id列未收集直方图统计信息，当id=4时，走索引范围扫描

SELECT * FROM test01 WHERE ID=1

 Plan Hash Value  : 1151852672 

----------------------------------------------------------------------------------------

| Id  | Operation                     | Name          | Rows | Bytes | Cost | Time     |

----------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT              |               |  278 |  1390 |    2 | 00:00:01 |

|   1 |   TABLE ACCESS BY INDEX ROWID | TEST01        |  278 |  1390 |    2 | 00:00:01 |

| * 2 |    INDEX RANGE SCAN           | IDX_TEST01_ID |  278 |       |    1 | 00:00:01 |

----------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

------------------------------------------

* 2 - access("ID"=1)

SELECT * FROM test01 WHERE ID=4

 Plan Hash Value  : 1151852672 

----------------------------------------------------------------------------------------

| Id  | Operation                     | Name          | Rows | Bytes | Cost | Time     |

----------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT              |               |  278 |  1390 |    2 | 00:00:01 |

|   1 |   TABLE ACCESS BY INDEX ROWID | TEST01        |  278 |  1390 |    2 | 00:00:01 |

| * 2 |    INDEX RANGE SCAN           | IDX_TEST01_ID |  278 |       |    1 | 00:00:01 |

----------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

------------------------------------------

* 2 - access("ID"=4)

STEP7:再次收集统计信息，因为使用过了id列作为查询条件，故再次收集统计信息时，会收集id列的直方图信息：

EXEC dbms_stats.gather_table_stats(ownname => 'LIJIAMAN',tabname => 'TEST01');

可以看到，此时已经收集了id列的直方图统计信息：

SQL> SELECT   a.OWNER,a.TABLE_NAME,a.COLUMN_NAME,a.LOW_VALUE,a.HIGH_VALUE,a.NUM_BUCKETS,a.HISTOGRAM

  2  FROM     dba_tab_columns a

  3  WHERE    a.OWNER = 'LIJIAMAN' AND a.TABLE_NAME = 'TEST01';

OWNER                          TABLE_NAME                     COLUMN_NAME                    LOW_VALUE     HIGH_VALUE    NUM_BUCKETS HISTOGRAM

------------------------------ ------------------------------ ------------------------------ ------------- ------------- ----------- ---------------

LIJIAMAN                       TEST01                         ID                             C102          C105                    4 FREQUENCY

LIJIAMAN                       TEST01                         NAME                           61            64                      1 NONE

执行计划已经按照我们想要的方式走：

id列重新收集直方图统计信息，当id=1时，走索引范围扫描

id列重新收集直方图统计信息，当id=4时，走全表扫描

SELECT * FROM test01 WHERE ID=1

 Plan Hash Value  : 1151852672 

----------------------------------------------------------------------------------------

| Id  | Operation                     | Name          | Rows | Bytes | Cost | Time     |

----------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT              |               |    1 |     5 |    2 | 00:00:01 |

|   1 |   TABLE ACCESS BY INDEX ROWID | TEST01        |    1 |     5 |    2 | 00:00:01 |

| * 2 |    INDEX RANGE SCAN           | IDX_TEST01_ID |    1 |       |    1 | 00:00:01 |

----------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

------------------------------------------

* 2 - access("ID"=1)

SELECT * FROM test01 WHERE ID=4

 Plan Hash Value  : 262542483 

-----------------------------------------------------------------------

| Id  | Operation           | Name   | Rows | Bytes | Cost | Time     |

-----------------------------------------------------------------------

|   0 | SELECT STATEMENT    |        | 1000 |  5000 |    3 | 00:00:01 |

| * 1 |   TABLE ACCESS FULL | TEST01 | 1000 |  5000 |    3 | 00:00:01 |

-----------------------------------------------------------------------

Predicate Information (identified by operation id):

------------------------------------------

* 1 - filter("ID"=4)

（四）总结

在使用expdp/impdp进行导出/导入数据的时，统计信息是非常重要的，对于大部分统计信息，我们可以在导入结束之后收集获得。但是对于列的直方图统计信息，Oracle默认收集的方式是auto，即Oracle会根据用户对列的使用情况进行判断是否收集直方图统计信息，然而数据刚迁移完成，在表还未使用的情况下收集统计信息，往往收集不到列的直方图信息，这就造成了执行计划异常，这种情况通常在下一次收集统计信息之后会有所改变。

参考文档：

DBMS_STATS With METHOD_OPT =>'..SIZE auto' May Not Collect Histograms (Doc ID 557594.1)

Oracle数据迁移后由列的直方图统计信息引起的执行计划异常的更多相关文章

Oracle数据迁移至HBase操作记录
Oracle数据迁移至HBase操作记录 @(HBase) 近期需要把Oracle数据库中的十几张表T级别的数据迁移至HBase中,过程中遇到了许多苦难和疑惑,在此记录一下希望能帮到一些有同样需求的兄 ...
Oracle数据迁移expdp/impdp
Oracle数据迁移expdp/impdp目的:指导项目侧自行进行简单的数据泵迁移工作. 本文实验环境:Oracle 11.2.0.4,利用数据库自带的scott示例用户进行试验测试. 1.首先需要创 ...
UNIQUEIDENTIFIER列上的统计信息
UNIQUEIDENTIFIER列上的统计信息非常有意思,在它上面有一些很令人讨厌的行为.我们来看下. 问题重现(The repro) 为了向你展示我们刚抱怨的行为,我用下列简单的表定义创建了一个数据 ...
Oracle数据迁移至MySQL
ORACLE DB: 11.2.0.3.0 MYSQL DB: 5.5.14 因项目需求,需要将ORACLE生产中数据迁移至MYSQL数据库中作为初始数据,方法有如下几种: 1.ORACLE OGG ...
Oracle数据迁移笔记-Rownum与序列的自增长的组合用法技巧
Rownum与序列的自增长的组合用法技巧根据序列自增长的步长规律,结合表行记录Rownum值的规则批量生成表的行记录主键的用法技巧案例如下: CREATE OR REPLACE PROCEDURE ...
oracle数据迁移之Exp和Expdp导出数据的性能对比与优化
https://wangbinbin0326.github.io/2017/03/31/oracle%E6%95%B0%E6%8D%AE%E8%BF%81%E7%A7%BB%E4%B9%8BExp%E ...
【Oracle 数据迁移】环境oracle 11gR2，exp无法导出空表的表结构【转载】
今天做数据迁移,但是发现有些空表无法exp,后来找到问题所在. [原文]:http://www.cnblogs.com/wenlong/p/3684230.html 11GR2中有个新特性,当表无数据 ...
Mysql 数据迁移后启动出错
今天上班后不知道为什么,mysql一直无法启动,折腾了半天于是决定重装我本地的server用的是wamp , 重装的时候, 要进行数据备份 , 我使用的最简单粗暴的备份方式, 就是直接进入到mysq ...
Oracle 数据迁移（从Oracle11G迁移到更高的版本号Oracle10G低版本号）
1.数据库状况生产环境是11G,linux系统,測试环境是10G,windows系统,须要从生产环境导出一个用户下全部的数据,导入測试环境中. 由于数据量比較小,准备採用EXP和IMP工具来做 ...

随机推荐

Unity3D中UGUI不使用DOTween制作渐隐渐现效果
在做UI后期设计时,我们可能要对UI做一些特效,这篇文章我们来学习下如何在Unity3d中对实现渐隐渐现的效果, 首先我们看下Unity New UI即UGUI中渐隐渐现的做法. 观察我们会发现Uni ...
贝叶斯优化(Bayesian Optimization)只需要看这一篇就够了,算法到python实现
贝叶斯优化 (BayesianOptimization) 1 问题提出神经网咯是有许多超参数决定的,例如网络深度,学习率,正则等等.如何寻找最好的超参数组合,是一个老人靠经验,新人靠运气的任务. 穷 ...
AJAX三
三.ajax 4.代参数的get方法 ①服务器 ②ajax代码 xhr.open("get",url,true) url="/demo/get_login?uname=& ...
MySQL的列约束
1.列约束 (1)主键约束——PRIMARY KEY (2)非空约束——NOT NULL 声明了非空约束的列上,不允许使用NULL (3)唯一约束——UNIQUE 声明了唯一约束的列上不能插入重复的值 ...
给DataTable添加行的几种方式
最近做项目的时候遇到向已有Table中添加另外一个Table中的某一行数据.我是采用这样思路做的: DataTable dtSource = xxxx;//获得的数据源 DataTable dtTar ...
rasdaman介绍及安装
一.分布式介绍 Rasdaman中的主节点称为Rasdaman的主机,它充当中央Rasdaman请求分派器并且控制所有服务器进程.Rasdaman管理器接收客户机请求并将这些请求分配给服务器进程.服务 ...
201771010128王玉兰《面向对象程序设计（Java）第十四周学习总结》
第一部分:理论知识总结: (1)Swing 设计模式(Design pattern)是设计者一种流行的思考设计问题的方法,是一套被反复使用,多数人知晓的,经过分类编目的,代码设计经验的总结. 使用 ...
PAT-1132 Cut Integer （整数分割）
Cutting an integer means to cut a K digits long integer Z into two integers of (K/2) digits long int ...
405 - 不允许用于访问此页的 HTTP 谓词的处理办法
今天介绍的是针对访问html页面时出现此类错误的处理办法,如果你的问题页面是其他类型,可以参考如下信息: IIS 返回 405 - 不允许用于访问此页的 HTTP 谓词.终极解决办法!!!! 1.为什 ...
自定义reaml创建使用实现认证
注意清空shiro.ini 创建User对象 package cn.zys.Bean; public class User { private Integer id; private String u ...

Oracle数据迁移后由列的直方图统计信息引起的执行计划异常

Oracle数据迁移后由列的直方图统计信息引起的执行计划异常的更多相关文章

随机推荐

热门专题