OLAP 大表和小表并行hash join

一个表50MB 

一个表10GB 

50M表做驱动表,放在PGA里

这时候慢在对对 10g 的全表扫描

对10个G扫描块 需要开并行

我有这样一个算法 

一个进程 读 50mb 

8进程 来 扫描 10gb 

一个 进程扫描 1.25gb 

50MB 都分发到 8个进程

超大表和小表之间做HASH JOIN，一般会启用用并行，ORACLE在并行HASH JOIN的时候会用到很多技术，比如 HASH HASH, 或者BROADCAST

对于超大表和小表做HASH JOIN,一定要让小表进行广播(Broadcast)，通常情况下CBO会选择正确，但是如果统计信息不准，或者基数计算错误CBO选择了 HASH HASH join，这个时

候就很慢，观察现象就是它在做direct path write temp,这个时候就可以用HINT PQ_DISTRIBUTE 进行调整

PQ_DISTRIBUTE(驱动表 None, Broadcast) 如果外层表很小(HASH_AJ)，

这个时候可以用 PQ_DISTRIBUTE(驱动表 Broadcast,None)

下面就是一个具体的例子, F 是一个超大表 T 是一个小表 

SQL&get; explain plan for select /*+ parallel(f 8) parallel(t 8) use_hash(t,f) full(f) full(t) PQ_DISTRIBUTE(f HASH, HASH) */ *

  2    from crs_data_fct f

  3    JOIN crs_time_perd_fdim t ON t.TIME_PERD_ID = f.TIME_PERD_ID;

Explained.

Elapsed: 00:00:00.83

SQL&get; select * from table(dbms_xplan.display);

PLAN_TABLE_OUTPUT

----------------------------------------------------------------------------------------------------------------------------------------------------

Plan hash value: 353396990

---------------------------------------------------------------------------------------------------------------------------------------------------

| Id  | Operation                       | Name               | Rows  | Bytes | Cost (%CPU)| Time     | Pstart| Pstop |    TQ  |IN-OUT| PQ Distrib |

---------------------------------------------------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT                |                    |   239M|   696G|  8371  (20)| 00:01:58 |       |       |        |      |            |

|   1 |  PX COORDINATOR                 |                    |       |       |            |          |       |       |        |      |            |

|   2 |   PX SEND QC (RANDOM)           | :TQ10002           |   239M|   696G|  8371  (20)| 00:01:58 |       |       |  Q1,02 | P-&get;S | QC (RAND)  |

|*  3 |    HASH JOIN BUFFERED           |                    |   239M|   696G|  8371  (20)| 00:01:58 |       |       |  Q1,02 | PCWP |            |

|   4 |     PX RECEIVE                  |                    | 15808 |  1636K|    10   (0)| 00:00:01 |       |       |  Q1,02 | PCWP |            |

|   5 |      PX SEND HASH               | :TQ10000           | 15808 |  1636K|    10   (0)| 00:00:01 |       |       |  Q1,00 | P-&get;P | HASH       |

|   6 |       PX BLOCK ITERATOR         |                    | 15808 |  1636K|    10   (0)| 00:00:01 |       |       |  Q1,00 | PCWC |            |

|   7 |        TABLE ACCESS STORAGE FULL| CRS_TIME_PERD_FDIM | 15808 |  1636K|    10   (0)| 00:00:01 |       |       |  Q1,00 | PCWP |            |

|   8 |     PX RECEIVE                  |                    |   239M|   673G|  8267  (19)| 00:01:56 |       |       |  Q1,02 | PCWP |            |

|   9 |      PX SEND HASH               | :TQ10001           |   239M|   673G|  8267  (19)| 00:01:56 |       |       |  Q1,01 | P-&get;P | HASH       |

|  10 |       PX PARTITION LIST ALL     |                    |   239M|   673G|  8267  (19)| 00:01:56 |     1 |   951 |  Q1,01 | PCWC |            |

|  11 |        TABLE ACCESS STORAGE FULL| CRS_DATA_FCT       |   239M|   673G|  8267  (19)| 00:01:56 |     1 |   951 |  Q1,01 | PCWP |            |

---------------------------------------------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

   3 - access("T"."TIME_PERD_ID"="F"."TIME_PERD_ID")

Note

-----

   - dynamic sampling used for this statement (level=6)

27 rows selected.

SQL&get; explain plan for select /*+ parallel(f,8) parallel(t 8) use_hash(t,f) full(f) full(t) PQ_DISTRIBUTE(t None, Broadcast) */ *

  2    from crs_data_fct f

  3    JOIN crs_time_perd_fdim t ON t.TIME_PERD_ID = f.TIME_PERD_ID;

Explained.

SQL&get; select * from table(dbms_xplan.display);

PLAN_TABLE_OUTPUT

------------------------------------------------------------------------------------------------------------------------------------------------------

Plan hash value: 271674260

---------------------------------------------------------------------------------------------------------------------------------------------------

| Id  | Operation                       | Name               | Rows  | Bytes | Cost (%CPU)| Time     | Pstart| Pstop |    TQ  |IN-OUT| PQ Distrib |

---------------------------------------------------------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT                |                    |   239M|   696G|  8371  (20)| 00:01:58 |       |       |        |      |            |

|   1 |  PX COORDINATOR                 |                    |       |       |            |          |       |       |        |      |            |

|   2 |   PX SEND QC (RANDOM)           | :TQ10001           |   239M|   696G|  8371  (20)| 00:01:58 |       |       |  Q1,01 | P-&get;S | QC (RAND)  |

|*  3 |    HASH JOIN                    |                    |   239M|   696G|  8371  (20)| 00:01:58 |       |       |  Q1,01 | PCWP |            |

|   4 |     PX RECEIVE                  |                    | 15808 |  1636K|    10   (0)| 00:00:01 |       |       |  Q1,01 | PCWP |            |

|   5 |      PX SEND BROADCAST          | :TQ10000           | 15808 |  1636K|    10   (0)| 00:00:01 |       |       |  Q1,00 | P-&get;P | BROADCAST  |

|   6 |       PX BLOCK ITERATOR         |                    | 15808 |  1636K|    10   (0)| 00:00:01 |       |       |  Q1,00 | PCWC |            |

|   7 |        TABLE ACCESS STORAGE FULL| CRS_TIME_PERD_FDIM | 15808 |  1636K|    10   (0)| 00:00:01 |       |       |  Q1,00 | PCWP |            |

|   8 |     PX PARTITION LIST ALL       |                    |   239M|   673G|  8267  (19)| 00:01:56 |     1 |   951 |  Q1,01 | PCWC |            |

|   9 |      TABLE ACCESS STORAGE FULL  | CRS_DATA_FCT       |   239M|   673G|  8267  (19)| 00:01:56 |     1 |   951 |  Q1,01 | PCWP |            |

---------------------------------------------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):

---------------------------------------------------

   3 - access("T"."TIME_PERD_ID"="F"."TIME_PERD_ID")

Note

-----

   - dynamic sampling used for this statement (level=6)

25 rows selected.

hints:PQ_DISTRIBUTE(小表 None, Broadcast)

OLAP 大表和小表并行hash join的更多相关文章

Oracle 表的连接方式(2)-----HASH JOIN的基本机制3
HASH JOIN的模式 hash join有三种工作模式,分别是optimal模式,onepass模式和multipass模式,分别在v$sysstat里面有对应的统计信息: SQL> sel ...
并行HASH JOIN小表广播问题
SQL语句: SELECT /*+parallel(t1 16)*/ T1.DATA_DATE, T1.ACCT_NO, T1.ACCT_ORD, T1.ACCT_NO_PK, T1.ACCT_BAL ...
switch...case...语句分析（大表跟小表何时产生）
一.switch...case...的格式 switch(表达式) { case 常量表达式1: 语句; break; case 常量表达式2: 语句; break; case 常量表达式3: 语句; ...
Oracle 表的连接方式(2)-----HASH JOIN的基本机制2
Hash算法原理对于什么是Hash算法原理?这个问题有点难度,不是很好说清楚,来做一个比喻吧:我们有很多的小猪,每个的体重都不一样,假设体重分布比较平均(我们考虑到公斤级别),我们按照体重来分,划分 ...
Oracle 表的连接方式(2)-----HASH JOIN的基本机制1
我们对hash join的常见误解,一般包括两个: 第一个误解:是我们经常以为hash join需要对两个做join的表都做全表扫描第二个误解:是经常以为hash join会选择比较小的表做buil ...
小表驱动大表, 兼论exists和in
给出两个表,A和B,A和B表的数据量, 当A小于B时,用exists select * from A where exists (select * from B where A.id=B.id) ex ...
【Spark调优】小表join大表数据倾斜解决方案
[使用场景] 对RDD使用join类操作,或者是在Spark SQL中使用join语句时,而且join操作中的一个RDD或表的数据量比较小(例如几百MB或者1~2GB),比较适用此方案. [解决方案] ...
Oracle的大表,小表与全表扫描
大小表区分按照数据量的大小区分: 通常对于小表,Oracle建议通过全表扫描进行数据访问,对于大表则应该通过索引以加快数据查询,当然如果查询要求返回表中大部分或者全部数据,那么全表扫描可能仍然是最好的 ...
MySql 小表驱动大表
在了解之前要先了解对应语法 in 与 exist. IN: select * from A where A.id in (select B.id from B) in后的括号的表达式结果要求之输出一列 ...

随机推荐

DEPENDENT SUBQUERY” 和 “SUBQUERY”
http://blog.163.com/li_hx/blog/static/183991413201642410122327/ mysql> CREATE TABLE t1 (a INT, b ...
[转] 学习使用：before和：after伪元素
http://www.w3cplus.com/css3/learning-to-use-the-before-and-after-pseudo-elements-in-css.html 如果你一直密切 ...
Python开发【第二十一篇】：Web框架之Django【基础】
Python开发[第二十一篇]:Web框架之Django[基础] 猛击这里:http://www.cnblogs.com/wupeiqi/articles/5237704.html Python之 ...
Android常用组件【转】
UI相关图片 Android-Universal-Image-Loader:com.nostra13.universalimageloader:异步加载.缓存.显示图片 ImageLoader:co ...
css（动画，过渡，转换）
css3动画 @keyframes 规定动画,必须定义动画的名称,动画时长的百分比,一个或多个css样式属性以百分比来规定改变发生的时间,或者通过关键词"from"和" ...
fiddler了解
常常听到有人会所抓包什么的,自己电脑上有一段fiddler软件,但是一直没有使用,因为不了解.今天终于看视频,看博客,大致了解了fiddler这个软件,看着是非常强大啊.那么fiddler到底是什么, ...
自己动手写控件(模仿mvc htmlhelper的类)
自定义helper类,要求命名空间在 System.Web.Mvc之下,要求,静态类,静态方法,特殊生成对应html的返回字段, 传递Htmlhleper,返回特定类型返回值是MvcHtmlStri ...
OpenGL ES 3.0 点，线，三角形绘制形式总结
OpenGL ES 3.0 顶点 -1, 1, 0, -0.5f, 0, 0, 0, -1, 0, -1, 0, 0, 0.5f, 0, 0, 1, -1, ...
c++ Cout 输出格式
控制符是在头文件iomanip.h中定义的对象.使用前必须把iomanip.h包含进来 1. I/O的书写格式 I/0流是输入或输出的一系列字节,当程序需要在屏幕上显示输出时,可以使用插入操作符“&l ...
分享最近写的两条sql语句
1. 搭建基本环境插入测试数据 insert into jgdm (jgdm,jgmc) values('12300000000','河南省');insert into jgdm (jgdm,jg ...

OLAP 大表和小表并行hash join

OLAP 大表和小表并行hash join的更多相关文章

随机推荐

热门专题