hive提前过滤

create table sospdm.tmp_yinfei_test_01

(

    id string

)

partitioned by (statis_date string)

;

create table sospdm.tmp_yinfei_test_02

(

    id string

)

partitioned by (statis_date string)

;

select t1.*

from tmp_yinfei_test_01 t1

left join tmp_yinfei_test_02 t2

on t1.id=t2.id

where t1.statis_date='' and t2.statis_date=''

;

select t1.*

from tmp_yinfei_test_01 t1

left join tmp_yinfei_test_02 t2

on t1.id=t2.id and t1.statis_date='' and t2.statis_date=''

;

select t1.*

from

(

select * from tmp_yinfei_test_01 where statis_date=''

) t1

left join

(

select * from tmp_yinfei_test_02 where statis_date=''

) t2

on t1.id=t2.id

;

=========================test1=====================================

explain select t1.*

from tmp_yinfei_test_01 t1

left join tmp_yinfei_test_02 t2

on t1.id=t2.id

where t1.statis_date='' and t2.statis_date=''

;

hive> explain select t1.*

    > from tmp_yinfei_test_01 t1

    > left join tmp_yinfei_test_02 t2

    > on t1.id=t2.id

    > where t1.statis_date='' and t2.statis_date=''

    > ;

OK

STAGE DEPENDENCIES:

  Stage-1 is a root stage

  Stage-0 depends on stages: Stage-1

STAGE PLANS:

  Stage: Stage-1

    Map Reduce

      Map Operator Tree:

          TableScan

            alias: t1

            Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

            Filter Operator

              predicate: (statis_date = '') (type: boolean)

              Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

              Reduce Output Operator

                key expressions: id (type: string)

                sort order: +

                Map-reduce partition columns: id (type: string)

                Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

          TableScan

            alias: t2

            Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

            Reduce Output Operator

              key expressions: id (type: string)

              sort order: +

              Map-reduce partition columns: id (type: string)

              Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

              value expressions: statis_date (type: string)

      Reduce Operator Tree:

        Join Operator

          condition map:

               Left Outer Join0 to 1

          keys:

            0 id (type: string)

            1 id (type: string)

          outputColumnNames: _col0, _col6

          Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

          Filter Operator

            predicate: (_col6 = '') (type: boolean)

            Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

            Select Operator

              expressions: _col0 (type: string), '' (type: string)

              outputColumnNames: _col0, _col1

              Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

              File Output Operator

                compressed: true

                Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

                table:

                    input format: org.apache.hadoop.mapred.TextInputFormat

                    output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

                    serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0

    Fetch Operator

      limit: -1

      Processor Tree:

        ListSink

Time taken: 0.399 seconds, Fetched: 58 row(s)

结论：t2表会扫全表

=========================test2=====================================

explain select t1.*

from tmp_yinfei_test_01 t1

left join tmp_yinfei_test_02 t2

on t1.id=t2.id and t1.statis_date='' and t2.statis_date=''

;

STAGE DEPENDENCIES:

  Stage-1 is a root stage

  Stage-0 depends on stages: Stage-1

STAGE PLANS:

  Stage: Stage-1

    Map Reduce

      Map Operator Tree:

          TableScan

            alias: t1

            Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

            Reduce Output Operator

              key expressions: id (type: string)

              sort order: +

              Map-reduce partition columns: id (type: string)

              Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

              value expressions: statis_date (type: string)

          TableScan

            alias: t2

            Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

            Filter Operator

              predicate: (statis_date = '') (type: boolean)

              Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

              Reduce Output Operator

                key expressions: id (type: string)

                sort order: +

                Map-reduce partition columns: id (type: string)

                Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

      Reduce Operator Tree:

        Join Operator

          condition map:

               Left Outer Join0 to 1

          filter predicates:

            0 {(VALUE._col0 = '')}

            1

          keys:

            0 id (type: string)

            1 id (type: string)

          outputColumnNames: _col0, _col1

          Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

          File Output Operator

            compressed: true

            Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

            table:

                input format: org.apache.hadoop.mapred.TextInputFormat

                output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0

    Fetch Operator

      limit: -1

      Processor Tree:

        ListSink

结论：t1表会扫全表

=========================test3=====================================

explain select t1.*

from

(

select * from tmp_yinfei_test_01 where statis_date=''

) t1

left join

(

select * from tmp_yinfei_test_02 where statis_date=''

) t2

on t1.id=t2.id

;

STAGE DEPENDENCIES:

  Stage-1 is a root stage

  Stage-0 depends on stages: Stage-1

STAGE PLANS:

  Stage: Stage-1

    Map Reduce

      Map Operator Tree:

          TableScan

            alias: tmp_yinfei_test_01

            Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

            Filter Operator

              predicate: (statis_date = '') (type: boolean)

              Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

              Select Operator

                expressions: id (type: string), '' (type: string)

                outputColumnNames: _col0, _col1

                Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

                Reduce Output Operator

                  key expressions: _col0 (type: string)

                  sort order: +

                  Map-reduce partition columns: _col0 (type: string)

                  Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

                  value expressions: _col1 (type: string)

          TableScan

            alias: tmp_yinfei_test_02

            Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

            Filter Operator

              predicate: (statis_date = '') (type: boolean)

              Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

              Select Operator

                expressions: id (type: string)

                outputColumnNames: _col0

                Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

                Reduce Output Operator

                  key expressions: _col0 (type: string)

                  sort order: +

                  Map-reduce partition columns: _col0 (type: string)

                  Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

      Reduce Operator Tree:

        Join Operator

          condition map:

               Left Outer Join0 to 1

          keys:

            0 _col0 (type: string)

            1 _col0 (type: string)

          outputColumnNames: _col0, _col1

          Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

          File Output Operator

            compressed: true

            Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE

            table:

                input format: org.apache.hadoop.mapred.TextInputFormat

                output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0

    Fetch Operator

      limit: -1

      Processor Tree:

        ListSink

hive提前过滤重要性的更多相关文章

hive -- 协同过滤sql语句
hive -- 协同过滤sql语句数据: *.3g.qq.com|腾讯应用宝|应用商店 *.91rb.com|91手机助手|应用商店 *.app.qq.com|腾讯应用宝|应用商店 *.haina. ...
STREAMING HIVE流过滤官网例子注意中间用的py脚本
Simple Example Use Cases MovieLens User Ratings First, create a table with tab-delimited text file f ...
hive条件过滤
where 过滤 %代表任意个字符,_代表一个字符; \\ 转移字符.\\_代表下划线
Hive计算最大连续登陆天数
目录一.背景二.算法 1. 第一步:排序 2. 第二步:第二列与第三列做日期差值 3. 第三步:按第二列分组求和 4. 第四步:求最大次数三.扩展(股票最大涨停天数) 强哥说他发现了财富密码,最 ...
hadoop 数据倾斜
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有 ...
orcFile split和读数据原理总结（hive0.13）
http://blog.csdn.net/zhaorongsheng/article/details/72903431 官网关于orcfile的介绍背景 Hive的rcfile格式已经使用多年,但是 ...
DataSkew 数据倾斜
date: 2020-04-21 19:38:00 updated: 2020-04-24 10:26:00 DataSkew 数据倾斜 1. Hive 里的数据倾斜 1.1 null值空值尽量提 ...
MySQL之谓词下推
MySQL之谓词下推什么是谓词在SQL中,谓词就是返回boolean值即true或者false的函数,或是隐式转换为boolean的函数.SQL中的谓词主要有 LKIE.BETWEEN.IS NU ...
大数据SQL中的Join谓词下推，真的那么难懂？
听到谓词下推这个词,是不是觉得很高大上,找点资料看了半天才能搞懂概念和思想,借这个机会好好学习一下吧. 引用范欣欣大佬的博客中写道,以前经常满大街听到谓词下推,然而对谓词下推却总感觉懵懵懂懂,并不明白 ...

随机推荐

EventBus 3.0使用详解
01 前言当我们进行项目开发的时候,往往是需要应用程序的各组件.组件与后台线程间进行通信,比如在子线程中进行请求数据,当数据请求完毕后通过Handler或者是广播通知UI,而两个Fragment之家 ...
VBS计时器2
打开计时器,如果点击暂停,会显示你刚才事物所用的时间(以分钟为单位) dim c //控制循环 c= vbyes while c<>vbno dim a a= 60*hour(now)+m ...
SSM框架应用
一.更新用户密码功能的实现 1. 新建页面 profile.jsp,添加三个输入框和提交按钮:用户输入当前密码.输入新密码.再次确认密码和重置按钮.修改密码按钮: 2. 前台 js(JavaScrip ...
bat如何实现图片与名字匹配重命名
背景:有一批图片按顺序截取,需要按照规定的名称进行重名命. 问题:用批处理怎么实现呢?(公司电脑手动重名时,卡的不要不要的) No1:解决:将规定的名称放入criterion.txt中,将批处理Ren ...
【mongoDB高级篇①】聚集运算之group与aggregate
group 语法 db.collection.group({ key:{field:1},//按什么字段进行分组 initial:{count:0},//进行分组前变量初始化,该处声明的变量可以在 ...
继续JS之DOM对象二
前面在JS之DOM中我们知道了属性操作,下面我们来了解一下节点操作.很重要!! 一.节点操作创建节点:var ele_a = document.createElement('a');添加节点:ele ...
java内部类和异常类的概念
1.内部类的外嵌类的成员变量在内部类中任然有效,内部类中的方法也可以调用外嵌类中的方法,内部类中不可以声明类的变量和方法,外嵌的类体可以用内部类声明对象,作为外嵌类的成员.内部类仅供他的外嵌类使用. ...
SQLmap超详细文档和实例演示
第一部分,使用文档的说明 Options(选项): -h, -–help 显示此帮助消息并退出 -hh 显示更多帮助信息并退出 –-version 显示程序的版本号并退出 -v VERBOSE 详细级 ...
hdu2871 区间合并（类似poj3667）+vector应用
用vector进行插入和删除操作! 总是有些地方处理不好,对拍了才知道错在哪里,, /* 给定一些操作 reset 清空 new a ,申请最左边的连续a个空间 free a,清空a所在的块 get ...
Windows文件系统
微软在Dos/Windows系列操作系统中共使用了6种不同的文件系统(包括即将在windows的下一个版本中使用的Winfs).它们分别是:FAt12.FAT16.FAT32.NTFS.NTFS5.0 ...

hive提前过滤重要性

hive提前过滤

hive提前过滤重要性的更多相关文章

随机推荐

热门专题