Hive优化面试题

对待像我这种2年开发经验的同学

一般都会被问到。在面试中，我们只要简短的介绍就好了。

首先低调一波，我可能懂的比你少，我就简单说说

1.在排序中，我们使用的是sortBy,它是基于索引，效率高于order by

2.我们在分区的时候采用静态分区，静态分区只是读取配置文件，而动态分区需要重复的读取其它分区的标识，大量的制造了不必要的开销

3.在对待groupBy的数据倾斜的方面，我们设置hive.group.sviWind=ture,这表明它会自动进行负载均衡，去除了数据倾斜的问题

4.hive比较擅长处理大文件，大文件会有效的减少过多job,task的创建，这里我们使用UDF和UDAF来处理数据。UDF是单一处理，解决BUG，UDAF是多行处理，还有UDTF，这里我们不用还是说简单说一下

是单一输入，多行输出。

5.减少job和task的数量，我们使用表的链接。

6.小表join大表

7.大表join大表，过滤空key

8.设置并行数

9.关闭推测执行

10.设置索引

在送点彩蛋，如果被问到hive中有哪些常用函数，

嗯.!有窗口函数,分析函数，比如row_number,distct,Rank,over by,lag,DENSE_RANK

Hive优化面试题的更多相关文章

Hive SQL 优化面试题整理
Hive优化目标在有限的资源下,执行效率更高常见问题: 数据倾斜 map数设置 reduce数设置其他 Hive执行 HQL --> Job --> Map/Reduce 执行计划 ...
Hive 12、Hive优化
要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解hadoop的核心能力,是hive优化的根本. 长期观察hadoop处理数据的过程,有几个显著的特征: 1. ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
Hive优化案例
1.Hadoop计算框架的特点数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map re ...
一起学Hive——总结常用的Hive优化技巧
今天总结本人在使用Hive过程中的一些优化技巧,希望给大家带来帮助.Hive优化最体现程序员的技术能力,面试官在面试时最喜欢问的就是Hive的优化技巧. 技巧1.控制reducer数量下面的内容是我 ...
大数据技术之_08_Hive学习_04_压缩和存储（Hive高级）+ 企业级调优（Hive优化）
第8章压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩 ...
大数据开发实战：Hive优化实战3-大表join大表优化
5.大表join大表优化如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题.首先引入一个具体的问题场景,然后基于此介绍各自优 ...
大数据开发实战：Hive优化实战1-数据倾斜及join无关的优化
Hive SQL的各种优化方法基本都和数据倾斜密切相关. Hive的优化分为join相关的优化和join无关的优化,从项目的实际来说,join相关的优化占了Hive优化的大部分内容,而join相关的 ...
Hadoop生态圈-hive优化手段-作业和查询优化
Hadoop生态圈-hive优化手段-作业和查询优化作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.

随机推荐

socket经典案例-发送数据
一:客户端向服务端发送数据. 服务端: package com.company.s; import java.io.*; import java.net.ServerSocket; import ja ...
Servlet 使用介绍(2)
说明本篇由于介绍Servlet容器回传请求方法service(ServletRequest req, ServletResponse res);传入参数用户请求参数request和请求返回参数res ...
18-搭建本地 Registry
Docker Hub 虽然非常方便,但还是有些限制,比如: 需要 internet 连接,而且下载和上传速度慢. 上传到 Docker Hub 的镜像任何人都能够访问,虽然可以用私有 reposito ...
MSSQL注入：显错注入及反弹注入
前言: MSSQL注入攻击是最为复杂的数据库攻击技术,由于该数据库功能十分强大,存储过程以及函数语句十分丰富,这些灵活的语句造就了新颖独特的攻击思路. MSSQL的显错注入操作: 以联合查询为例: 猜 ...
ffmpeg-python 任意提取视频帧
▶ 环境准备 1.安装 FFmpeg 音/视频工具 FFmpeg 简易安装文档 2.安装 ffmpeg-python pip3 install ffmpeg-python 3.[可选]安装 openc ...
java8-06-四大函数式接口
在使用lamdba表达式需要函数式接口的支持 java8已经提供了很多函数式接口在java.util.function包下
01-Node.js学习笔记-模块成员的导出导入
什么是Node.js Node.js是一个让javascript运行在服务端的开发平台: Node.js能做什么? 1.基于社交网络的大规模web应用: 2.命令行工具 3.交互式终端程序 4.带有图 ...
SP1716 GSS3 - Can you answer these queries III 线段树
问题描述 [LG-SP1716](https://www.luogu.org/problem/SP1716] 题解 GSS 系列的第三题,在第一题的基础上带单点修改. 第一题题解传送门在第一题的基础 ...
C语言中，关于排序的问题（输入n个数，输出最大的那个）
int n,max=0,t; scanf("%d",&n); int a[n],i,k; //这个a[n]必须要在输入n的值之后才能定义,不然定义不成. for(i=1; ...
Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column 'infor
今天在Navicat上执行SQL增删改查数据操作的时候出现了下面这个问题 Expression #1 of ORDER BY clause is not in GROUP BY clause and ...

Hive优化面试题

Hive优化面试题的更多相关文章

随机推荐

热门专题