先说一些废话

总结一下Hive面试宝典中的要点,方便读者快速过一遍Hive面试所需要的知识点。

本文请搭配 Hive面试宝典 来食用更美味哟 ┗( ▔, ▔ )┛

方便自己系统性回忆,根据*的数量来标记重要性

* 简单了解

** 熟悉掌握

*** 需要精通

  1. Hive的介绍(*)

    • Hive和Hadoop的关系
    • Hive的特点
    • Hive的缺点
    • Hive常见的应用场景
    • Hive和mysql的区别
  2. Hive的架构(*)
  3. Hive的数据(**)
    • Hive的数据模型
    • Hive的底层如何存储Null值
    • Hive中元数据metadata和元数据商店metastore)`的作用
    • Hive有哪些保存元数据metadata的方式
    • Hive元数据存储方式中,本地模式和远程模式的区别
    • Hive的数据类型
    • Hive的隐式类型转换规则
    • Hive数据存储所使用的文件格式
    • Hive中使用的压缩算法
    • 什么是数据可分割
    • 关于压缩模式说明
  4. Hive的安装与使用(*)
    • 如何在Hive中集成HBase
    • 如何通过 HiveSQL 来直接读写 HBase
  5. Hive的分区和分桶(**)
    • 什么是Hive分区
    • Hive分区的优点
    • Hive分区的缺点
    • 什么是Hive分桶
    • 关于Hive索引的说明
    • Hive分桶的优点
    • Hive分桶的缺点
    • Hive中静态分区和动态分区的区别
    • Hive动态分区的参数设定
  6. Hive的内部表和外部表(*)
    • 什么是Hive的内部表和外部表
    • Hive内部表和外部表的区别是什么
    • 生产环境中为什么建议使用外部表
  7. Hive SQL(***)
    • Hive中的SQL如何转化成MapReduce任务的
    • 什么情况下Hive不走MapReduce任务
    • Hive中如何查询A表中B表不存在的数据
    • Hive中有哪些连接查询以及如何使用
    • Hive中左连接和内连接的区别
    • Hive中左连接的底层原理
    • Hive查询时候 ON 和 WHERE 有什么区别
  8. Hive 函数(***)
    • 如何使用UDF/UDAF/UDTF
    • 为什么使用UDF/UDAF/UDTF
    • 你写过什么样的UDF/UDAF/UDT
    • Hive自定义函数实现了什么函数什么接口
    • Hive中如何去重
    • Hive中排序函数的使用方式及区别
    • 请说明以下常用函数 split / coalesce / collect list / collect set 的功能
    • 请描述工作中常用的Hive常用函数及使用场景
  9. Hive 运维(*)
    • 如何监控一个提交后的Hive状态
  10. Hive 优化(***)
    • 请说明你在工作中如何进行Hive优化
    • HiveSQL优化 ———— Hive单表查询优化
    • HiveSQL优化 ———— Hive多表查询优化
    • HiveSQL优化 ———— Hive其他查询优化
    • Hive数据倾斜 ———— 单表携带了 Group By 字段的查询
    • Hive数据倾斜 ———— 两表或多表的 join 关联时,其中一个表较小,但是 key 集中
    • Hive数据倾斜 ———— 两表或多表的 join 关联时,有 Null值 或 无意义值
    • Hive数据倾斜 ———— 两表或多表的 join 关联时,数据类型不统一
    • Hive数据倾斜 ———— 单独处理倾斜key
    • HiveJob优化 ———— HiveMap优化方案
    • HiveJob优化 ———— HiveReduce优化方案
    • Hive整体优化方案

我是 fx67ll.com,如果您发现本文有什么错误,欢迎在评论区讨论指正,感谢您的阅读!

如果您喜欢这篇文章,欢迎访问我的 本文github仓库地址,为我点一颗Star,Thanks~

转发请注明参考文章地址,非常感谢!!!

2023 Hive 面试大纲的更多相关文章

  1. BAT美团滴滴java面试大纲(带答案版)之三:多线程Lock

    继续面试大纲系列文章. 这是多线程的第二篇. 多线程就像武学中对的吸星大法,理解透了用好了可以得道成仙,俯瞰芸芸众生:而滥用则会遭其反噬. 在多线程编程中要渡的第二个“劫”,则是Lock.在很多时候, ...

  2. Java面试大纲-java面试该做哪些准备,java开发达到这样的水平可以涨工资

    Java培训结束,面临的就是毕业找工作.在找工作时,就要针对性地做充分的面试准备.准备不充分的面试,完全是浪费时间,更是对自己的不负责. 上海尚学堂Java培训整理出Java面试大纲,其中大部分都是面 ...

  3. BAT美团滴滴java面试大纲(带答案版)之三:多线程synchronized

    继续面试大纲系列文章. 从这一篇开始,我们进入ava编程中的一个重要领域---多线程!多线程就像武学中对的吸星大法,理解透了用好了可以得道成仙,俯瞰芸芸众生:而滥用则会遭其反噬. 在多线程编程中要渡的 ...

  4. 金三银四跳槽季,BAT美团滴滴java面试大纲(带答案版)之一:Java基础篇

    Java基础篇: 题记:本系列文章,会尽量模拟面试现场对话情景, 用口语而非书面语 ,采用问答形式来展现.另外每一个问题都附上“延伸”,这部分内容是帮助小伙伴们更深的理解一些底层细节的补充,在面试中可 ...

  5. BAT美团滴滴java面试大纲(带答案版)之四:多线程Lock

    每天学习一点点 编程PDF电子书.视频教程免费下载:http://www.shitanlife.com/code 这是多线程的第二篇. 多线程就像武学中对的吸星大法,理解透了用好了可以得道成仙,俯瞰芸 ...

  6. Hive面试准备

    Hive与HBase的区别Hive架构原理Hive的数据模型及各模块的应用场景Hive支持的文件格式和压缩格式及各自特点Hive内外表的区分方法及内外部差异Hive视图如何创建.特点及应用场景Hive ...

  7. C/C++程序员面试大纲

    基础篇:操作系统.计算机网络.设计模式一:操作系统 1. 进程的有哪几种状态,状态转换图,及导致转换的事件. 2. 进程与线程的区别. 3. 进程通信的几种方式. 4. 线程同步几种方式.(一定要会写 ...

  8. hive数据仓库入门到实战及面试

    第一章.hive入门 一.hive入门手册 1.什么是数据仓库 1.1数据仓库概念 对历史数据变化的统计,从而支撑企业的决策.比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源. ...

  9. hive最全学习线路和实践练习

    非原创,源自:https://www.cnblogs.com/snowbook/p/5723767.html hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念.原理 ...

  10. hive入门学习线路指导

    hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念.原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助.此篇内容较多:看完之后需要达到的目标1.hive是什 ...

随机推荐

  1. lin-view-ui Vue 2.0 组件库

    lin-view-ui 是一款基于 Vue.js 2.0 的前端 UI 组件库,主要集成了平时在开发中使用到的 UI 组件. 特性 基于 Vue 开发的 UI 组件 使用 npm + webpack ...

  2. Javascript中的继承?如何实现继承?

    一.是什么 继承(inheritance)是面向对象软件技术当中的一个概念 如果一个类别B"继承自"另一个类别A,就把这个B称为"A的子类",而把A称为&quo ...

  3. 阿里云IoT Studio升级版新增解决方案引擎 大幅提升方案交付效率

    简介: 8月25日,阿里云发布IoT Studio升级版,新增了解决方案引擎,让设备方案商复用之前搭建的解决方案模板进行简单的定制化修改,即可交付.使整个物联网解决方案的交付过程由几个月,缩短到几小时 ...

  4. WPF 探索任务管理器的进程分组逻辑

    在看到 Win10 或 Win11 的 Task Manager 任务管理器时,不知大家是否有一个疑问,在 进程 标签里的应用进程是如何分组的.为什么有些组能包含很多个不同的进程,有些只能包含一个.本 ...

  5. 2019-10-31-ASP.NET-Core-连接-GitLab-与-MatterMost-打造-devops-工具

    title author date CreateTime categories ASP.NET Core 连接 GitLab 与 MatterMost 打造 devops 工具 lindexi 201 ...

  6. 一分钟部署 Llama3 中文大模型,没别的,就是快

    前段时间百度创始人李彦宏信誓旦旦地说开源大模型会越来越落后,闭源模型会持续领先.随后小扎同学就给了他当头一棒,向他展示了什么叫做顶级开源大模型. 美国当地时间4月18日,Meta 在官网上发布了两款开 ...

  7. zabbix API笔记

    python简单demo 输出id为111主机的主机群组信息 import requests import json request_headers = {"Content-Type&quo ...

  8. 三:瑞芯微OK3399-C开发板

    场景一 给广告机加上一双智慧的眼睛,时刻关注这经过自己面前的每一个人,把他(她)们的性别.年龄.胖瘦.着装风格.经过频次.观看广告的时间.每个广告观看的人数等等一一记录下来,为广告机运营商.广告创业设 ...

  9. 【停用词】NLP中的停用词怎么获取?我整理了6种方法

    目录 一.停用词介绍 二.停用词应用场景 2.1 提取高频词 2.2 词云图 三.停用词获取方法 3.1 自定义停用词 3.2 用wordcloud调取停用词 3.3 用nltk调取停用词 3.3.1 ...

  10. cesium问题-关于不同时间模型亮度不一致问题

    项目中遇到发布的bim模型在当天不同时间的模型亮度发生变化,尤其是晚上的时候会出现模型很暗.尴了个尬,一度怀疑是自己眼睛有问题,连续几天出现同样的情况,想到可能是时间问题导致的模型亮度不同,于是测试了 ...