hive 面试题 转载】的更多相关文章

转自:http://blog.csdn.net/ningguixin/article/details/12852051 有一张很大的表:TRLOG该表大概有2T左右TRLOG:CREATE TABLE TRLOG(PLATFORM string,USER_ID int,CLICK_TIME string,CLICK_URL string)row format delimitedfields terminated by '\t'; 数据:PLATFORM USER_ID CLICK_TIME CL…
Hive 笔试题 考试时间: 姓名:____________ 考试成绩:____________ 考试时长:180 分钟 注意事项: 1. 自主答题,不能参考任何除本试卷外的其它资料. 2. 总成绩共 200 分,共 20 题,每题 10 分,注意条理清楚.简明扼要.重点突出. 1. Hive 的架构设计与运行流程,及其各模块的主要作用是什么,请画出架构图 2. Hive 的数据模型组成,及各组成模块的应用场景,请简要描述 3. Hive 支持的文件格式和压缩格式,及其各自的特点? 4. Hiv…
目录 转载 简历篇 请自我介绍 请介绍项目 基础篇 基本功 面向对象的特征 final, finally, finalize 的区别 int 和 Integer 有什么区别 重载和重写的区别 抽象类和接口有什么区别 说说反射的用途及实现 说说自定义注解的场景及实现 HTTP 请求的 GET 与 POST 方式的区别 session 与 cookie 区别 session 分布式处理 JDBC 流程 MVC 设计思想 equals 与 == 的区别 集合 List 和 Set 区别 List 和…
Hive 最常见的几个面试题 1.hive 的使用, 内外部表的区别,分区作用, UDF 和 Hive 优化(1)hive 使用:仓库.工具(2)hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除 外部表:不加载数据到 hive 所在的 hdfs 目录,删除时,只删除表结构.(3)分区作用:防止数据倾斜(4)UDF 函数:用户自定义的函数 (主要解决格式,计算问题 ),需要继承 UDF 类java 代码实现class TestUDFHive exten…
1. Hive数据倾斜原因: key分布不均匀 业务数据本身的特性 SQL语句造成数据倾斜解决方法hive设置hive.map.aggr=true和hive.groupby.skewindata=true有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job.第一个MR Job中,Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是相同Group By Key有可能被分发到不同的Reduce中,从而达到负载均…
下面是 Java 线程相关的热门面试题,你可以用它来好好准备面试. 1) 什么是线程? 线程是操作系统能够进行运算调度的最小单位,它被包含在进程之中,是进程中的实际运作单位.程序员可以通过它进行多处理器编程,你可以使用多线程对运算密集型任务提速.比如,如果一个线程完成一个任务要 100 毫秒,那么用十个线程完成改任务只需 10 毫秒.Java 在语言层面对多线程提供了卓越的支持,它也是一个很好的卖点.欲了解更多详细信息请点击这里. 2) 线程和进程有什么区别? 线程是进程的子集,一个进程可以有很…
1.Hive是什么? Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行. 2.Hive数据结构-HDFS-Table-Partiton-Bucket Table:每个表存储在HDFS上的一个目录下 Partition(可选):每个Partition存储再Table的子目录下 Bucket(可选):某个Partition根据某个列的hash值散列到不同的Bucket中…
1.简述private.protected.public.internal修饰符的访问权限. private:私有成员,在类的内部才可以访问. protected:保护成员,该类内部和继承类中可以访问. public:公共成员,完全公开,没有访问限制. internal:当前程序集内可以访问. 2.ADO.NET中的五个主要对象 Connection:主要是开启程序和数据库之间的连接.没有利用连接对象将数据库打开,是无法从数据库中取得数据的.Close和Dispose的区别,Close以后还可以…
需要找到每个学生最好的课程和成绩,最差的课程和成绩,以及各科的平均分 文本数据如下: name scores张三 语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 李四 语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 王五 语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 朱六 语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 钱二 语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 段…
有一张很大的表:TRLOG该表大概有2T左右TRLOG:CREATE TABLE TRLOG(PLATFORM string,USER_ID int,CLICK_TIME string,CLICK_URL string)row format delimitedfields terminated by '\t'; 数据:PLATFORM USER_ID CLICK_TIME CLICK_URLWEB 12332321 2013-03-21 13:48:31.324 /home/WEB 123323…