hadoop面试

hadoop.apache.org
spark.apache.org
flink.apache.org
hadoop :HDFS/YARN/MAPREDUCE

HDFS读写流程

NameNode
DataNode
SecondaryNameNode

写流程

1. 客户端请求NameNode (几副本，block大小和个数)

2 NameNode返回可以存的datanode,存储元数据信息

3. 数据按最近原则存储，DN->DN-->DN

读流程

client 请求NameNode，将元数据信息返回给客户端，客户端到最近的DataNode数据地址获取数据。

NameNode HA高可用

1. 两个NameNode ，一个active状态，一个standby 状态

2. 同一时间节点只有active提供服务

3. standy 负责同步备份active的状态。

4. 有监控器监控active，active 挂了后，standy 变成active状态。

5. 过程中用到zk

小文件

引起小文件的原因：

1. spark 任务产生大量小文件

2. reduce, task是数据设置分区太多等

3.源数据本身就有大量小文件，上传到hdfs

小文件给hadoop带来的瓶颈
1. 磁盘io问题
2. 性能问题：任务开启和销毁开销大
3. 导致NameNode大量元数据信息，消耗大量的内存

如何解决小文件问题

SQL on hadoop 业界常用框架
hive : sql => 对应的执行引擎的作业：MapRedduce/Spark/Tez
imala: 很吃内存
Presto:JD 用的多
Drill:
Phoenix:HBase(基于rowkey 查询)，可以提供2级索引
Spark SQL:Spark 社区

MetaStore：存储元数据信息

sql on hadoop 调优策略

调优：在资源不变的前提下，让作业的执行性能有提升，调两大类：CPU负载，IO负载
1.架构层面调优

分表
分区表 partition
充分利用中间结果集
压缩：
使用压缩算法“减少数据的过程”，减少磁盘IO ，网路IO
gzip
压缩在大数据中使用场景：
1.输入数据
2.中间数据
3.输出数据

前提：
1. 行式存储
2.每分钟2亿条数据
业务架构：
Flume => HDFS=> Spark ETL => Spark SQL => SQL => Spark SQL/NoSQL

分区表，多分区（d/h）分区表，多分区（d/h）

大宽表统计分析结果表供可视化结果展示
用户日志：
分区表：单级分区，多级分区，静态分区，动态分区

2. 语法层面调优
排序 order by/sort by/distribute by/cluster by
控制输出的数量（reduce/partition/task）
join:普通join/mapjoin
执行计划

3. 执行层面调优
推测执行
并行执行
JVM重用

储存方式
行式存储

列式存储:

1.相较于行式存储，列式存储的查询速度非常快。

2.数据易维护，当我们更新数据时，历史数据会有版本号，不会被改变或者消失。

3.非常适合大数据分析和高并发。

但是，缺点也很明显。列式存储在表关联上确实让人“头痛”不已。

总结下来，我突然觉得列式存储适合做数据分析，在业务繁杂的生产系统方面可能有所欠缺。

hadoop面试的更多相关文章

hadoop面试100道收集（带答案）
1.列出安装Hadoop流程步骤 a) 创建hadoop账号 b) 更改ip c) 安装Java 更改/etc/profile 配置环境变量 d) 修改host文件域名 e) 安装ssh 配置无密码登 ...
hadoop面试时可能遇到的问题
面试hadoop可能被问到的问题,你能回答出几个 ? 1.hadoop运行的原理? 2.mapreduce的原理? 3.HDFS存储的机制? 4.举一个简单的例子说明mapreduce是怎么来运行的 ...
网上找的hadoop面试题目及答案
1.Hadoop集群可以运行的3个模式? 单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM ...
hadoop面试时的一些问题解答
一. linux部分请阐述swap分区作用,您认为hadoop集群中的linux是否必须有swap分区? 答:在Linux中,如果一个进程的内存空间不足,那么,它会将内存中的部分数据 ...
Hadoop面试题目
1.Hadoop集群可以运行的3个模式? 单机(本地)模式伪分布式模式全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个 ...
Hadoop面试链接
http://blog.csdn.net/haohaixingyun/article/details/52819457 http://blog.csdn.net/kingmax54212008/art ...
Hadoop 面试总结
1.简要描述如何安装配置一个开源的hadoop,只描述即可,列出完整步骤. a.创建一个用户和用户组,用来管理hadoop项目 b.修改确定ip地址:vim /etc/sysconfig/networ ...
hadoop面试复习笔记(1)
0.Mappereduce采用的是Master/Slaves模型 1.Hadoop是一个开源软件框架,支持支持大数据集的存储和处理.Apache Hadoop是存储和处理大数据的解决方案你是因为: ( ...
【转载】Hadoop面试（1）
转自:http://www.cnblogs.com/xiaolong1032/p/4504992.html 列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入 ...

随机推荐

Python实现北邮人论坛模拟登录
推荐去我的博客里查看这篇文章,效果更佳: http://fuxuemingzhu.cn/2017/08/12/byrbbs-login/ 模拟登录北邮人论坛可能是每个学着写爬虫的北邮人必备技能了.在网 ...
Java用sort实现对数组的降序排序
在调用Arrays.sort()对数组进行排序时,默认是升序排序的,如果想让数组降序排序,有下面两种方法: 利用Collections的reverseOrder import java.util.*; ...
Java 计算加几个月之后的时间
Java 计算加几个月之后的时间 public static Date getAfterMonth(String inputDate,int number) { Calendar c = Calend ...
Redis的各种实现（Jedis、Redisson、Lettuce）
1.1.Jedis 是Redis的Java实现的客户端.支持基本的数据类型如:String.Hash.List.Set.Sorted Set. 特点:使用阻塞的I/O,方法调用同步,程序流需要等到so ...
【jvm】03-写了final就是常量池了么
[jvm]03-写了final就是常量池了么欢迎关注b站账号/公众号[六边形战士夏宁],一个要把各项指标拉满的男人.该文章已在github目录收录. 屏幕前的大帅比和大漂亮如果有帮助到你的话请顺手点 ...
使用uiautomatorviewer，查看app页面元素，进行元素定位
环境搭建: 安装adt,安装成功后,就可以在adt路径下的tools文件夹中找到uiautomatorviewer.bat 用来做什么? uiautomatorviewer.bat是用来扫描和分析An ...
Django_环境配置（一）
一.安装Django # 在CMD中运行 pip install django # 查看djangp版本 python manage.py version 二.创建项目 # 在CMD中运行django ...
linux修改默认的SSH远程端口22
1.编辑sshd_config文件 [root@localhost ~]# vim /etc/ssh/sshd_config 搜索 #Port 22行,删除开头的 # 字符,然后将其替换为要使用的端 ...
web.xml文件配置模板
直接贴完整代码,当然,spring的核心控制器依赖包需要通过mean提前配置 <!DOCTYPE web-app PUBLIC "-//Sun Microsystems, Inc.// ...
使用yum安装php*时报错的解决办法
# yum -y install php* 注意: php53-odbc64-5.3.3-2.el5.x86_64 from base has depsolving problems --> ...