hadoop面试

hadoop.apache.org
spark.apache.org
flink.apache.org
hadoop :HDFS/YARN/MAPREDUCE

HDFS读写流程

NameNode
DataNode
SecondaryNameNode

写流程

1. 客户端请求NameNode (几副本，block大小和个数)

2 NameNode返回可以存的datanode,存储元数据信息

3. 数据按最近原则存储，DN->DN-->DN

读流程

client 请求NameNode，将元数据信息返回给客户端，客户端到最近的DataNode数据地址获取数据。

NameNode HA高可用

1. 两个NameNode ，一个active状态，一个standby 状态

2. 同一时间节点只有active提供服务

3. standy 负责同步备份active的状态。

4. 有监控器监控active，active 挂了后，standy 变成active状态。

5. 过程中用到zk

小文件

引起小文件的原因：

1. spark 任务产生大量小文件

2. reduce, task是数据设置分区太多等

3.源数据本身就有大量小文件，上传到hdfs

小文件给hadoop带来的瓶颈
1. 磁盘io问题
2. 性能问题：任务开启和销毁开销大
3. 导致NameNode大量元数据信息，消耗大量的内存

如何解决小文件问题

SQL on hadoop 业界常用框架
hive : sql => 对应的执行引擎的作业：MapRedduce/Spark/Tez
imala: 很吃内存
Presto:JD 用的多
Drill:
Phoenix:HBase(基于rowkey 查询)，可以提供2级索引
Spark SQL:Spark 社区

MetaStore：存储元数据信息

sql on hadoop 调优策略

调优：在资源不变的前提下，让作业的执行性能有提升，调两大类：CPU负载，IO负载
1.架构层面调优

分表
分区表 partition
充分利用中间结果集
压缩：
使用压缩算法“减少数据的过程”，减少磁盘IO ，网路IO
gzip
压缩在大数据中使用场景：
1.输入数据
2.中间数据
3.输出数据

前提：
1. 行式存储
2.每分钟2亿条数据
业务架构：
Flume => HDFS=> Spark ETL => Spark SQL => SQL => Spark SQL/NoSQL

分区表，多分区（d/h）分区表，多分区（d/h）

大宽表统计分析结果表供可视化结果展示
用户日志：
分区表：单级分区，多级分区，静态分区，动态分区

2. 语法层面调优
排序 order by/sort by/distribute by/cluster by
控制输出的数量（reduce/partition/task）
join:普通join/mapjoin
执行计划

3. 执行层面调优
推测执行
并行执行
JVM重用

储存方式
行式存储

列式存储:

1.相较于行式存储，列式存储的查询速度非常快。

2.数据易维护，当我们更新数据时，历史数据会有版本号，不会被改变或者消失。

3.非常适合大数据分析和高并发。

但是，缺点也很明显。列式存储在表关联上确实让人“头痛”不已。

总结下来，我突然觉得列式存储适合做数据分析，在业务繁杂的生产系统方面可能有所欠缺。

hadoop面试的更多相关文章

hadoop面试100道收集（带答案）
1.列出安装Hadoop流程步骤 a) 创建hadoop账号 b) 更改ip c) 安装Java 更改/etc/profile 配置环境变量 d) 修改host文件域名 e) 安装ssh 配置无密码登 ...
hadoop面试时可能遇到的问题
面试hadoop可能被问到的问题,你能回答出几个 ? 1.hadoop运行的原理? 2.mapreduce的原理? 3.HDFS存储的机制? 4.举一个简单的例子说明mapreduce是怎么来运行的 ...
网上找的hadoop面试题目及答案
1.Hadoop集群可以运行的3个模式? 单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM ...
hadoop面试时的一些问题解答
一. linux部分请阐述swap分区作用,您认为hadoop集群中的linux是否必须有swap分区? 答:在Linux中,如果一个进程的内存空间不足,那么,它会将内存中的部分数据 ...
Hadoop面试题目
1.Hadoop集群可以运行的3个模式? 单机(本地)模式伪分布式模式全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个 ...
Hadoop面试链接
http://blog.csdn.net/haohaixingyun/article/details/52819457 http://blog.csdn.net/kingmax54212008/art ...
Hadoop 面试总结
1.简要描述如何安装配置一个开源的hadoop,只描述即可,列出完整步骤. a.创建一个用户和用户组,用来管理hadoop项目 b.修改确定ip地址:vim /etc/sysconfig/networ ...
hadoop面试复习笔记(1)
0.Mappereduce采用的是Master/Slaves模型 1.Hadoop是一个开源软件框架,支持支持大数据集的存储和处理.Apache Hadoop是存储和处理大数据的解决方案你是因为: ( ...
【转载】Hadoop面试（1）
转自:http://www.cnblogs.com/xiaolong1032/p/4504992.html 列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入 ...

随机推荐

Adversarial Training with Rectified Rejection
目录概主要内容 rejection 实际使用代码 Pang T., Zhang H., He D., Dong Y., Su H., Chen W., Zhu J., Liu T. Advers ...
<数据结构>XDOJ.322关键路径长度
问题与解答问题描述计算AOE-网中关键路径的长度. 输入格式输入数据第一行是一个正整数,表示图中的顶点个数n(顶点将分别按0,1,-,n-1进行编号),顶点数不超过100,其中0为源点,n-1为 ...
RSA非对称加密算法实现：Python
RSA是1977年由罗纳德·李维斯特(Ron Rivest).阿迪·萨莫尔(Adi Shamir)和伦纳德·阿德曼(Leonard Adleman)一起提出的.当时他们三人都在麻省理工学院工作.RSA ...
tcpdump统计http请求并导出URL文本
tcpdump统计http请求并导出URL文本 tcpdump tcpdump是一个用于截取网络分组,并输出分组内容的工具.凭借强大的功能和灵活的截取策略,使其成为类UNIX系统下用于网络分析和问题排 ...
CAP 6.0 版本发布通告 - 支持 OpenTelemetry
前言今天,我们很高兴宣布 CAP 发布 6.0 版本正式版,在这个版本中,我们主要致力于对 OpenTelemetry 提供支持,以及更好的适配 .NET 6. 那么,接下来我们具体看一下吧. 总览 ...
HiSql 实现case语法操作新一代无实体ORM框架
HiSql 实现case语法操作在SqlServer,Oralce,Hana,PostGreSql,MySql 这些数据都支持SQL case语法,平常在实现业务开发中也会常用到,那么HiSql对于 ...
利用ajaxfileupload插件异步上传文件
html代码: <input type="file" id="imgFile" name="imgFile" /> js代码: ...
Go语言系列之自定义实现日志库
日志库logo gitee地址传送门:https://gitee.com/zhangyafeii/logo 日志库需求分析 1. 支持往不同的地方输出日志 2. 日志分级别 Debug Trace I ...
Eureka原理与架构
一.原理图 Eureka:就是服务注册中心(可以是一个集群),对外暴露自己的地址提供者:启动后向Eureka注册自己信息(地址,提供什么服务) 消费者:向Eureka订阅服务,Eureka会将对应服 ...
Keepalived高可用、四层负载均衡
目录 Keepalived高可用高可用简介常用的工具问题名称解释 VRRP协议部署keepalived 下载安装 Keepalived配置保证nginx配置一样解决keepalived的 ...