一、Hadoop概念及架构

1、是否看过Hadoop源码

2、正常工作的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别是什么

3、hadoop和spark中的文件缓存方式

4、hadoop各组件之间通信Rpc协议

5、Hadoop的读数据流程

6、对Hadoop生态圈中的哪些技术比较了解

其他问法:你了解的hadoop生态圈的框架,及其大概在怎样的一个位置

7、列出几个配置文件优化hadoop,怎么做数据平衡

8、关于hadoop相关的调优

9、Hadoop启动的时候都有哪些进程,进程名称

10、Hadoop是什么

11、hadoop的块大小,从哪个版本开始是128M

12、Hadoop数据倾斜问题

13、hadoop中定义的主要共用InputFormats中,哪一个是默认值

14、hadoop任务中,什么是InputSplit?

15、Hadoop中job和Tasks之间的区别是什么?

16、请描述hadoop2.x中HDFS的高可用架构(high availability)是如何实现的。

17、简述Apache原生Hadoop,CDH,HDP的区别。

18、Hadoop的分片机制 为什么进行分片 有啥好处 是基于什么原理分片的

19、Hadoop保存文件的特性 :分片 备份

20、hadoop中的combine函数的作用?

21、hadoop的TextInputFormat作用是什么,如何自定义实现

22、请说明hadoop为何不适合存情大量小文件。假如有小文件存储需求如何优化。

23、常见端口号和配置文件

24、hadoop shuffle过程

25、Hadoop的适用场景?比如说适用于OLAP还是OLTP

二、HDFS

1、传输过程中DataNode挂掉怎么办

2、介绍一下HDFS的存储过程

3、 HDFS是一个分布式文件系统,其适合的读写任务是

4、HDFS 的体系结构

5、传统的关系型数据库和Hadoop有什么区别?

6、怎么查看某个目录下的小文件

三、MapReduce

1、MapReduce工作的各个阶段

2、如果没有定义partitioner,那数据在被送达reduce前是如何被分区的?

3、map端的一个分区数据如果有大量的重复,怎么去重?

4、手写MapReduce

四、Yarn

1、namenode、datanode、secondnamenode怎么协作的?

2、hadoop的namenode.2NN.hafs的文件 上传

五、实操部分

1、详解Hadoop的WordCount

2、hadoop二次排序

3、小表关联大表怎么实现的|切片,shuffle,reduce阶段,map阶段,Yarn流程

4、hadoop 实现TopN

5、Hadoop是自己搭的吗,用的什么版本?hadoop、flume、kafka、sqoop、spark版本号

6、有没有使用OZ调度hadoop任务

7、hadoop命令:创建、查看文件、列出文件状态

8、在处理10pb级别的数据时,大概需要的集群配置,计算瓶颈,解决方案

【Hadoop面试】基础概念、HDFS、MapReduce、Yarn、实战的更多相关文章

  1. 大数据学习笔记之Hadoop(三):MapReduce&YARN

    文章目录 一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 Ma ...

  2. [hadoop] 一些基础概念

    一.云的概念 1.云计算的概念 随时 随地 使用任何设备 获得任何服务 2.趋势 )资料开始回归集中处理(存储大量资料) 随时存取 降低遗失风险 减少传输成本 促进团队协作 )网页变为预设开发平台(网 ...

  3. hadoop集群之HDFS和YARN启动和停止命令

    假如我们只有3台linux虚拟机,主机名分别为hadoop01.hadoop02和hadoop03,在这3台机器上,hadoop集群的部署情况如下: hadoop01:1个namenode,1个dat ...

  4. Hadoop学习基础之三:MapReduce

    现在是讨论这个问题的不错的时机,因为最近媒体上到处充斥着新的革命所谓“云计算”的信息.这种模式需要利用大量的(低端)处理器并行工作来解决计算问题.实际上,这建议利用大量的低端处理器来构建数据中心,而不 ...

  5. Java面试基础概念总结

    面向对象软件开发的优点有哪些? 答:开发模块化,更易维护和修改:代码之间可以复用:增强代码的可靠性.灵活性和可理解性. 多态的定义? 答:多态是编程语言给不同的底层数据类型做相同的接口展示的一种能力. ...

  6. 大数据 - hadoop基础概念 - HDFS

    Hadoop之HDFS的概念及用法 1.概念介绍 Hadoop是Apache旗下的一个项目.他由HDFS.MapReduce.Hive.HBase和ZooKeeper等成员组成. HDFS是一个高度容 ...

  7. 【原创】大数据基础之Hadoop(2)hdfs和yarn最简绿色部署

    环境:3结点集群 192.168.0.1192.168.0.2192.168.0.3 1 配置root用户服务期间免密登录 参考:https://www.cnblogs.com/barneywill/ ...

  8. Hadoop优化 第一篇 : HDFS/MapReduce

    比较惭愧,博客很久(半年)没更新了.最近也自己搭了个博客,wordpress玩的还不是很熟,感兴趣的朋友可以多多交流哈!地址是:http://www.leocook.org/ 另外,我建了个QQ群:3 ...

  9. 【Hadoop离线基础总结】MapReduce入门

    MapReduce入门 Mapreduce思想 概述 MapReduce的思想核心是分而治之,适用于大量复杂的任务处理场景(大规模数据处理场景). 最主要的特点就是把一个大的问题,划分成很多小的子问题 ...

  10. 【Hadoop离线基础总结】MapReduce增强(下)

    MapReduce增强(下) MapTask运行机制详解以及MapTask的并行度 MapTask运行流程 第一步:读取数据组件InputFormat(默认TextInputFormat)会通过get ...

随机推荐

  1. windows系统下使用bat脚本文件设置 tomcat 系统环境变量

    说明:在一个bat文件中设置tomcat环境变量后,不能直接使用,需要另起一个bat文件才能使用 号开头的行不要写在bat文件中 # tomcat1.bat # 这个bat文件实现的功能:设置环境变量 ...

  2. kubernetes 查看pod 的容器日志

    1.pod若处于运行状态,则通过kubectl logs 即可 # 查看指定pod的日志 kubectl logs <pod_name> kubectl logs -f <pod_n ...

  3. 通过使用nginx来实现logstash的负载均衡

    文章转载自:https://blog.csdn.net/UbuntuTouch/article/details/106813223 总结: nginx配置,192.168.0.5 user nginx ...

  4. flask中验证用户登录的装饰器

    from flask import Flask,render_template,redirect,request,session from functools import wraps app = F ...

  5. Kibana:如何周期性地为 Dashboard 生成 PDF Report

    转载自:https://blog.csdn.net/UbuntuTouch/article/details/108449775 按照上面的方式填写.记得把之前的 URL 拷贝到 webhook 下的 ...

  6. Redis实现布隆过滤器解析

    布隆过滤器原理介绍 [1]概念说明 1)布隆过滤器(Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合 ...

  7. P1600 [NOIP2016 提高组] 天天爱跑步 (树上差分)

    对于一条路径,s-t,位于该路径上的观察员能观察到运动员当且仅当以下两种情况成立:(d[ ]表示节点深度) 1.观察员x在s-lca(s,t)上时,满足d[s]=d[x]+w[x]就能观察到,所以我们 ...

  8. github使用Webhooks实现自动化部署

    参考: https://blog.csdn.net/u013764814/article/details/85240752 -------------------------------------- ...

  9. 云计算_OpenStack

    部署方式-Fuel 注:部署失败且Fuel方式已过时. 部署方式-packstack 注:基于系统版本CentOS 7.9 2009部署 系统基本设置 设置静态IP=192.168.80.60 设置h ...

  10. 齐博x1标签实例:标签如何调用论坛内容

    论坛的内容不像CMS其它模块可以直接用变量 {$rs.content} 因为论坛的内容数据表是放在另一个表的,单独分开的. 当前也是为了考试效率问题而这样设计的. 所以他的调用要用下面的代码 {:fu ...