大数据面试（HR电话了解）

1什么是HA集群？

所谓HA，即高可用（7*24小时不中断服务）

HA集群是hadoop高可用集群，即有两个namenode，一个active，一个stanby，active的name挂掉之后，stanby的namenode就会切换成active，

最关键的是消除单节点故障

双namenode协调工作的要点：

　　　A、元数据管理方式需要改变：

　　　　内存中各自保存一份元数据

　　　　Edits日志只能有一份，只有Active状态的namenode节点可以做写操作

　　　　两个namenode都可以读取edits

　　　　共享的edits放在一个共享存储中管理（qjournal和NFS两个主流实现）

　　　B、需要一个状态管理功能模块

　　　　实现了一个zkfailover，为一个守护进程，常驻在每一个namenode所在的节点

　　　　每一个zkfailover负责监控自己所在namenode节点，利用zk进行状态标识

　　　　当需要进行状态切换时，由zkfailover来负责切换

　　　　切换时需要防止brain split现象的发生（脑裂）

2HA的两个namenode之间是怎么进行切换的？

　　　　实现了一个zkfailover，为一个守护进程，常驻在每一个namenode所在的节点

　　　　每一个zkfailover负责监控自己所在namenode节点，利用zk进行状态标识

　　　　当需要进行状态切换时，由zkfailover来负责切换

　　　　切换时需要防止brain split现象的发生（脑裂）

3.yarn包括了什么？

YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。

ResourceManager 还与 ApplicationMaster 一起分配资源，与 NodeManager 一起启动和监视它们的基础应用程序。

ApplicationMaster 管理一个在 YARN 内运行的应用程序的每个实例。ApplicationMaster 负责协调来自 ResourceManager 的资源，

并通过 NodeManager 监视容器的执行和资源使用 (CPU、内存等的资源分配）。

NodeManager 管理一个 YARN 集群中的每个节点。NodeManager 提供针对集群中每个节点的服务，从监督对一个容器的终生管理到监视资源和跟踪节点健康。

4.hive的sql语句你掌握多少？

5.hive的数据保存在哪里？

Hive的数据分为表数据（数据源），元数据，

表数据是Hive中表格(table)具有的数据;

而元数据是用来存储表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等

数据源存储在HDFS上，元数据存在在mysql中

6.hive的数据可以导出到哪里？

1.导出到本地文件系统。

2.导出到HDFS中；

3.导出到Hive的另外一个表中。

4.hive与hbase整合，把数据导入hbase

5.将数据打出到HDFS，在通过sqoop将数据导出到mysql

7.flume是干嘛的？

flume的三大组件：Sources(输入端口)，Channle(管道或传输频道)，Sink(输出端口)

还可以配合拦截器

flume负责采集数据，如日志文件，普通文件等

把数据采集到控制台，HDFS，hive，hbase等

8.设置了几个副本？

没有设置，默认为3个

大数据面试（HR电话了解）的更多相关文章

面试系列二：精选大数据面试真题JVM专项-附答案详细解析
公众号(五分钟学大数据)已推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型: ...
[java大数据面试] 2018年4月百度面试经过+三面算法题:给定一个数组,求和为定值的所有组合.
给定一个数组,求和为定值的所有组合, 这道算法题在leetcode应该算是中等偏下难度, 对三到五年工作经验主要做业务开发的同学来说, 一般较难的也就是这种程度了. 简述经过: 不算hr面,总计四面, ...
Hadoop大数据面试--Hadoop篇
本篇大部分内容參考网上,当中性能部分參考:http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performanc ...
大数据技术 - MapReduce的Shuffle及调优
本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解释是 “洗牌”,顾名思义该过程涉及数据的重新分配,主要 ...
2019上海爱奇艺大数据Java实习生-面试记录
目录一轮电话面试二轮代码笔试三轮技术面试总结附:电话面试问题点解惑补充:面试未通过一轮电话面试 2019.04.28 16:21 [w]:面试官,[m]:我,下面的内容来自电话录 ...
java面试(2)--大数据相关
第一部分.十道海量数据处理面试题 1.海量日志数据,提取出某日访问百度次数最多的那个IP. 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中.注意到IP是32位的,最多有个2^ ...
大数据测试之ETL测试工具和面试常见的问题及答案
转载自: http://www.51testing.com/html/87/n-3722487.html 概述商业信息和数据对于任何一个企业而言都是至关重要的.现在很多公司都投入了大量的人力.资金和 ...
PHP 面试服务器优化和大数据
服务器配置优化系统参数调整 Linux 系统内核参数优化 vim /etc/sysctl.conf net.ipv4.ip_local_port_range = 1024 65535 # 用户端口范 ...
大数据Spark超经典视频链接全集
论坛贴吧等信息发布参考模板 Scala.Spark史上最全面.最详细.最彻底的一整套视频全集(特别是机器学习.Spark Core解密.Spark性能优化.Spark面试宝典.Spark项目案例等). ...

随机推荐

从零开始的全栈工程师——js篇2.16
js操作css样式 div.style.width=“200px” 在div标签内我们添加了一个style属性并设定了width值这种写法会给标签带来了大量的style属性跟实际项目是不符的我 ...
从零开始的全栈工程师——js篇2.12（面向对象）
面向对象 Js一开始就是写网页特效,面向过程的,作者发现这样写不好,代码重复利用率太高,计算机内存消耗太大,网页性能很差. 所以作者就收到java和c的影响,往面向对象靠齐.Js天生有一个Object ...
深入剖析javaScript中的深拷贝和浅拷贝
如何区分深拷贝与浅拷贝,简单来说,假设B复制了A,当修改A时,看B是否会发生变化,如果B也跟着变了,说明这是浅拷贝,如果B没变,那就是深拷贝:我们先看两个简单的案例: //案例1(深拷贝) var a ...
IOS view拖拽（触摸事件）
• iOS中的事件可以分为3大类型触摸事件加速计事件远程控制事件响应者对象 • 在iOS中不是任何对象都能处理事件,只有继承了UIResponder的对象才能接收并处理事件.我们称之为“响应 ...
java +selenuim使用js显示控件
操作selenium控件时,往往需要有些控件提前显示,特别是后台的一些控件,或者需要使用鼠标显示下拉的操作,有时鼠标悬停,在点击不怎么好使,就可以依靠js方式,提前让控件显示. 1.使用style的方 ...
bzoj3242 [Noi2013]快餐店
Description 小T打算在城市C开设一家外送快餐店.送餐到某一个地点的时间与外卖店到该地点之间最短路径长度是成正比的,小T希望快餐店的地址选在离最远的顾客距离最近的地方. 快餐店的顾客分布在城 ...
python_69_内置函数1
#abs()取绝对值 ''' all(iterable) Return True if all elements of the iterable are true (or if the iterabl ...
Andrew NG 自动化所演讲(20140707)：DeepLearning Overview and Trends
出处以下内容转载于网友 Fiona Duan,感谢作者分享 (原作的图片显示有问题,所以我从别处找了一些附上,小伙伴们可以看看).最近越来越觉得人工智能,深度学习是一个很好的发展方向,应该也是未来 ...
kernel
http://sebastianraschka.com/Articles/2014_kernel_pca.html
移动端rem匹配
Rem是相对于根元素font-size大小的单位记inphone5屏幕宽度是 320px font-size16px 1rem=16px <html> <head> ...

大数据面试（HR电话了解）

大数据面试（HR电话了解）的更多相关文章

随机推荐

热门专题