Hadoop面试题总结(二)——HDFS】的更多相关文章

本文基于Hadoop1.X 概述 分布式文件系统主要用来解决如下几个问题: 读写大文件 加速运算 对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整个硬盘的容量的文件,这时需要将文件分割为若干较小的块,然后将这些块按照一定的规则分放在集群中若干台节点计算机里. 分布式文件系统的另一个作用是加速运算,在多台计算机上对每个子文件进行计算最后再汇总结果通常比在一台计算机上处理大量文件的运算要块.这种分而治之的思想倡导:与其追求造价昂贵的高性能计算机,…
早期的hadoop版本,NN是HDFS集群的单点故障点,每一个集群只有一个NN,如果这个机器或进程不可用,整个集群就无法使用.为了解决这个问题,出现了一堆针对HDFS HA的解决方案(如:Linux HA, VMware FT, shared NAS+NFS, BookKeeper, QJM/Quorum Journal Manager, BackupNode等); 在HA具体实现方法不同的情况下,HA框架的流程是一致的, 不一致的就是如何存储和管理日志.在Active NN和Standby N…
找了这篇文章看了一下面试题<Spark 和hadoop的一些面试题(准备)> http://blog.csdn.net/qiezikuaichuan/article/details/51578743 其中有一道题目很不错,详见: http://www.aboutyun.com/thread-18826-1-1.html http://www.cnblogs.com/lucius/p/3483494.html 我觉得可以在Hadoop上面实际编程做一下. 我觉得第一篇文章里面下面这一段总结的很好…
首发于我的个人博客:Spark面试题(二) 1.Spark有哪两种算子? Transformation(转化)算子和Action(执行)算子. 2.Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子? 在我们的开发过程中,能避免则尽可能避免使用reduceByKey.join.distinct.repartition等会进行shuffle的算子,尽量使用map类的非shuffle算子. 这样的话,没有shuffle操作或者仅有较少shuffle操作的Spark作业,可以大大减少性能开销…
前言:圣诞节来了,我怎么能虚度光阴呢?!依稀记得,那一年,大家互赠贺卡,短短几行字,字字融化在心里:那一年,大家在水果市场,寻找那些最能代表自己心意的苹果香蕉梨,摸着冰冷的水果外皮,内心早已滚烫.这一年……我在博客园-_-#,希望用dt的代码燃烧脑细胞,温暖小心窝. 上篇<Hadoop阅读笔记(一)——强大的MapReduce>主要介绍了MapReduce的在大数据集上处理的优势以及运行机制,通过专利数据编写Demo加深了对于MapReduce中输入输出数据结构的细节理解.有了理论上的指导,仍…
Hadoop 面试题之九 16.Hbase 的rowkey 怎么创建比较好?列族怎么创建比较好? 答: 19.Hbase 内部是什么机制? 答: 73.hbase 写数据的原理是什么? 答: 75.hbase宕机如何处理? 答: 144. 如果让你设计,你觉得一个分布式文件系统应该如何设计,考虑哪方面内容: 每天百亿数据入hbase,如何保证数据的存储正确和在规定的时间里全部录入完毕, 不残留数据. 答: 149.hbase过滤器实现原则. 答: 164.介绍一下hbase过滤器. 答: 167…
Hadoop 面试题,看看书找答案,看看你能答对多少(2) 1. 下面哪个程序负责 HDFS 数据存储.a)NameNode  b)Jobtracker  c)Datanode d)secondaryNameNode e)tasktracker 答案C datanode 2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份c)1 份d)不确定 答案A默认3分 3. 下列哪个程序通常与 NameNode 在一个节点启动?a)SecondaryNameNode b)DataNode…
Apache Hadoop 2.9.2 的HDFS High Available 模式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们知道,当NameNode进程挂掉后,可以通过SecondName进行补救,我们可以快速进行恢复操作.但是其效率极低,可能等你启动集群成功后,半小时就过去了,会严重影响业务!这个时候我们就需要对NameNode做高可用.我们可以通过双NameNode消除单点故障. 一.HA概述 1>.所谓High Available,简称HA,即高可用(…
一.HDFS是什么 HDFS是hadoop集群中的一个分布式的我文件存储系统.他将多台集群组建成一个集群,进行海量数据的存储.为超大数据集的应用处理带来了很多便利. 和其他的分布式文件存储系统相比他有以下优点: 高容错:即在HDFS运行过程中,若其中一台机器宕机了,也无需担心数据的丢失,因为在存储的过程中进行了备份,备份数量可以选择,这个将在后面的博客说明. 成本低:即使配置条件不足的情况下,都可以搭建一个HDFS,对硬件的要求不高. 易扩展:若出现集群容量不足的情况,直接添加机器,进行配置即可…
一.HDFS的shell命令简介 我们都知道HDFS 是存取数据的分布式文件系统,那么对HDFS 的操作,就是文件系统的基本操作,比如文件的创建.修改.删除.修改权限等,文件夹的创建.删除.重命名等.对HDFS 的操作命令类似于lLinux 的shell 对文件的操作,如ls.mkdir.rm 等.我们在执行HDFS的shell操作的时候,一定要确定hadoop 是正常运行的,我们可以使用使用jps 命令确保看到各个hadoop 进程.我们可以执行命令hadoop fs,来查看HDFS的shel…