hadoop基础题

转自：http://blog.csdn.net/pelick/article/details/8299482

//Hadoop基础

Doug Cutting所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的项目是

A． Hadoop

B． Nutch

C． Lucene

D． Solr

答案：D

配置Hadoop时，JAVA_HOME包含在哪一个配置文件中

A． hadoop-default.xml

B． hadoop-env.sh

C． hadoop-site.xml

D． configuration.xsl

答案：B

知识点：hadoop配置

Hadoop配置文件中，hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中，hadoop-site.xml被分离成三个XML文件，不包括

A． conf-site.xml

B． mapred-site.xml

C． core-site.xml

D． hdfs-site.xml

答案：A

知识点：hadoop配置

HDFS默认的当前工作目录是/user/$USER，fs.default.name的值需要在哪个配置文件内说明

A. mapred-site.xml

B. core-site.xml

C. hdfs-site.xml

D. 以上均不是

答案：B

知识点：hadoop配置

关于Hadoop单机模式和伪分布式模式的说法，正确的是

A．两者都起守护进程，且守护进程运行在一台机器上

B．单机模式不使用HDFS，但加载守护进程

C．两者都不与守护进程交互，避免复杂性

D．后者比前者增加了HDFS输入输出以及可检查内存使用情况

答案：D

知识点：hadoop配置

下列关于Hadoop API的说法错误的是

A． Hadoop的文件API不是通用的，只用于HDFS文件系统

B． Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的

C． FileStatus对象存储文件和目录的元数据

D． FSDataInputStream是java.io.DataInputStream的子类

答案：A

//HDFS

HDFS的NameNode负责管理文件系统的命名空间，将所有的文件和文件夹的元数据保存在一个文件系统树中，这些信息也会在硬盘上保存成以下文件：

A．日志

B．命名空间镜像

C．两者都是

答案：C

知识点：

HDFS的namenode保存了一个文件包括哪些数据块，分布在哪些数据节点上，这些信息也存储在硬盘上。

A．正确

B．错误

答案：B

知识点：在系统启动的时候从数据节点收集而成的

Secondary namenode就是namenode出现问题时的备用节点

A．正确

B．错误

答案：B

知识点：它和元数据节点负责不同的事情。其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并，以防日志文件过大。合并过后的命名空间镜像文件也在Secondary namenode保存了一份，以防namenode失败的时候，可以恢复。

出现在datanode的VERSION文件格式中但不出现在namenode的VERSION文件格式中的是

A. namespaceID

B. storageID

C. storageType

D. layoutVersion

答案：B

知识点：其他三项是公有的。layoutVersion是一个负整数，保存了HDFS的持续化在硬盘上的数据结构的格式版本号；namespaceID是文件系统的唯一标识符，是在文件系统初次格式化时生成的；storageType表示此文件夹中保存的是数据节点的类型

Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块

A． Client

B． Namenode

C． Datanode

D． Secondary namenode

答案：A

知识点：HDFS文件写入

HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是

A．一次写入，少次读写

B．多次写入，少次读写

C．一次写入，多次读写

D．多次写入，多次读写

答案：C

知识点：HDFS特性

HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括

A．利用SequenceFile、MapFile、Har等方式归档小文件

B．多Master设计

C． Block大小适当调小

D．调大namenode内存或将文件系统元数据存到硬盘里

答案：D

知识点：HDFS特性

关于HDFS的文件写入，正确的是

A．支持多用户对同一文件的写操作

B．用户可以在文件任意位置进行修改

C．默认将文件块复制成三份存放

D．复制的文件块默认都存在同一机架上

答案：C

知识点：在HDFS的一个文件中只有一个写入者，而且写操作只能在文件末尾完成，即只能执行追加操作。默认三份文件块两块在同一机架上，另一份存放在其他机架上。

Hadoop fs中的-get和-put命令操作对象是

A．文件

B．目录

C．两者都是

答案：C

知识点：HDFS命令

Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是

A．安全模式目的是在系统启动时检查各个DataNode上数据块的有效性

B．根据策略对数据块进行必要的复制或删除

C．当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式

D．文件系统允许有修改

答案：D

知识点：HDFS安全模式

//MapReduce

MapReduce框架提供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是

A．实现Writable接口的类是值

B．实现WritableComparable<T>接口的类可以是值或键

C． Hadoop的基本类型Text并不实现WritableComparable<T>接口

D．键和值的数据类型可以超出Hadoop自身支持的基本类型

答案：C

以下四个Hadoop预定义的Mapper实现类的描述错误的是

A． IdentityMapper<K, V>实现Mapper<K, V, K, V>，将输入直接映射到输出

B． InverseMapper<K, V>实现Mapper<K, V, K, V>，反转键/值对

C． RegexMapper<K>实现Mapper<K, Text, Text, LongWritable>，为每个常规表达式的匹配项生成一个(match, 1)对

D． TokenCountMapper<K>实现Mapper<K, Text, Text, LongWritable>，当输入的值为分词时，生成(taken, 1)对

答案：B

知识点：InverseMapper<K, V>实现Mapper<K, V, V, K>

下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是

A． FSDataInputStream扩展了DataInputStream以支持随机读

B．为实现细粒度并行，输入分片(Input Split)应该越小越好

C．一台机器可能被指派从输入文件的任意位置开始处理一个分片

D．输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割

答案：B

知识点：每个分片不能太小，否则启动与停止各个分片处理所需的开销将占很大一部分执行时间

针对每行数据内容为”Timestamp Url”的数据文件，在用JobConf对象conf设置conf.setInputFormat(WhichInputFormat.class)来读取这个文件时，WhichInputFormat应该为以下的

A． TextInputFormat

B． KeyValueTextInputFormat

C． SequenceFileInputFormat

D． NLineInputFormat

答案：B

知识点：四项主要的InputFormat类。KeyValueTextInputFormat以每行第一个分隔符为界，分隔符前为key，之后为value，默认制表符为\t

有关MapReduce的输入输出，说法错误的是

A．链接多个MapReduce作业时，序列文件是首选格式

B． FileInputFormat中实现的getSplits()可以把输入数据划分为分片，分片数目和大小任意定义

C．想完全禁止输出，可以使用NullOutputFormat

D．每个reduce需将它的输出写入自己的文件中，输出无需分片

答案：B

知识点：分片数目在numSplits中限定，分片大小必须大于mapred.min.size个字节，但小于文件系统的块

Hadoop Streaming支持脚本语言编写简单MapReduce程序，以下是一个例子：

bin/hadoop jar contrib/streaming/hadoop-0.20-streaming.jar

—input input/filename

—output output

—mapper ‘dosth.py 5’

—file dosth.py

—D mapred.reduce.tasks=1

以下说法不正确的是

A． Hadoop Streaming使用Unix中的流与程序交互

B． Hadoop Streaming允许我们使用任何可执行脚本语言处理数据流

C．采用脚本语言时必须遵从UNIX的标准输入STDIN，并输出到STDOUT

D． Reduce没有设定，上述命令运行会出现问题

答案：D

知识点：没有设定特殊的reducer，默认使用IdentityReducer

在高阶数据处理中，往往无法把整个流程写在单个MapReduce作业中，下列关于链接MapReduce作业的说法，不正确的是

A．Job和JobControl类可以管理非线性作业之间的依赖

B．ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成

C．使用ChainReducer时，每个mapper和reducer对象都有一个本地JobConf对象

D．ChainReducer.addMapper()方法中，一般对键/值对发送设置成值传递，性能好且安全性高

答案：D

知识点：ChainReducer.addMapper()方法中，值传递安全性高，引用传递性能高

//源码分析

//Zookeeper

转自：http://blog.csdn.net/pelick/article/details/8299482

//Hadoop基础

hadoop基础题的更多相关文章

Android测试基础题(三)
今天接着给大家带来的是Android测试基础题(三). 需求:定义一个排序的方法,根据用户传入的double类型数组进行排序,并返回排序后的数组俗话说的好:温故而知新,可以为师矣 packag ...
[转]《Hadoop基础教程》之初识Hadoop
原文地址:http://blessht.iteye.com/blog/2095675 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不 ...
小试牛刀3之JavaScript基础题
JavaScript基础题 1.让用户输入两个数字,然后输出相加的结果. *prompt() 方法用于显示可提示用户进行输入的对话框. 语法: prompt(text,defaultText) 说明: ...
小试牛刀2：JavaScript基础题
JavaScript基础题 1.网页中有个字符串“我有一个梦想”,使用JavaScript获取该字符串的长度,同时输出字符串最后两个字. 答案: <!DOCTYPE html PUBLIC &q ...
《Hadoop基础教程》之初识Hadoop
Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. <Hadoop基础教程> ...
HDU 1301 Jungle Roads （最小生成树，基础题，模版解释）——同 poj 1251 Jungle Roads
双向边,基础题,最小生成树题目同题目 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include<stri ...
nyist oj 79 拦截导弹 (动态规划基础题）
拦截导弹时间限制:3000 ms | 内存限制:65535 KB 难度:3 描写叙述某国为了防御敌国的导弹突击.发展中一种导弹拦截系统.可是这样的导弹拦截系统有一个缺陷:尽管它的第一发炮弹可以 ...
[转载] 《Hadoop基础教程》之初识Hadoop
转载自http://blessht.iteye.com/blog/2095675 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用 ...
hadoop基础教程免费分享
提起Hadoop相信大家还是很陌生的,但大数据呢?大数据可是红遍每一个角落,大数据的到来为我们社会带来三方面变革:思维变革.商业变革.管理变革,各行业将大数据纳入企业日常配置已成必然之势.阿里巴巴创办 ...

随机推荐

proto3语法记录
protobuf 是谷歌的语言无关,平台无关,可扩展的,高效的结构化数据序列化机制,比xml和json的序列化的速度更快,此处记录一下 proto3 的语法,防止以后忘记. 注意:proto3 语法需 ...
常见SOC启动流程分析
本文以s5pv210这款SOC为例,分析了其启动流程在s5pv210的SOC内部,存在着一个内部的ROM和一个内部的RAM 这个内部的ROM叫做 IROM,它是norflash的一种.其不同于板子上 ...
【linux】修改ip后hadoop只有四个节点的问题
学校的机房,每重启一次就会将虚拟机的某些配置还原到部署到学生机时候的状态(例如.etc/hosts文件中ip与主机名的映射),这个时候与我们前面所部署的hadoop就会产生IP不对应的状态,导致了ha ...
linux初中级命令语言
Linux:开源免费.大部分软件都可以自由获取,同样功能的软件选择较少.主要是字符模式,命令行界面且发行版本较多,难以集中攻击. Xshell与xftp是什么? xshell是一个客户端软件,我们本地 ...
sed tr 批量转换邮箱格式去除"\n" 行尾添加";"
1:从phpmyadmin上拿下来的数据是这样的: 2:od -c 发现存在\r\n (windows上编码问题) $ od -c sql.csv 先将\r处理掉 $ sed 's/\r//' sql ...
不破不立，祝贺EDG夺得S11冠军。这一夜，我看到太多Flag成真
在昨晚11月6号夜进行的2021英雄联盟S11总决赛中,中国战队EDG夺冠!全国各地高校的男生宿舍像过年一般庆祝夺冠,高呼:EDG世界冠军! 前三局1:2的劣势下,第四局十分胶着,最终EDG顽 ...
springboot利用mock进行junit单元测试，测试controller
1 spring-boot-starter-test内置mockito,添加pom依赖 <dependency> <groupId>org.springframework.b ...
PLSQL批量执行SQL文件方法
当需要执行多个sql文件,或者某个脚本中,sql语句数量很多时,手动逐个逐条执行不是一个明智的选择. PLSQL为我们提供了便捷的工具.使用方式如下: [工具]--[导入表]--[SQL插入]--[选 ...
c++学习笔记(十一)
函数重载(overloading) 概念重载函数是函数的一种特殊情况,为方便使用,C++允许在同一范围中声明几个功能类似的同名函数,但是这些同名函数的形式参数(指参数的个数.类型或者顺序)必须不同, ...
CF264BGood Sequences
CF264BGood Sequences 题面大意寻找最长递增字串,使得相邻两个数不互质. 思路动态规划思想,ans记录当前的数以下标i为约数答案,使得需要填进去的数肯定与前一个数不互质.在开始 ...

hadoop基础题

hadoop基础题的更多相关文章

随机推荐

热门专题