【大数据面试】【框架】Hadoop-入门、HDFS

一、入门

1、常用端口号

2.x

50070：查看HDFS Web-UI

8088：查看MapReduce运行情况

19888：历史服务器

9000：hdfs客户端访问集群

50090：SecondaryNameNode

3.x：

50070-->9870

9000-->8020

3、Hadoop的8个配置文件（-site.xml、sh）

4个组成模块（common、hdfs、yarn、MapReduce）

common-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml

hadoop-env.sh yarn-env.sh mapred-env.sh slaves（不能有空行、不能有空格）

二、HDFS

1、HDFS的读写流程（笔试题）

Client-->NameNode（元数据）-->DataNode

https://www.cnblogs.com/laowangc/p/8949850.html

2、HDFS的小文件问题

1）小文件过多会带来哪些问题（会产生哪些影响）

NameNode内存：一个文件块占用namenode的内存大小为150个字节

（压缩前：一亿个小文件，就是一亿个*150个字节）

（压缩后：压缩成一个文件，即1*150字节）

（压缩方式：har归档到一个文件内《用的比较多》、自定义InputFormat，把数据放置sequenceFile中取）

【128G的nameNode能存储多少个文件块？==》128G/150字节=128*1024*1024*1024（byte）/150≈9亿】

影响分片==>影响Map Tsak的个数

（默认一个文件一个切片）

（方式1：企业采用har归档，将小文件归档，或自定义InputFormat，把数据放入sequenceFile内部）

（方式2：采用CombineInputFormat先对文件聚合，聚合后再对文件切片）

进程负载过高

解决：采用JVM重用

开始-执行任务-结束-开始-执行任务-结束==》开始-执行任务-执行任务-执行任务-执行任务-结束

如果没有小文件场景，就不要开启小文件，不然会锁死线程

（配置文件set JVM=true）

三、MapReduce

四、Yarn

【大数据面试】【框架】Hadoop-入门、HDFS的更多相关文章

大数据计算框架Hadoop, Spark和MPI
转自:https://www.cnblogs.com/reed/p/7730338.html 今天做题,其中一道是请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什 ...
大数据技术之Hadoop入门
第1章大数据概论 1.1 大数据概念大数据概念如图2-1 所示. 图2-1 大数据概念 1.2 大数据特点(4V) 大数据特点如图2-2,2-3,2-4,2-5所示图2-2 大数据特点之大量 ...
大数据技术之Hadoop（HDFS）
第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 1．基本语 ...
学习大数据基础框架hadoop需要什么基础
什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1 ...
大数据系列文章-Hadoop的HDFS读写流程（二）
在介绍HDFS读写流程时,先介绍下Block副本放置策略. Block副本放置策略第一个副本:放置在上传文件的DataNode:如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点. 第二 ...
大数据时代之hadoop(五)：hadoop 分布式计算框架（MapReduce）
大数据时代之hadoop(一):hadoop安装大数据时代之hadoop(二):hadoop脚本解析大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四): ...
Hadoop生态圈-大数据生态体系快速入门篇
Hadoop生态圈-大数据生态体系快速入门篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.大数据概念 1>.什么是大数据大数据(big data):是指无法在一定时间 ...
Spark 介绍（基于内存计算的大数据并行计算框架）
Spark 介绍(基于内存计算的大数据并行计算框架) Hadoop与Spark 行业广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持 ...
一篇了解大数据架构及Hadoop生态圈
一篇了解大数据架构及Hadoop生态圈阅读建议,有一定基础的阅读顺序为1,2,3,4节,没有基础的阅读顺序为2,3,4,1节. 第一节集群规划大数据集群规划(以CDH集群为例),参考链接: ht ...
坐实大数据资源调度框架之王，Yarn为何这么牛
摘要:Yarn的出现伴随着Hadoop的发展,使Hadoop从一个单一的大数据计算引擎,成为大数据的代名词. 本文分享自华为云社区<Yarn为何能坐实资源调度框架之王?>,作者: Java ...

随机推荐

获取客户端访问真实 IP
转载自:https://www.qikqiak.com/post/get-client-realip/ 通常,当集群内的客户端连接到服务的时候,是支持服务的 Pod 可以获取到客户端的 IP 地址的, ...
8.X 的安装配置简化体现
文章转载自:https://mp.weixin.qq.com/s/CEYYKUub81mk59B3lqAcBA 节点无需任何安全配置,即可实现 TLS 加密通信.Https 加密通信. TLS 应用于 ...
如何在Elasticsearch中使用pipeline API来对事件进行处理
一个processor就像是Logstash里的一个filter pipeline是一组processor
Linux命令系列之ls——原来最简单的ls这么复杂
Linux命令系列之ls--原来最简单的ls这么复杂 ls命令应该是我们最常用的命令之一了,但是我们可能容易忽略那些看起来最简单的东西. 简介 ls命令的使用格式如下 ls [选项] [具体的文件] ...
POJ2763 Housewife Wind （树链剖分）
差不多是模板题,不过要注意将边权转化为点权,将边的权值赋给它所连的深度较大的点. 这样操作过后,注意查询ask()的代码有所改变(见代码注释) 1 #include<cstdio> 2 # ...
2022.2.26A组总结&反思
今天的发挥比较奇妙.. T1:一眼dp+高斯消元,但是感觉细节比较多,然后先去做了T2,写完后回来推了一下就做出来了.比较裸,但是细节确实多,但是很可惜的一点是最后提交的代码没有判不合法,到手的100 ...
构造器与this、package、import关键字的使用
构造器一.构造器的作用: 1.创建对象 2.初始化对象的信息二.说明: 1.如果没有显式的定义类的构造器的话,则系统默认提供一个空参的构造器 2.定义构造器的格式:权限修饰符类名(形参列表){} ...
VS Code For Web 深入浅出 -- 进程间通信篇
在上一篇中,我们一起分析了 VS Code 整体的代码架构,了解了 VS Code 是由前后端分离的方式开发的.且无论前端是基于 electron 还是 web,后端是本地还是云端,其调用方式并无不同 ...
Linux实战笔记_CentOS7_无法识别NTFS格式的U盘
注:因为CentOS 默认不识别NTFS的磁盘格式,所以我们要借助另外一个软件ntfs-3g来挂载.自带的yum源没有这个软件,要用第三方的软件源,比如阿里的epel. #安装ntfs-3g cd / ...
某Hi3516EV300摄像头折腾笔记
最近因工作需要买了某款HI3516DV300开发板,但是价格死贵,于是在国内某著名电商网站上瞎逛,很巧发现一家店铺买摄像头模组,主控HI3516EV300,cmos是IMX335,价格不到200元,然 ...

【大数据面试】【框架】Hadoop-入门、HDFS

【大数据面试】【框架】Hadoop-入门、HDFS的更多相关文章

随机推荐

热门专题