Hadoop基础知识

牛仔裤的夏天 2024-10-11 08:00:44 原文

摘要：Hadoop的安装目录了解、etc的核心配置项、hadoop的启动、HDFS文件的block块级副本的存放策略、checkpoint触发设置。

1.hadoop目录了解

bin：可执行文件，命令启动的脚本等
sbin：系统级可执行文件，服务的启动和停止相关
etc：配置文件
lib：native本地平台相关依赖库(windows用win编译的库，linux用linux编译的库)
share：doc即文档可删除，hadoop目录即jar包分工程的存放目录

2.etc配置文件核心配置项

(1)hadoop-env.sh 环境变量
修改java环境变量
(2)core-site.xml 公共配置项
集群默认的文件系统fs.defaultFS： hdfs://namenode:9000/
hadoop进程在本地的工作目录，namenode存放元数据，datanode存放数据块：/opt/hadoop2.6.0/tmp。namenode会在tmp下创建name文件夹，datanode会在tmp下创建data文件夹。
(3)hdfs-site.xml 与hdfs运行有关参数
副本的数量dfs.replication：3
(4)mapred-site.xml 程序运行
mapreduce程序跑在哪个资源调度框架mapreduce.framework.name：yarn
(5)yarn-site.xml yarn配置项
yarn框架的主节点yarn.resourcemanager.hostname：namenode
中间数据调度机制yarn.nodemanager.aux-services：mapreduce_shuffle

3.hadoop的启动

start-all.sh 启动所有进程，一般启动如下两个：
(1)start-dfs.sh

图中可以看到各个进程监控的端口，如：namenode监听9000(rpc通信端口namenode与datanode通信)及50070(web页面端口)，
(2)start-yarn.sh

启动resourcemanager和nodemanager

4.hdfs文件的block块及副本的存放策略

传文件大小大于128M的文件到hdfs一级目录。

在namenode的dfs/name目录中的VERSION文件内容如下

在datanode的dfs/data目录中的current子级有块的信息

可以看到图4中的BP……即图3中的blockpoolID，图4中的两个block块信息即为传输到hdfs的文件，这里被拆分为两个块。第一个块文件大小为134217728/1024/1024=128M。

副本的存放策略：

1.先在客户端所连接的datanode上存放一个副本
2.再在另一个机架上选择一个datanode存放第二个副本
3.最后在本机架根据负载情况随机挑选一个datanode存放第三个副本

5.checkpoint的触发设置

●fs.checkpoint.period 指定两次checkpoint的最大时间间隔，默认3600秒。

●fs.checkpoint.size 规定edits文件的最大值，一旦超过这个值则强制checkpoint,不管是否到达最大时间间隔，默认大小是64M

Hadoop基础知识的更多相关文章

Hadoop基础知识串烧
YARN资源调度: 三种 FIFO 大任务独占一堆小任务独占 capacity 弹性分配 :计算任务较少时候可以利用全部的计算资源,当队列的任务多的时候会按照比例进行资源平衡. 容量保证:保证队 ...
Hadoop 基础知识
Hadoop 数据是存储在HDFS, Mapreduce 是一种计算框架,负责计算处理. HDFS上的数据存储默认是本地节点数据一份,同一机架不同节点一份,不同机架不同节点一份.默认是存储3份 HDF ...
Hadoop基础（一）
Hadoop 基础知识大数据已经火了很长很长时间了,从最开始是个公司都说自己公司的数据量很大,我们在搞大数据.到现在大数据真的已经非常成熟并且已经在逐渐的影响我们的生产生活.你可能听过支付宝的金融大 ...
零基础学习hadoop开发所必须具体的三个基础知识
大数据hadoop无疑是当前互联网领域受关注热度最高的词之一,大数据技术的应用正在潜移默化中对我们的生活和工作产生巨大的改变.这种改变给我们的感觉是“水到渠成”,更为让人惊叹的是大数据已经仅仅是互联网 ...
hadoop分布式存储（1）-hadoop基础概念（毕业设计）
hadoop是一种用于海量数据存储.管理.分析的分布式系统.需要hadoop需要储备一定的基础知识:1.掌握一定的linux操作命令 2.会java编程.因此hadoop必须安装在有jdk的linux ...
Linux基础知识入门
[Linux基础]Linux基础知识入门及常见命令. 前言:最近刚安装了Linux系统, 所以学了一些最基本的操作, 在这里把自己总结的笔记记录在这里. 1,V8:192.168.40.10V1: ...
大数据基础知识问答----spark篇，大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...
IM开发基础知识补课(五)：通俗易懂，正确理解并用好MQ消息队列
1.引言消息是互联网信息的一种表现形式,是人利用计算机进行信息传递的有效载体,比如即时通讯网坛友最熟悉的即时通讯消息就是其具体的表现形式之一. 消息从发送者到接收者的典型传递方式有两种: 1)一种我 ...
最全的spark基础知识解答
原文:http://www.36dsj.com/archives/61155 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduc ...

随机推荐

Windows Server 2008 R2 DNS 服务器迁移
虚拟机和windows主机中的文件共享
22:54 2015/12/22 虚拟机和windows主机中的文件共享:特别推荐:我的一个老师特别推荐的方法:在windows安装SSH Secure File Transfer Client,直接 ...
NOIP2014 uoj20解方程数论（同余）
又是数论题 Q&A Q:你TM做数论上瘾了吗 A:没办法我数论太差了,得多练(shui)啊题意题目描述已知多项式方程: a0+a1x+a2x^2+..+anx^n=0 求这个方程在[1, ...
C#_实用
1.获取当前浏览器信息HttpContext.Current.Request.Browser string browser = HttpContext.Current.Request.Browser. ...
ZeroMQ接口函数之：zmq_msg_more - 指出是不是还有更多的消息部分可以接收
ZeroMQ 官方地址 :http://api.zeromq.org/4-2:zmq_msg_more zmq_msg_more(3) ØMQ Manual - ØMQ/3.2.5 Name zmq_ ...
weinre targets none 的问题
安装了weinre之后,target 老是是none.问题就是处在localhost或者127.0.0.1. 因为手机或者虚拟机要通讯,相当于另外一台电脑,用localhost怎么能实现通讯嘛.得用本 ...
arp欺骗技术
ARP欺骗技术-获取内网目标IP访问图片! 简介: ARP(Address Resolution Protocol,地址解析协议)是一个位于TCP/IP协议栈中的网络层,负责将某个IP地址解析 ...
Django视图与网址
Django中网址是写在 urls.py 文件中,用正则表达式对应 views.py 中的一个函数(或者generic类),我们用一个项目来演示. 下载本节所有源代码: 学习编程最好的办法就是动手敲代 ...
CNUOJ 535 黑魔法师之门
先摆出题难度级别:C: 运行时间限制:1000ms: 运行空间限制:51200KB: 代码长度限制:2000000B 试题描述背景: 经过了16个工作日的紧张忙碌,未来的人类终于收集到了足够的能源 ...
linux kernel链表
参考: http://blog.csdn.net/echoisland/article/details/7079943