hadoop平台上HDFS和MAPREDUCE的功能、工作原理和工作过程

068郑达 2024-09-03 05:37:10 原文

作业要求来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319

1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。

HDFS常用功能

1.元数据

2.检查点

3.DataNode功能

HDFS工作原理

１　分布式文件系统，它所管理的文件是被切块存储在若干台datanode服务器上.２　hdfs提供了一个统一的目录树来定位hdfs中的文件，客户端访问文件时只要指定目录树的路径即可，不用关心文件的具体物理位置．３　每一个文件的每一个切块，在hdfs集群中都可以保存多个备份（默认３份），在hdfs-site.xml中，dfs.replication的value的数量就是备份的数量．４　hdfs中有一个关键进程服务进程：namenode，它维护了一个hdfs的目录树及hdfs目录结构与文件真实存储位置的映射关系（元数据）．而datanode服务进程专门负责接收和管理＂文件块＂－ｂｌｏｃｋ.默认大小为１２８Ｍ(可配置)(dfs.blocksize)．（老版本的hadoop的默认block是64M的）

HDFS工作过程

客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本。

MapReduce功能实现系列：

MapReduce功能实现一---Hbase和Hdfs之间数据相互转换

MapReduce功能实现二---排序

MapReduce功能实现三---Top N

MapReduce功能实现四---小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3)

MapReduce功能实现五---去重(Distinct)、计数(Count)

MapReduce功能实现六---最大值(Max)、求和(Sum)、平均值(Avg)

MapReduce功能实现七---小综合(多个job串行处理计算平均值)

MapReduce功能实现八---分区(Partition)

MapReduce功能实现九---Pv、Uv

MapReduce功能实现十---倒排索引(Inverted Index)

MapReduce功能实现十一---join

2.HDFS上运行MapReduce

1）查看是否已经安装python：

2）在/home/hadoop/路径下建立wc文件夹，在文件夹内新建mapper.py、reducer.py、run.sh和文本文件HarryPotter.txt：

好文要顶关注我收藏该文

LSpirit
关注 - 3
粉丝 - 0

0

0

«上一篇：分布式文件系统HDFS 练习

posted @ 2019-06-04 10:33 LSpirit 阅读(24) 评论(0) 编辑收藏

HDFS常用功能

1.元数据

2.检查点

3.DataNode功能

HDFS工作原理

１　分布式文件系统，它所管理的文件是被切块存储在若干台datanode服务器上.２　hdfs提供了一个统一的目录树来定位hdfs中的文件，客户端访问文件时只要指定目录树的路径即可，不用关心文件的具体物理位置．３　每一个文件的每一个切块，在hdfs集群中都可以保存多个备份（默认３份），在hdfs-site.xml中，dfs.replication的value的数量就是备份的数量．４　hdfs中有一个关键进程服务进程：namenode，它维护了一个hdfs的目录树及hdfs目录结构与文件真实存储位置的映射关系（元数据）．而datanode服务进程专门负责接收和管理＂文件块＂－ｂｌｏｃｋ.默认大小为１２８Ｍ(可配置)(dfs.blocksize)．（老版本的hadoop的默认block是64M的）

HDFS工作过程

客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本。

MapReduce功能实现系列：

MapReduce功能实现一---Hbase和Hdfs之间数据相互转换

MapReduce功能实现二---排序

MapReduce功能实现三---Top N

MapReduce功能实现四---小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3)

MapReduce功能实现五---去重(Distinct)、计数(Count)

MapReduce功能实现六---最大值(Max)、求和(Sum)、平均值(Avg)

MapReduce功能实现七---小综合(多个job串行处理计算平均值)

MapReduce功能实现八---分区(Partition)

MapReduce功能实现九---Pv、Uv

MapReduce功能实现十---倒排索引(Inverted Index)

MapReduce功能实现十一---join

hadoop平台上HDFS和MAPREDUCE的功能、工作原理和工作过程的更多相关文章

Hadoop平台上HDFS和MapReduce的功能
1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能.工作原理和工作过程. HDFS (1)第一次启动 namenode 格式化后,创建 fsimage 和 edits 文件.如果不 ...
高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南
原文:http://my.oschina.net/wstone/blog/365010#OSC_h3_13 (WJW)高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南 [X] ...
大数据学习之测试hdfs和mapreduce(二)
上篇已经搭建好环境,本篇主要测试hadoop中的hdfs和mapreduce功能. 首先填坑:启动环境时发现DataNode启动不了.查看日志从日志中可以看出,原因是因为datanode的clust ...
深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)
Hadoop是什么,为什么要学习Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运 ...
大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
转自:http://blog.csdn.net/iamdll/article/details/20998035 分类: 分布式 2014-03-11 10:31 156人阅读评论(0) 收藏举报 ...
第十一章： Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持. HDFS采用主从(Master/Slave)结构模型,一 ...
hadoop之HDFS与MapReduce
Hadoop历史雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 随后在2003 ...
Hadoop 中HDFS、MapReduce体系结构
在网络环境方面,作为分布式系统,Hadoop基于TCP/IP进行节点间的通信和传输. 在数据传输方面,广泛应用HTTP实现. 在监控.通知方面,Hadoop等分布式大数据软件则广泛使用异步消息队列等机 ...

随机推荐

css，对包含有子元素的元素进行flex后，会影响原有的布局。如何后续处理
对包含有子元素的元素进行flex后,会影响原有的布局. 例如设置两个div,第一个div包含一个img(图片),第二个div包含多个p元素(对前面的img的说明).如下图 1:当对着两个两个div进行 ...
Windows10 上安装 Anaconda 后命令提示符（cmd）下无法执行（python / pip）命令解决方案
原文:https://blog.csdn.net/qq_38644840/article/details/85064408 安装Anaconda后一段时间内能够在命令提示符(cmd)界面运行pytho ...
RSA算法二：迪菲赫尔曼公式变形
Git管理修正（取消跟踪、合并commit）
本文总结了最近使用Git时候遇到的两个问题: 1. 当将不必要跟踪的文件加入到仓库后如何处理? 2. 提交了多个功能相同的commit后如何处理? 总结经验在创建仓库的一开始,就要设置号.gitig ...
ECharts大屏可视化【词云，堆积柱状图，折线图，南丁格尔玫瑰图】
一.简介参考ECharts快速入门:https://www.cnblogs.com/yszd/p/11166048.html 二.代码实现 <!DOCTYPE html> <htm ...
python文字转语音
使用百度接口接口地址 https://ai.baidu.com/docs#/TTS-Online-Python-SDK/top 安装接口 pip install baidu-aip from aip ...
使用三层交换实现不同网段、不同 VLAN 互通
上一篇实现了使用Trunk做跨交换机VLAN通信,这一篇就试试使用三层交换实现不同网段,不同VLAN间的通信. 实验拓扑在一台三层交换机下面连接一台二层交换机,再在二层交换机下面连接两台VPC,地址 ...
Synchronized关键字和锁升级，详细分析偏向锁和轻量级锁的升级
原文链接:https://blog.csdn.net/tongdanping/article/details/79647337 1.锁升级锁的4中状态:无锁状态.偏向锁状态.轻量级锁状态.重量级锁状态 ...
ztree根据关键字模糊搜索
html页面需要引入以下资源  <script type="text/javascript" src= ...
HDU4548美素数——筛选法与空间换时间
对于数论的学习比较的碎片化,所以开了一篇随笔来记录一下学习中遇到的一些坑,主要通过题目来讲解本题围绕:素数筛选法与空间换时间 HDU4548美素数题目描述小明对数的研究比较热爱,一谈到数,脑子里 ...