Hadoop：什么是Hadoop??

官方讲解：

Apache Hadoop 为可靠的，可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集（海量的数据）。

个人理解：

Hadoop就是一些模块的相对简称!! 那Hadoop到底指的哪些模块？？以及他们是干嘛的？？

Hadoop内的一些模块指的是这些：

Hadoop Common：支持其他Hadoop模块的常用工具。

Hadoop 分布式文件系统（HDFS）：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。

Hadoop YARN：作业调度和集群资源管理的框架。

Hadoop MapReduce：一种用于并行处理大型数据集的基于YARN的系统。

而他们是干什么的？如下：

（1）hdfs：就是一个文件系统，可以存储海量的数据。

（2）mapreduce：从海量的数据中，通过一定的算法，计算出有用信息。

（3）hive：就是sql语句解释器，接收用户输入的sql语句，然后将该sql语句翻译成复杂的mapreduce程序，并发布到mr集群中进行运算，也是计算出有用的信息。

（4）hbase：mysql是基于linux/window的文件系统的数据库，而hbase就是基于hdfs文件系统的数据库。

（5）flume：就是一个水泵，将水从一个源水坑，抽到到另一个目的水坑中。当然flume抽的是 “数据”。将数据从一个文件中抽取到另一个文件中。

（6）sqoop：将hdfs文件系统的文件，导出到linux文件系统的文件中。就像“豌豆荚”应用程序，实现 android系统与window系统之间文件的导入导出。

（7）ooize/azkaban：一个完整的业务（work）是由多个任务（task）相互配合完成的。该组件就是负责协调各个task的执行顺序。

**** 其中重点组件如下（重点！！这是你该学的！）****：

HDFS：分布式文件系统

MAPREDUCE：分布式运算程序开发框架

HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具

HBASE：基于HADOOP的分布式海量数据库

ZOOKEEPER：分布式协调服务基础组件

Mahout：基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie：工作流调度框架

Sqoop：数据导入导出工具

Flume：日志数据采集框架

Hadoop的核心组件( 注意!! 是核心组件! 就是最重要的几个东西!! )有:

HDFS（分布式文件系统）

YARN（运算资源调度系统）

MAPREDUCE（分布式运算编程框架）

Hadoop：什么是Hadoop??的更多相关文章

【从零开始学习Hadoop】--1.Hadoop的安装
第1章 Hadoop的安装1. 操作系统2. Hadoop的版本3. 下载Hadoop4. 安装Java JDK5. 安装hadoop6. 安装rsync和ssh7. 启动hadoop8. 测试had ...
从零自学Hadoop(11)：Hadoop命令上
阅读目录序概述 Hadoop Common Commands User Commands Administration Commands File System Shell 引用系列索引本文版 ...
从零自学Hadoop(12)：Hadoop命令中
阅读目录序 HDFS Commands User Commands Administration Commands Debug Commands 引用系列索引本文版权归mephisto和博客园共 ...
Hadoop：部署Hadoop Single Node
一.环境准备 1.系统环境 CentOS 7 2.软件环境 OpenJDK # 查询可安装的OpenJDK软件包[root@server1] yum search java | grep jdk... ...
【hadoop】——修改hadoop FileUtil.java，解决权限检查的问题
在Hadoop Eclipse开发环境搭建这篇文章中,第15.)中提到权限相关的异常,如下: 15/01/30 10:08:17 WARN util.NativeCodeLoader: Unable ...
Maven构建Hadoop Maven构建Hadoop工程
一.安装maven linux eclipse3.6.1 maven安装二:官网依赖库我们可以直接去官网查找我们需要的依赖包的配置pom,然后加到项目中. 官网地址:http://mvnrepos ...
hadoop入门：hadoop使用shell命令总结
第一部分:Hadoop Bin后面根据项目的实际需要Hadoop Bin 包括:Hadoop hadoop的Shellhadoop-config.sh 它的作用是对一些变量进行赋值 HAD ...
何时使用hadoop fs、hadoop dfs与hdfs dfs命令(转)
hadoop fs:使用面最广,可以操作任何文件系统. hadoop dfs与hdfs dfs:只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后 ...
学习hadoop，搭建hadoop遇到一些特殊问题
我执行下面步骤: 1. 动态增加DataNode节点和TaskTracker节点以host9为例在host9上执行: 指定主机名 vi /etc/hostname 指定主机名到IP地址的映射 ...
何时使用hadoop fs、hadoop dfs与hdfs dfs命令
hadoop fs:使用面最广,可以操作任何文件系统. hadoop dfs与hdfs dfs:只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后 ...

随机推荐

SUSE 11sp3镜像制作
在安装过程遇到的问题: 起初采用官网推荐的virt-install工具,客户端没有用virt-manager或者virt-view一直无法进行操作系统安装,于是改用,直接启动虚拟机,便ok了. 1.环 ...
Linux进阶之TCP三次握手四次挥手
TCP(Transfer control protocol)传输控制协议一.两种传输模式: TCP面向有连接可靠常用于点对点微信 UDP面向无连接高速常用于点对面直播二.数据方向: 在 ...
golang快速入门（五）初尝web服务
提示:本系列文章适合对Go有持续冲动的读者初探golang web服务 golang web开发是其一项重要且有竞争力的应用,本小结来看看再golang中怎么创建一个简单的web服务. 在不适用we ...
GO学习-(25) Go操作Redis实战
Go操作Redis实战安装Redis客户端 Go语言中使用第三方库https://github.com/go-redis/redis连接Redis数据库并进行操作.使用以下命令下载并安装: go ...
node.js学习(2)函数
1 简答函数 2 匿名函数 3 回调函数
201871030136-颜静实验三结对项目—《D{0-1}KP 实例数据集算法实验平台》项目报告
项目内容课程班级博客链接 https://edu.cnblogs.com/campus/xbsf/2018CST/ 这个作业要求链接 https://www.cnblogs.com/nwnu- ...
前端基础——js数据类型及判断方法
一.数据类型我们通常熟知的数据类型有六种,包括5种基本数据类型(Number, String, Boolean, Undefined, Null)和一种引用数据类型(Object).ES6又新增了一 ...
MegEngine推理性能优化
MegEngine推理性能优化 MegEngine「训练推理一体化」的独特范式,通过静态图优化保证模型精度与训练时一致,无缝导入推理侧,再借助工业验证的高效卷积优化技术,打造深度学习推理侧极致加速方案 ...
Tensor Core技术解析（上）
Tensor Core技术解析(上) NVIDIA在SIGGRAPH 2018上正式发布了新一代GPU架构--Turing(图灵),黄仁勋称Turing架构是自2006年CUDA GPU发明以来最大的 ...
开放式神经网络交换-ONNX（下）
开放式神经网络交换-ONNX(下) 计算节点由名称.它调用的算子operator的名称.命名输入的列表.命名输出的列表和属性列表组成. 输入和输出在位置上与算子operator输入和输出相关联.属性通 ...

Hadoop：什么是Hadoop??

Hadoop：什么是Hadoop??的更多相关文章

随机推荐

热门专题