hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Hadoop是一个专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。

Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。

用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替。

hadoop使用java编写，版本较为混乱，初学者可从1.2.1开始学习

1.成百上千台服务器组成集群，需要时刻检测服务器是否故障

2.用流读取数据更加高效快速

3.存储节点具有运算功能，省略了服务器之间来回传数据的网络带宽限制

4.一次写入，多次访问，不修改数据

5.多平台

namenode:master，负责总体调度，处理协调请求等

（一个集群只能有一个namenode，但是可以多个集群组成一个更大的集群，这时就有多个namenode，这时的namenode有两种状态，一种叫active并且一个大集群只能有一个namenode处于该状态，一种为standby）

namenode两大功能：接受客户端读写服务，存放元数据（DataNode存储的位置等基本信息，fsimage和edits文件）

fsimage是namenode格式化时产生的，edits是用户操作增删改查的时候生成的日志

datanode:slave，存储节点，会备份，一般本地2分，其他服务器一份

机架:多个DataNod节点组成，master通过机架感知技术得知所需数据的位置

数据块:存储单元，一般64M（hadoop2中是128M）

时刻保持心跳通讯，保证每个数据都备份于3个节点上

5的read为第一个数据块读完后，读下一个数据块，如果在读取过程中某一个数据块出问题，则会记录下来并且找其他的备份，并且以后不再读取错误数据块

map负责分批运算，如果要统计1TB数据中my的出线次数，则可以启用100个map，每个map统计0.01TB数据，最终由reduce汇总

作业（Job）：运行一个MapReduce所需要用到的所有jar组件

任务（Task）：mapTask和ReduceTask

Key相同的结果进行reduce统计合并

作业提交一般提交jar包和配置文件

调度一般来说默认采取FIFO调度，即先考虑优先级，然后先进先出

TaskTracker会不断想JobTracker传达任务信息，如果空闲会主动申请作业

一般的生产环境都是完全分布式模式。

以上资料可以关注我公众号：免费获取

hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程的更多相关文章

从零自学Hadoop系列索引
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop ...
深度学习教程 | Seq2Seq序列模型和注意力机制
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...
新手推荐:Hadoop安装教程_单机/伪分布式配置_Hadoop-2.7.1/Ubuntu14.04
下述教程本人在最新版的-jre openjdk-7-jdk OpenJDK 默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64 (32位系统则是 /usr/lib/ ...
自学Hadoop（一）
主要是在自学一些根据以下两份文档来自己摸索.第二份文档是最后的时候,碰到一个问题的搜到的,因为觉得不错.所以放在这里.如果只是想要能跑起来的话,直接跟着这篇文章做.就可以.hadoop版本为2 ...
从零自学Hadoop(22)：HBase协处理器
阅读目录序介绍 Observer操作示例下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sour ...
从零自学Hadoop(20)：HBase数据模型相关操作上
阅读目录序介绍命名空间表系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
从零自学Hadoop(21)：HBase数据模型相关操作下
阅读目录序变量数据模型操作系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
从零自学Hadoop(19)：HBase介绍及安装
阅读目录序介绍安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇, ...
从零自学Hadoop(18)：Hive的CLI和JDBC
阅读目录序 Hive CLI(old CLI) Beeline CLI(new CLI) JDBC Demo下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出 ...

随机推荐

Codeforces Round #553 (Div. 2) 题解
昨晚深夜修仙上紫记,虽然不错还是很有遗憾的. A. Maxim and Biology 看完就会做的题,然而手速跟不上 #include<cstdio> #include<iostr ...
BZOJ 1616 [Usaco2008 Mar]Cow Travelling游荡的奶牛：dp【网格型】
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=1616 题意: 有一个n*m的网格. '.'表示平坦的草地,'*'表示挡路的树(不能走). ...
codeforces 660A A. Co-prime Array(水题)
题目链接: A. Co-prime Array time limit per test 1 second memory limit per test 256 megabytes input stand ...
ACM学习历程—HDU 2795 Billboard(线段树)
Description At the entrance to the university, there is a huge rectangular billboard of size h*w (h ...
几个网络模型的示例代码（BlockingModel、OverlappedModel、WSAEventSelect、CompletionRoutine）..c++
作者的blog:猪)的网络编程世界几个网络模型的示例代码代码包括了下面几个模型的示例:BlockingModel(阻塞模式).OverlappedModel(基于事件的重叠I/O).WSAEvent ...
Python手记
字符串的拼接 1.“+”,如果是字符和数字相连,要使用str()函数对于数字进行字符转化: 2.join() 3.",",链接的两个字符串之间用空格做关联 4.占位符 tmp += ...
poj2823Sliding Window——单调队列
题目:http://poj.org/problem?id=2823 单调队列模板. 代码如下: #include<iostream> #include<cstdio> usin ...
Synchronized之二：synchronized的实现原理
Java提供了synchronized关键字来支持内在锁.Synchronized关键字可以放在方法的前面.对象的前面.类的前面. 当线程调用同步方法时,它自动获得这个方法所在对象的内在锁,并且方法返 ...
js中全局变量的一点小知识点
js中有三种方式定义全局变量: 在任何函数外面直接执行var语句,例如:var f="value"; 直接添加一个属性到全局变量上,在web浏览器中,全局对象名为window.例如 ...
JMeter聚合报告（Aggregate Report）理解
部分内容转载: http://blog.csdn.net/lion19930924/article/details/51189218 http://www.cnblogs.com/fnng/archi ...

hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程

hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程的更多相关文章

随机推荐

热门专题