hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

Hadoop是一个专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。

Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。

用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替。

hadoop使用java编写，版本较为混乱，初学者可从1.2.1开始学习

1.成百上千台服务器组成集群，需要时刻检测服务器是否故障

2.用流读取数据更加高效快速

3.存储节点具有运算功能，省略了服务器之间来回传数据的网络带宽限制

4.一次写入，多次访问，不修改数据

5.多平台

namenode:master，负责总体调度，处理协调请求等

（一个集群只能有一个namenode，但是可以多个集群组成一个更大的集群，这时就有多个namenode，这时的namenode有两种状态，一种叫active并且一个大集群只能有一个namenode处于该状态，一种为standby）

namenode两大功能：接受客户端读写服务，存放元数据（DataNode存储的位置等基本信息，fsimage和edits文件）

fsimage是namenode格式化时产生的，edits是用户操作增删改查的时候生成的日志

datanode:slave，存储节点，会备份，一般本地2分，其他服务器一份

机架:多个DataNod节点组成，master通过机架感知技术得知所需数据的位置

数据块:存储单元，一般64M（hadoop2中是128M）

时刻保持心跳通讯，保证每个数据都备份于3个节点上

5的read为第一个数据块读完后，读下一个数据块，如果在读取过程中某一个数据块出问题，则会记录下来并且找其他的备份，并且以后不再读取错误数据块

map负责分批运算，如果要统计1TB数据中my的出线次数，则可以启用100个map，每个map统计0.01TB数据，最终由reduce汇总

作业（Job）：运行一个MapReduce所需要用到的所有jar组件

任务（Task）：mapTask和ReduceTask

Key相同的结果进行reduce统计合并

作业提交一般提交jar包和配置文件

调度一般来说默认采取FIFO调度，即先考虑优先级，然后先进先出

TaskTracker会不断想JobTracker传达任务信息，如果空闲会主动申请作业

一般的生产环境都是完全分布式模式。

以上资料可以关注我公众号：免费获取

hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程的更多相关文章

从零自学Hadoop系列索引
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop ...
深度学习教程 | Seq2Seq序列模型和注意力机制
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...
新手推荐:Hadoop安装教程_单机/伪分布式配置_Hadoop-2.7.1/Ubuntu14.04
下述教程本人在最新版的-jre openjdk-7-jdk OpenJDK 默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64 (32位系统则是 /usr/lib/ ...
自学Hadoop（一）
主要是在自学一些根据以下两份文档来自己摸索.第二份文档是最后的时候,碰到一个问题的搜到的,因为觉得不错.所以放在这里.如果只是想要能跑起来的话,直接跟着这篇文章做.就可以.hadoop版本为2 ...
从零自学Hadoop(22)：HBase协处理器
阅读目录序介绍 Observer操作示例下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sour ...
从零自学Hadoop(20)：HBase数据模型相关操作上
阅读目录序介绍命名空间表系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
从零自学Hadoop(21)：HBase数据模型相关操作下
阅读目录序变量数据模型操作系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
从零自学Hadoop(19)：HBase介绍及安装
阅读目录序介绍安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇, ...
从零自学Hadoop(18)：Hive的CLI和JDBC
阅读目录序 Hive CLI(old CLI) Beeline CLI(new CLI) JDBC Demo下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出 ...

随机推荐

Step 0: 安装及启动
一.Setting up a Single Node Cluster: http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop- ...
维特比算法（Viterbi）
维特比算法(Viterbi) 维特比算法编辑维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中.术语“维特比路 ...
分享知识-快乐自己：JAVA中的 Iterator 和 Iterable 区别
java.lang.Iterable java.util.Iterator Iterator是迭代器类,而Iterable是接口. 好多类都实现了Iterable接口,这样对象就可以调用itera ...
一步完成MySQL向Redis迁移
在把一个大表从 MySQL 迁移到 Redis 时,你可能会发现,每次提取.转换.导入一条数据是让人难以忍受的慢!这里有一个技巧,你可以通过使用管道把 MySQL 的输出直接输入到 redis-cli ...
Apache禁止或允许固定IP访问特定目录、文件、URL
1. 禁止访问某些文件/目录增加Files选项来控制,比如要不允许访问 .inc 扩展名的文件,保护php类库: <Files ~ "\.inc$"> Order a ...
Listen81
Nut-Cracking Chimps Demonstrate Cultural Differences One family generally dines on Chinese takeout w ...
(转)Linux内核本身和进程的区别内核线程、用户进程、用户线程
转自:http://blog.csdn.net/adudurant/article/details/23135661 这个概念是很多人都混淆的了,我也是,刚开始无法理解OS时,把Linux内核也当做一 ...
struct tm 和 time_t 时间和日期的使用方法（转
关键字:UTC(世界标准时间),Calendar Time(日历时间),epoch(时间点),clock tick(时钟计时单元) ．概念在C/C++中,对字符串的操作有很多值得注意的问题,同样,C ...
洛谷P2530 [SHOI2001]化工厂装箱员
题目描述 118号工厂是世界唯一秘密提炼锎的化工厂,由于提炼锎的难度非常高,技术不是十分完善,所以工厂生产的锎成品可能会有3种不同的纯度,A:100%,B:1%,C:0.01%,为了出售方便,必须把不 ...
Enum定义位域，即可以通过位操作来产生未命名的值
通过FlagsAttribute可以实现. // A bit field or flag enumeration of harvesting seasons. [Flags] public enum ...

hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程

hadoop是什么？新手自学hadoop教程【附】大数据系统学习教程的更多相关文章

随机推荐

热门专题