Hadoop权威指南文摘

第1章 初识Hadoop
1.1 数据!数据!
1.2 数据的存储与分析
HDFS实现数据的存储,MapReduce实现数据额分析与处理
1.3 相较于其他系统的优势
MapReduce是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。
1.3.1 关系型数据库管理系统
寻址时间的提升远小于传输速率的提升
1.3.2 网格计算
1.3.3 志愿计算
1.4 Hadoop发展简史
1.5 Apache Hadoop和Hadoop生态系统
1.6 Hadoop的发行版本
1.6.1 本书包含的内容
1.6.2 兼容性
第2章 关于MapReduce
2.1 气象数据集
2.2 使用Unix工具来分析数据
2.3 使用Hadoop来分析数据
2.3.1 map和reduce
2.3.2 java MapReduce
2.4 横向扩展
2.4.1 数据流
2.4.2 combiner函数
2.4.3 运行分布式的MapReduce作业
2.5 Hadoop Streaming
2.5.1 Rudy版本
2.5.2 Python版本
2.6 Hadoop Pipes
第3章 Hadoop分布式文件系统
HDFS:Hadoop Distributed Filesystem
3.1 HDFS的设计
超大文件,流式数据访问,(一次写入,多次读取),商用硬件,低时间延迟的数据访问,大量的小文件,多用户写入,任意修改文件
3.2 HDFS的概念
3.2.1 数据块
默认为64MB,备份默认是3个
3.2.2 namenode和datanode
namenode:管理者
datanode:工作者
3.2.3 联邦HDFS
3.2.4 HDFS的高可用性
3.3 命令行接口
3.4 Hadoop文件系统
3.5 Java接口
3.5.1 从HadoopURL读取数据
3.5.2 通过FileSystem API读取数据
3.5.3 写入数据
3.5.4 目录
3.5.5 查询文件系统
3.5.6 删除数据
3.6 数据流
3.6.1 剖析文件读取
3.6.2 剖析文件写入
3.6.3 一致模型
3.7 通过Flume和Sqoop导入数据
3.8 通过distcp并行复制
3.9 Hadoop存档
3.9.1 使用Hadoop存档工具
3.9.2 不足
第4章 Hadoop的I/O操作
4.1 数据完整性
4.1.1 HDFS的数据完整性
4.1.2 LocalFileSystem
4.1.3 ChecksumFileSystem
4.2 压缩
4.2.1 codec
4.2.2 压缩和输入分片
4.2.3 在MapReduce中使用压缩
4.3 序列化
序列化:是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。
反序列化:是指将字节流转回结构化对象的逆过程。
4.4 序列化框架
4.5 Avro
4.6 基于文件的数据结构
第5章 MapReduce应用开发
5.1 用于配置的API
5.2 配置开发环境
5.3 用MRUnit来写单元测试
5.4 本地运行测试数据
5.5 在集群上运行
5.6 作业调优
第6章 MapReduce的工作机制
6.1 剖析MaReduce作业运行机制
6.2 失败
6.3 作业的调度
6.4 shuffle和排序
6.5 任务的执行
第7章 MaoReduce的类型与格式
7.1 MapReduce的类型
7.2 输入格式
7.3 输出格式
第8章 MappReduce的特性
8.1 计数器
8.2 排序
8.3 连接
8.4 边数据分布
第9章 构建Hadoop集群
9.1 集群规范
9.2 集群的构建和安装
9.3 SSH配置
9.4 Hadoop配置
9.5 YARN配置
9.6 安全性
9.7 利用基准评测程序测试Hadoop集群
9.8 云端的Hadoop
第10章 管理Hadoop
10.1 HDFS
10.2 监控
10.3 维护
第11章 关于Pig
Pig是一种探索大规模数据集的脚本语言
1.本地模式 2.MapReduce模式
Pig四种数值类型:int , long ,float , double
第12章 关于Hive
Hive是一个构件在Hadoop上的数据仓库框架
HiveQl
第13章 关于HBase
Hbase是一个在HDFS上开发的面向列的分布式数据库。
特性:没有真正的索引,自动分区,线性扩展和对于新节点的自动处理,普通商用硬件支持,容错,批处理
第14章 关于ZooKeeper
ZooKeeper是Hadoop的分布式协调服务。
特点:简单,富有表现力,高可用性,采用松耦合交互方式,资源库
第15章 关于Sqoop
Sqoop是一个开源工具,它允许用户将数据从结构化存储器抽取到Hadoop中,用于进一步的处理。
第16章 实例学习
Hadoop权威指南文摘的更多相关文章
- Hadoop权威指南(中文版,第2版)【分享】
下载地址 Hadoop权威指南(中文版,第2版) http://download.csdn.net/download/u011000529/5726789 (友情提示:请点击右下的 “联通下载” 或者 ...
- Hadoop权威指南学习笔记二
MapReduce简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.n ...
- 基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其可视化
文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理 关键词:<Hadoop权威指南> ...
- Hadoop权威指南:MapReduce应用开发
Hadoop权威指南:MapReduce应用开发 [TOC] 一般流程 编写map函数和reduce函数 编写驱动程序运行作业 用于配置的API Hadoop中的组件是通过Hadoop自己的配置API ...
- Hadoop权威指南:通过FileSystem API读取数据
Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public ...
- Hadoop权威指南:从Hadoop URL读取数据
[TOC] Hadoop权威指南:从Hadoop URL读取数据 使用java.net.URL对象从Hadoop文件系统读取文件 实现类似linux中cat命令的程序 文件名 HDFSCat.java ...
- Hadoop权威指南:压缩
Hadoop权威指南:压缩 [TOC] 文件压缩的两个好处: 减少储存文件所需要的磁盘空间 加速数据在网络和磁盘上的传输 压缩格式总结: 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE ...
- Hadoop权威指南:数据完整性
Hadoop权威指南:数据完整性 [TOC] 常用的错误检测码是CRC-32(循环冗余校验) HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和 datanode负责 ...
- Hadoop权威指南:HDFS-Hadoop存档
Hadoop权威指南:HDFS-Hadoop存档 [TOC] 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件 ...
随机推荐
- SpringMVC中注解控制器及数据绑定
一.Spring2.5之前,我们都是通过实现Controller接口或其他实现来定义我们的处理器类. 二.Spring2.5引入注解式处理器支持,通过@Controller 和 @RequestMap ...
- 20181122_C#中AOP_使用Unity实现AOP
一. 使用Unity的AOP实现 a) 整体项目截图: b) 添加Unity的Nuget包, 直接使用最新版就行, 需要添加两个 Unity 和 Unity.Interceptio ...
- “,”、“natural join”、“natural left outer join”、“natural right outer join”的用法总结
“,”:代表笛卡尔积: “natural join”:代表自然连接,即同名列等值连接: “natural left outer join”:表示左外连接: “natural right outer j ...
- 【洛谷】P1379 八数码难题(bfs)
题目 题目描述 在3×3的棋盘上,摆有八个棋子,每个棋子上标有1至8的某一数字.棋盘中留有一个空格,空格用0来表示.空格周围的棋子可以移到空格中.要求解的问题是:给出一种初始布局(初始状态)和目标布局 ...
- CDN之多边缘节点负载均衡--学习笔记
一.剧情 剧情是这样的,本次的多边缘节点负载均衡实验,1个LVS四层负载均衡集群和1个Nginx为反向代理的七层负载均衡集群,由Bind dns解析作为 主负载均衡服务器,调度两个集群,中间层有一台W ...
- Julia - 算术基本函数
符号函数和绝对值函数 abs(x) 函数求 x 的绝对值(幅值) julia> abs(3) 3 julia> abs(-3) 3 abs2(x) 函数求 x 的绝对值(幅值)的平方 ju ...
- canvas旋转文本
canvas旋转文本 <!DOCTYPE html> <html lang="en"> <head> <meta charset=&quo ...
- MySQL5.5安装与多实例
MySQL5.5编译安装 #1.2 cmake软件 cd /home/oldboy/tools/ tar xf cmake-2.8.8.tar.gz cd cmake-2.8.8 ./configur ...
- 「小程序JAVA实战」小程序头像图片上传(中)(44)
转自:https://idig8.com/2018/09/09/xiaochengxujavashizhanxiaochengxutouxiangtupianshangchuan43/ 用户可以上传了 ...
- Git(五):Git分支管理策略
转:http://www.ruanyifeng.com/blog/2012/07/git.html 如果你严肃对待编程,就必定会使用"版本管理系统"(Version Control ...