Hadoop权威指南文摘

第1章 初识Hadoop
1.1 数据!数据!
1.2 数据的存储与分析
HDFS实现数据的存储,MapReduce实现数据额分析与处理
1.3 相较于其他系统的优势
MapReduce是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。
1.3.1 关系型数据库管理系统
寻址时间的提升远小于传输速率的提升
1.3.2 网格计算
1.3.3 志愿计算
1.4 Hadoop发展简史
1.5 Apache Hadoop和Hadoop生态系统
1.6 Hadoop的发行版本
1.6.1 本书包含的内容
1.6.2 兼容性
第2章 关于MapReduce
2.1 气象数据集
2.2 使用Unix工具来分析数据
2.3 使用Hadoop来分析数据
2.3.1 map和reduce
2.3.2 java MapReduce
2.4 横向扩展
2.4.1 数据流
2.4.2 combiner函数
2.4.3 运行分布式的MapReduce作业
2.5 Hadoop Streaming
2.5.1 Rudy版本
2.5.2 Python版本
2.6 Hadoop Pipes
第3章 Hadoop分布式文件系统
HDFS:Hadoop Distributed Filesystem
3.1 HDFS的设计
超大文件,流式数据访问,(一次写入,多次读取),商用硬件,低时间延迟的数据访问,大量的小文件,多用户写入,任意修改文件
3.2 HDFS的概念
3.2.1 数据块
默认为64MB,备份默认是3个
3.2.2 namenode和datanode
namenode:管理者
datanode:工作者
3.2.3 联邦HDFS
3.2.4 HDFS的高可用性
3.3 命令行接口
3.4 Hadoop文件系统
3.5 Java接口
3.5.1 从HadoopURL读取数据
3.5.2 通过FileSystem API读取数据
3.5.3 写入数据
3.5.4 目录
3.5.5 查询文件系统
3.5.6 删除数据
3.6 数据流
3.6.1 剖析文件读取
3.6.2 剖析文件写入
3.6.3 一致模型
3.7 通过Flume和Sqoop导入数据
3.8 通过distcp并行复制
3.9 Hadoop存档
3.9.1 使用Hadoop存档工具
3.9.2 不足
第4章 Hadoop的I/O操作
4.1 数据完整性
4.1.1 HDFS的数据完整性
4.1.2 LocalFileSystem
4.1.3 ChecksumFileSystem
4.2 压缩
4.2.1 codec
4.2.2 压缩和输入分片
4.2.3 在MapReduce中使用压缩
4.3 序列化
序列化:是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。
反序列化:是指将字节流转回结构化对象的逆过程。
4.4 序列化框架
4.5 Avro
4.6 基于文件的数据结构
第5章 MapReduce应用开发
5.1 用于配置的API
5.2 配置开发环境
5.3 用MRUnit来写单元测试
5.4 本地运行测试数据
5.5 在集群上运行
5.6 作业调优
第6章 MapReduce的工作机制
6.1 剖析MaReduce作业运行机制
6.2 失败
6.3 作业的调度
6.4 shuffle和排序
6.5 任务的执行
第7章 MaoReduce的类型与格式
7.1 MapReduce的类型
7.2 输入格式
7.3 输出格式
第8章 MappReduce的特性
8.1 计数器
8.2 排序
8.3 连接
8.4 边数据分布
第9章 构建Hadoop集群
9.1 集群规范
9.2 集群的构建和安装
9.3 SSH配置
9.4 Hadoop配置
9.5 YARN配置
9.6 安全性
9.7 利用基准评测程序测试Hadoop集群
9.8 云端的Hadoop
第10章 管理Hadoop
10.1 HDFS
10.2 监控
10.3 维护
第11章 关于Pig
Pig是一种探索大规模数据集的脚本语言
1.本地模式 2.MapReduce模式
Pig四种数值类型:int , long ,float , double
第12章 关于Hive
Hive是一个构件在Hadoop上的数据仓库框架
HiveQl
第13章 关于HBase
Hbase是一个在HDFS上开发的面向列的分布式数据库。
特性:没有真正的索引,自动分区,线性扩展和对于新节点的自动处理,普通商用硬件支持,容错,批处理
第14章 关于ZooKeeper
ZooKeeper是Hadoop的分布式协调服务。
特点:简单,富有表现力,高可用性,采用松耦合交互方式,资源库
第15章 关于Sqoop
Sqoop是一个开源工具,它允许用户将数据从结构化存储器抽取到Hadoop中,用于进一步的处理。
第16章 实例学习
Hadoop权威指南文摘的更多相关文章
- Hadoop权威指南(中文版,第2版)【分享】
下载地址 Hadoop权威指南(中文版,第2版) http://download.csdn.net/download/u011000529/5726789 (友情提示:请点击右下的 “联通下载” 或者 ...
- Hadoop权威指南学习笔记二
MapReduce简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.n ...
- 基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其可视化
文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理 关键词:<Hadoop权威指南> ...
- Hadoop权威指南:MapReduce应用开发
Hadoop权威指南:MapReduce应用开发 [TOC] 一般流程 编写map函数和reduce函数 编写驱动程序运行作业 用于配置的API Hadoop中的组件是通过Hadoop自己的配置API ...
- Hadoop权威指南:通过FileSystem API读取数据
Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public ...
- Hadoop权威指南:从Hadoop URL读取数据
[TOC] Hadoop权威指南:从Hadoop URL读取数据 使用java.net.URL对象从Hadoop文件系统读取文件 实现类似linux中cat命令的程序 文件名 HDFSCat.java ...
- Hadoop权威指南:压缩
Hadoop权威指南:压缩 [TOC] 文件压缩的两个好处: 减少储存文件所需要的磁盘空间 加速数据在网络和磁盘上的传输 压缩格式总结: 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE ...
- Hadoop权威指南:数据完整性
Hadoop权威指南:数据完整性 [TOC] 常用的错误检测码是CRC-32(循环冗余校验) HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和 datanode负责 ...
- Hadoop权威指南:HDFS-Hadoop存档
Hadoop权威指南:HDFS-Hadoop存档 [TOC] 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件 ...
随机推荐
- solr核心概念、配置文件
Document Document是Solr索引(动词,indexing)和搜索的最基本单元,它类似于关系数据库表中的一条记录,可以包含一个或多个字段(Field),每个字段包含一个name和文本值. ...
- Macbook Pro上C++编程
Xcode新建一个c/c++程序语言工程_百度经验 http://jingyan.baidu.com/article/e2284b2b63bdede2e6118d2a.html
- python学习(二十五) 链表方法
# 链表 cars = ['a', "b"] print(cars) # 链表长度 print(len(cars)) # 结尾添加元素 cars.append("c&qu ...
- canvas之画矩形
<canvas id="canvas" width="600" height="500" style="background ...
- 【UVa】11212 Editing a Book(IDA*)
题目 题目 分析 get一下IDA*的技巧,感觉总体来说不难,主要是剪枝比较难想. 这是lrj的代码,比较通俗易懂,关键就是选定一个区间再取出来,插入到一个位置,接下来转移到这个状态. ...
- Nginx记录客户端POST过来的具体信息
vim nginx/config/nginx.config $request_body这个变量值就是POST数据 log_format main '$remote_addr - $remote_use ...
- leetcode162
class Solution { public: int findPeakElement(vector<int>& nums) { int n = nums.size(); ) { ...
- 如何去掉Myeclipse对JS等文件的验证
或 MyEclipse->validation->Excluded Resource下找到不需要验证的文件或者文件夹 或 右键点击该项目-->MyEclipse-->Exclu ...
- centos 和KVM安装
- 解决“在上下文中找不到 owin.Environment 项”
网站发布到虚拟空间后,提示以下错误:在上下文中找不到 owin.Environment 项",百度了好长时间都没有解决.最后在web.config中添加以下配置. <system.we ...