自学Hadoop
一、Hadoop基础设施
起源于Google的三篇论文:
1. 《The Google File System 》 2003年
http://static.googleusercontent.com/media/research.google.com/zh-TW//archive/gfs-sosp2003.pdf
2.《MapReduce: Simplified Data Processing on Large Clusters》 2004年
http://static.googleusercontent.com/media/research.google.com/zh-TW//archive/mapreduce-osdi04.pdf
3.《Bigtable: A Distributed Storage System for Structured Data》 2006年
http://static.googleusercontent.com/media/research.google.com/zh-TW//archive/bigtable-osdi06.pdf
二、学习The Google File System
纯英文版的技术描述,看起来的确有点困难,可从百度百科GFS对它的介绍开始看起。百度百科对中国人来说真的是个好东西,虽然里面的内容不够完整,但是初步了解某一知识,还是有其可贵的地方。
技术本身所应用场景----》所解决的问题有哪些----》如何解决具体某个问题。对具体解决某个问题本身而言,则涉及到很细节的内容了。各种文档的描述,大部分我们看到的都是这些,因为这是由书或者各种文档本身的局限性,因为现在还没有3D、4D、5D的书。真正强大的书,应该需要立体展示各种问题和各种解决方案之间的因果关系、关联关系、时间关系、空间关系,这当然在未来时态。而当前面对的,仍然还是停留在平面上,或者伪三维。
言归正传,谈谈我对GFS的理解。用最泛的眼观来看,其实它就是一个文件系统。对一个文件系统而言,它定义的便是如何将数据组装(即定义数据结构),方便存取和修改。GFS比一般PC的文件系统多出的应用场景便是,需要面向未知多的用户数量,就好比开一个商店和开一个商城。GFS相对于PC的文件系统, 其复杂就是需要处理更多的场景了。
GFS定义三个角色:
Master: 相当于文件系统的功能。其实都会有多个master
ChunkServer:相当于磁盘的功能
Client:数据访问者
自学Hadoop的更多相关文章
- 从零自学Hadoop(22):HBase协处理器
阅读目录 序 介绍 Observer操作 示例下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sour ...
- 从零自学Hadoop(20):HBase数据模型相关操作上
阅读目录 序 介绍 命名空间 表 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
- 从零自学Hadoop系列索引
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop ...
- 从零自学Hadoop(21):HBase数据模型相关操作下
阅读目录 序 变量 数据模型操作 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...
- 从零自学Hadoop(19):HBase介绍及安装
阅读目录 序 介绍 安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇, ...
- 从零自学Hadoop(18):Hive的CLI和JDBC
阅读目录 序 Hive CLI(old CLI) Beeline CLI(new CLI) JDBC Demo下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出 ...
- 从零自学Hadoop(01):认识Hadoop
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 阅读目录 序 Hadoop 项目起源 优点 核心 ...
- 从零自学Hadoop(02):环境准备
阅读目录 起因 虚拟机 Linux 系统安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceL ...
- 从零自学Hadoop(03):Linux准备上
阅读目录 序 检查列表 常用Linux命令 搭建环境 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sou ...
- 从零自学Hadoop(04):Linux准备下
阅读目录 序 搭建环境 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 我们已经准 ...
随机推荐
- Android记住password后自己主动登录
/** * * @author alex * @version 2014-7-31下午5:25:45 * */ public class LoginActivity extends Act ...
- vue起手式
主要步骤 安装node 安装npm 安装vue-cli(vue命令行工具) 初始化一个vue项目 进行开发 # 安装node # 安装npm # 安装cnpm,在中国大陆防止被墙 # 安装git # ...
- Python抓取网页并保存为PDF
https://blog.csdn.net/shenwanjiang111/article/details/67634794
- Linq与扩展方法
使用数据集 /// <summary> /// 库房信息类 /// </summary> public class Kfxx { /// <summary> /// ...
- jetty;linux 目录结构
[说明]今天看了看jetty这个web容器,上午看基础理论框架知识(后面半点没用到),下午下载了jetty,并且在上面部署了一个war应用,晚上在做eclipses整合jetty的时候出现了问题,下载 ...
- PLSQL 用的让自己更舒心点!
每天开发时候 ,有时候会疲劳! 改下你的PLSQL 字体吧!
- es字符串字段类型的私有属性 建立索引的分析器 用于查询的分析器 短语查询优化
除了公共属性外,基于字符串的字段还有私有属性 term_vector 是否计算该字段的Lucene词向量term vector no 默认值 yes with_offsets with_posit ...
- 【python】-- web框架本质
web框架 一.web框架简述 所有的Web应用,本质上其实就是一个socket服务端,用户的浏览器其实就是一个socket客户端. import socket def handle_request( ...
- MySQL 的约束
约束是添加在列上, 用来约束列的! 1. 主键约束(表中的某行的唯一标识) 主键的特点: 非空 唯一 被引用 创建表时, 指定主键的两种方式: // 需求: 指定 sid 列为主键列, 即为 sid ...
- shadow批量破解
john有个参数可以设置破解时间,比如破解5秒则设置:--max-run-time=5,可以利用这个参数批量破解 for i in *;do (echo $i>>out;john --ma ...