全书目前刚看到3.2,博客进度会慢一些,很多问题和例子需要操作一遍才能弄清楚。


Why Hadoop


解决的问题

数据存储与分析

在硬盘存储容量多年来不断提升的同时,访问速度却没有与时俱进。

为此,我们使用了多个硬盘并行读/写的方法。但这同样会产生新的问题。主要的两个问题就是如何应对可能出现的硬件故障,以及如何在分析不同来源的数据时保证正确性。

而Hadoop就为我们提供了一个可靠的大数据存储和分析平台,其中HDFS提供存储功能,MapReduce提供分析功能,这也是Hadoop的两个基本核心。


Hadoop的优势

RDBMS

  • 硬盘的寻址时间的提升远远不敌于传输速率的提升。因此在读取大量数据集时,采用流数据读取模式(速率主要取决于传输速率)会快得多。并且在有大量数据更新时,RDBMS采用的B树的效率就明显落后于MapReduce,因为需要使用“排序/合并”来重建数据库;
  • MapReduce适合解决需要以批处理方式分析整个数据集的问题(特别对于一些特定目的);RDBMS适用于索引后数据集的点查询和更新(小规模数据);
  • MapReduce适合一次写入、多次读取,RDB则更适合持续更新的数据集。

网格计算

  • 网格计算适用于计算密集型作业,如果节点的数据访问量过大,就会受到网络带宽的限制;Hadoop则尽量在计算节点上存储数据,以实现数据的本地快速访问,这也是Hadoop数据处理的核心;
  • MPI(消息传递接口)需要程序员显式处理数据流机制;而Hadoop的数据流对程序员是隐性的,仅需从数据模型的角度考虑任务的执行;
  • MapReduce能自动处理系统地部分失效问题,程序员无需关注任务的执行顺序;而MPI程序则必须显式管理紫的检查点和恢复机制,编程难度大。

志愿计算

志愿计算面对的问题是CPU高度密集的,计算所花的时间远超过工作单元数据的传输时间,并且是在接入互联网的不可信的计算机上长时间运行,这些计算机网络带宽不同,对数据本地化也没有要求。而MapReduce的设计目标则是在可靠、专门、运行于同一个内部有高速网络连接的计算机们上,为只需要短时间就能完成的作业提供服务。


小黄象Hadoop?

Hadoop是Hadoop之父Doug Cutting的孩子给他的毛绒象玩具取的名字,没错就是官网上那只愉快的elephant。

HDFS和MapReduce的思想则来源于谷歌的两篇论文的启发(万物基于谷歌):The Google File SystemMapReduce: Simplified Data Processing on Large Clusters

具体的那些年的Hadoop可以自行翻书,还是挺有趣的,可惜现在雅虎已凉。


学习路线

这是书本中给出的学习路线图,我目前还是按照章节顺序学习,不过因为Hadoop需要使用Linux和JAVA,所以这两方面也会补充。


简单总结

第一章主要是关于为什么要创建Hadoop,这不是简单地用Hadoop的运行原理能解释的,它跟时代的发展密切相关。

之后将会进入到Hadoop本身的学习,而不仅仅是Hadoop,关于Linux和Java的相关内容也会更新,,为了在Linux上装个Hadoop我也是历尽艰辛了。。

暂时这样。

Meet Hadoop的更多相关文章

  1. hadoop权威指南 chapter1 Meet Hadoop

    Meet Hadoop 1.1 Data!(数据) Most of the data is locked up in the largest web properties (like search e ...

  2. Hadoop 全分布模式 平台搭建

    现将博客搬家至CSDN,博主改去CSDN玩玩~ 传送门:http://blog.csdn.net/sinat_28177969/article/details/54138163 Ps:主要答疑区在本帖 ...

  3. Hadoop的调度器总结

    Hadoop的调度器总结 随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇.在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作 ...

  4. Hadoop 处理“Name node is in safe mode”问题(转)

    运行hadoop程序时,有时候会报以下错误:org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Nam ...

  5. Hadoop之MapReduce分布式计算

    简单介绍一下项目背景——很简单,作死去接下老师的活,然后一干就是半个月,一直忙着从零基础到使用Hadoop中的MapReduce来解决一个实际问题,也就是用来计算一个数据量较大的二度朋友关系. 那么首 ...

  6. 大数据入门第五天——离线计算之hadoop(上)概述与集群安装

    一.概述 根据之前的凡技术必登其官网的原则,我们当然先得找到它的官网:http://hadoop.apache.org/ 1.什么是hadoop 先看官网介绍: The Apache™ Hadoop® ...

  7. HADOOP/HDFS Essay

    HDFS架构 the core of HADOOP/distributed systems is storeage(HDFS) and resource manager(YARN) for compu ...

  8. hadoop(四)MapReduce

    如果将 Hadoop 比做一头大象,那么 MapReduce 就是那头大象的电脑.MapReduce 是 Hadoop 核心编程模型.在 Hadoop 中,数据处理核心就是 MapReduce 程序设 ...

  9. hadoop环境搭建:完全分布式

    目录 1.硬件配置 2.软件版本 3.准备工作 3.1.建立虚拟机,网络设置为桥接模式 3.2.更改主机名 3.3.绑定主机名和IP,建立各主机间的联系 3.4.关闭防火墙 3.5.配置宿主机host ...

随机推荐

  1. 对Swoole、Workerman和php自带的socket的理解

    为什么php自带的socket不怎么听说,基本都是用swoole,workerman去实现? 1.PHP的socket扩展是一套socket api,仅此而已. swoole,用C实现,它的socke ...

  2. popup的简单应用举例(具体在增删改查组件中用到)以及补充的知识点

    一.首先说一下自执行函数 1. 立即执行函数是什么?也就是匿名函数 立即执行函数就是 声明一个匿名函数 马上调用这个匿名函数 2.popup的举例 点击,弹出一个新的窗口.保存完事,页面不刷新数据就返 ...

  3. ERROR 1044 (42000): Access denied for user 'root'@'%' to database 'mysql'

    原因:修改数据库账号时删除了默认的localhost root,  新建了% root 但没有赋予全部权限; 解决方法: 1.关闭数据库# mysqld stop 2.在my.cnf里加入skip-g ...

  4. CSS3媒体查询的部分重要属性

    width:视口宽度 height:视口高度 device-width:渲染表面的宽度,就是设备屏幕的宽度 device-height:渲染表面的高度,就是设备屏幕的高度 orientation:检查 ...

  5. 数据结构c++实现代码-链表

    /*节点Node的相关声明与定义*/ //Node.h #include<iostream> using namespace std; template<typename T> ...

  6. ERP系统

    ERP系统是企业资源计划(Enterprise Resource Planning )的简称,是指建立在信息技术基础上,集信息技术与先进管理思想于一身,以系统化的管理思想,为企业员工及决策层提供决策手 ...

  7. 纯css3实现的switch开关按钮

    效果如图 <p> <label><input class="mui-switch mui-switch-anim" type="checkb ...

  8. Inflated 3D ConvNet 【I3D】

    Two-Stream Inflated 3D ConvNet (I3D) HMDB-51: 80.9% and UCF-101: 98.0% 在Inception-v1 Kinetics上预训练 Co ...

  9. 剑指offer错题记录

    错误重点: 1. 传递vector参数时,如果调用函数改变了vector的内容,一定一定要&,传引用保持一致 旋转数组的最小数字:有重复数字情况,二分查找照样搞.情况考虑要周全,当a[mid] ...

  10. 【转载】DDD分层架构的三种模式

    引言 在讨论DDD分层架构的模式之前,我们先一起回顾一下DDD和分层架构的相关知识. DDD DDD(Domain Driven Design,领域驱动设计)作为一种软件开发方法,它可以帮助我们设计高 ...