[hadoop读书笔记] 第一章初识 Hadoop

P3-P4：

目前遇见的问题很简单:硬盘容量不断提升，1TB的已成为主流，然而数据传输速度从1990年的4.4MB/s仅上升到当前约100MB/s

读取一个1TB的硬盘数据需要耗时至少2.5个小时。写入数据则会消耗更多时间。解决方法是从多个硬盘上读取，试想，若当前有100个盘，每个盘存储1%数据，则并行读取仅需2minutes则可读取完所有的数据。

与此同时，并行读写数据带来了几个问题：

1、某个硬件故障 - 采用数据备份机制

2、分析任务需要所有节点共同完成，结果正确性 - MapReduce：将硬盘读写问题转化为对一个数据集的计算。

所以，Hadoop提供给我们一个可靠的共享存储和分析系统。

由HDFS实现可靠数据存储，MR实现可靠数据分析处理。

数据本地化是MR的一个核心特性，意识到到处复制数据容易消耗尽网络带宽后，MR尽量在计算机节点上存储数据，以实现数据的本地快速访问，同时，也提高了计算的性能。

当需要完成计算，却中途有部分节点计算失效时，MR能检测到并重新执行那些失败的M或R任务。

这是因为MR采用的是无共享的架构，各个计算任务相互独立，容易实现失败检测。

MR三大设计目标：

（1）为只需要几分钟或几小时可以完成的作业提供服务

（2）运行于同一个内部有高速网络连接的数据中心内部

（3）数据中心内的机器都是可靠、定制的硬件

P12

2006年4月在188个节点（每个10GB）运行排序测试需要49.7小时

5月在500个节点（每个10GB）运行排序测试需要42小时

12月在20节点上1.8小时，100节点上3.3小时，500节点上5.2小时，900节点上7.8小时

在2008年4月，在一个有910台节点的集群上，以不到3.5分钟的成绩，完成了对1TB数据的排序，成为最快的TB级数据排序系统。

同年11月，google用了68s

2009年5月，雅虎用了62s

雅虎搜索引擎四个组成部分：

1 网页服务器爬取网页 - Crawler

2 构建已知网页链接图 - WebMap （链接图非常大，分析需要数日）

3 最佳页面构建反向索引 - Indexer

4 处理用户的查询 - Runtime

P14-15

P15

2.x 版本新特性

1、基于YARN系统上构建了全新的MR2.YARN是一个通用的用于运行分布式应用的资源管理器（Yet Another Resource Negotiator）

2、HDFS联合管理，将HDFS命名空间分散到多个namenode中以支持包含大规模数据文件的集群。

3、HDFS高可用性，启用secondNamenode避免namenode单点故障。

[hadoop读书笔记] 第一章初识 Hadoop的更多相关文章

[hadoop读书笔记] 第九章构建Hadoop集群
P322 运行datanode和tasktracker的典型机器配置(2010年) 处理器:两个四核2-2.5GHz CPU 内存:16-46GN ECC RAM 磁盘存储器:4*1TB SATA 磁 ...
《css3实战》读书笔记第一章基于CSS需求而编写的HTML.
笔记说明 <CSS3实战手册第3版(影印版)>可以消除Web设计工作的痛苦,并且带给你:HTML--重新入门.如果你是HTML新手,你会学到如何以CSS友好的方式进行基本页面构造.若你是H ...
《疯狂Java：突破程序员基本功的16课》读书笔记-第一章数组与内存控制
很早以前就听过李刚老师的疯狂java系列很不错,所以最近找一本拿来拜读,再此做下读书笔记,促进更好的消化. 使用Java数组之前必须先对数组对象进行初始化.当数组的所有元素都被分配了合适的内存空间,并 ...
Getting Started With Hazelcast 读书笔记(第一章)
第一章:数据集群的演化与早期的服务器架构显然,应用是可扩展的,但是由于是集中式服务器,随着数据库性能达到极限,再想扩展就变得极端困难,于是出现了缓存. 缓存显然再次提升了可扩展性,减轻了数据 ...
.net架构设计读书笔记--第一章基础
第一章基础第一节软件架构与软件架构师简单的说软件架构即是为客户构建一个软件系统.架构师随便软件架构应运而生,架构师是一个角色. 2000年9月ANSI和IEEE发布了<密集性软件架构建 ...
C缺陷与陷阱----读书笔记---第一章
第一章:词法陷阱编译器中负责将程序分解为一个一个符号的部分,一般称为“词法分析器”.例如,对于语句: if ( x == big ) big = x ; 它的第一个符号是C语言关键字if,紧接着下一 ...
《C++ Primer》读书笔记第一章
读<C++ Primer>才知道,自己对C++知之甚少... 写个博客记录下自己C++的成长,只是读书笔记,不是对<C++ Primer>知识点的总结,而是对自己在书上看到的以 ...
《深入理解计算机系统》（CSAPP）读书笔记 —— 第一章计算机系统漫游
本章通过跟踪hello程序的生命周期来开始对计算机系统进行学习.一个源程序从它被程序员创建开始,到在系统上运行,输出简单的消息,然后终止.我们将沿着这个程序的生命周期,简要地介绍一些逐步出现的关键概念 ...
[spark 快速大数据分析读书笔记] 第一章导论
[序言] Spark 基于内存的基本类型 (primitive)为一些应用程序带来了 100 倍的性能提升.Spark 允许用户程序将数据加载到集群内存中用于反复查询,非常适用于大数据和机器学习. ...

随机推荐

python代码制作configure文件
在lua中,一直用lua作为config文件,或承载数据的文件 - 好处是lua本身就很好阅读,然后无需额外写解析的代码,还支持在configure文件中读环境变量,条件判断等. 在lua中通过loa ...
angular五种服务详解
在这之前angular学习笔记(十五)-module里的'服务'这篇文章里,已经大致讲解了ng中的'服务',在之后的很多地方也用到了服务,但是,所有的服务都是使用app.factory来创建的.但其实 ...
[Windows Azure] Load Balancing Virtual Machines
Load Balancing Virtual Machines All virtual machines that you create in Windows Azure can automatica ...
每日英语：How the College Bubble Will Pop
The American political class has long held that higher education is vital to individual and national ...
ny106 背包问题
背包问题时间限制:3000 ms | 内存限制:65535 KB ...
关于ddx/ddy重建法线在edge边沿上的artifacts问题
经验证,原来ddx/ddy这两个操作,在forward rendering与deferred rendering中存在着微妙的应用区别. 在forward rendering中,GPU shader会 ...
【嵌入式】使用Cross Toolchain构建交叉工具链
Preface 前面编译linux内核的时候,用各种cross版本都不行啊,真是纠结,于是就想着自己也要会编译交叉工具的方法,然后各种尝试,各种问题啊,最后还是没解决(还有其它事情),步骤我都走熟了, ...
使用PyHive操作Hive
使用PyHive操作Hive 废话搜了一下,看到了StackOverFlow的回答,试了一下前两个方案,感觉第二个更简洁,这里记录一下,更详细的见参考. 安装依赖 pip install sasl ...
2017年研究生数学建模竞赛-E题 MATLAB 作战区域道路示意图
MATLAB 画区域作战图 clear load('output_path1.mat') k = 1:130; gplot(edge(k,k),loc(k,:),'c-') title('作战区域道路 ...
Python（五）之迭代器和列表解析
Python迭代器和列表解析迭代器例如: In [1]: l1 = [1,2,3,4,5] dir(i1)可以看到内置方法'__iter__' 生成一个迭代器: l1.__iter__,或i2 = ...

[hadoop读书笔记] 第一章 初识 Hadoop

[hadoop读书笔记] 第一章 初识 Hadoop的更多相关文章

随机推荐

热门专题

[hadoop读书笔记] 第一章初识 Hadoop

[hadoop读书笔记] 第一章初识 Hadoop的更多相关文章