[hadoop读书笔记] 第一章初识 Hadoop

P3-P4：

目前遇见的问题很简单:硬盘容量不断提升，1TB的已成为主流，然而数据传输速度从1990年的4.4MB/s仅上升到当前约100MB/s

读取一个1TB的硬盘数据需要耗时至少2.5个小时。写入数据则会消耗更多时间。解决方法是从多个硬盘上读取，试想，若当前有100个盘，每个盘存储1%数据，则并行读取仅需2minutes则可读取完所有的数据。

与此同时，并行读写数据带来了几个问题：

1、某个硬件故障 - 采用数据备份机制

2、分析任务需要所有节点共同完成，结果正确性 - MapReduce：将硬盘读写问题转化为对一个数据集的计算。

所以，Hadoop提供给我们一个可靠的共享存储和分析系统。

由HDFS实现可靠数据存储，MR实现可靠数据分析处理。

数据本地化是MR的一个核心特性，意识到到处复制数据容易消耗尽网络带宽后，MR尽量在计算机节点上存储数据，以实现数据的本地快速访问，同时，也提高了计算的性能。

当需要完成计算，却中途有部分节点计算失效时，MR能检测到并重新执行那些失败的M或R任务。

这是因为MR采用的是无共享的架构，各个计算任务相互独立，容易实现失败检测。

MR三大设计目标：

（1）为只需要几分钟或几小时可以完成的作业提供服务

（2）运行于同一个内部有高速网络连接的数据中心内部

（3）数据中心内的机器都是可靠、定制的硬件

P12

2006年4月在188个节点（每个10GB）运行排序测试需要49.7小时

5月在500个节点（每个10GB）运行排序测试需要42小时

12月在20节点上1.8小时，100节点上3.3小时，500节点上5.2小时，900节点上7.8小时

在2008年4月，在一个有910台节点的集群上，以不到3.5分钟的成绩，完成了对1TB数据的排序，成为最快的TB级数据排序系统。

同年11月，google用了68s

2009年5月，雅虎用了62s

雅虎搜索引擎四个组成部分：

1 网页服务器爬取网页 - Crawler

2 构建已知网页链接图 - WebMap （链接图非常大，分析需要数日）

3 最佳页面构建反向索引 - Indexer

4 处理用户的查询 - Runtime

P14-15

P15

2.x 版本新特性

1、基于YARN系统上构建了全新的MR2.YARN是一个通用的用于运行分布式应用的资源管理器（Yet Another Resource Negotiator）

2、HDFS联合管理，将HDFS命名空间分散到多个namenode中以支持包含大规模数据文件的集群。

3、HDFS高可用性，启用secondNamenode避免namenode单点故障。

[hadoop读书笔记] 第一章初识 Hadoop的更多相关文章

[hadoop读书笔记] 第九章构建Hadoop集群
P322 运行datanode和tasktracker的典型机器配置(2010年) 处理器:两个四核2-2.5GHz CPU 内存:16-46GN ECC RAM 磁盘存储器:4*1TB SATA 磁 ...
《css3实战》读书笔记第一章基于CSS需求而编写的HTML.
笔记说明 <CSS3实战手册第3版(影印版)>可以消除Web设计工作的痛苦,并且带给你:HTML--重新入门.如果你是HTML新手,你会学到如何以CSS友好的方式进行基本页面构造.若你是H ...
《疯狂Java：突破程序员基本功的16课》读书笔记-第一章数组与内存控制
很早以前就听过李刚老师的疯狂java系列很不错,所以最近找一本拿来拜读,再此做下读书笔记,促进更好的消化. 使用Java数组之前必须先对数组对象进行初始化.当数组的所有元素都被分配了合适的内存空间,并 ...
Getting Started With Hazelcast 读书笔记(第一章)
第一章:数据集群的演化与早期的服务器架构显然,应用是可扩展的,但是由于是集中式服务器,随着数据库性能达到极限,再想扩展就变得极端困难,于是出现了缓存. 缓存显然再次提升了可扩展性,减轻了数据 ...
.net架构设计读书笔记--第一章基础
第一章基础第一节软件架构与软件架构师简单的说软件架构即是为客户构建一个软件系统.架构师随便软件架构应运而生,架构师是一个角色. 2000年9月ANSI和IEEE发布了<密集性软件架构建 ...
C缺陷与陷阱----读书笔记---第一章
第一章:词法陷阱编译器中负责将程序分解为一个一个符号的部分,一般称为“词法分析器”.例如,对于语句: if ( x == big ) big = x ; 它的第一个符号是C语言关键字if,紧接着下一 ...
《C++ Primer》读书笔记第一章
读<C++ Primer>才知道,自己对C++知之甚少... 写个博客记录下自己C++的成长,只是读书笔记,不是对<C++ Primer>知识点的总结,而是对自己在书上看到的以 ...
《深入理解计算机系统》（CSAPP）读书笔记 —— 第一章计算机系统漫游
本章通过跟踪hello程序的生命周期来开始对计算机系统进行学习.一个源程序从它被程序员创建开始,到在系统上运行,输出简单的消息,然后终止.我们将沿着这个程序的生命周期,简要地介绍一些逐步出现的关键概念 ...
[spark 快速大数据分析读书笔记] 第一章导论
[序言] Spark 基于内存的基本类型 (primitive)为一些应用程序带来了 100 倍的性能提升.Spark 允许用户程序将数据加载到集群内存中用于反复查询,非常适用于大数据和机器学习. ...

随机推荐

Serizlizable
关闭忧郁王子的专栏伟大的意大利,伟大的罗伯特-巴乔目录视图摘要视图订阅赠书 | 异步2周年,技术图书免费选每周荐书:分布式.深度学习算法.iOS(评论送书) ...
基于express框架的Token实现方案
什么是Token? 在计算机身份认证中是令牌(临时)的意思,在词法分析中是标记的意思.一般我们所说的的token大多是指用于身份验证的token Token的特点随机性不可预测性时效性无状态. ...
android 自己定义视频播放器之2/1
非常久没更新博客,相信大家年后都比較忙. 今天给大家带来了一款视频播放器,首先确认的得有几点. 1.首先得有个播放视频的view. 2.加点额外功能进去左边上下滑动调节亮度,右边上下滑动调节声量: 3 ...
git将本地项目添加到github上
git init git add . git commit -m '添加备注' git add remote origin originUrl git push -u origin master 注意 ...
VS2012高亮显示当前行背景色的问题
在VS2012中,如果你不幸用了三方主题,尤其是深色主题.比如http://studiostyl.es/schemes/son-of-obsidian ,那么你很可能发现当前行高亮的样式变成了这样: ...
重复代码检查工具simian的基本用法
simian是一个检查重复代码的工具,支持通过命令行和UI方式来检查代码,可以检查多种语言(比如C\C++, java, c#等)的代码,常见的编程语言都支持,下面先来看看如何使用命令行来检查c++重 ...
C++类成员函数
c++的两大特色是多态和模板.其中多态是通过继承和虚函数来实现的,其中虚函数是通过每个对象里面的虚表来实现的.如果这个对象的类有虚函数,那么这个类就有一张虚表,存的是每个虚函数的入口地址,而这个类的每 ...
【Kryo】简单地使用Kryo
公司用Kryo,先接触下,简单记录下. 引入包 <dependencies> <dependency> <groupId>com.esotericsoftware& ...
ubuntu rar文件解压中文乱码问题
http://blog.csdn.net/android_huber/article/details/7382867 前段时间经常要在ubuntu系统中去解压rar的文件,但是每次解压出来却总是出现中 ...
【神经网络】LSTM 网络
Long Short Term 网络—— 一般就叫做 LSTM ——是一种 RNN 特殊的类型,可以学习长期依赖信息.LSTM 由Hochreiter & Schmidhuber (199 ...

[hadoop读书笔记] 第一章 初识 Hadoop

[hadoop读书笔记] 第一章 初识 Hadoop的更多相关文章

随机推荐

热门专题

[hadoop读书笔记] 第一章初识 Hadoop

[hadoop读书笔记] 第一章初识 Hadoop的更多相关文章