Hadoop笔记系列一用Hadoop进行分布式数据处理(1)

学习资料参考地址：

1.http://blog.csdn.net/zhoudaxia/article/details/8801769

1.先说说什么是Hadoop？

　　个人理解：一个分布式文件存储系统+一个分布式计算框架，在其上还有很多的开源项目来丰富他的功能，如Hbase,hive等等。官方：Hadoop是一个用Java编写的开源系统，可安排在大规模的计算平台上，从而提高计算效率。本质上它只是一个海量数据处理平台架构。

2.Hadoop与MapReduce，有什么关系？

　　Hadoop生态圈的三个工具：第一，Hbase，最大化利用了内存。第二，HDFS，最大化利用了磁盘。第三，MapReduce，最大化利用了CPU。(Hbase,利用了Nosql数据库，Key-Value存储；HDFS，是hadoop distribute file system分布式文件系统；MapReduce，编程模型，主要用来做数据分析)

3.Hadoop是在怎么样的一个环境中应用而生的，它最终解决了什么问题？运用它之后，目前的发展方向是什么样的？

　　信息时代数据的增长，比如每天在全球流通的Email。比如，某人在微博中发了不健康内容，我们想在第一时间找出来，需要在海量数据中做搜索。比如某大型公司的日志记录，我们需要离线处理海量数据，从中分析出用户的一些消费习惯。那么我们要存储，我们要运算并且分析，但是硬盘存储空间不够，网络带宽受限，硬件故障不稳定。但是，我们想以很少的代价完成这个tasks。于是产生了Hadoop。如google，会把淘汰的机器用于搭建一个Hadoop集群。运用这个技术之后，我们的海量技术得到了长期保存，得到了及时的处理很分析，集群会自动备份，省去了我们对硬件环境不稳定的担忧。目前，在国内阿里的这方面领先。

4.笔记摘要：

　　Hadoop是一个分布式数据处理框架。当搜索引擎需要收集数据时，数据量是极大的。此时，Hadoop 让许多应用程序能够受益于并行数据处理。

5、Hadoop的安装。

　　首先，安装Java™（至少是 1.6 版）和 cURL。

参考地址：http://blog.itpub.net/26230597/viewspace-1255651/

Hadoop笔记系列一用Hadoop进行分布式数据处理(1)的更多相关文章

Hadoop自学系列集(四) ---- Hadoop集群
久等了,近期公司比较忙,学习的时间都没有啊,到今日才有时间呢!!!好了,下面就跟着笔者开始配置Hadoop集群吧. hosts文件和SSH免密码登录配置好了之后,现在进入Hadoop安装目录,修改一些 ...
Hadoop自学系列集(三) ---- Hadoop安装
这节就开始讲述Hadoop的安装吧.在这之前先配置下SSH免密码登录,为什么需要配置这个呢?大家都知道Hadoop集群中可能有几十台机器甚至是上千台机器,而每次启动Hadoop都需要输入密码才能够登录 ...
Hadoop概念学习系列之谈hadoop/spark里分别是如何实现容错性？（四十二）
Hadoop使用数据复制来实现容错性(I/O高) Spark使用RDD数据存储模型来实现容错性. RDD是只读的.分区记录的集合.如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息. ...
Hadoop概念学习系列之谈hadoop/spark里为什么都有，YARN呢？（四十一）
在Hadoop集群里,有三种模式: 1.本地模式 2.伪分布模式 3.全分布模式在Spark集群里,有四种模式: 1.local单机模式结果xshell可见: ./bin/spark-submit ...
Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）
很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行. 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等. 这是为什 ...
Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）
很多人只会,但没深入体会和想为什么要这样? 拿Hadoop来说,当然,spark也一样的道理. 输出路径由Hadoop自己创建,实际的结果文件遵守part-nnnn的约定. 如何指定一个已有目录作为H ...
Hadoop学习笔记系列文章导航
一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长 ...
Hadoop学习笔记系列
Hadoop学习笔记系列一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼 ...
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...

随机推荐

bower使用记录
每次做项目的时候都不依赖某一个库来开发,每次需要某一个库的时候都是百度进入库官网再找到下载的库,经常会因为官网的改版更新而在里面绕半天找不到想要的版本号,当然直接去github,CDN 都可以找到需要 ...
PHP两种redirect
PHP两种redirect redirect header('Location: /admin_data.php'); exit(); redirect `echo "<script& ...
KnockoutJS 3.X API 第四章数据绑定(3) 控制流if绑定和ifnot绑定
if绑定目的 if绑定一般是格式是data-bind=if:attribute,if后所跟属性或表达式的值应为bool值(也可以是非bool值,当非空字符串时则为真),if绑定的作用与visible绑 ...
java8--stream
*:first-child { margin-top: 0 !important; } .markdown-body>*:last-child { margin-bottom: 0 !impor ...
ng-表单验证
表单验证<AngularJs> 常用的表单验证指令 1. 必填项验证某个表单输入是否已填写,只要在输入字段元素上添加HTML5标记required即可: <input type ...
初了解NodeJS
发现了NodeJS以后让我有一种很激动的心情,因为它能做我以前一直想写的东西,而如果没有NodeJS我还需要去学习别的语言,但是有了NodeJS以后就可以通过Javascript来写我的程序了,不得不 ...
截取js数组中某段值（slice）
// var a = [1,2,3]; // console.log(a.slice(1)); >>[2, 3] 从索引1开始截取. // console.log(a.slice(1,2) ...
WPF自定义控件与样式(8)-ComboBox与自定义多选控件MultComboBox
一．前言申明:WPF自定义控件与样式是一个系列文章,前后是有些关联的,但大多是按照由简到繁的顺序逐步发布的等,若有不明白的地方可以参考本系列前面的文章,文末附有部分文章链接. 本文主要内容: 下拉选 ...
poj 1386 Play on Words(有向图欧拉回路)
/* 题意:单词拼接,前一个单词的末尾字母和后一个单词的开头字母相同思路:将一个单词的开头和末尾单词分别做两个点并建一条有向边!然后判断是否存在欧拉回路或者欧拉路再次强调有向图欧拉路或欧拉回路的判 ...
pomelo获取客户端IP
代码: Handler.prototype.getClientIp = function(msg, session, next) { var ip = session.__session__.__so ...

Hadoop笔记系列 一 用Hadoop进行分布式数据处理(1)

Hadoop笔记系列 一 用Hadoop进行分布式数据处理(1)的更多相关文章

随机推荐

热门专题

Hadoop笔记系列一用Hadoop进行分布式数据处理(1)

Hadoop笔记系列一用Hadoop进行分布式数据处理(1)的更多相关文章