大数据时代，我们为什么使用hadoop

我们先来看看大数据时代，

什么叫大数据，“大”，说的并不仅是数据的“多”！不能用数据到了多少TB ，多少PB 来说。

对于大数据，可以用四个词来表示：大量，多样，实时，不确定。

也就是数据的量庞大，数据的种类繁杂多样话，数据的变化飞快，数据的真假存疑。

大量：这个大家都知道，想百度，淘宝，腾讯，Facebook，Twitter等网站上的一些信息，这肯定算是大数据了，都要存储下来。

多样：数据的多样性，是说数据可能是结构型的数据，也可能是非结构行的文本，图片，视频，语音，日志，邮件等。

实时：大数据需要快速的，实时的进行处理。如果说对时间要求低，那弄几个机器，对小数据进行处理，等个十天半月的出来结果，这样也没有什么意义了。

不确定：数据是存在真伪的，各种各样的数据，有的有用，有的没用。很难辨析。

根据以上的特点，我们需要一个东西，来：

1存储大量数据

2快速的处理大量数据

3从大量数据中进行分析

于是就有了这样一个模型hadoop。

hadoop的历史就不说了。先来看看模型。

这就相当于一个生态系统，或者可以看成一个操作系统XP，win7.

HDFS和MapReduce为操作系统的核心，Hive，Pig，Mathout，Zookeeper，Flume，Sqoop，HBase等，都是操作系统上的一些软件，或应用。

HDFS：（Hadoop Distributed File System)，Hadoop分布式文件系统。从名字上就看出了它的两点功能。

基本功能，存文件，是一个文件系统；另外这个文件系统是分布式的；

从图上来看，HDFS的简单原理。

Rack1，Rack2，Rack3是三个机架；

1,2,3,4,5,6,7,8,9,10,11,12 是机架上的十二台服务器。

Block A, Block B, Block C为三个信息块，也就是要存的数据。

从整体布局上来看，信息块被分配到机架上。看似很均匀。这样分配的目的，就是备份，防止某一个机器宕机后，单点故障的发生。

MapReduce，（Map + Reduce），就看成是计算的功能。可以对数据进行处理。

它加快了计算。主要也是通过上图的布局。将数据分布到多个服务器上。当有任务了，比如查询，或者比较大小，先让每台服务器，都处理自己的存储中文件。然后再将所有服务器的处理结果进行第二次处理。最后将结果返回。

其实，hadoop还有一点好处，就是省钱。

框架开源的，免费的，服务器也不用特别牛X的。

省钱才是硬道理。

另外，从别的资料看到一种解释mapreduce的方式，很简单

Goal: count the number of books in the library.

Map: You count up shelf #1, I count up shelf #2.

(The more people we get, the faster this part goes. )

Reduce: We all get together and add up our individual counts.

CSDN地址: http://blog.csdn.net/weixuehao/article/details/14126199

大数据时代，我们为什么使用hadoop的更多相关文章

大数据时代快速SQL引擎-Impala
背景随着大数据时代的到来,Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作,大家也无意间的想往大数据方向靠拢,即使每天数据也就几十.几百M也要放到Hadoop上作分析,只会适 ...
转：大数据时代快速SQL引擎-Impala
本文来自:http://blog.csdn.net/yu616568/article/details/52431835 如有侵权可立即删除背景随着大数据时代的到来,Hadoop在过去几年以接近统 ...
大数据时代之hadoop(五)：hadoop 分布式计算框架（MapReduce）
大数据时代之hadoop(一):hadoop安装大数据时代之hadoop(二):hadoop脚本解析大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四): ...
【Hadoop】大数据时代，我们为什么使用hadoop
博客已转移,请借一步说话.http://www.daniubiji.cn/archives/538 我们先来看看大数据时代, 什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB , ...
大数据项目实践：基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统
一.前言从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS ...
大数据时代的IT架构设计
大数据时代的IT架构设计(来自互联网.银行等领域的一线架构师先进经验分享) IT架构设计研究组编著 ISBN 978-7-121-22605-2 2014年4月出版定价:49.00元 208页 ...
【大数据】Summingbird（Storm + Hadoop）的demo运行
一.前言为了运行summingbird demo,笔者走了很多的弯路,并且在国内基本上是查阅不到任何的资料,耗时很久才搞定了demo的运行.真的是一把辛酸泪,有兴趣想要研究summingbird的园 ...
跟上节奏大数据时代十大必备IT技能（转）
新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最 ...
大数据时代的技术hive：hive介绍
我最近研究了hive的相关技术,有点心得,这里和大家分享下. 首先我们要知道hive到底是做什么的.下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将 ...

随机推荐

linux_shell_轮询触发启动脚本
while [ 1 ]do length=`redis-cli -h *.*.*.* -p 8000 llen eq` while [ $length -gt 1 ] do echo "le ...
Java高效编程(2) -- Creating and Destroying Objects
Item 1: Consider static factory methods instead of constructors Advantage: One advantage of static f ...
POJ2771_Guardian of Decency(二分图/最大独立集=N-最大匹配)
解决报告 http://blog.csdn.net/juncoder/article/details/38159017 题目传送门题意: 看到题目我就笑了.., 老师觉得这种两个学生不是一对: 身高 ...
JavaWeb显示器
本文研究的总结.欢迎转载,但请注明出处:http://blog.csdn.net/pistolove/article/details/44310967 A:监听器的定义专门用于其它对象身上 ...
优秀的前端project如何制定一个老师--html学习路径
一个好的前端project教师发展,不是一蹴而就,它需要大量的学习和积累. 至于谁刚开始学习的人,如何入门.学习如何选择我的路线,做了各种工具? 1. 学习之前 1.不要着急看一些复杂网页效果的代码 ...
Python的html和xml解析库Beautiful Soup
网站:http://www.crummy.com/software/BeautifulSoup/ 版权声明:本文博主原创文章,博客,未经同意不得转载.
JVM相关知识（1）
1.JVM内存管理的机制内存空间划分为:Sun JDK在实现时遵照JVM规范,将内存空间划分为堆.JVM方法栈.方法区.本地方法栈.PC寄存器. 堆: 堆用于存储对象实例及数组值,可以认为Java中 ...
C编程的指针涛 ---第九笔记
//这里说的是一个指针,指向算法的应用 //直接排序 //每个排序算法是指针指向的每个元件的特性的方便的交流 //这里的基本思想是,处理的记录的排序n - 1第二选择. //第i次操作选择i大(小)的 ...
使用Scala操作Mongodb
介绍 Scala是一种功能性面向对象语言.它融汇了很多前所未有的特性.而同一时候又执行于JVM之上.随着开发人员对Scala的兴趣日增,以及越来越多的工具支持,无疑Scala语言将成为你手上一件不可缺 ...
ckplayer
ckplayer 的使用基本功能实现(一) 有个项目里用到视频播放功能,虽然是国产的插件,但我觉得做的还是不错,而且是免费使用,顺便支持下国内的一些项目(O(∩_∩)O~). 一.首先去官网下载插件 ...

大数据时代，我们为什么使用hadoop

大数据时代，我们为什么使用hadoop

大数据时代，我们为什么使用hadoop的更多相关文章

随机推荐

热门专题