hadoop 是什么?

1. 适合海量数据的分布式存储与计算平台。

海量: 是指 1T 以上数据。

分布式: 任务分配到多态虚拟机上进行计算。

2. 多个任务是怎么被分配到多个虚拟机当中的?

分配是需要网络通讯的。而且是需要启动资源 或者 消耗一些硬件上的配置。

单 JVM 关注的如何『处理』,而不是交给其他人进行处理这个 『管理』的过程。  所以最开始有两个关键的字  『适合』,

只有当数据量超过 1T 的大数据处理才能凸显 hadoop 的优势;    当然,用 hadoop 处理 几十G、几百G 这种小数据也是可以的,只是体现不了 hadoop的优势罢了,从硬件的角度,从效率的角度都是不太值得的。

3.Hadoop Ecosystem Map   Hadoop生态系统图

博客讲解:  http://www.cnblogs.com/zlslch/p/5080439.html

像其他框架一样,hadoop 也是分层的,  序号③  ⑤ 就是 hadoop 中重要的组成, HDFS 负责数据存储。MapReduce 是海量数据的分布式计算框架。

Structured Data(hiho, sqoop) 是 hadoop 中对传统数据和 hadoop中数据相互转化的工具。传统数据库中的数据可以导入到 hadoop中。hadoop中的数据也可以导入到传统的关系型数据库中。

HBASE 是 hadoop中用的最多和最重要的子项目之一。当然它也是构建于 MapReduce 和 HDFS 之上的。不过 HBASE 可以不基于 HDFS ,只是如果不基于 HDFS时就无法使用 MapReduce 计算框架了。是处理大数据读写操作的,尤其适合一些大型在线系统。

大数据有两层含义:第一层含义,大数据有自己的构造形态,key-value方式。  另外一层含义,就是大家理解的海量数据。 之所以能成为 大数据 是因为 他是  key-value的构建方式。

HDFS


HDFS: Hadoop Distributed File System 分布式文件系统

文件系统  是一套接口,一套平台。是用于管理文件的存储与操作的。

HDFS文件系统,是用于管理分布式文件的存储与操作的HDFS 就为我们提供了一套机制,让海量数据能够分布在不同的计算机上。他提供 言外知音就是 我们不用关心数据是怎么存储的, HDFS 负责存储这件事情。这是我们使用 hadoop 的一个重要的原因,他帮我们屏蔽掉一些分布式操作的一些细节。

MapReduce


MapReduce  : 并行计算框架

分布式系统中有很多台机器,每一台机器存储数据的一部分,我们使用 hadoop 之所以能够很快的计算得出结果,原因很简单 我们计算的代码会在不同的机器上运行, 每一台机器完成计算的一部分,因为每台机器上存储的只是我数据的一部分。多台机器并行计算。然后把计算结果收集过来得出最终的结果。这是Hadoop 之所以块的根源。所以 MapReduce 是我们要研究非常重要的核心,  HDFS 的操作是hadoop 框架屏蔽掉的,所以我们主要是去学习怎么去使用它。作为开发而言,聚焦到核心的核心,肯定是 MapReduce。 因为 MapReduce 是计算框架。也就是说数据已经存储了,我怎么计算它,这在任何一个框架中都是一个比较核心的问题。当然也是最有技术含量的问题。所以 如果学习hadoop 的话,有必要详细研究 MapReduce 的架构、使用、源代码等等所有的核心环节。

关于hadoop的更多相关文章

  1. Hadoop 中利用 mapreduce 读写 mysql 数据

    Hadoop 中利用 mapreduce 读写 mysql 数据   有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...

  2. 初识Hadoop、Hive

    2016.10.13 20:28 很久没有写随笔了,自打小宝出生后就没有写过新的文章.数次来到博客园,想开始新的学习历程,总是被各种琐事中断.一方面确实是最近的项目工作比较忙,各个集群频繁地上线加多版 ...

  3. hadoop 2.7.3本地环境运行官方wordcount-基于HDFS

    接上篇<hadoop 2.7.3本地环境运行官方wordcount>.继续在本地模式下测试,本次使用hdfs. 2 本地模式使用fs计数wodcount 上面是直接使用的是linux的文件 ...

  4. hadoop 2.7.3本地环境运行官方wordcount

    hadoop 2.7.3本地环境运行官方wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次先以独立模式(本地模式 ...

  5. 【Big Data】HADOOP集群的配置(一)

    Hadoop集群的配置(一) 摘要: hadoop集群配置系列文档,是笔者在实验室真机环境实验后整理而得.以便随后工作所需,做以知识整理,另则与博客园朋友分享实验成果,因为笔者在学习初期,也遇到不少问 ...

  6. Hadoop学习之旅二:HDFS

    本文基于Hadoop1.X 概述 分布式文件系统主要用来解决如下几个问题: 读写大文件 加速运算 对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整 ...

  7. 程序员必须要知道的Hadoop的一些事实

    程序员必须要知道的Hadoop的一些事实.现如今,Apache Hadoop已经无人不知无人不晓.当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软...... 1: ...

  8. Hadoop 2.x 生态系统及技术架构图

    一.负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大) 二.负责存储数据的工具:HBaseMong ...

  9. Hadoop的安装与设置(1)

    在Ubuntu下安装与设置Hadoop的主要过程. 1. 创建Hadoop用户 创建一个用户,用户名为hadoop,在home下创建该用户的主目录,就不详细介绍了. 2. 安装Java环境 下载Lin ...

  10. 基于Ubuntu Hadoop的群集搭建Hive

    Hive是Hadoop生态中的一个重要组成部分,主要用于数据仓库.前面的文章中我们已经搭建好了Hadoop的群集,下面我们在这个群集上再搭建Hive的群集. 1.安装MySQL 1.1安装MySQL ...

随机推荐

  1. iOS开发之自定义表情键盘(组件封装与自动布局)

    下面的东西是编写自定义的表情键盘,话不多说,开门见山吧!下面主要用到的知识有MVC, iOS开发中的自动布局,自定义组件的封装与使用,Block回调,CoreData的使用.有的小伙伴可能会问写一个自 ...

  2. input(file)按钮美化

    <!DOCTYPE HTML> <html> <body> <input type="file" id="upload" ...

  3. Java内存模型深度解析:锁--转

    原文地址:http://www.codeceo.com/article/java-memory-5.html 锁的释放-获取建立的happens before 关系 锁是java并发编程中最重要的同步 ...

  4. JavaMail发送邮件的笔记及Demo

    最近碰到一个需求,就是注册用户时候需要向用户发送激活邮箱,于是照着网上搜来的demo自己试着运行了一下,发件时我用的是网易163邮箱,收件时用QQ邮箱,运行后报了一个错误: 网络上搜索解决方式,多次尝 ...

  5. 多个Activity相互调用和Intent

    MainActivity.java和OtherActivity.java的相互调用 首先MainActivity.java是Android程序自带的,新建一个类OtherActiviy extends ...

  6. Win8.1安装mysql-installer-community-5.6.21.0.mis

    引言 我本机是win8.1,在官网下载的这个安装是32位和64位都能装,安装步骤参考:http://jingyan.baidu.com/article/67662997305dcd54d51b84d4 ...

  7. HTML5+CSS3实现图片可倾斜摆放的动画相册效果

    先看看效果:其中鼠标悬浮在图片上会有动态效果图 直接上代码: css文件 @CHARSET "UTF-8"; *{ padding:0px; margin:0px; } div{ ...

  8. 从零开始学习jQuery (三) 管理jQuery包装集

    本系列文章导航 从零开始学习jQuery (三) 管理jQuery包装集 一.摘要 在使用jQuery选择器获取到jQuery包装集后, 我们需要对其进行操作. 本章首先讲解如何动态的创建元素, 接着 ...

  9. SQL Server时间粒度系列----第9节时间粒度示例演示

    本文目录列表: 1.准备测试数据 2.向测试数据表添加相关时间粒度字段列 3.基于日月季年统计汇总的演示 4.总结语 5.参考清单列表   准备测试数据   为了提供不同时间粒度示例的演示,就需要测试 ...

  10. EF中的实体类型【Types of Entity in Entity】(EF基础系列篇8)

    We created EDM for existing database in the previous section. As you have learned in the previous se ...