一、大数据介绍

1、大数据指的是所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。

2、大数据，可帮助我们能察觉商业趋势、判断研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。

3、麦肯锡全球研究院(MGI)预测，到2020年，全球数据使用量预计达到35ZB(1ZB=1000EB,1EB=1000PB,1PB=1000TB,1TB=1000GB).

4、Google每天要处理的数据高达几百PB。百度每天处理数据几十PB。腾讯微信活跃用户数达7亿，每天产生的数据量上百TB，2016年除夕当日，微信红包的参与人数达到4.2亿人，收发总量达80.8亿个。

5、多源异构：描述同一主题的数据由不同的用户、不同的网站产生。网络数据有多种不同的呈现形式，如音视频、图片、文本等，导致网络数据格式上的异构性。

6、交互性：不同于测量和传感获取的大规模科学数据，微博等社交网络兴起导致大量网络数据具有很强的交互性。

7、时效性：在网络平台上，每时每刻都有大量新的网络数据发布，网络信息内容不断变化，导致了信息传播的时序相关性。

8：社会性：网络上用户根据自己的需要和喜好发布、恢复或转发信息，因为网络数据成了对社会状态的直接反应。

9、突发性：有些信息在传播过程中会短时间内引起大量新的网络数据与信息的产生，并使相关的网络用户形成网络群体，体现出网络大数据以及网络群体的突发特性。

10、高噪声：网络数据来自于众多不同的网络用户，具有很高的噪声。

二、Hadoop介绍

1、Hadoop是一个开源分布式计算平台架构，基于apache协议发布，由java语言开发。官方网址 http://Hadoop.apache.org

2、Hadoop两大核心组件：HDFS(分布式文件系统，为分布式计算提供了数据存储)和MapReduce(应用程序被分成许多小部分，而每个部分都能在集群中的任意节点上运行，一句话就是人物的分解和结果的汇总)。

3、另外两个模块：Common、YARN。

4、其他和Hadoop相关的项目：Ambari、Avro、Cassandra、Chukwa、Hbase、Hive、Mahout、Pig、Spark、Tez、ZooKeeper。

5、Hadoop支持有廉价的计算机搭建集群，有强大的冗余机制。

6、Hadoop在各大互联网企业中应用广泛，百度使用Hadoop进行搜索日志的分析和网页数据的挖掘工作；淘宝使用Hadoop存储并处理电子商务交易相关数据；facebook使用Hadoop进行数据分析和机器学习。

7、还有那些企业在使用Hadoop？可通过此站点进行查看：http://wiki.apache.org/Hadoop/PoweredBy

三、Hadoop组件和相关项目介绍

1、Common：为其他组件提供常用工具支持。

2、YARN：作业调度和集群管理的框架。

3、Ambari：是Apache Software Foundation中的一个项目。就Ambari的作用来说。就是创建、管理、监视Hadoop的集群，但是这里Hadoop是广义，指的是Hadoop整个生态圈(例如Hive，Hbase，ZooKeeper等)。用一句话来说，Ambari就是为了让Hadoop以及相关的大数据软件更容易使用的一个工具。Ambari下载安装方法：http://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/index.html

4、Avro：Avro是Hadoop中的一个子项目，也是Apache中一个独立的项目，Avro是一个基于二进制数据传输高性能的中间件，在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具，Avro是一个数据序列化的系统，Avro可以将数据结构或对象转化成便于存储或传输的格式，Avro设计之初用来支持数据密集型应用，适合于远程或本地大规模数据的存储和交换。官方地址：http://www.open-open.com/lib/view/open1369363962228.html

5、Cassandra：可扩展的多主数据库，不存在单点故障。

6、Chukwa：是数据收集系统，用于监控和分析大型分布式系统的数据。

7、HBase：是一个分布式面向列的数据库。

8、Hive：最早由facebook设计，是建立在Hadoop基础之上的数据仓库，它提供了一些用于数据整理、特殊查询和分析在Hadoop文件中数据集工具。

9、Mahout：可扩展的机器学习和数据挖掘库。

10、Pig：是一种高级语言和并行计算可执行框架，他是对一个大型数据集分析和评估的平台。

11、Spark：一个快速和通用计算的Hadoop数据引擎。和MapReduce类似，但是要比MapReduce快，它提供了一个简单而丰富的编程模型，支持多种应用，包括ETL、机器学习、数据流处理、图形计算。参考文档：http://www.techweb.com.cn/network/system/2016-01-25/2267414.shtml

12、Tez：是Apache最新的支持DAG作业的开源计算框架，它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez并不直接面向最终用户，事实上他允许开发者为最终给用户构建性能更快、扩展性更好的应用程序。Hadoop传统上还有一些工作则不太适合MapReduce，例如机器学习，Tez的目的就是帮助Hadoop处理这些用例场景。

13、ZooKeeper：ZooKeeper是一组工具，用来配置和支持分布式调度，一个重要功能就是对所有节点进行配置的同步，他能处理分布式应用的“部分失败”问题，部分失败是分布式处理系统的固有特征，即发送者无法知道接受者是否收到消息，它的出现可能和网络传输问题、接受进程意外死掉等有关。ZooKeeper是Hadoop生态系统的一部分，但又远不止如此，它能支持更多类似的分布式平台和系统，如Jubatus，Cassender等等。

Hadoop及其相关组件简介的更多相关文章

hadoop以及相关组件介绍以及个人理解
前言本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富.但是 ...
【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件（三）
RAC 工作原理和相关组件(三) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
Spark学习之基础相关组件（1）
Spark学习之基础相关组件(1) 1. Spark是一个用来实现快速而通用的集群计算的平台. 2. Spark的一个主要特点是能够在内存中进行计算,因而更快. 3. RDD(resilient di ...
【转】【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件（三）
原文地址:http://www.cnblogs.com/baiboy/p/orc3.html 阅读目录目录 RAC 工作原理和相关组件 ClusterWare 架构 RAC 软件结构集群注册(OC ...
HBase的部署与其它相关组件（Hive和Phoenix）的集成
HBase的部署与其它相关组件(Hive和Phoenix)的集成一.HBase部署 1.1.Zookeeper正常部署首先保证Zookeeper集群的正常部署,并启动之: /opt/module/ ...
Hadoop框架：HDFS简介与Shell管理命令
本文源码:GitHub·点这里 || GitEE·点这里一.HDFS基本概述 1.HDFS描述大数据领域一直面对的两大核心模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容 ...
node.js及相关组件安装
第一步:下载安装文件(下载地址:官网http://www.nodejs.org/download/ )第二步:安装nodejs(双击直接安装) 安装完成后使用命令行查看版本信息,出现版本号说明安装成功 ...
Netty 源码（一）Netty 组件简介
Netty 源码(一)Netty 组件简介 Netty 系列目录(https://www.cnblogs.com/binarylei/p/10117436.html) 一.Netty 架构 Core: ...
转载:【Oracle 集群】RAC知识图文详细教程(三)--RAC工作原理和相关组件
文章导航集群概念介绍(一) ORACLE集群概念和原理(二) RAC 工作原理和相关组件(三) 缓存融合技术(四) RAC 特殊问题和实战经验(五) ORACLE 11 G版本2 RAC在LINUX ...

随机推荐

python走起之第二话
Python基础一.整数(int) 如: 18.73.84 整数类的功能方法及举例: 带__的方法代表有多种表达方式 1.__abs__ <==> abs() 求整数的绝对值:(-11) ...
《BI项目笔记》创建标准维度、维度自定义层次结构
Spring事务管理只对出现运行期异常进行回滚
原文:http://blog.csdn.net/abc19900828/article/details/39497631 使用spring难免要用到spring的事务管理,要用事务管理又会很自然的选择 ...
渲染引擎之Camera
Camera, 在游戏渲染引擎里面, 如果摄影师的眼睛, 它决定了观众可以看到的游戏内容.从3D技术角度讲,Camera就是如何计算视图矩阵view matrix的模块(这里不讨论透视的方法),无论是 ...
DES MAC PIN HEX
/* void DesEncrypt( UCHAR * auchInput,UCHAR * auchKey,UCHAR * auchOutput=NULL); Function: DesEncrypt ...
并发编程 06—— CompletionService ：Executor 和 BlockingQueue
Java并发编程实践目录并发编程 01—— ThreadLocal 并发编程 02—— ConcurrentHashMap 并发编程 03—— 阻塞队列和生产者-消费者模式并发编程 04—— 闭 ...
第十二章非对称加密算法-RSA
注意:本节内容主要参考自<Java加密与解密的艺术(第2版)>第8章“高等加密算法--非对称加密算法” 12.1.RSA(最经典的非对称加密算法) 特点: 使用一套密钥即可完成加解密(与D ...
Linux 安装图形界面及远程连接
#可查询哪些组件是否已经安装(可用来对照组件名称) yum grouplist yum groupinstall 'X Window System' -y #安装GNOME桌面环境 yum group ...
.htaccess简介和详解
.htaccess文件(或者”分布式配置文件”)提供了针对目录改变配置的方法, 即,在一个特定的文档目录中放置一个包含一个或多个指令的文件, 以作用于此目录及其所有子目录.作为用户,所能使用的命令受到 ...
pycharm的快捷方式
PyCharm3.0默认快捷键(翻译的)1.编辑(Editing)Ctrl + Space 基本的代码完成(类.方法.属性)Ctrl + Alt + Space 快速导入任意类Ctrl + Shift ...

Hadoop及其相关组件简介

一、大数据介绍

二、Hadoop介绍

三、Hadoop组件和相关项目介绍

Hadoop及其相关组件简介的更多相关文章

随机推荐

热门专题