一、大数据介绍

1、大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。

2、大数据,可帮助我们能察觉商业趋势、判断研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。

3、麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计达到35ZB(1ZB=1000EB,1EB=1000PB,1PB=1000TB,1TB=1000GB).

4、Google每天要处理的数据高达几百PB。百度每天处理数据几十PB。腾讯微信活跃用户数达7亿,每天产生的数据量上百TB,2016年除夕当日,微信红包的参与人数达到4.2亿人,收发总量达80.8亿个。

5、多源异构:描述同一主题的数据由不同的用户、不同的网站产生。网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。

6、交互性:不同于测量和传感获取的大规模科学数据,微博等社交网络兴起导致大量网络数据具有很强的交互性。

7、时效性:在网络平台上,每时每刻都有大量新的网络数据发布,网络信息内容不断变化,导致了信息传播的时序相关性。

8:社会性:网络上用户根据自己的需要和喜好发布、恢复或转发信息,因为网络数据成了对社会状态的直接反应。

9、突发性:有些信息在传播过程中会短时间内引起大量新的网络数据与信息的产生,并使相关的网络用户形成网络群体,体现出网络大数据以及网络群体的突发特性。

10、高噪声:网络数据来自于众多不同的网络用户,具有很高的噪声。

二、Hadoop介绍

1、Hadoop是一个开源分布式计算平台架构,基于apache协议发布,由java语言开发。官方网址 http://Hadoop.apache.org

2、Hadoop两大核心组件:HDFS(分布式文件系统,为分布式计算提供了数据存储)和MapReduce(应用程序被分成许多小部分,而每个部分都能在集群中的任意节点上运行,一句话就是人物的分解和结果的汇总)。

3、另外两个模块:Common、YARN。

4、其他和Hadoop相关的项目:Ambari、Avro、Cassandra、Chukwa、Hbase、Hive、Mahout、Pig、Spark、Tez、ZooKeeper。

5、Hadoop支持有廉价的计算机搭建集群,有强大的冗余机制。

6、Hadoop在各大互联网企业中应用广泛,百度使用Hadoop进行搜索日志的分析和网页数据的挖掘工作;淘宝使用Hadoop存储并处理电子商务交易相关数据;facebook使用Hadoop进行数据分析和机器学习。

7、还有那些企业在使用Hadoop?可通过此站点进行查看:http://wiki.apache.org/Hadoop/PoweredBy

三、Hadoop组件和相关项目介绍

1、Common:为其他组件提供常用工具支持。

2、YARN:作业调度和集群管理的框架。

3、Ambari:是Apache Software Foundation中的一个项目。就Ambari的作用来说。就是创建、管理、监视Hadoop的集群,但是这里Hadoop是广义,指的是Hadoop整个生态圈(例如Hive,Hbase,ZooKeeper等)。用一句话来说,Ambari就是为了让Hadoop以及相关的大数据软件更容易使用的一个工具。Ambari下载安装方法:http://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/index.html

4、Avro:Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件,在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具,Avro是一个数据序列化的系统,Avro可以将数据结构或对象转化成便于存储或传输的格式,Avro设计之初用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换。官方地址:http://www.open-open.com/lib/view/open1369363962228.html

5、Cassandra:可扩展的多主数据库,不存在单点故障。

6、Chukwa:是数据收集系统,用于监控和分析大型分布式系统的数据。

7、HBase:是一个分布式面向列的数据库。

8、Hive:最早由facebook设计,是建立在Hadoop基础之上的数据仓库,它提供了一些用于数据整理、特殊查询和分析在Hadoop文件中数据集工具。

9、Mahout:可扩展的机器学习和数据挖掘库。

10、Pig:是一种高级语言和并行计算可执行框架,他是对一个大型数据集分析和评估的平台。

11、Spark:一个快速和通用计算的Hadoop数据引擎。和MapReduce类似,但是要比MapReduce快,它提供了一个简单而丰富的编程模型,支持多种应用,包括ETL、机器学习、数据流处理、图形计算。参考文档:http://www.techweb.com.cn/network/system/2016-01-25/2267414.shtml

12、Tez:是Apache最新的支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez并不直接面向最终用户,事实上他允许开发者为最终给用户构建性能更快、扩展性更好的应用程序。Hadoop传统上还有一些工作则不太适合MapReduce,例如机器学习,Tez的目的就是帮助Hadoop处理这些用例场景。

13、ZooKeeper:ZooKeeper是一组工具,用来配置和支持分布式调度,一个重要功能就是对所有节点进行配置的同步,他能处理分布式应用的“部分失败”问题,部分失败是分布式处理系统的固有特征,即发送者无法知道接受者是否收到消息,它的出现可能和网络传输问题、接受进程意外死掉等有关。ZooKeeper是Hadoop生态系统的一部分,但又远不止如此,它能支持更多类似的分布式平台和系统,如Jubatus,Cassender等等。

Hadoop及其相关组件简介的更多相关文章

  1. hadoop以及相关组件介绍以及个人理解

    前言 本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富.但是 ...

  2. 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件(三)

    RAC 工作原理和相关组件(三) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...

  3. Spark学习之基础相关组件(1)

    Spark学习之基础相关组件(1) 1. Spark是一个用来实现快速而通用的集群计算的平台. 2. Spark的一个主要特点是能够在内存中进行计算,因而更快. 3. RDD(resilient di ...

  4. 【转】【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件(三)

    原文地址:http://www.cnblogs.com/baiboy/p/orc3.html 阅读目录 目录 RAC 工作原理和相关组件 ClusterWare 架构 RAC 软件结构 集群注册(OC ...

  5. HBase的部署与其它相关组件(Hive和Phoenix)的集成

    HBase的部署与其它相关组件(Hive和Phoenix)的集成 一.HBase部署 1.1.Zookeeper正常部署 首先保证Zookeeper集群的正常部署,并启动之: /opt/module/ ...

  6. Hadoop框架:HDFS简介与Shell管理命令

    本文源码:GitHub·点这里 || GitEE·点这里 一.HDFS基本概述 1.HDFS描述 大数据领域一直面对的两大核心模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容 ...

  7. node.js及相关组件安装

    第一步:下载安装文件(下载地址:官网http://www.nodejs.org/download/ )第二步:安装nodejs(双击直接安装) 安装完成后使用命令行查看版本信息,出现版本号说明安装成功 ...

  8. Netty 源码(一)Netty 组件简介

    Netty 源码(一)Netty 组件简介 Netty 系列目录(https://www.cnblogs.com/binarylei/p/10117436.html) 一.Netty 架构 Core: ...

  9. 转载:【Oracle 集群】RAC知识图文详细教程(三)--RAC工作原理和相关组件

    文章导航 集群概念介绍(一) ORACLE集群概念和原理(二) RAC 工作原理和相关组件(三) 缓存融合技术(四) RAC 特殊问题和实战经验(五) ORACLE 11 G版本2 RAC在LINUX ...

随机推荐

  1. window.location.href 失效的解决办法

    第一种:在window.location.href 后面加上 window.event.returnValue = false; 如: <a href="#" onclick ...

  2. VIM 代码折叠

    VIM 代码折叠 VIM代码折叠方式可以用"foldmethod"选项来设置,如: set foldmethod=indent 有6种方式来折叠代码 1. manual //手工定 ...

  3. 安卓手机上运行 PC-E500 程序

    目录 第1章安卓手机上运行 PC-E500 程序    1 1 PockEmul    1 2 下载    1 3 打包BASIC程序    2 4 配置PC-E500模拟器    5 5 载入e50 ...

  4. JAVA学习之路(环境配置,)

    最近过去的寒假我就开始看一些JAVA的学习视频了,视频是毕向东老师的,讲得还不错,东北口音,欧了没? 首先是一些基础概念. 1.JAVA的三种技术架构 企业版 J2EE 标准版 J2SE 小型版 J2 ...

  5. toolkit学习笔记

  6. Eclipse新建web项目正常启动tomcat不报错,但不能访问项目的解决方法

    原因:  虽然我手动添加了自己下载的tomcat,但是由于在Eclipse中创建Server时,"Server Locations"选项采用的时默认配置,即"Use wo ...

  7. HashMap其实就那么一回事儿之源码浅析

    上篇文章<LinkedList其实就那么一回事儿之源码分析>介绍了LinkedList, 本次将为大家介绍HashMap. 在介绍HashMap之前,为了方便更清楚地理解源码,先大致说说H ...

  8. Sharepoint2012 Report权限

    在主文件夹下,点击“文件夹设置”,如下图: 在打开的界面中,点击“新建角色分配”,如下图: 在打开的界面中,录入window组名,或是AD域账号,选择以下的角色,点击确定即可.

  9. MVC、ORM、CURD、ActiveRecord、单一入口的概念

    MVC MVC是一个设计模式,它强制性的使应用程序的输入.处理和输出分开.使用MVC应用程序被分成三个核心部件:模型(M).视图(V).控制器(C),它们各自处理自己的任务. 视图 :视图是用户看到并 ...

  10. Zabbix点滴

    [ZABBIX需试验的项] 1. 手工设置ITEM, 采用descr为依据值,用SNMP取流量 2. 通过aggregate item类型,设置取虚拟机数量的值(描绘出虚拟机的增长与下降曲线) [20 ...