在HDInsight中的Hadoop介绍
在HDInsight中的Hadoop介绍
概览
Azure的HDInsight是,部署和规定的Apache™Hadoop®集群在云中,提供用于管理,分析和大数据报告软件框架中的服务。
大数据
数据被描写叙述为“大数据”,以表明它被收集在以往升级卷,以越来越高的速度,并为一个扩大各种非结构化格式和可变语义语境。大数据的收集并不正确企业自身提供的价值。
对于大数据在可操作智能或洞察力的形式提供价值。不仅要正确的问题问及相关的问题,数据收集,数据必须能够訪问。清洗。分析,然后在一个实用的方式呈现。常与从
建立透视和上下文中如今被称为混搭各种其它来源的数据相结合。
Apache的的Hadoop
Apache的Hadoop是一个软件框架,有利于大数据管理和分析。 Apache的的Hadoop核心提供可靠的数据存储与Hadoop分布式文件系统(HDFS),以及简单的MapReduce编程模
型来处理和分析。并行地存储在该分布式系统中的数据。 HDFS採用数据复制解决部署这样的高度分布式系统时出现的硬件故障问题。
MapReduce和YARN
为了简化从各种渠道分析非结构化数据的复杂性。MapReduce编程模型提供了一个核心的抽象承销封闭的map和reduce操作。 MapReduce编程模型视图全部的计算工作过的数
据集组成的键 - 值对的。
因此,输入和输出文件必须包含数据集仅由键 - 值对。从这个约束主要外带是MapReduce的作业。作为结果,可组合的。
其它的Hadoop相关的项目,如Pig和Hive是建立在HDFS之上的MapReduce框架。的项目,如这些是用来提供一种更简单的方式来管理集群不是直接与MapReduce程序工作。
Pig
,比如,您能够编写利用程序语言称为Pig拉丁被编译到集群上的MapReduce程序的程序。
它也提供了流畅的控制来管理数据流。配置单元是一个数据仓库的基础设施,它提
供对存储在一个簇,然后能够使用在一个说明性语言称为HiveQL相似SQL语句查询中的文件数据的表的抽象。
HDInsight
Azure的HDInsight使Apache的的Hadoop可作为云计算的服务。
这使得HDFS/ MapReduce的软件架构和相关项目。如Pig。Hive,和Oozie更简单,更具可扩展性可用,经济高
效的环境。
第二头节点已被加入到部署HDInsight以添加服务的可用性的Hadoop集群。
Hadoop集群的标准实现方式典型地具有一个单一的头节点。 HDInsight删除与另外一个次级
headnode的这个单点故障。切换到新的HA集群配置不改变集群的价格,除非客户提供集群,超大头节点。
一个由HDInsight推出的主要效率是怎样管理和存储数据。
HDInsight使用的Azure Blob存储作为默认的文件系统。
二进制大对象存储和HDFS是被优化的,分别用于数据的
存储。并在该数据计算不同的文件系统。
•Azure Blob存储提供了一个高度可扩展和可用,成本低,长期来看,以及数据共享存储选项是使用HDInsight进行处理。
•在HDFS部署HDInsight Hadoop的集群上的数据执行的MapReduce计算任务进行了优化。
HDInsight群集部署在Azure的计算节点上执行的MapReduce任务。并能完毕这些任务已经完毕了由用户所丢弃的。保持在HDFS的簇中的数据的计算被完毕之后将是一个昂贵
的方式来存储这些数据。 BLOB存储是一个强大的,通用的Azure存储解决方式。因此,在BLOB存储中存储数据能够用于计算集群被安全地删除。而不会丢失用户数据。可是
。BLOB存储不不过一个低成本的解决方式:它提供了一个功能全面的HDFS文件系统接口,通过使整套组件的Hadoop的生态系统进行操作(默认情况下)提供了一个无缝的
体验,客户直接在数据它管理。
HDInsight使用Azure的PowerShell配置。执行和后处理Hadoop作业。 HDInsight还提供了可用于从SQL Azure的数据库中的数据导入到HDFS或将数据导出到HDFS从一个SQL
Azure的数据库Sqoop连接器。
HDInsight也创造了可用的YARN。这是一个新的,通用的,分布式的。应用程序管理的框架,它代替了传统的Apache 的HadoopMapReduce框架在Hadoop集群处理数据。
它有
效地作为Hadoop的操作系统,而且採用的Hadoop从单次使用的数据平台进行批处理到一个多用的平台,使批量,互动,在线和流处理。
依据标准。如能保证。公平,服务水
平协议这一新的管理框架。提高了可扩展性和联网使用。
微软功率查询为Excel能够导入从Azure的HDInsight或不论什么HDFS到Excel中的数据。这样的附加增强通过简化数据发现,并获得了广泛的数据源在Excel中自我服务的BI体验。
除了电源查询,微软蜂巢ODBC驱动程序可集成的商业智能(BI)工具。如Excel,SQL Server分析服务和报表服务,便利和简化终端到终端的数据分析。
轮廓
本主题介绍了HDInsight支持的Hadoop生态系统,主要使用场景HDInsight,以及进一步的资源指南。它包含下面几个部分:
•在HDInsight中的Hadoop的生态系统:HDInsight提供Pig,Hive,Sqoop,Oozie,和Ambari的实现,并支持其它的BI工具,如Excel,SQL Server分析服务和报表服务的集成与
BLOB存储/ HDFS。它能够使用MapReduce框架电源查询或微软HiveODBC驱动程序。本节介绍这些方案中的Hadoop生态系统的设计工作处理。
•大数据场景HDInsight:本节讨论的问题:什么类型的工作是HDInsight适当的技术?
•为HDInsight资源:本节说明在哪里能够找到相关的资源以获取很多其它信息。
关于AzureHadoop的生态系统
介绍
HDInsight提供落实处理大数据微软基于云计算的解决方式的框架。该联合的生态系统管理和分析大数据量,利用MapReduce编程模型的并行处理能力。可与HDInsight使用
了Apache兼容的Hadoop技术是逐项在本节简要介绍。
HDInsight提供Hive和Pig的实现集成数据处理和仓储能力。
微软的大数据解决方式。集成了微软的BI工具,如SQL Server分析服务,报表服务的PowerPivot和Excel。这使
您能够存储和管理的HDInsight中的BLOB存储的数据进行简单的BI。
其它的Apache兼容的技术和姐姐的技术是Hadoop的生态系统的一部分,已建成的Hadoop集群,也能够下载上执行使用与HDInsight。这些措施包含开源技术,如Sqoop它与关
系数据存储整合HDFS。
Pig
Pig是在Hadoop集群处理大数据的高层次平台。Pig由数据流语言,称为Pig拉丁,对大型数据集和执行从一个控制台程序的执行环境支持编写查询。猪八戒拉丁程序包含数
据集中改造系列在幕后转换,以一个MapReduce的系列节目。Pig拉丁抽象提供了更丰富的数据结构比的MapReduce和Hadoop的执行对关系数据库管理系统(RDBMS)有什么
SQL执行。Pig拉丁是全然可扩展的。
用户定义函数(UDF),用Java编写的,Python和Ruby,C#或JavaScript,能够称得上组成分析时,以自己定义每一个处理路径的阶段。有
关很多其它信息,请參阅欢迎Apache的Pig!
Hive
Hive是一个分布式数据仓库管理存储在HDFS中的数据。它是Hadoop的查询引擎。Hive是分析师具有较强的SQL技能提供了一个相似SQL的接口和关系数据模型。Hive採用了一
种名为HiveQL语言; SQL方言。Hive,像Pig,是MapReduce和之上的抽象执行时。Hive查询转换成一系列的MapReduce作业。场景Hive更接近在概念上那些RDBMS,因此适用
于很多其它的结构化数据的使用。对于非结构化数据。Pig是更好的选择。有关很多其它信息。请參阅欢迎到ApacheHive!
Sqoop
Sqoop是工具。传送Hadoop和关系数据库这样的SQL或其它结构化数据存储之间的大容量数据,尽可能高效。
使用Sqoop从外部结构化数据存储的数据导入到HDFS或相关系统
,如Hive。
Sqoop也能够从的Hadoop提取数据。并将所提取的数据输出到外部的关系型数据库。企业数据仓库,或不论什么其它结构化数据存储类型。
有关很多其它信息,请參见
Apache Sqoop站点。
Oozie
阿帕奇Oozie是管理Hadoop作业工作流程/协作系统。它集成了的Hadoop堆栈而且支持Hadoop作业的MapReduce的Apache,Apache的Pig。Apache的Hive和Apache Sqoop。它也
能够被用来调度特定于系统的工作,如Java程序或外壳脚本。
Ambari
Apache的Ambari能够配置,管理和监控的Apache Hadoop集群。它包含一个直观的集合的操作符的工具和一组健壮隐藏Hadoop的复杂的API,简化了集群的操作。有关API的
具体信息,请參阅Ambari API參考。
HDInsight眼下只支持Ambari监控功能。 Ambari API1.0版本号是由HDInsight群集版本号2.1和3.0的支持。
有关Ambari的很多其它信息。请查看Apache Ambari站点。
微软的Avro库
微软的Avro库实现对Microsoft.NET环境中Apache的 Avro的数据序列化系统。Apache的的Avro提供了串行化的紧凑的二进制数据交换格式。它使用JSON来定义承销语言的互
操作性语言无关的架构。连载于一种语言的数据能够读取还有一个。眼下。C,C ++,C#。Java,PHP和Python和Ruby的支持。
具体信息的格式能够在Apache的Avro规范中找
到。须要注意的是微软阿夫罗库的当前版本号不支持远程过程调用(RPC)的本说明书的一部分。
Apache的阿夫罗序列化格式被广泛用于AzureHDInsight和其它Apache的 的Hadoop环境。阿夫罗提供了一种方便的方式来表示一个的HadoopMapReduce工作中的复杂数据结构
。的阿夫罗文件的格式已经被设计为支持分布式MapReduce编程模型。键功能,使分布是该文件是在一个能够寻求在一个文件里的不论什么点,并開始从一个特定块读意义上的“
分裂型”。有关很多其它信息,请參见微软的Avro库序列化的数据。
商业智能工具和连接器
熟悉商业智能(BI)工具 - 如Excel,PowerPivot的。SQL Server分析服务和报表服务 - 检索,分析和报告整合了HDInsight使用两种电源查询载入项或微软HiveODBC驱动
程序的数据。
•微软功率查询Excel能够从 linkid=286689&clcid=0x409">Microsoft下载中心
•微软HiveODBC驱动程序能够从这个站点下载进行下载。
•有关信息分析服务,请參阅SQL Server2012分析服务。
•有关信息报表服务,请參阅SQL Server2012报表。
大数据场景HDInsight
一示范性方案提供了一个用例HDInsight是一个特设的分析。在批处理形式,在整个非结构化数据集存储在Azure节点,它们不须要频繁更新。
这些条件适用于各种各样的商业,科学和治理活动。这些措施可能包含,比如,监控供应链,零售,金融可疑的交易模式。需求模式的公用事业和服务。空气和环境传感器
在大都市地区的数组,或者犯罪模式的水质。
HDInsight(和的Hadoop技术,一般的)是处理大量记录或存档数据。不须要频繁更新一次,它是写的最合适的,那就是常常阅读,一般做一个全面的分析。
这样的情况下是
互补的更适当地通过一个关系数据库,须要较少量的数据(千兆字节。而不是PB的)处理的数据,和必须被不断地更新或查询的完整数据集内的特定数据点。 RDBMS与依照
固定的模式组织和存储结构化数据是最好的。 MapReduce的能够非常好地处理非结构化数据,没有提前定义的模式,由于它是能够解释当它正在处理该数据。
接下来的步骤:HDInsight资源
微软:HDInsight
•HDInsight文档:针对AzureHDInsight文档页面的链接,文章。视频和很多其它的资源。
•HDInsight发行说明:在最新的版本号中的注意事项。
•開始使用AzureHDInsight:一个教程。提供了一个高速入门使用HDInsight。
•执行HDInsight样例:怎样在执行附带HDInsight样品的教程。
•大数据和Azure:大数据方案的探索。你能够用Azure建什么。
•AzureHDInsight SDK:參考文档的HDinsight SDK。
微软:Windows和SQL数据库
•Azure主页:场景。免费试用注冊后,你须要開始构建应用程序的开发工具和文档。
•SQL Azure数据库:MSDN文档SQL数据库。
•管理门户的SQL数据库:一个轻量级的,易于使用的数据库管理工具,用于在云中管理SQL数据库。
•Adventure Works的SQL数据库:SQL数据库演示样例数据库下载页面。
微软:商务智能
•连接Excel来HDInsight与Power查询:了解怎样将Excel连接到存储您的HDInsight群集使用Microsoft电力查询Excel中相关的数据的Azure存储账户。
•连接Excel来HDInsight与微软HiveODBC驱动程序:了解怎样从AzureHDInsight导入数据与MicrosoftHiveODBC驱动程序。
•微软BI的PowerPivot:下载并获取了强大的数据混搭和探索工具的信息。
•SQL Server 2012中的分析服务:下载SQL Server2012的评估版本号和学习怎样建立全面的企业级分析解决方式,提供可操作的见解。
•SQL Server 2012的报表:下载SQL Server2012的评估版本号和了解怎样创建全面的。高度可扩展的解决方式。实现实时决策在整个企业。
Apache的的Hadoop:
•Apache的的Hadoop:了解很多其它关于Apache 的Hadoop软件库,一个框架。同意大型数据集整个计算机集群的分布式处理。
•HDFS:了解很多其它有关Hadoop分布式文件系统(HDFS),使用的Hadoop应用的主存储系统的架构和设计。
•MapReduce:了解很多其它关于编程框架用于编写的Hadoop应用程序,高速处理海量数据并行的大型集群计算节点。
本文翻译自Microsoft Azure官网:http://azure.microsoft.com/en-us/documentation/articles/hdinsight-introduction/
在HDInsight中的Hadoop介绍的更多相关文章
- 在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析
在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析 低成本的Blob存储是一个强大的.通用的Hadoop兼容Azure存储解决方式无缝集成HDInsight.通过Hadoop分布式 ...
- 介绍Windows Azure HDInsight服务的Hadoop Storm的视频
介绍Windows Azure HDInsight服务的Hadoop Storm的原理,用例及开发入门的视频,收藏一下: http://channel9.msdn.com/Shows/Data-Exp ...
- 在 Azure HDInsight 中安装和使用 Spark
Spark本身用Scala语言编写,运行于Java虚拟机(JVM).只要在安装了Java 6以上版本的便携式计算机或者集群上都可以运行spark.如果您想使用Python API需要安装Python解 ...
- Hadoop3 在eclipse中访问hadoop并运行WordCount实例
前言: 毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了.对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环 ...
- [Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想
Ubuntu系统 (我用到版本号是140.4) ubuntu系统是一个以桌面应用为主的Linux操作系统,Ubuntu基于Debian发行版和GNOME桌面环境.Ubuntu的目标在于为一般用户提供一 ...
- Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装
Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架.其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapR ...
- 沉淀,再出发——在Ubuntu Kylin15.04中配置Hadoop单机/伪分布式系统经验分享
在Ubuntu Kylin15.04中配置Hadoop单机/伪分布式系统经验分享 一.工作准备 首先,明确工作的重心,在Ubuntu Kylin15.04中配置Hadoop集群,这里我是用的双系统中的 ...
- 1.Hadoop介绍
1. Hadoop介绍 1.1 什么是Hadoop 开源的,可靠的,分布式的,可伸缩的 提供的功能: 利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 1.2 处理方式 大众角度 数 ...
- Hadoop介绍篇
Hadoop详解 1.前言 对于初次接触Hadoop的小伙伴来说,Hadoop是一个很陌生的东西,尤其是Hadoop与大数据之间的关联,写这篇文章之前,我也有许多关于Hadoop与大数据的疑惑,接下来 ...
随机推荐
- Absolute(绝对定位)与relative(相对定位)的图文讲解
Position的属性值有:1. Absolute:绝对定位,是相对于最近的且不是static定位的父元素来定位 2. Fixed:绝对定位,是相对于浏览器窗口来定位的,是固定的,不会 ...
- Oracle 查看 使用 UNDO 段的事务脚本
查看oracle undo segment段的信息: SELECT T1.USN, T2.NAME, T1.STATUS, T1.LATCH, T1.EXTENTS, T1.WRAPS, T1.EXT ...
- 安卓手机 HTML5 手机页面 输入表单被键盘遮挡住了
TML5 手机页面 输入表单被键盘遮挡住了 请问 大神 怎么 js 或者 JQ 判断安卓手机软键盘的键盘隐藏键按下去了? 有使用 uexWindow 方法 能判断到确定键 是 13 但是不知道这个键的 ...
- hdu6071[最短路+解不等式] 2017多校4
求出所有,从2走到x所需的花费在对 t = 2*min(d1,2, d2,3) 模运算下, 所有剩余系的最短路即可(把一个点拆成 t 个点, 每个点代表一种剩余系), 知道了所有剩余系就可以凑出答案 ...
- 【Luogu】P3628特别行动队(斜率优化DP)
题目链接 设c[i]是战斗力前缀和,f[i]是考虑前i个,且最后一组分到第i个士兵为止的战斗力之和 则有朴素状态转移方程 ;i<=n;++i) ;j<i;++j){ int x=c[i]- ...
- 算法复习——splay+启发式合并(bzoj2733-永无乡)
题目: Description 永无乡包含 n 座岛,编号从 1 到 n,每座岛都有自己的独一无二的重要度,按照重要度可 以将这 n 座岛排名,名次用 1 到 n 来表示.某些岛之间由巨大的桥连接,通 ...
- Android 获取屏幕事件的坐标
通常情况下我们只能获取当前Activity的画面坐标,那有时候我们需要做到一种类似于c++ hook的后台运行程序能够监听到前台用户的操作并记录下来,往往这类程序都是为自动化测试服务的. Androi ...
- Yii 之数据库查询
模型代码: <?php namespace app\models; use yii\db\ActiveRecord; class Test extends ActiveRecord{ } 控制器 ...
- 安装ubuntu 12.04 后遇到的问题
我的笔记本是08年的戴尔,比较老的机子了.给本本安装ubuntu/windows8双系统后,ubuntu系统中出现了一些问题,在网上搜寻许多解决方法,管用的就分享一下,顺便做一下记录,免得下次自己又不 ...
- CentOS 7.5 初始网络配置
最近刚装完 CentOS 7.5 系统,由于网络不通,导致无法用 yum 命令下载软件,经过了各种折腾,终于搞定了,这里讲解一下 如何设置初始网络. 本案例环境 VmWare 11.0 , 操作系统 ...