在HDInsight中的Hadoop介绍

概览

Azure的HDInsight是，部署和规定的Apache™Hadoop®集群在云中，提供用于管理，分析和大数据报告软件框架中的服务。

大数据

数据被描写叙述为“大数据”，以表明它被收集在以往升级卷，以越来越高的速度，并为一个扩大各种非结构化格式和可变语义语境。大数据的收集并不正确企业自身提供的价值。

对于大数据在可操作智能或洞察力的形式提供价值。不仅要正确的问题问及相关的问题，数据收集，数据必须能够訪问。清洗。分析，然后在一个实用的方式呈现。常与从

建立透视和上下文中如今被称为混搭各种其它来源的数据相结合。

Apache的的Hadoop

Apache的Hadoop是一个软件框架，有利于大数据管理和分析。 Apache的的Hadoop核心提供可靠的数据存储与Hadoop分布式文件系统（HDFS），以及简单的MapReduce编程模

型来处理和分析。并行地存储在该分布式系统中的数据。 HDFS採用数据复制解决部署这样的高度分布式系统时出现的硬件故障问题。

MapReduce和YARN

为了简化从各种渠道分析非结构化数据的复杂性。MapReduce编程模型提供了一个核心的抽象承销封闭的map和reduce操作。 MapReduce编程模型视图全部的计算工作过的数

据集组成的键 - 值对的。

因此，输入和输出文件必须包含数据集仅由键 - 值对。从这个约束主要外带是MapReduce的作业。作为结果，可组合的。

其它的Hadoop相关的项目，如Pig和Hive是建立在HDFS之上的MapReduce框架。的项目，如这些是用来提供一种更简单的方式来管理集群不是直接与MapReduce程序工作。

Pig

，比如，您能够编写利用程序语言称为Pig拉丁被编译到集群上的MapReduce程序的程序。

它也提供了流畅的控制来管理数据流。配置单元是一个数据仓库的基础设施，它提

供对存储在一个簇，然后能够使用在一个说明性语言称为HiveQL相似SQL语句查询中的文件数据的表的抽象。

HDInsight

Azure的HDInsight使Apache的的Hadoop可作为云计算的服务。

这使得HDFS/ MapReduce的软件架构和相关项目。如Pig。Hive，和Oozie更简单，更具可扩展性可用，经济高

效的环境。

第二头节点已被加入到部署HDInsight以添加服务的可用性的Hadoop集群。

Hadoop集群的标准实现方式典型地具有一个单一的头节点。 HDInsight删除与另外一个次级

headnode的这个单点故障。切换到新的HA集群配置不改变集群的价格，除非客户提供集群，超大头节点。

一个由HDInsight推出的主要效率是怎样管理和存储数据。

HDInsight使用的Azure Blob存储作为默认的文件系统。

二进制大对象存储和HDFS是被优化的，分别用于数据的

存储。并在该数据计算不同的文件系统。

•Azure Blob存储提供了一个高度可扩展和可用，成本低，长期来看，以及数据共享存储选项是使用HDInsight进行处理。
•在HDFS部署HDInsight Hadoop的集群上的数据执行的MapReduce计算任务进行了优化。

HDInsight群集部署在Azure的计算节点上执行的MapReduce任务。并能完毕这些任务已经完毕了由用户所丢弃的。保持在HDFS的簇中的数据的计算被完毕之后将是一个昂贵

的方式来存储这些数据。 BLOB存储是一个强大的，通用的Azure存储解决方式。因此，在BLOB存储中存储数据能够用于计算集群被安全地删除。而不会丢失用户数据。可是

。BLOB存储不不过一个低成本的解决方式：它提供了一个功能全面的HDFS文件系统接口，通过使整套组件的Hadoop的生态系统进行操作（默认情况下）提供了一个无缝的

体验，客户直接在数据它管理。

HDInsight使用Azure的PowerShell配置。执行和后处理Hadoop作业。 HDInsight还提供了可用于从SQL Azure的数据库中的数据导入到HDFS或将数据导出到HDFS从一个SQL

Azure的数据库Sqoop连接器。

HDInsight也创造了可用的YARN。这是一个新的，通用的，分布式的。应用程序管理的框架，它代替了传统的Apache 的HadoopMapReduce框架在Hadoop集群处理数据。

它有

效地作为Hadoop的操作系统，而且採用的Hadoop从单次使用的数据平台进行批处理到一个多用的平台，使批量，互动，在线和流处理。

依据标准。如能保证。公平，服务水

平协议这一新的管理框架。提高了可扩展性和联网使用。

微软功率查询为Excel能够导入从Azure的HDInsight或不论什么HDFS到Excel中的数据。这样的附加增强通过简化数据发现，并获得了广泛的数据源在Excel中自我服务的BI体验。

除了电源查询，微软蜂巢ODBC驱动程序可集成的商业智能（BI）工具。如Excel，SQL Server分析服务和报表服务，便利和简化终端到终端的数据分析。

轮廓

本主题介绍了HDInsight支持的Hadoop生态系统，主要使用场景HDInsight，以及进一步的资源指南。它包含下面几个部分：
•在HDInsight中的Hadoop的生态系统：HDInsight提供Pig，Hive，Sqoop，Oozie，和Ambari的实现，并支持其它的BI工具，如Excel，SQL Server分析服务和报表服务的集成与

BLOB存储/ HDFS。它能够使用MapReduce框架电源查询或微软HiveODBC驱动程序。本节介绍这些方案中的Hadoop生态系统的设计工作处理。

•大数据场景HDInsight：本节讨论的问题：什么类型的工作是HDInsight适当的技术？

•为HDInsight资源：本节说明在哪里能够找到相关的资源以获取很多其它信息。

关于AzureHadoop的生态系统

介绍

HDInsight提供落实处理大数据微软基于云计算的解决方式的框架。该联合的生态系统管理和分析大数据量，利用MapReduce编程模型的并行处理能力。可与HDInsight使用

了Apache兼容的Hadoop技术是逐项在本节简要介绍。

HDInsight提供Hive和Pig的实现集成数据处理和仓储能力。

微软的大数据解决方式。集成了微软的BI工具，如SQL Server分析服务，报表服务的PowerPivot和Excel。这使

您能够存储和管理的HDInsight中的BLOB存储的数据进行简单的BI。

其它的Apache兼容的技术和姐姐的技术是Hadoop的生态系统的一部分，已建成的Hadoop集群，也能够下载上执行使用与HDInsight。这些措施包含开源技术，如Sqoop它与关

系数据存储整合HDFS。

Pig

Pig是在Hadoop集群处理大数据的高层次平台。Pig由数据流语言，称为Pig拉丁，对大型数据集和执行从一个控制台程序的执行环境支持编写查询。猪八戒拉丁程序包含数

据集中改造系列在幕后转换，以一个MapReduce的系列节目。Pig拉丁抽象提供了更丰富的数据结构比的MapReduce和Hadoop的执行对关系数据库管理系统（RDBMS）有什么

SQL执行。Pig拉丁是全然可扩展的。

用户定义函数（UDF），用Java编写的，Python和Ruby，C＃或JavaScript，能够称得上组成分析时，以自己定义每一个处理路径的阶段。有

关很多其它信息，请參阅欢迎Apache的Pig！

Hive

Hive是一个分布式数据仓库管理存储在HDFS中的数据。它是Hadoop的查询引擎。Hive是分析师具有较强的SQL技能提供了一个相似SQL的接口和关系数据模型。Hive採用了一

种名为HiveQL语言; SQL方言。Hive，像Pig，是MapReduce和之上的抽象执行时。Hive查询转换成一系列的MapReduce作业。场景Hive更接近在概念上那些RDBMS，因此适用

于很多其它的结构化数据的使用。对于非结构化数据。Pig是更好的选择。有关很多其它信息。请參阅欢迎到ApacheHive！

Sqoop

Sqoop是工具。传送Hadoop和关系数据库这样的SQL或其它结构化数据存储之间的大容量数据，尽可能高效。

使用Sqoop从外部结构化数据存储的数据导入到HDFS或相关系统

，如Hive。

Sqoop也能够从的Hadoop提取数据。并将所提取的数据输出到外部的关系型数据库。企业数据仓库，或不论什么其它结构化数据存储类型。

有关很多其它信息，请參见

Apache Sqoop站点。

Oozie

阿帕奇Oozie是管理Hadoop作业工作流程/协作系统。它集成了的Hadoop堆栈而且支持Hadoop作业的MapReduce的Apache，Apache的Pig。Apache的Hive和Apache Sqoop。它也

能够被用来调度特定于系统的工作，如Java程序或外壳脚本。

Ambari

Apache的Ambari能够配置，管理和监控的Apache Hadoop集群。它包含一个直观的集合的操作符的工具和一组健壮隐藏Hadoop的复杂的API，简化了集群的操作。有关API的

具体信息，请參阅Ambari API參考。

HDInsight眼下只支持Ambari监控功能。 Ambari API1.0版本号是由HDInsight群集版本号2.1和3.0的支持。

有关Ambari的很多其它信息。请查看Apache Ambari站点。

微软的Avro库

微软的Avro库实现对Microsoft.NET环境中Apache的 Avro的数据序列化系统。Apache的的Avro提供了串行化的紧凑的二进制数据交换格式。它使用JSON来定义承销语言的互

操作性语言无关的架构。连载于一种语言的数据能够读取还有一个。眼下。C，C ++，C＃。Java，PHP和Python和Ruby的支持。

具体信息的格式能够在Apache的Avro规范中找

到。须要注意的是微软阿夫罗库的当前版本号不支持远程过程调用（RPC）的本说明书的一部分。

Apache的阿夫罗序列化格式被广泛用于AzureHDInsight和其它Apache的的Hadoop环境。阿夫罗提供了一种方便的方式来表示一个的HadoopMapReduce工作中的复杂数据结构

。的阿夫罗文件的格式已经被设计为支持分布式MapReduce编程模型。键功能，使分布是该文件是在一个能够寻求在一个文件里的不论什么点，并開始从一个特定块读意义上的“

分裂型”。有关很多其它信息，请參见微软的Avro库序列化的数据。

商业智能工具和连接器

熟悉商业智能（BI）工具 - 如Excel，PowerPivot的。SQL Server分析服务和报表服务 - 检索，分析和报告整合了HDInsight使用两种电源查询载入项或微软HiveODBC驱动

程序的数据。

•微软功率查询Excel能够从

linkid=286689&clcid=0x409">Microsoft下载中心下载。

•微软HiveODBC驱动程序能够从这个站点下载进行下载。

•有关信息分析服务，请參阅SQL Server2012分析服务。

•有关信息报表服务，请參阅SQL Server2012报表。

大数据场景HDInsight

一示范性方案提供了一个用例HDInsight是一个特设的分析。在批处理形式，在整个非结构化数据集存储在Azure节点，它们不须要频繁更新。

这些条件适用于各种各样的商业，科学和治理活动。这些措施可能包含，比如，监控供应链，零售，金融可疑的交易模式。需求模式的公用事业和服务。空气和环境传感器

在大都市地区的数组，或者犯罪模式的水质。

HDInsight（和的Hadoop技术，一般的）是处理大量记录或存档数据。不须要频繁更新一次，它是写的最合适的，那就是常常阅读，一般做一个全面的分析。

这样的情况下是

互补的更适当地通过一个关系数据库，须要较少量的数据（千兆字节。而不是PB的）处理的数据，和必须被不断地更新或查询的完整数据集内的特定数据点。 RDBMS与依照

固定的模式组织和存储结构化数据是最好的。 MapReduce的能够非常好地处理非结构化数据，没有提前定义的模式，由于它是能够解释当它正在处理该数据。

接下来的步骤：HDInsight资源

微软：HDInsight
•HDInsight文档：针对AzureHDInsight文档页面的链接，文章。视频和很多其它的资源。

•HDInsight发行说明：在最新的版本号中的注意事项。

•開始使用AzureHDInsight：一个教程。提供了一个高速入门使用HDInsight。

•执行HDInsight样例：怎样在执行附带HDInsight样品的教程。

•大数据和Azure：大数据方案的探索。你能够用Azure建什么。

•AzureHDInsight SDK：參考文档的HDinsight SDK。

微软：Windows和SQL数据库
•Azure主页：场景。免费试用注冊后，你须要開始构建应用程序的开发工具和文档。

•SQL Azure数据库：MSDN文档SQL数据库。

•管理门户的SQL数据库：一个轻量级的，易于使用的数据库管理工具，用于在云中管理SQL数据库。

•Adventure Works的SQL数据库：SQL数据库演示样例数据库下载页面。

微软：商务智能
•连接Excel来HDInsight与Power查询：了解怎样将Excel连接到存储您的HDInsight群集使用Microsoft电力查询Excel中相关的数据的Azure存储账户。

•连接Excel来HDInsight与微软HiveODBC驱动程序：了解怎样从AzureHDInsight导入数据与MicrosoftHiveODBC驱动程序。

•微软BI的PowerPivot：下载并获取了强大的数据混搭和探索工具的信息。

•SQL Server 2012中的分析服务：下载SQL Server2012的评估版本号和学习怎样建立全面的企业级分析解决方式，提供可操作的见解。

•SQL Server 2012的报表：下载SQL Server2012的评估版本号和了解怎样创建全面的。高度可扩展的解决方式。实现实时决策在整个企业。

Apache的的Hadoop：
•Apache的的Hadoop：了解很多其它关于Apache 的Hadoop软件库，一个框架。同意大型数据集整个计算机集群的分布式处理。

•HDFS：了解很多其它有关Hadoop分布式文件系统（HDFS），使用的Hadoop应用的主存储系统的架构和设计。

•MapReduce：了解很多其它关于编程框架用于编写的Hadoop应用程序，高速处理海量数据并行的大型集群计算节点。

本文翻译自Microsoft Azure官网：http://azure.microsoft.com/en-us/documentation/articles/hdinsight-introduction/