Azure HDInsight与Hadoop周边系统集成

Sunwei 9 Dec 2014 1:54 AM

传统的Hadoop系统提供给用户2个非常优秀的框架，MR计算框架和HDFS存储框架，尽管MR已经显得有些老迈而缓慢，但是HDFS还是很多应用系统的基石，很多应用都可以把HDFS作为系统的基本数据输入和输出方式。HDFS的基本特征就是数据是分布式切块存储，通过多副本冗余的方式来提供数据持久性保障，并且可以通过节点的增加来进行系统的扩容，这也是很多用户和系统所看重的特点。目前在Hadoop社区里面有各种各样的组件和解决方案用于处理海量数据、可靠性消息、数据分析及预测等多种领域。

Microsoft Azure是一个开放的平台，用户当然可以在Azure上通过运行虚拟机的方式运行Hadoop系统来实现自己的业务功能，但是Azure平台还提供了AzureHDInsight这种PaaS服务来帮助客户更简单的部署和管理他们的Hadoop系统。AzureHDInsight是一套核心的计算组件，请注意我只说了它是负责计算相关的工作。在计算的方面，目前HDInsight提供了3种不同的Cluster类型，标准的Hadoop(HIVE)，HBase
Cluster，StormCluster，未来Azure还会根据用户的需求引入其他Hadoop的集群。每种不同的Cluster类型我们都进行了针对这个组件相关的一些特殊设计和处理，这样可以针对特定的组件进行优化和配置。从架构上看HDInsight和传统的Hadoop Cluster有一些不同，我们在用户接入层有一层安全网关负责接入客户端请求以及认证，然后将认证后的请求转发到后端可用的headnode上，这种方式不但给Hadoop提供了安全认证以及端口的保护，而且也实现了Name Node的高可用性。如果是HBase
Cluster，后端还会有3个zookeeper节点的HA方案。如果用户需要直接访问headnode，我们可以通过将cluster部署到Region VNET的方式来支持，这个功能需要通过Powershell来指定VirtualNetworkId和SubnetName参数来实现，注意这个参数是ID而不是VNET的Name，可以通过(Get-AzureVNetSite-VNetName$VNetName).Id得到，这样就可以将Cluster与你其他的VM放在同一个VNET里面进行直接通信了。另外最近我们在HDInsight上支持了自定义脚本操作，这个功能非常有意义，可以用于安装新的组件例如Spark和R，也可以用来给现有的组件进行补丁的更新，具体的细节你可以参考http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-script-actions/

除了计算功能之外，Microsoft Azure还提供了功能强大的存储功能，Azure Storage是Azure最基础的服务之一，提供了高持久性、高可用的分布式存储系统完全可以媲美HDFS，所以在HDInsight中我们使用了AzureStorage而不是HDFS的技术，也就是说HDInsight实现了在Hadoop上的计算与存储分离。这样处理的优势非常明显，用户可以根据计算的用量来动态创建和销毁Cluster而不需要考虑数据的问题，只需要保持使用同样的存储账号、容器、基于Azure
SQL DB的Hive元数据库。这种基于使用成本的优化方式是传统的Hadoop和HDFS所不能实现的，具体的信息可以参考 http://www.windowsazure.cn/zh-cn/documentation/articles/hdinsight-use-blob-storage/

Hadoop的强大之处并不是因为只有MR和HDFS，发挥更多作用的还是周边的生态系统组件，这些组件不断的在丰富和扩展Hadoop的功能，让客户更加容易的发挥其作用，所以HDInsight必须能够与其他的相关系统进行集成才能与开源社区和客户相连。在HDInsight平台上除了自身默认支持的功能外，通过自定义脚本操作很多Hadoop周边的系统都可以运行在HDInsight之上，但是而然会有一些周边的系统需要通过HDFS直接与Hadoop系统进行连接，例如用于日志收集的Apache
Flume。在这种情况下，为了和Hadoop生态系统保持更好的兼容，微软在Hadoop的source code上也贡献了关于这个部分的源代码，我们可以通过下面的git命令获取ApacheHadoop的源代码并在hadoop-common\hadoop-tools\hadoop-azure下看到在HDFS上支持Azure Storage方面的代码。

git clone git://git.apache.org/hadoop-common.git

通过编译后我们可以将生成的hadoop-azure-3.0.0-SNAPSHOT.jar以及引用的microsoft-windowsazure-storage-sdk-0.6.0.jar复制到你需要的相关Hadoop组件的classpath路径内，然后在hadoopclient中的core-site.xml中添加

<name>fs.azure.account.key.{youraccount}.blob.core.chinacloudapi.cn</name>

</property>

这样Hadoop生态系统中相关的其他系统中通过wasb://来代替hdfs://达到与HDInsight的集成的效果

如果你有任何疑问, 欢迎访问MSDN社区，由专家来为您解答Windows Azure各种技术问题，或者拨打世纪互联客户服务热线400-089-0365/010-84563652咨询各类服务信息。

本文转发自:

http://blogs.msdn.com/b/cciccat/archive/2014/12/09/integrated-hadoop-ecosystem-with-azure-hdinsight.aspx

Azure HDInsight与Hadoop周边系统集成的更多相关文章

Windows Azure HDInsight 支持预览版 Hadoop 2.2 群集
Windows Azure HDInsight 支持预览版 Hadoop 2.2 群集继去年 10 月推出 Windows Azure HDInsight 之后,我们宣布 Windows Az ...
介绍Windows Azure HDInsight服务的Hadoop Storm的视频
介绍Windows Azure HDInsight服务的Hadoop Storm的原理,用例及开发入门的视频,收藏一下: http://channel9.msdn.com/Shows/Data-Exp ...
Azure HDInsight 和 Spark 大数据实战(一)
What is HDInsight? Microsoft Azure HDInsight 是基于 Hortonoworks Data Platform (HDP) 的 Hadoop 集群,包括Stor ...
Windows Azure HDInsight 使用技巧
Windows Azure HDInsight是一个面向大数据的PaaS服务,是PaaS版本的Hadoop.HDInsight是微软与Hortonworks合作的产物.可以理解为Hortonworks ...
Azure HDInsight HBase DR解决方案
Sun wei Sat, Feb 28 2015 3:07 AM Apache HBase是目前非常流行的NoSQL数据库,通过HDFS+Zookeep+Master+Region Server的架 ...
Azure HDInsight 现已在中国正式发布
今年月,我们宣布微软成为全球首家在中国公开发布云 Hadoop 产品公共预览版的云提供商.今天,微软非常高兴地宣布 AzureHDInsight现已在中国正式发布.中国本土组织以及在中国设立了办 ...
Windows Azure HDInsight 现已正式发布！
今天,我们宣布正式发布 Windows Azure HDInsight 服务.HDInsight 是 Microsoft 提供的基于 Hadoop 的服务,为云提供 100% 的 Apache Had ...
在Azure HDInsight HBase集群中使用Thrift接口
Sun wei Wed, Feb 25 2015 2:17 AM Apache Thrift 是一种可扩展的跨语言服务接口,可以通过内置的代码生成引擎帮助创建跨语言服务类库,Apache HBase ...
Azure HDInsight 上的 Spark 群集配合自定义的Python来分析网站日志
一.前言:本文是个实践博客,演示如何结合使用自定义库和 HDInsight 上的 Spark 来分析日志数据. 我们使用的自定义库是一个名为 iislogparser.py的 Python 库. 每步 ...

随机推荐

找不到 com.google.zxing.ResultMetadataType 异常解决
在 https://github.com/zxing/zxing 下载二维码扫描将 android 导入,code打成jar包运行时报 06-14 23:43:08.690: E/AndroidR ...
Oracle的AUTOTRACE功能
ORACLE9i在使用autotrace之前,需要作一些初始设置: 1.用sys用户运行脚本utlxplan.sql创建PLAN_TABLE表脚本目录:(UNIX:$ORACLE_HOME/rdbm ...
Spring execution 表达式
execution(modifiers-pattern? ret-type-pattern declaring-type-pattern? name-pattern(param-pattern) th ...
【BZOJ 1084】[SCOI2005]最大子矩阵
Description 这里有一个n*m的矩阵,请你选出其中k个子矩阵,使得这个k个子矩阵分值之和最大.注意:选出的k个子矩阵不能相互重叠. Input 第一行为n,m,k(1≤n≤100,1≤m≤2 ...
Oracle的spool命令
在控制台上使用spool 路径+文件名命令可以将整个过程写入指定的文件中, 结束使用spool off 命令, 当执行spool off后文件中的内容才能看见; ed命令修改当前缓冲区的上一条命令;
C语言关键字-volatile
1.C语言关键字volatile C 语言关键字volatile(注意它是用来修饰变量而不是上面介绍的__volatile__)表明某个变量的值可能在外部被改变,因此对这些变量的存取不能缓存 ...
如何将word中上下两行文字对齐？
一.问题来源及描述本科毕设的时候积累的问题,整理如下. 红头文件下面的署名,上下要对齐. 二.解决办法经验证,第一次拉标尺要把标尺放在第一行的光标处,为了换行后,再次enter,tab后到与上一行 ...
Educational Codeforces Round 5 A
Problem A:http://codeforces.com/contest/616/problem/A A. Comparing Two Long Integers 果然还是我太天真了(长整数比较 ...
Hibernate4.1.4配置二级缓存EHCache步骤
1.当然首先引入EHCache相关的jar包这些包不需要另外下载,在Hibernate官方网站下载Hibernate4.1.7的压缩包(如:hibernate-release-4.1.7.Final ...
oracle SQLserver 函数
1.绝对值 S:select abs(-1) value O:select abs(-1) value from dual 2.取整(大) S:select ceiling(-1.001) value ...

Azure HDInsight与Hadoop周边系统集成

Azure HDInsight与Hadoop周边系统集成的更多相关文章

随机推荐

热门专题