大数据分析:结合 Hadoop或 Elastic MapReduce使用 Hunk

Hunk是Splunk公司一款比較新的产品，用来对Hadoop和其他NoSQL数据存储进行探測和可视化，它的新版本号将会支持亚马逊的Elastic
MapReduce。

结合Hadoop使用Hunk

Hadoop由两个单元组成，首先是被称为HDFS的存储单元，HDFS能够分布在成千上万个复制的节点上。接下来是MapReduce单元，它负责跟踪和管理被命名为map-reduce jobs的作业。

之前，开发人员会用到Splunk Hadoop Connect (SHC)连接器。SHC通过经常使用的推模型（push model）来输出数据到Hadoop中，这块处理相当地好，但相反方向的处理却可能会有问题。当通过Splunk来探測数据时，原始的数据会被吸收到Splunk Server来检索和处理。

就像人们猜想的那样，这个过程并没有发挥出Hadoop计算能力的优势。

Hunk通过提供与Hadoop MapReduce节点协同工作的适配器来解决问题。

Splunk的查询被转化成Hadoop MapReduce的作业，这些作业在Hadoop集群中处理，终于仅仅有结果被取回到Splunk server中进行分析和可视化。

通过这样的方式。Hunk提供了抽象层。以便用户和开发人员不须要关心怎么去写Hadoop MapReduce的作业。Hunk还能在MapReduce作业启动前就提供结果预览。以降低无用搜索的数量。

结合Elastic MapReduce使用Hunk

亚马逊的Elastic MapReduce能够看做是对Hadoop的补充。同一时候也是Hadoop的竞争者。

EMR既能够执行在Hadoop HDFS集群上，也能够直接执行在AWS S3上。

亚马逊宣称使用AWS S3的优势在于比HDFS集群更易于管理。

当执行Elastic MapReduce时，Hunk提供了同样的抽象层和预览功能，就像它在Hadoop上做的一样。所以从用户的观点来看。在Hadoop和EMR之间切换不会造成什么变化。

云上的Hunk

在云上托管Hunk的传统方法是买一个标准版的许可证，然后部署到虚拟机中，这和你现场安装一样简单。接下来是对Hunk的执行实例进行手动配置以让它相应到正确的Hadoop或AWS集群上。

这个月的新版本号里，Hunk的执行实例能够在AWS上进行自己主动化配置，这包含自己主动发现EMR数据源。这样Hunk实例能够在几分钟内上线使用。

为了充分利用这个优势，Hunk执行实例是按小时来计费。

虚索引（Virtual Indexes）

Hunk中的有个关键概念是“虚索引（Virtual Indexes）”。这些索引已不同原本的意义，变成仅仅是由Hunk来体现Hadoop和EMR集群处理的一种方式。从Splunk的用户界面上看，它们像是真正的索引，即使其数据处理是在map-reduce作业中完毕的。而且。因为看起来像索引。你能够在它们之上创建持久的二级索引（persistent secondary indexes）。

当你要处理部分数据，然后进一步检查或在多个方面可视化时，这个持久的二级索引会很实用。

查看英文原文：Big Data Analytics:
Using Hunk with Hadoop and Elastic MapReduce