大数据分析:结合 Hadoop或 Elastic MapReduce使用 Hunk
作者 Jonathan
Allen ,译者 张晓鹏
Hunk是Splunk公司一款比較新的产品,用来对Hadoop和其他NoSQL数据存储进行探測和可视化,它的新版本号将会支持亚马逊的Elastic
MapReduce。
结合Hadoop使用Hunk
Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS能够分布在成千上万个复制的节点上。接下来是MapReduce单元,它负责跟踪和管理被命名为map-reduce jobs的作业。
之前,开发人员会用到Splunk Hadoop Connect (SHC)连接器。SHC通过经常使用的推模型(push model)来输出数据到Hadoop中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过Splunk来探測数据时,原始的数据会被吸收到Splunk Server来检索和处理。
就像人们猜想的那样,这个过程并没有发挥出Hadoop计算能力的优势。
Hunk通过提供与Hadoop MapReduce节点协同工作的适配器来解决问题。
Splunk的查询被转化成Hadoop MapReduce的作业,这些作业在Hadoop集群中处理,终于仅仅有结果被取回到Splunk server中进行分析和可视化。
通过这样的方式。Hunk提供了抽象层。以便用户和开发人员不须要关心怎么去写Hadoop MapReduce的作业。Hunk还能在MapReduce作业启动前就提供结果预览。以降低无用搜索的数量。
结合Elastic MapReduce使用Hunk
亚马逊的Elastic MapReduce能够看做是对Hadoop的补充。同一时候也是Hadoop的竞争者。
EMR既能够执行在Hadoop HDFS集群上,也能够直接执行在AWS S3上。
亚马逊宣称使用AWS S3的优势在于比HDFS集群更易于管理。
当执行Elastic MapReduce时,Hunk提供了同样的抽象层和预览功能,就像它在Hadoop上做的一样。所以从用户的观点来看。在Hadoop和EMR之间切换不会造成什么变化。
云上的Hunk
在云上托管Hunk的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对Hunk的执行实例进行手动配置以让它相应到正确的Hadoop或AWS集群上。
这个月的新版本号里,Hunk的执行实例能够在AWS上进行自己主动化配置,这包含自己主动发现EMR数据源。这样Hunk实例能够在几分钟内上线使用。
为了充分利用这个优势,Hunk执行实例是按小时来计费。
虚索引(Virtual Indexes)
Hunk中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成仅仅是由Hunk来体现Hadoop和EMR集群处理的一种方式。从Splunk的用户界面上看,它们像是真正的索引,即使其数据处理是在map-reduce作业中完毕的。而且。因为看起来像索引。你能够在它们之上创建持久的二级索引(persistent secondary indexes)。
当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会很实用。
查看英文原文:Big Data Analytics:
Using Hunk with Hadoop and Elastic MapReduce
大数据分析:结合 Hadoop或 Elastic MapReduce使用 Hunk的更多相关文章
- 大数据分析系统Hadoop的13个开源工具
Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来. 用户可以在不了解分布式底层细节的 ...
- 大数据分析:hadoop工具
一.hadoop工具 Hadoop介绍: Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储 ...
- 《Hadoop金融大数据分析》读书笔记
<Hadoop金融大数据分析> Hadoop for Finance Essentials 使用Hadoop,是因为数据量大数据量如此之多,以至于无法用传统的数据处理工具和应用来处理的数据 ...
- Amazon EMR(Elastic MapReduce):亚马逊Hadoop托管服务运行架构&Hadoop云服务之战:微软vs.亚马逊
http://s3tools.org/s3cmd Amazon Elastic MapReduce (Amazon EMR)简介 Amazon Elastic MapReduce (Amazon EM ...
- discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现
discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现http://www.aboutyun.com/thread-8637-1-1.html(出处: about云 ...
- 互联网大规模数据分析技术(自主模式)第五章 大数据平台与技术 第10讲 大数据处理平台Hadoop
大规模的数据计算对于数据挖掘领域当中的作用.两大主要挑战:第一.如何实现分布式的计算 第二.分布式并行编程.Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题.这是谷歌的一个最基本 ...
- 【转】百亿级实时大数据分析项目,为什么不用Hadoop?
百亿数量级的大数据项目,软硬件总体预算只有30万左右,需求是进行复杂分析查询,性能要求多数分析请求达到秒级响应. 遇到这样的项目需求,预算不多的情况,似乎只能考虑基于Hadoop来实施. ...
- 大数据分析神兽麒麟(Apache Kylin)
1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以 ...
- 大数据分析界的“神兽”Apache Kylin有多牛?【转】
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay.微软. 1.Apache ...
随机推荐
- Java高级程序员(5年左右)面试的题目集
Java高级程序员(5年左右)面试的题目集 https://blog.csdn.net/fangqun663775/article/details/73614850?utm_source=blogxg ...
- MVC之参数验证(一)
ASP.NET MVC采用Model绑定为目标Action生成了相应的参数列表,但是在真正执行目标Action方法之前,还需要对绑定的参数实施验证以确保其数据的准确性.总地来说,我们可以采用Syste ...
- CentOS上oracle 11g R2数据库安装折腾记
1.虚拟机上centos镜像的获取.这里推荐网易镜像站中的CentOS7版本(其他开源镜像站亦可).这里给出链接: http://mirrors.163.com/centos/7.3.1611/iso ...
- 个人作业Alpha项目测试
这个作业属于哪个课程 软件工程原理 这个作业要求在哪里 作业要求 团队名称 TEAMPANTHER 这个作业的目标 每个同学必须选取非自己所在团队的3个项目进行测试. 在你所测试的项目的Alpha发布 ...
- Redis系列(十一)--阿里云开发规范
本文主要介绍阿里云Redis的开发规范,主要从以下几个方面说明: 1.键值设计 2.命令使用 3.客户端使用 4.相关工具 一.键值设计 1.key name设计 1).[建议]:可读性和可管理性 以 ...
- 浅谈GFC
Web页面的布局,我们常见的主要有“浮动布局(float)”.“定位布局(position)”.“行内块布局(inline-block)”.“CSS3的多栏布局(Columns)”.“伸缩布局(Fle ...
- Python学会之后,一般能拿到多少工资?
Python在约40年前出现以来,已经有数以千计基于这项技术的网站和软件项目,Python因其独有的特点从众多开发语言中脱颖而出,深受世界各地的开发者喜爱. 随着Python的技术的流行,Python ...
- 【Redis】二、Redis高级特性
(三) Redis高级特性 前面我们介绍了Redis的五种基本的数据类型,灵活运用这五种数据类型是使用Redis的基础,除此之外,Redis还有一些特性,掌握这些特性能对Redis有进一步的了解, ...
- Spring Boot 与ElasticSearch
一.ElasticSearch 介绍 开源的 ElasticSearch 是目前全文搜索引擎的首选,它是一个分布式搜索服务,提供Restful API,它可以快速地存储.搜索和分析海量数据.底层基 ...
- (二)Python脚本开头两行的:#!/usr/bin/python和# -*- coding: utf-8 -*-的作用
#!usr/bin/env python # -*- coding: utf-8 -*- def test(): print('hello, world') if __name__ == " ...