随着信息时代的快速发展,大数据技术和私有云环境都非常实用;只是,假设将两者结合在一起。企业会获得巨大的利润。虽然结合两者会让环境变得更复杂。企业仍然能够看到将 OpenStack 私有云和 Apache Hadoop 环境结合在一起产生的显著的协同效应。怎样来做会更好?





  方案1. Swift、Nova + Apache Hadoop MapReduce





  对于希望在大数据环境中实现更高程度的灵活性、可扩展性和自治性的企业,能够利用 Apache 和 OpenStack 提供的开源产品的与生俱来的能力。为此,企业须要最大限度地利用这两种技术栈。这就要求採用与前面所述的解决方式不同的思维方式来设计环境。

在这方面软件开发专业网是非常有经验的。

  要获得全然可伸缩的、灵活的大数据环境,必须在一个同一时候提供存储和计算节点的私有云环境中执行它。为此。企业必须先构建私有云。然后加入大数 据。因此。在这样的情况下,必定会用到 Swift、Nova 和 RabbitMQ。并控制器节点来管理和维护环境。

可是。问题在于企业是否须要针对不同的系统和业务部门将环境分为若干个部分(比如,非大数据虚拟机或客 户机实例)。假设企业准备全然使用私有云,那么应当加入 Quantum,从网络的角度对不同的环境进行划分。





  方案2. Swift+Apache Hadoop MapReduce





  在私有云环境中。常见的大数据部署模型之中的一个是:将 OpenStack 的 Swift 存储技术部署到 Apache Hadoop MapReduce 集群,从而实现处理功能。使用这样的架构的优势是。企业将获得一个可扩展的存储节点,能够用该节点来处理其不断累积的数据。依据 IDC 的调查,数据年增长率已经达到 60%,该解决方式将满足不断增长的数据需求。同一时候同意组织同一时候启动一个试点项目来部署私有云。

  该部署模型的最佳使用场景是企业希望通过存储池尝试使用私有云技术。同一时候在内部使用大数据技术。最佳实践表明企业应当先将大数据技术部署到您的 生产数据仓库环境中。然后构建并配置您的私有云存储解决方式。假设将 Apache Hadoop MapReduce 技术成功融合到数据仓库环境中。而且已经正确构建并执行您的私有云存储池。那么您就能够将私有云存储数据与预调度的 Hadoop MapReduce 环境集成在一起。





  方案3. Swift + Cloudera Apache Hadoop 发行版





  对于那些不愿意从头開始使用大数据的企业,能够使用 Cloudera 等解决方式供应商提供的大数据设备。

Cloudera 的发行版包含 Apache Hadoop (CDH) 解决方式,它同意企业不必针对 Hadoop 的每一个细微区别来招募或培训员工。因此能够在大数据方面实现更高的投资回报 (ROI)。

对于那些不具备大数据或私有云技能集。希望以缓慢、渐进的方式将该技术集成到其产品组合的企业。这一点尤其吸引人。





  大数据和云计算属于相对较新的技术,很多企业希望通过它们实现成本节省;只是。很多企业对于是否全然採用这些技术犹豫不决。通过利用供应商支持 的大数据软件版本号,企业在这方面将会更加从容,同一时候还能够了解怎样使用这些技术来发挥自身的优势。此外,假设使用大数据软件分析大型数据集,并且能够通过 私有云存储节点来管理这些数据集。那么这些企业还能够实现更高的利用率。为了最好地将这一策略集成到企业中,首先须要安装、配置和管理 CDH,以便分析企业的数据仓库环境。然后将 Swift 中存储的数据加入到须要的地方。





  在设置并測试了私有云环境后。能够将 Apache Hadoop 组件合并到当中。

此时。Nova 实例可用于存放 NoSQL 或 SQL 数据存储(没错,它们能够共存)以及 Pig 和 MapReduce 实例;Hadoop 能够位于一个独立的非 Nova 机器上,以便提供处理功能。

在不久的将来,Hadoop 有望在 Nova 实例上执行,使私有云自包括到全部 Nova 实例中。





  方案4. GFS、Nova、Pig 和 MapReduce





  从架构的角度看,除了使用 OpenStack 的 Swift 实现可扩展存储外,可能还有其它选择。本例使用了 Google File System (GFS)、Nova 组件和 Apache Hadoop 组件,详细来讲,使用了 Pig 和 MapReduce。该演示样例同意企业集中精力开发一个仅用于计算处理的私有云计算节点,同一时候利用 Google 的公共存储云作为数据存储。通过使用这样的混合云,企业能够专注于计算处理功能的核心能力,由第三方负责实现存储。该模型能够利用其它供应商的存储解决方 案,如 Amazon
Simple Storage Service;可是,在使用不论什么外部存储之前,企业应当在内部使用可扩展的文件系统 (XFS) 来构建该解决方式。并进行对应的測试,然后再将其扩展到公共云中。此外,依据数据的敏感性。企业可能须要使用数据保护机制,比方模糊处理 (obfuscation)、解除匿名化、加密或散列。





  技巧和提示





  在将云计算和大数据技术并入企业环境时,一定要为这两个技术平台构建员工的技能集。

当您的员工理解这些技术后,就能够组建一个实验室来測试这两 个平台合并后的效果。因为包括很多不同的组件。因此在实现过程中。请务必遵循前面提到的经过验证的路径。

此外,企业在尝试合并这两种模式时可能会遇到一些 挫折,应当在进行若干次尝试后改用其它方法。这些方法包括设备和混合云。

  障碍和陷阱





  因为这些都是比較新的技术,所以大多数企业须要利用现有资源进行測试,之后再进行大量的资本支出 (CapEx)。然而,假设没有对这些技术在企业中的应用进行合理的预算和人员培训,那么试点和測试工作将会以失败告终。相同。假设缺少完整的私有云部 署。企业应当首先在当中实现大数据技术,然后再实现私有云。





  最后,企业须要为私有云和大数据计划制定一个战略路线图。要获得成功的部署,则须要进行很多其它的分析 “工作”,这有可能会迟延处理过程。为了消除这样的风险,应当採用一种迭代式的项目管理方法,以分阶段的方式部署到业务部门中。通过这样的方法将这些技术部署 到企业中。企业须要确认怎样通

怎样将OpenStack部署到Hadoop的更多相关文章

  1. OpenStack部署到Hadoop的四种方案

    随着企业開始同一时候利用云计算和大数据技术.如今应当考虑怎样将这些工具结合使用.在这样的情况下,企业将实现最佳的分析处理能力.同一时候利用私有云的高速弹性 (rapid elasticity) 和单一 ...

  2. 四种方案:将OpenStack私有云部署到Hadoop MapReduce环境中

    摘要:OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目.这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部 ...

  3. OpenStack部署工具总结

    目前感觉比较简单直观的部署工具有RDO.devstack.Fuel等: 1. RDO https://openstack.redhat.com/Quickstart REDHAT出品,支持Redhat ...

  4. Openstack部署工具

    Openstack发展很猛,很多朋友都很认同,2013年,会很好的解决OpenStack部署的问题,让安装,配置变得更加简单易用. 很多公司都投入人力去做这个,新浪也计划做一个Openstack的is ...

  5. 基于Docker一键部署大规模Hadoop集群及设计思路

    一.背景: 随着互联网的发展.互联网用户的增加,互联网中的数据也急剧膨胀.每天产生的数据量数以万计,本地文件系统和单机CPU已无法满足存储和计算要求.Hadoop分布式文件系统(HDFS)是海量数据存 ...

  6. 怎样在两小时内搞定 OpenStack 部署?(转)

    怎样在两小时内搞定 OpenStack 部署? OpenStack的安装是一个难题,组件众多,非常麻烦.如果手工部署OpenStack,可能需要好几天,使用RDO,就是几个命令,再加一两个小时的等待. ...

  7. 《OpenStack部署实践》

    <OpenStack部署实践> 基本信息 作者: 张子凡 丛书名: 图灵原创 出版社:人民邮电出版社 ISBN:9787115346797 上架时间:2014-2-27 出版日期:2014 ...

  8. OpenStack部署博客推荐

    OpenStack部署推荐博客 shhnwangjian https://www.cnblogs.com/shhnwangjian/category/942049.html(推荐) 点评: 1.实现过 ...

  9. OpenStack部署的简单模型

    记录下看到的openstack部署的简单模型,方便自己以后定位问题 规划网络部署节点为一个controller节点(包含网络节点),两个compute节点.controller节点有3个网卡,分别为e ...

随机推荐

  1. apiCloud手动检测更新

    有时候需要给用户一个自主的权利,自主检测app是否是最新版本. 如何实现? 1.点击调用接口,检测是否有更新. 默认APICloud会自动检测版本更新,用户也可以在config.xml里配置autoU ...

  2. Can’t connect to local MySQL server through socket ‘/tmp/mysql/mysql.sock’解决方法

    原因在于/tmp/mysql/mysql.sock不存在,为/usr/local/mysql/mysql.sock建立一个软连接到/tmp/mysql/mysql.sock即可. ln -s /usr ...

  3. POJ 3263 差分+set判重

    题意: 思路: 对于每一个区间 [a,b] [a+1,b-1]肯定是比a,b低至少1的 因为题目要求最大值 所以就直接差分一下 搞之 (复杂度 O(n)) Discuss里说有重复的数据 用set判一 ...

  4. Nginx 代理以及HTTPS (二)

    一.HTTPS解析 https 加密 私钥 公钥 http 的握手 是确认网络是连通的. https 的握手 是一个加密的过程 加密图 二. 使用Nginx 部署HTTPS 服务 1.证书生成命令(h ...

  5. K-序列(埃森哲杯第十六届上海大学程序设计联赛春季赛暨上海高校金马五校赛)

    题目描述 给一个数组 a,长度为 n,若某个子序列中的和为 K 的倍数,那么这个序列被称为“K 序列”.现在要你 对数组 a 求出最长的子序列的长度,满足这个序列是 K 序列.  输入描述: 第一行为 ...

  6. 如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化展示

    大前天我们通过Python网络爬虫对朋友圈的数据进行了抓取,感兴趣的朋友可以点击进行查看,如何利用Python网络爬虫抓取微信朋友圈的动态(上)和如何利用Python网络爬虫爬取微信朋友圈动态——附代 ...

  7. SFML学习纪要

    工作需要,近段粗浅看了一下SFML,记录一下! 一.浅见概述 SFML,simple and Fast mulitmedia Library官方网站:http://www.sfml-dev.org/i ...

  8. JS数组去重的6种算法实现

    1.遍历数组法 最简单的去重方法,实现思路:新建一新数组,遍历传入数组,值不在新数组就加入该新数组中:注意点:判断值是否在数组的方法"indexOf"是ECMAScript5 方法 ...

  9. PatentTips - Virtual translation lookaside buffer

    BACKGROUND OF THE INVENTION A conventional virtual-machine monitor (VM monitor) typically runs on a ...

  10. 【剑指Offer学习】【面试题27:二叉搜索树与双向链表】

    题目:输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的双向链表.要求不能创建不论什么新的结点.仅仅能调整树中结点指针的指向. 比方输入图4.12 中左边的二叉搜索树,则输出转换之后的排序现向链表. ...