生产环境 hadoop部署在超大内存服务器的虚拟机集群上好还是几个内存较小的物理机上好?

虚拟机集群优点

虚拟化会带来一些其他方面的功能。

资源隔离。有些集群是专用的，比如给你三台设备只跑一个spark，那还算Ok。但在很多规模很小的团体中，在有限的硬件设备的情况下，又要跑spark，比如又要跑zookeeper、kafka等等，这个时候，我们希望它们之间是不会互相干扰的。假设你spark的配置没做好，内存占用太大了，你总不希望把你好端端zookeeper给影响得挂掉。那么此时虚拟机或者容器技术可以对物理资源进行隔离，防止这种情况出现。
快速部署，简化配置。无论对于新手还是老手来说，干这行非常痛苦的一点是各种框架的配置和部署，大量重复工作，又不怎么需要动脑子。所以你当然希望有一种方式，直接把你已经配置好的环境保存下来，作为一个镜像，然后当集群要扩展了，比如又增加了一个物理设备，你希望在上面虚拟化成三台虚拟机，两台运行spark，一台运行zookeeper，那简单了，把spark的镜像copy两份，zookeeper的镜像copy一份，网络配置好，开起来，一切都是那么潇洒...
调度单元。更高级的应用中，数据平台向整个团体或者公众提供服务。用户A希望有资源运行自己的应用，用户B也希望运行自己的应用，无论从安全角度还是管理角度上来说你都不希望他们之间是混杂的，这时候虚拟机也是一种解决方案。如果做一个高级点的调度器，当感知到spark工作压力非常大的时候启动一个zk镜像，反之减少一个镜像……这些功能在有虚拟机进行隔离时都会简单很多很多。

虚拟机或者容器来跑Hadoop和Spark，最大的优势就是在于方便部署和管理，并且共有云服务提供商可以提供弹性的服务，现在Databricks和Amazon，甚至国内的青云都提供了Spark虚拟机集群服务。我觉得虚拟化主要是针对大型云服务提供商而言的，集群的快速部署和便捷管理服务是很有市场的，不管是科研还是生产环境。

在此基础上我想补充一下：
1. 性能的隔离是有必要的，不然就会相互干扰，单个物理节点下用多线（进）程的方式的确从直观上性能是比虚拟化后要好，但是虚拟机带来的好处就是，一个服务器上可以跑多个集群，这些虚拟机可以分属于不同的集群。

2. 虚拟化技术作为云计算的基础，有其优势，它可以提供弹性资源服务，总体上是可以提高硬件使用率的，性能和资源使用率之间是存在一个tradeoff的。

3. 在按时间的计费模式下，像Spark这种对内存和CPU使用率较高的集群，部署到公有云中性价比较高。
另外一点，Hadoop部署到虚拟机集群中也已经有很多很多成熟的研究成功和工业产品，至于性能，据前Spark团队leader明风透露，阿里巴巴内部曾经试验过，大概性能损耗10%，这在大规模分布式系统中，和数据中心资源利用率比起来，应该不足为道。

虚拟机集群缺点

性能问题

作为分布式计算平台，性能是非常重要的一个指标，但绝对不是唯一一个指标。单纯从性能角度上来讲，硬件资源固定，虚拟化增大了开销，必然有所降低。(Hadoop和spark都是可以单机跑的。如果你的服务器只有一个node，那么单机跑要快很多)。

hadoop的关键在io
spark的关键在内存

hadoop主要是磁盘I/O问题，spark内存计算居多，这样反倒咱们一个启发，hadoop像似更适合物理机环境，spark可以存活在虚拟机里头。

虚拟机跑hadoop和spark当然能跑，但是性能会收到影响，毕竟单台机子是存在io瓶颈的，多台物理机io则可以分散和扩展。

如果生产环境资源有限，spark可以放在vm中跑，只要载入数据时注意点； Hadoop就尽量在物理机上面跑吧，节点少点比n个vm都强太多

经验之谈，10台pc远比买一台hp的2U跑虚拟机让Hadoop来得畅快。

安全问题

性能问题在hadoop虚拟化里其实是个次要问题，虽然也确实性能差。

更重要不要做虚拟化的原因是你的很多hadoop虚拟机很有可能其实是跑在一台物理服务器上的，那这台物理服务器宕机就会导致整个集群不可用。

另外，虚拟化也可能使用的是共享存储，那么这样会让hadoop内建的冗余机制变得毫无意义。

第三，虚拟化里，你无法划分正确的机架来让hadoop合理的分布数据块存放位置。

最后，虚拟化的网络是软件定义的，底层发生问题你很难对hadoop定位和排错。

这些才是不要用虚拟化最重要的原因，排除这些才谈到性能问题。

当然也有人说一台服务器只做一个虚拟机不就好了吗？可问题是，这样做的话为什么不直接装hadoop，非要为了部署方便而白白浪费掉30%的性能呢。每三台服务器就会浪费掉一台物理机的计算能力，代价太大了。

所以综上所述，最好还是同样的成本推荐物理机集群，而不是买一个大型服务器后虚拟机集群。

hadoop进阶----hadoop经验(一)-----生产环境hadoop部署在超大内存服务器的虚拟机集群上vs几个内存较小的物理机的更多相关文章

在Hadoop集群上的HBase配置
之前,我们已经在hadoop集群上配置了Hive,今天我们来配置下Hbase. 一.准备工作 1.ZooKeeper下载地址:http://archive.apache.org/dist/zookee ...
用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控
写在前面相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试用python + hado ...
hadoop 把mapreduce任务从本地提交到hadoop集群上运行
MapReduce任务有三种运行方式: 1.windows(linux)本地调试运行,需要本地hadoop环境支持 2.本地编译成jar包,手动发送到hadoop集群上用hadoop jar或者yar ...
MapReduce编程入门实例之WordCount：分别在Eclipse和Hadoop集群上运行
上一篇博文如何在Eclipse下搭建Hadoop开发环境,今天给大家介绍一下如何分别分别在Eclipse和Hadoop集群上运行我们的MapReduce程序! 1. 在Eclipse环境下运行MapR ...
Hadoop集群上搭建Ranger
There are two types of people in the world. I hate both of them. Hadoop集群上搭建Ranger 在搭建Ranger工程之前,需要完 ...
Hadoop集群上使用JNI，调用资源文件
hadoop是基于java的数据计算平台,引入第三方库,例如C语言实现的开发包将会大大增强数据分析的效率和能力. 通常在是用一些工具的时候都要用到一些配置文件.资源文件等.接下来,借一个例子来说明ha ...
[转载] 把Nutch爬虫部署到Hadoop集群上
http://f.dataguru.cn/thread-240156-1-1.html 软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7 前面的3篇文 ...
把Nutch爬虫部署到Hadoop集群上
原文地址:http://cn.soulmachine.me/blog/20140204/ 把Nutch爬虫部署到Hadoop集群上 Feb 4th, 2014 | Comments 软件版本:Nutc ...
项目进阶之集群环境搭建（三）多管理节点MySQL集群
上次的博文项目进阶之集群环境搭建(二)MySQL集群中,我们搭建了一个基础的MySQL集群,这篇博客咱们继续讲解MySQL集群的相关内容,同时针对上一篇遗留的问题提出一个解决方案. 1.单管理节点 ...

随机推荐

kali获得windows的shell后乱码
输入 chcp 65001
Algorithm - 贪心算法使用场景（ LEETCODE —— Best Time to Buy and Sell Stock II）
先看一道leetcode题: Best Time to Buy and Sell Stock II Say you have an array for which the ith element is ...
用C给小学生出题目
用C给小学生出题目一.预估与实际 PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟) Planning 计划 600 300 • Es ...
仿ArrayList功能的bag类
仿ArrayList功能的bag类要想做到能够实现ArrayList功能,首先要有一个能往里填任何类型元素的的空间,但是不能用ArrayList来创建空间,这样这个项目就没有意义,因此,我创建了一个 ...
jQuery全屏滚动插件fullPage使用
1. 引入jquery.js和jquery.fullPage.min.js <script src="jquery.min.js"></script> &l ...
android assets下rar文件解压到sd卡
参考的 http://hzy3774.iteye.com/blog/1704419 不过只能解压zip文件最多也就能解压1M多把 ,我1.5M的可以,4M的不行还有...之前傻逼的把raw和 ...
C#代码分析（第三周）
阅读下面程序,请回答如下问题: 问题1:这个程序要找的是符合什么条件的数? 问题2:这样的数存在么?符合这一条件的最小的数是什么? 问题3:在电脑上运行这一程序,你估计多长时间才能输出第一个结果?时间 ...
NodeJs异步的执行过程
我这里写了一个代码片段,用来模拟一个嵌套的异步过程,下面我总结了下这段代码的执行顺序var fs = require("fs"); fs.stat('a.txt',callback ...
AT89C51的内部4K flash,
AT89C51的内部4K flash, 是用来下载程序代码的,程序运行时只能做读取数据操作,不能写入.单片机断电时需要候保存数据,可以选择带EEPROM的单片机就可以,如STC 系列的单片机有内部 ...
初入React（一）
React:是2013年Facebook在github上的一个开源js库,它将用户界面抽象为一个个组件,再由开发者将其组合成页面.它不是完整的MVC/MVVM框架,专注于提供清晰.简洁的view层解决 ...