如何让Hadoop运行得更快一些

在数据处理方面，我们发现数据输入速度一般要比的数据处理速度快很多，这种现象在大多数据领域尤为明显。随着数据不断膨胀，相应的响应时间自然要有所增加，数据处理的复杂度也在不断提高。作为一个开发者，我们自然非常关注系统的运行速度问题。在云计算领域，一个小技巧也许能带来系统性能的大幅度提升。对于Hadoop来说，如何提升它的速度呢？来看看下文。

Hadoop是用以下的方式来解决速度问题：

1 使用分布式文件系统：这使得负载分摊，并壮大系统

2 优化写入速度：为了获得更快的写入速度，Hadoop架构是设计成先写入记录，然后在进行处理

3 使用批处理(Map/Reduce)来平衡数据传送速度和处理速度。

批处理所带来的挑战

批量处理的挑战在于，数据必须要间断性地进入才能保证流程正常运作，而如果数据源连续地输入，就会造成系统崩溃。

如果我们增加批处理窗口的话，结果就会增加数据处理过程的时间，使得相关的数据分析报告也要推迟落入我们的手中。在许多系统里，他们会选择在非高峰时间进行数据批处理，而这个时间是非常有限的。随着数据的体积不断胀大，处理数据的时间就不断增加，这样发展下去的话，需要被处理的数据就会不断积压。这最终的结果有可能一天都处理不完数据。

通过流处理来提升速度

流处理的概念是非常简单的。我们并不需要等到所有数据记录完后才进行处理，我们可以边记录边处理。

拿生产线来做比喻，我们可以等到所有的组件齐全后才开始装配汽车，也可以在生产厂那边把组件包装好，然后再送到特定的生产线，并马上组装起来。不用说，你也知道哪个速度会更快一点吧。

数据处理就跟生产线一样，而流处理进程就是把数据包装起来，并送到特定的“生产线”上。而在传统行业上，即使生产商把所有的部件都预装起来，我们依然需要一条生产线来组装。同样，流处理并不是要取代Hadoop，它只是用于减少系统大量工作，从而提升系统的处理速度。

Curt Monash在他的“传统数据库最终会在RAM中终结”的研究中指出的，内存间的流处理能够打造出更好的流处理系统。下面就是一个实时大数据的分析案例，并用Twitter来演示数据的相应处理方式。

Google更快的处理方案：用流处理来替代Map/Reduce

由于当时缺乏可替方案，即使Map/Reduce性能不佳，许多大数据系统依然要使用这个技术。一个最好的应用例子就是使用这项技术来维护全球的搜索索引。现在Google在索引处理方面大大减少使用Map/Reduce，反而加入了实时处理模式，这使得索引速度缩短为原来的一百分之一。

在网络中，一些类型的数据在不断膨胀。这也是HBase为什么计入触发式处理的原因，而Twitter未来将要处理更庞大的流数据。

最后的啰嗦

为了提升速度，在数据抵达Hadoop系统之前，我们可以通过一些预处理来提升系统的速度。我们也能像Google一样，在某些情况下使用流处理方案来替代Map/Reduce托福答案

如何让Hadoop运行得更快一些的更多相关文章

使用QFileInfo类获取文件信息（在NTFS文件系统上，出于性能考虑，文件的所有权和权限检查在默认情况下是被禁用的，通过qt_ntfs_permission_lookup开启和操作。absolutePath()必须查询文件系统。而path()函数，可以直接作用于文件名本身，所以，path() 函数的运行会更快）
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/Amnes1a/article/details/65444966QFileInfo类为我们提供了系统无 ...
如何让你的SQL运行得更快
人们在使用SQL时往往会陷入一个误区,即太关注于所得的结果是否正确,而忽略了不同的实现方法之间可能存在的性能差异,这种性能差异在大型的或是复杂的数据库环境中(如联机事务处理OLTP或决策支持系统DSS ...
如何让python程序运行得更快
原则1:不优化原则2:不要优化那些不重要的部分(否则会降低可读性) 解决方案: 1. 使用函数,局部变量比全局变量快很多.尽量使用函数,如main() 2. 有选择性的消除属性访问. 如多用 fro ...
让Python代码更快运行的 5 种方法
不论什么语言,我们都需要注意性能优化问题,提高执行效率.选择了脚本语言就要忍受其速度,这句话在某种程度上说明了Python作为脚本语言的不足之处,那就是执行效率和性能不够亮.尽管Python从未如C和 ...
Five things that make Go fast-渣渣翻译-让GO语言更快的5个原因
原文地址:https://dave.cheney.net/2014/06/07/five-things-that-make-go-fast 翻译放在每个小段下面 Anthony Starks has ...
快还要更快，让PHP 7 运行更加神速
导读 PHP 7 比5.x 快上很多,即使只有单纯的版本升级就已经很有感,不过大家还是希望它变得越来越快,这时再做些小调整就会更有fu,Let's try it! 事前准备说到PHP 7,那一定跑不 ...
v8是怎么实现更快的 await ？深入理解 await 的运行机制
最近v8团队发表一篇博客Faster async functions and promises, 预计在v7.2版本实现更快的异步函数和promise. 文章内容看起来不是很容易理解,背后的原理比较隐 ...
精通Web Analytics 2.0 （9）第七章：失败更快：爆发测试与实验的能量
精通Web Analytics 2.0 : 用户中心科学与在线统计艺术第七章:失败更快:爆发测试与实验的能量欢迎来到实验和测试这个棒极了的世界! 如果Web拥有一个超越所有其他渠道的巨大优势,它就 ...
【译】更快的方式实现PHP数组去重
原文:Faster Alternative to PHP’s Array Unique Function 概述使用PHP的array_unique()函数允许你传递一个数组,然后移除重复的值,返回一 ...

随机推荐

sql按照in中的顺序进行排序 mysql
经测试以下三种情况,都可以. SELECT a.id,a.name as goods_name,a.logoimg,b.name as store_name FROM sh_goods a LEFT ...
Poetize4 创世纪
3037: 创世纪 Time Limit: 5 Sec Memory Limit: 128 MBSubmit: 123 Solved: 66[Submit][Status] Description ...
-_-#【H5】meta / href
常用的 HTML 头部标签关闭Android/iPhone浏览器自动识别数字为电话号码 <meta name="format-detection" content=&quo ...
【动态规划】Vijos P1037 搭建双塔
题目链接: https://vijos.org/p/1037 题目大意: 给n块砖的长度(n<=100),问从中任选m块砖能否建成2个相同高度的塔. 能的话求最高高度,不能输出 Impossib ...
高效算法——B 抄书 copying books,uva714
Time Limit:3000MS Memory Limit:0KB 64bit IO Format:%lld & %llu Submit Status Description ...
VMware连不上网解决
在VMware里安装了ubuntu,但是某一天打开它,ubuntu忽然不能上网了,于是百度了好几个方法,最后是这样解决的: 额...现在连接的是无线,前两天出问题的时候连接的是有线,在Internet ...
第一节：Scrapy开源框架初探
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 具体开发流程如下: 一.确定待抓取网站当您需要从某 ...
Mysql操作命令出现错误时消除/mysql数据导入txt
MySQL怎样取消错误命令 http://jingyan.baidu.com/album/546ae1851e9fd61149f28cef.html?picindex=6 mysql导入数据load ...
多版本号并发控制(MVCC)在分布式系统中的应用
QQ群:289150599 问题近期项目中遇到了一个分布式系统的并发控制问题.该问题能够抽象为:某分布式系统由一个数据中心D和若干业务处理中心L1,L2 ... Ln组成:D本质上是一个key-va ...
Java基础知识强化之集合框架笔记08：Collection集合自定义对象并遍历案例（使用迭代器）
1. Collection集合自定义对象并遍历案例(使用迭代器) (1)首先定义一个Student.java,如下: package com.himi.collectionIterator; publ ...

如何让Hadoop运行得更快一些

如何让Hadoop运行得更快一些的更多相关文章

随机推荐

热门专题