第2节 mapreduce深入学习：14、mapreduce数据压缩-使用snappy进行压缩

mediocrePeople 2024-10-31 11:04:38 原文

第2节 mapreduce深入学习：14、mapreduce数据压缩-使用snappy进行压缩

文件压缩有两大好处，节约磁盘空间，加速数据在网络和磁盘上的传输。

方式一：在代码中进行设置压缩

代码：

FlowMain：

public static void main(String[] args) throws Exception {
//        设置我们的map阶段的压缩
Configuration configuration = new Configuration();
        configuration.set("mapreduce.map.output.compress","true");
        configuration.set("mapreduce.map.output.compress.codec","org.apache.hadoop.io.compress.SnappyCodec");

//        设置我们的reduce阶段的压缩
configuration.set("mapreduce.output.fileoutputformat.compress","true");
        configuration.set("mapreduce.output.fileoutputformat.compress.type","RECORD");
        configuration.set("mapreduce.output.fileoutputformat.compress.codec","org.apache.hadoop.io.compress.SnappyCodec");
        int run = ToolRunner.run(configuration, new FlowMain(), args);
        System.exit(run);
    }

方式二：配置全局的MapReduce压缩

我们可以修改mapred-site.xml配置文件，然后重启集群，以便对所有的mapreduce任务进行压缩（一般不这么配置）

map输出数据进行压缩

<property>

<name>mapreduce.map.output.compress</name>

<value>true</value>

</property>

<property>

<name>mapreduce.map.output.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

reduce输出数据进行压缩

<property>

　　<name>mapreduce.output.fileoutputformat.compress</name>

<value>true</value>

</property>

<property>

　　<name>mapreduce.output.fileoutputformat.compress.type</name>

<value>RECORD</value>

</property>

<property>

　　<name>mapreduce.output.fileoutputformat.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

运行结果：生成如下的压缩文件。

注意：我们不方便人工打开这些压缩文件，但是程序会自动按照其后缀名解压缩这些文件，然后传递给下一步使用。

第2节 mapreduce深入学习：14、mapreduce数据压缩-使用snappy进行压缩的更多相关文章

第2节 mapreduce深入学习：6、MapReduce当中的计数器
第2节 mapreduce深入学习:6. MapReduce当中的计数器计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计.计数器还可辅助诊断系统故障.如果需要将日志信息传输到map ...
第2节 mapreduce深入学习：8、手机流量汇总求和
第2节 mapreduce深入学习:8.手机流量汇总求和例子:MapReduce综合练习之上网流量统计. 数据格式参见资料夹需求一:统计求和统计每个手机号的上行流量总和,下行流量总和,上行总流量 ...
第2节 mapreduce深入学习：7、MapReduce的规约过程combiner
第2节 mapreduce深入学习:7.MapReduce的规约过程combiner 每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 ...
第2节 mapreduce深入学习：4, 5
第2节 mapreduce深入学习:4.mapreduce的序列化以及自定义排序序列化(Serialization)是指把结构化对象转化为字节流. 反序列化(Deserialization)是序列化 ...
第2节 mapreduce深入学习：2、3
第2节 mapreduce深入学习:2.MapReduce的分区:3.分区案例的补充完成运行实现在MapReduce中,通过我们指定分区,会将同一个分区的数据发送到同一个reduce当中进行处理,例 ...
Hadoop MapReduce编程学习
一直在搞spark,也没时间弄hadoop,不过Hadoop基本的编程我觉得我还是要会吧,看到一篇不错的文章,不过应该应用于hadoop2.0以前,因为代码中有 conf.set("map ...
hadoop学习(七)----mapReduce原理以及操作过程
前面我们使用HDFS进行了相关的操作,也了解了HDFS的原理和机制,有了分布式文件系统我们如何去处理文件呢,这就的提到hadoop的第二个组成部分-MapReduce. MapReduce充分借鉴了分 ...
MapReduce教程(一)基于MapReduce框架开发<转>
1 MapReduce编程 1.1 MapReduce简介 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,用于解决海量数据的计算问题. MapReduce分成了两个部分: ...
Migrating from MapReduce 1 (MRv1) to MapReduce 2 (MRv2, YARN)...
This is a guide to migrating from Apache MapReduce 1 (MRv1) to the Next Generation MapReduce (MRv2 o ...

随机推荐

[Usaco2017 Feb]Why Did the Cow Cross the RoadII
[题目链接] https://www.lydsy.com/JudgeOnline/problem.php?id=4993 [算法] 动态规划转移类似于求LCS [代码] #include<bi ...
OSI模型与TCP/IP模型基础
一.OSI七层模型 OSI(Open System Interconnection),OSI是一个开放性的通行系统互连参考模型,是一个协议规范.OSI七层模型是一种框架性的设计方法 ,建立七层模型的主 ...
bzoj 3308: 九月的咖啡店【最大费用最大流】
费用流里spfa最后的判断要写成dis[t]>=0而不是dis[t]!=-inf否则会WAWAWA-- #include<iostream> #include<cstdio&g ...
hdu 3007【最小圆覆盖-随机增量法模板】
#include<iostream> #include<cstdio> #include<cmath> #include<algorithm> usin ...
超短的判断IE javascript代码
首先说明该代码只能在IE 6~8中有效,再高级的IE已经修复这个BUG <script type=’text/javascript’> var ie = !-[1,]; alert(ie) ...
QT5每日一学（二）编写QT多窗口程序
一.添加主窗口 1.首先打开Qt Creator,新建Qt Widgets Application,项目名称设置为windows,在类信息界面保持基类为QMainWindow.类名为MainWindo ...
二分+树状数组/线段树(区间更新) HDOJ 4339 Query
题目传送门题意:给两串字符串,操作1:替换其中一个字符串的某个位置的字符操作2:查询从p开始相等的最长连续长度分析:树状数组可以维护一个区间内公共长度(连续)的情况,查询时用二分查找最远的端点即 ...
贪心+stack Codeforces Beta Round #5 C. Longest Regular Bracket Sequence
题目传送门 /* 题意:求最长括号匹配的长度和它的个数贪心+stack:用栈存放最近的左括号的位置,若是有右括号匹配,则记录它们的长度,更新最大值,可以在O (n)解决详细解释:http://bl ...
题解报告：poj 2533 Longest Ordered Subsequence（最长上升子序列LIS）
Description A numeric sequence of ai is ordered if a1 < a2 < ... < aN. Let the subsequence ...
DotNteBar 控件操作
DotNteBar中ComboBoxEx.DroppedDown = true可以不点击该控件就显示其内容.将DropDownStyle属性设为DropDownList下拉框就不能进行编辑只能选择下拉 ...