spark中saveAsTextFile如何最终生成一个文件

原文地址：

http://www.cnblogs.com/029zz010buct/p/4685173.html

一般而言，saveAsTextFile会按照执行task的多少生成多少个文件，比如part-00000一直到part-0000n，n自然就是task的个数，亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件，而不是成百上千个文件了？答案自然是有办法。

　　在RDD上调用 coalesce(1,true).saveAsTextFile()，意味着做完计算之后将数据汇集到一个分区，然后再执行保存的动作，显然，一个分区，Spark自然只起一个task来执行保存的动作，也就只有一个文件产生了。

又或者，可以调用repartition(1)，它其实是coalesce的一个包装，默认第二个参数为true。

　　事情最终就这么简单吗？显然不是。你虽然可以这么做，但代价是巨大的。因为Spark面对的是大量的数据，并且是并行执行的，如果强行要求最后只有一个分区，必然导致大量的磁盘IO和网络IO产生，并且最终执行reduce操作的节点的内存也会承受很大考验。Spark程序会很慢，甚至死掉。

这往往是初学Spark的一个思维陷阱，需要改变原先那种单线程单节点的思维，对程序的理解要转变多多个节点多个进程中去，需要熟悉多节点集群自然产生多个文件这种模式。

此外，saveAsTextFile要求保存的目录之前是没有的，否则会报错。所以，最好程序中保存前先判断一下目录是否存在。

================================================================================================

原链接：

http://blog.csdn.net/power0405hf/article/details/50596233

当我运行完一个Spark程序想把结果保存为saveAsTextFile，
结果使用Hadoop fs -ls /output 后发现里面有一系列的part，好几千个。
原因：
运行Spark的时候把数据分成了很多份（partition），每个partition都把自己的数据保存成partxxx文件形式。
如果想保存为一份的话，就要：

先collect

或者

data.coalesce(1,true).saveAsTextFile()

也或者

data.repartition(1).saveAsTextFile( ) //You can also use repartition(1), which is just a wrapper for coalesce() with the suffle argument set to true.

data.repartition(1).saveAsTextFile( “HDFS://OUTPUT”)

但是如果你的数据很大，难以在单机内存上装下，以上操作可能会造成单机内存不足。

原因在于以上操作都是讲分布在各个机器上的数据汇总到单机，然后再保存到磁盘（HDFS）上。

以上操作将各个机器上的RDD partition 合并到单一主机后再读入磁盘。

以下给出更安全的操作，即采用HDFS磁盘合并操作。

如果已经存了很多个part：
可以把大文件夹getmerge：

把HDFS 上的多个文件合并成一个本地文件：

hadoop fs -getmerge /hdfs/output /local/file.txt

也可以：

hadoop fs -cat /hdfs/output/part-r-* > /local/file.txt

spark中saveAsTextFile如何最终生成一个文件的更多相关文章

将String类型的二维数组中的元素用FileOutputStream的write方法生成一个文件
将String类型的二维数组中的元素用FileOutputStream的write方法生成一个文件import java.io.File;import java.io.FileOutputStre ...
将一个文件中的内容,在另一个文件中生成. for line in f1, \n f2.write(line)
将一个文件中的内容,在另一个文件中生成. 核心语句: for line in f1: f1中的所有一行 f2.write(line) ...
delphi中单独编译pas生成dcu文件
delphi中单独编译pas生成dcu文件在网上下载了一个带源码的组件,结果碰到提示说缺少xxx.dcu.一看它的目录下确实没有,那能不能生成一个呢? 当然可以! 方法是使用delphi的安装目录\ ...
100个Shell脚本——【脚本8】每日生成一个文件
[脚本8]每日生成一个文件要求:请按照这样的日期格式(xxxx-xx-xx)每日生成一个文件,例如今天生成的文件为)2017-07-05.log, 并且把磁盘的使用情况写到到这个文件中,(不用考虑c ...
工具：从一个文件夹中复制jar到另一个文件夹中
工具类:从一个文件夹中复制jar到另一个文件夹中需要的小伙伴可以试一试,很爽哦,有时候真的很需要! 需求:当我们拿到一个maven项目时,而maven项目的jar包都是通过pom.xml文件管理的, ...
使用IO流将数据库中数据生成一个文件，结果使用Notepad++打开部分数据结尾出现NUL
场景描述: 项目中通过java代码中从数据库中查询一系列数据,对数据做相应处理,然后通过字符流将数据写如一个新生成的文件中,将该项目部署在linux服务器上,最后生成的文件拿到本地使用notepad+ ...
spark中saveAsTextFile的错误
写了很简单的一段spark代码,将结果保存为windows本地文件,执行之后总是报错NullPointerException 查询之后发现是本地缺少hadoop需要的一个文件所致如果本地已经安装了 ...
Python中使用dom模块生成XML文件示例
在Python中解析XML文件也有Dom和Sax两种方式,这里先介绍如何是使用Dom解析XML,这一篇文章是Dom生成XML文件,下一篇文章再继续介绍Dom解析XML文件. 在生成XML文件中,我们主 ...
Java中使用DOM4J来生成xml文件和解析xml文件
一.前言现在有不少需求,是需要我们解析xml文件中的数据,然后导入到数据库中,当然解析xml文件也有好多种方法,小编觉得还是DOM4J用的最多最广泛也最好理解的吧.小编也是最近需求里遇到了,就来整理 ...

随机推荐

ubuntu 14.04 安装 glog
1.下载 git clone https://github.com/google/glog 2.配置 sudo apt-get install autoconf automake libtool 3. ...
Selenium UI 举例 getCssValue
selenium jar包中,在WebElement的接口中, String getCssValue(String var1); 可以通过标签,获取对应的css值.具体要怎么用呢,如下: WebEle ...
C/C++UNION中包含STRUCT
测试环境:Win7x64,cn_visual_studio_2010_ultimate_x86_dvd_532347.iso,qt-opensource-windows-x86-msvc2010_op ...
（转帖整理）Linux下的Autoconf和AutoMake(理论篇) 1
在搜索网上资料过程中,这是感觉最简洁有效的一篇文章,特进行转帖记录,并根据情况对部分内容进行了修改.原帖传送门:Linux下的Autoconf和AutoMake 1.工具安装在开始使用autoconf ...
20170728xlVba SSC_LastTwoDays
Public Sub SSCLastTwoDays() Dim strText As String Dim Reg As Object, Mh As Object, OneMh As Object D ...
CMD模拟http请求
搭建环境前提是在win7中开启telnet服务开启方法请参考:http://jingyan.baidu.com/article/870c6fc3cd6fa9b03fe4bee4.html 打开Te ...
javassist和jdk动态代理
先来一个InvocationHandler示例,InvocationHandler类的作用是:对原始对象的方法做一个拦截. package com.zhang; import java.lang.re ...
CNN autoencoder 进行异常检测——TODO，使用keras进行测试
https://sefiks.com/2018/03/23/convolutional-autoencoder-clustering-images-with-neural-networks/ http ...
kill prefix hemi hexa hepta holo input 1
1● hemi 0.5 2● hexa 6 3● hepta 7 4● holo 100%
ASCII码表(0-127 ) C中的转义字符
所有的ASCII码都可以用“\”加数字(一般是8进制数字)来表示.而C中定义了一些字母前加"\"来表示常见的那些不能显示的ASCII字符,如\0,\t,\n等,就称为转义字符,因为 ...

spark中saveAsTextFile如何最终生成一个文件

spark中saveAsTextFile如何最终生成一个文件的更多相关文章

随机推荐

热门专题