Spark保存到HDFS或本地文件相关问题

spark中saveAsTextFile如何最终生成一个文件

http://www.lxway.com/641062624.htm

一般而言，saveAsTextFile会按照执行task的多少生成多少个文件，比如part-00一直到part-0n，n自然就是task的个数，亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件，而不是成百上千个文件了？答案自然是有办法。

　　在RDD上调用coalesce(1,true).saveAsTextFile()，意味着做完计算之后将数据汇集到一个分区，然后再执行保存的动作，显然，一个分区，Spark自然只起一个task来执行保存的动作，也就只有一个文件产生了。又或者，可以调用repartition(1)，它其实是coalesce的一个包装，默认第二个参数为true。

　　事情最终就这么简单吗？显然不是。你虽然可以这么做，但代价是巨大的。因为Spark面对的是大量的数据，并且是并行执行的，如果强行要求最后只有一个分区，必然导致大量的磁盘IO和网络IO产生，并且最终执行reduce操作的节点的内存也会承受很大考验。Spark程序会很慢，甚至死掉。

　　这往往是初学Spark的一个思维陷阱，需要改变原先那种单线程单节点的思维，对程序的理解要转变多多个节点多个进程中去，需要熟悉多节点集群自然产生多个文件这种模式。

　　此外，saveAsTextFile要求保存的目录之前是没有的，否则会报错。所以，最好程序中保存前先判断一下目录是否存在。

Spark与HDFS怎么加载本地文件

http://bbs.csdn.net/topics/390976410

spark默认是从hdfs读取文件，也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读
本地文件读取 sc.textFile("路径").在路径前面加上file:// 表示从本地文件系统读，如file:///home/user/spark/README.md

Spark Streaming 保存日志文件到HDFS或本地没有反应。(使用本地模式)

http://stackoverflow.com/questions/28050262/spark-streaming-network-wordcount-py-does-not-print-result

原因
提交应用时用该使用更多的executors，如

spark-submit --master local[4] your_file.py

Learning Spark 第十章:

在本地运行Spark Streaming程序时，master的参数不要设置为local或者local[1]，只为任务分配一个CPU，如果某个receiver在上面运行，就没有剩余资源来执行接受数据的过程。因此至少使用local[2]来保证更多的CPU核

saveAsTextFile源码：http://www.myexception.cn/other/1961287.html
怎样利用Spark Streaming和Hadoop实现近实时的会话连接 http://m.thebigdata.cn/show.aspx?articleid=14069fo
KAFKA sparkStreaming HBase http://www.aboutyun.com/thread-12123-1-1.html

Spark保存到HDFS或本地文件相关问题的更多相关文章

[Spark][Python]对HDFS 上的文件，采用绝对路径，来读取获得 RDD
对HDFS 上的文件,采用绝对路径,来读取获得 RDD: In [102]: mydata=sc.textFile("file:/home/training/test.txt")1 ...
简单的Http请求数据保存到Hdfs
使用okhttp工具集来开发:(如果文件已经存在会报错) package com.etl; import java.io.IOException; import org.apache.commons. ...
Spark Streaming、HDFS结合Spark JDBC External DataSouces处理案例
场景:使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作: 使用技术:Spark Streaming + Spark JDBC External Data ...
自动将本地文件保存到GitHub
前言只有光头才能变强. 文本已收录至我的GitHub精选文章,欢迎Star:https://github.com/ZhongFuCheng3y/3y 这篇文章主要讲讲如何自动将本地文件保存到GitH ...
iOS开发——数据持久化&本地数据的存储（使用NSCoder将对象保存到.plist文件）
本地数据的存储(使用NSCoder将对象保存到.plist文件) 下面通过一个例子将联系人数据保存到沙盒的“documents”目录中.(联系人是一个数组集合,内部为自定义对象). 功能如下: ...
将存储在本地的大量分散的小文件，合并并保存在hdfs文件系统中
import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputStream; import java ...
记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中
猫眼票房排行榜页面显示如下: 注意右边的票房数据显示,爬下来的数据是这样显示的: 网页源代码中是这样显示的: 这是因为网页中使用了某种字体的缘故,分析源代码可知: 亲测可行: 代码中获取的是国内票房榜 ...
np.savetxt()——将array保存到txt文件，并保持原格式
问题:1.如何将array保存到txt文件中?2.如何将存到txt文件中的数据读出为ndarray类型? 需求:科学计算中,往往需要将运算结果(array类型)保存到本地,以便进行后续的数据分析. 解 ...
spark读取本地文件
/** * Read a text file from HDFS, a local file system (available on all nodes), or any * Hadoop-supp ...

随机推荐

SQL Standard Based Hive Authorization（基于SQL标准的Hive授权）
说明:该文档翻译/整理于Hive官方文档https://cwiki.apache.org/confluence/display/Hive/SQL+Standard+Based+Hive+Authori ...
Intellij IDEA 14隐藏被排除的文件夹
被排除的文件和文件夹以红色显示了. 看着这东西,人一下子就不好了. 还好设置可以改回来. Project tab右上角齿轮,关闭“Show Excluded Files”即可.
POJ-1200(哈希)
2015-08-19 题意:给出两个数n,nc,并给出一个由nc种字符组成的字符串.求这个字符串中长度为n的子串有多少种. 分析: 1.这个题不用匹配,因为不高效. 2.将长度为n的子串看作n位的nc ...
IOS实现小型计算器
作为一名初学者,编辑一款能够在IOS操作系统上运行的计算器是一件很值得自豪的事情,网络上虽然后很多相关的文章和代码,功能也很强大但是我感觉相关的计算器比加复杂,晦涩难懂,所以我想通过这个小小的计算器, ...
android改动tab 导航指示器颜色
我事实上想改动的上面的蓝色条条,改成红色. 这个问题实在是困扰我了太长时间.之前參照google的这个文章: https://developer.android.com/training/basics ...
Ubuntu Server安全Webserver搭建流程
之前整过CentOS.整了Ubuntu才发现,Ubuntu简单多了--不知道性能相比又怎样. 以Ubtuntu 14.04为例.记录一下搭建流程. 一.SSHserver 第一件事当然是ssh,默认安 ...
初学者学Java（十五）
再谈数组在这一篇中我们来讲一下关于数组的排序和查找的方法. 排序说到数组的排序,就不得不说冒泡这种经典的方法. 1.冒泡排序冒泡排序的基本思想是比较两个相邻元素的值,如果满足条件就交换元素的值( ...
【iOS解决思路】得到某个view所在的ViewController
在一个tableViewCell中有个btn,如何得到它所在的viewcontroller,以便于push出新的viewController? 我的思路是传值,但网上有下面这种方法,分享. 跟得到某个 ...
MySQL创建新用户、增加账户的2种方法及使用实例
可以用两种方式创建MySQL账户:1.使用GRANT语句2.直接操作MySQL授权表最好的方法是使用GRANT语句,因为这样更精确,错误少.创建超级用户: mysql> GRANT ALL PR ...
使用JDK自带缓存（Cache）实现Cookie自动登陆
自定义一个缓存类AdminCache package jw.admin.common; import jw.base.entity.Admin; import sun.security.util.Ca ...

Spark保存到HDFS或本地文件相关问题

Spark保存到HDFS或本地文件相关问题的更多相关文章

随机推荐

热门专题