spark textFile读取多个文件

1.spark textFile读取File

1.1 简单读取文件

val spark = SparkSession.builder()

    .appName("demo")

    .master("local[3]")

    .getOrCreate()

// 读取hdfs文件目录

spark.sparkContext.textFile("/user/data")

spark.sparkContext.textFile("hdfs://10.252.51.58:8088/user/data")

// 读取本地目录

spark.sparkContext.textFile("file://user/data")

1.2 正则模式读取文件

val spark = SparkSession.builder()

    .appName("demo")

    .master("local[3]")

    .getOrCreate()

// 读取hdfs文件目录

spark.sparkContext.textFile("/user/data/201908/0[1-9]/*")

2.spark textFile读取多个File

2.1 将多个文件变成一个 list 作为参数

正确写法：sc.TextFile( filename1 + "," + filename2 + "," + filename3)

val spark = SparkSession.builder()

    .appName("demo")

    .master("local[3]")

    .getOrCreate()

val fileList = Array("/user/data/source1","/user/data/source2","/user/data/source3")

// 读取hdfs文件目录

spark.sparkContext.textFile(fileList.mkString(","))

2.2 使用 union 连接

val spark = SparkSession.builder()

    .appName("demo")

    .master("local[3]")

    .getOrCreate()

val fileList = Array("/user/data/source1","/user/data/source2","/user/data/source3")

//array[RDD]

val fileRDD:Array[RDD[String]] = fileList.map(spark.sparkContext.textFile(_)

spark.sparkContext.union(fileRDD)

spark textFile读取多个文件的更多相关文章

spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长（计算Partition时间太长）且产出orc单个文件中stripe个数太多问题解决方案
1.背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式.查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop ...
Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题
目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算:另一部分数据则经由Flume存储至HDFS ...
SparkHiveContext和直接Spark读取hdfs上文件然后再分析效果区别
最近用spark在集群上验证一个算法的问题,数据量大概是一天P级的,使用hiveContext查询之后再调用算法进行读取效果很慢,大概需要二十多个小时,一个查询将近半个小时,代码大概如下: try: ...
【spark】【问题】textFile找不到文件
2018/5/9 关于textFile读取文件的问题问题描述: 今天第一次使用spark-shell来读取文件,我在本地建立了一个text.txt文件,然后用textFile读取生成rdd. 但是执 ...
spark textFile 困惑与解释
在编写spark测试应用时, 会用到sc.textFile(path, partition) 当配置为spark分布式集群时,当你读取本地文件作为输入时, 需要将文件存放在每台work节点上. 这时会 ...
ios 读取各种类型文件
1.如何读取UTF-8编码的文本文件? 2.如何读取GB2312(中文)的文本文件? 3.如何读取其它编码文件? 首先解决第一个问题, 1.如何读取UTF-8编码的文本文件? NSString *fi ...
Spark- Spark从SFTP中读取zip压缩文件数据做计算
我们遇到个特别的需求,一个数据接入的流程跑的太慢,需要升级为用大数据方式去处理,提高效率. 数据: 数据csv文件用Zip 压缩后放置在SFTP中数据来源: SFTP 数据操作: 文件和它的压缩包一 ...
.NET Core的文件系统[1]：读取并监控文件的变化
ASP.NET Core 具有很多针对文件读取的应用.比如我们倾向于采用JSON文件来定义配置,所以应用就会涉及针对配置文件读取.如果用户发送一个针对物理文件的HTTP请求,应用会根据指定的路径读取目 ...
使用js-xlsx库，前端读取Excel报表文件
在实际开发中,经常会遇到导入Excel文件的需求,有的产品人想法更多,想要在前端直接判断文件内容格式是否正确,必填项是否已填写依据HTML5的FileReader,可以使用新的API打开本地文件(参 ...

随机推荐

while语句基本练习(求和思想,统计思想)
A:循环结构while语句的格式: 初始化语句; while(判断条件语句) { 循环体语句; 控制条件语句; } B:执行流程: a:执行初始化语句 b:执行判断条件语句,看其返回值是true还是f ...
从FreeBSD里面看到的网络协议列表，感觉可以保存一下
# # Internet protocols # # $FreeBSD$ # from: @(#)protocols 5.1 (Berkeley) 4/17/89 # # See also http: ...
LOGO有哪几种常规设计思路？
Logo设计的思路多种多样,但是我个人从Logo设计的历史上,大致可以归纳出五种常规思路,思路的名称是自己编的,仅供大家参考.而列举的这些思路背后,都是有着各自的时代背景的. 先从历史最悠久的一种设计 ...
Hadoop本地环境安装
一.服务器环境本人用的是阿里云的ECS的入门机器,配置1核2G,1M带宽,搭了个Hadoop单机环境,供参考 Linux发行版本:Centos7 JDK:阿里云镜像市场中选择JDK8 二.安装步骤 ...
notepad++编辑软件
官网:http://notepad-plus-plus.org/ 官网截图(2015/4/29): 版本: Notepad++ 6.7.7 下载地址:http://notepad-plus-plus. ...
简易的富文本编辑器WangEditor
网址http://www.wangeditor.com/ var E = window.wangEditor; var editor = new E('#editor') // 或者 var edit ...
SHOW - 显示运行时参数的数值
SYNOPSIS SHOW name SHOW ALL DESCRIPTION 描述 SHOW 将显示当前运行时参数的数值. 这些变量可以通过 SET 语句来设置,或者通过编辑 postgresql. ...
bash date format
Bash Date To format Bash Date to a required one, bash shell provides date command along with many fo ...
小程序内嵌H5页面判断微信及小程序环境
判断微信及小程序环境 1.H5页面引入jweixin-1.3.2.js 2. var ua = window.navigator.userAgent.toLowerCase(); if(ua.matc ...
iSkysoft iMedia Converter Deluxe for Mac的使用方法
我们电脑上的播放器大多数的播放格式都比较少,所以在播放其它格式的时候容易出错,不能兼容其它的视频格式.今天小编要给大家推荐一种软件,iSkysoft iMedia Converter Deluxe就是 ...

spark textFile读取多个文件

1.spark textFile读取File

2.spark textFile读取多个File

spark textFile读取多个文件的更多相关文章

随机推荐

热门专题