【Spark】通过创建DataFrame读取不同类型文件内容

文章目录

读取文本文件

第一种方法：通过RDD配合case class转换DataFrame

步骤

一、创建测试所需的文本文件
二、在spark-shell中执行以下操作

第二种方法：通过sparkSession构建DataFrame

读取json文件
读取parquet列式存储文件

读取文本文件

第一种方法：通过RDD配合case class转换DataFrame

步骤

一、创建测试所需的文本文件

在虚拟机的/export/servers/目录下创建文本文件

cd /export/servers/

vim person.txt

1 zhangsan 20

2 lisi 29

3 wangwu 25

4 zhaoliu 30

5 tianqi 35

6 kobe 40

二、在spark-shell中执行以下操作

// 1.进入spark客户端

cd /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/

bin/spark-shell --master local[2]

// 2.读取创建好的文本文件，定义RDD为lineRDD，并对数据进行切割

scala> val lineRDD = sc.textFile("file:///export/servers/person.txt").map(x => x.split(" "))

lineRDD: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[7] at map at <console>:24

// 3.定义case class样例类

scala> case class Person(id: Int,name: String,age: Int)

defined class Person

// 4.关联RDD和case class

scala> val personRDD = lineRDD.map(x => Person(x(0).toInt,x(1),x(2).toInt))

personRDD: org.apache.spark.rdd.RDD[Person] = MapPartitionsRDD[8] at map at <console>:28

// 5.将RDD转换为DataFrame

scala> val personDF = personRDD.toDF

personDF: org.apache.spark.sql.DataFrame = [id: int, name: string ... 1 more field]

// 6.查看数据

scala> personDF.show

+---+--------+---+

| id|    name|age|

+---+--------+---+

|  1|zhangsan| 20|

|  2|    lisi| 29|

|  3|  wangwu| 25|

|  4| zhaoliu| 30|

|  5|  tianqi| 35|

|  6|    kobe| 40|

+---+--------+---+

// tips!	将DataFrame转换为RDD直接调用rdd方法即可

scala> personDF.rdd.collect

res2: Array[org.apache.spark.sql.Row] = Array([1,zhangsan,20], [2,lisi,29], [3,wangwu,25], [4,zhaoliu,30], [5,tianqi,35], [6,kobe,40])

第二种方法：通过sparkSession构建DataFrame

// 1.直接读取文件即可

scala> val personDF2 = spark.read.text("file:///export/servers/person.txt")

personDF2: org.apache.spark.sql.DataFrame = [value: string]

// 2.查看数据

scala> personDF2.show

+-------------+

|        value|

+-------------+

|1 zhangsan 20|

|    2 lisi 29|

|  3 wangwu 25|

| 4 zhaoliu 30|

|  5 tianqi 35|

|    6 kobe 40|

+-------------+

可以看到通过sparkSession直接读取的文本文件，查询数据发现每一行的数据都统一放到了一个字段，而通过第一种方法就会按照字段分开，所以读取文本文件时一般更推荐第一种方法

读取json文件

// 1.spark提供了json格式的example，可以直接读取

scala> val jsonDF = spark.read.json("file:///export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/src/main/resources/people.json")

jsonDF: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

// 2.查看数据

scala> jsonDF.show

+----+-------+

| age|   name|

+----+-------+

|null|Michael|

|  30|   Andy|

|  19| Justin|

+----+-------+

读取parquet列式存储文件

// 1.spark也提供了parquet格式的example，可以直接读取

scala> val parquetDF = spark.read.parquet("file:///export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/src/main/resources/users.parquet")

parquetDF: org.apache.spark.sql.DataFrame = [name: string, favorite_color: string ... 1 more field]

// 2.查看数据

scala> parquetDF.show

+------+--------------+----------------+

|  name|favorite_color|favorite_numbers|

+------+--------------+----------------+

|Alyssa|          null|  [3, 9, 15, 20]|

|   Ben|           red|              []|

+------+--------------+----------------+

【Spark】通过创建DataFrame读取不同类型文件内容的更多相关文章

[Spark][python]以DataFrame方式打开Json文件的例子
[Spark][python]以DataFrame方式打开Json文件的例子: [training@localhost ~]$ cat people.json{"name":&qu ...
Java基础-输入输出-2.编写IoDemo.java的Java应用程序，程序完成的功能是：首先读取text.txt文件内容，再通过键盘输入文件的名称为iodemo.txt,把text.txt的内容存入iodemo.txt
2.编写IoDemo.java的Java应用程序,程序完成的功能是:首先读取text.txt文件内容,再通过键盘输入文件的名称为iodemo.txt,把text.txt的内容存入iodemo.txt ...
ZK中使用JS读取客户端txt文件内容问题
最近写一个需求时遇到一个问题,用户需要通过点击一个按钮直接读取他自己电脑上D盘的一个txt文件内容显示到页面,因为项目现在是用ZK写的.我对于ZK也是刚刚了解不就,很多都还不是很熟.起初我是想用io流 ...
字节流,读取 a.txt 文件内容,并打印出来
import java.io.FileInputStream;import java.io.IOException; /** 字节流,读取 a.txt 文件内容,并打印出来 */public clas ...
ios 读取各种类型文件
1.如何读取UTF-8编码的文本文件? 2.如何读取GB2312(中文)的文本文件? 3.如何读取其它编码文件? 首先解决第一个问题, 1.如何读取UTF-8编码的文本文件? NSString *fi ...
spark sql 创建DataFrame
SQLContext是创建DataFrame和执行SQL语句的入口通过RDD结合case class转换为DataFrame 1.准备:hdfs上提交一个文件,schema为id name age, ...
Spark Java创建DataFrame
以前用Python和Scala操作Spark的时候比较多,毕竟Python和Scala代码写起来要简洁很多. 今天一起来看看Java版本怎么创建DataFrame,代码写起来其实差不多,毕竟公用同一套 ...
Python2 读取表格类型文件
resp = My_Request_Get(xls_url) # My_Request_Get是我自己封装的请求函数,可修改为requests请求f = ]) nrows = table._dimnr ...
关于Npoi+excel文件读取，修改文件内容的处理方式
因最近有需求场景,实现对文件的读写操作,又不单独生成新的文件,对于源文件的修改,做了一个简单实现,如下↓ // 要操作的excel文件路径 string fileName = Server.MapPa ...

随机推荐

JAVA—线程(Thread)
1.线程的状态有哪些我记得在操作系统原理的书上有一张具体的图,暂时找不到书... new:新建状态,被创建出来后未启动时的线程状态. runnable:就绪状态,表示可以运行. blocked:阻塞 ...
IP连接数据库语句
select * from [19.200.108.2].[jsoctnetv6.0].[CardInfo] where ICNO='32719'
基于 Redis 的订阅与发布
Github 仓库 demo-redis-subscribe 创建项目 $ composer create hyperf/biz-skeleton demo-redis-subscribe dev-m ...
2019CCPC-江西省赛（重现赛）- 感谢南昌大学
A题: 题意: 给你两棵树,然后用一条边将这两棵树连接起来,然后计算每两点之间的距离,然后求和,问这个和的最小值. 思路:根据重心的性质,树上的所有点到重心的距离最短,因此我们找到两棵树的重心,然后 ...
G. 蚂蚁的镜像串
单点时限: 1.0 sec 内存限制: 512 MB 一只聪明的蚂蚁在学习了回文串之后,一直觉得回文串不够优美,所以它决定自己定义一种新的字符串——镜像串所谓镜像串,就是对一个字符串进行一整个完全的 ...
搭建Ubuntu虚拟机
搭建Ubuntu虚拟机前言 1. 啰嗦一下 1.1 ubuntu虚拟机的作用 1.2 为什么选择Ubuntu 1.3 工具准备 2. 正式开始 2.1 安装VMware 2.2 创建Ubuntu虚拟 ...
Go gRPC进阶-proto数据验证（九）
前言上篇介绍了go-grpc-middleware的grpc_zap.grpc_auth和grpc_recovery使用,本篇将介绍grpc_validator,它可以对gRPC数据的输入和输出进行 ...
12. 前后端联调 + ( proxy代理 ) + ( axios拦截器 ) + ( css Modules模块化方案 ) + ( css-loader ) + ( 非路由组件如何使用history ) + ( bodyParser,cookieParser中间件 ) + ( utility MD5加密库 ) + ( nodemon自动重启node ) + +
(1) proxy 前端的端口在:localhost:3000后端的端口在:localhost:1234所以要在webpack中配置proxy选项 (proxy是代理的意思) 在package.jso ...
docker环境常用命令
Ubuntu 安装docker及docker-compose 安装: apt-get install docker apt-get install docker-compose 启动docker环境: ...
[PHP] 获取IP 和JS获取IP和地址
通过js获取服务器 ip 服务器端口服务器地址 var address=window.location.href; thisDLoc = document.location; var hostpo ...

【Spark】通过创建DataFrame读取不同类型文件内容

文章目录

读取文本文件

第一种方法：通过RDD配合case class转换DataFrame

步骤

一、创建测试所需的文本文件

二、在spark-shell中执行以下操作

第二种方法：通过sparkSession构建DataFrame

读取json文件

读取parquet列式存储文件

【Spark】通过创建DataFrame读取不同类型文件内容的更多相关文章

随机推荐

热门专题