Spark操作parquet文件

 package code.parquet

 import java.net.URI

 import org.apache.hadoop.conf.Configuration

 import org.apache.hadoop.fs.{Path, FileSystem}

 import org.apache.spark.sql.{SaveMode, SparkSession}

 /**

   * Created by zhen on 2018/12/11.

   */

 object ParquetIO {

   // 指定hdfs根节点

   private val hdfsRoot = "hdfs://172.20.32.163:8020"

   // 获取HDFS路径

   def getPath(path: String): Path = {

     if (path.toLowerCase().startsWith("hdfs://")) {

       new Path(path)

     } else {

       new Path(hdfsRoot + path)

     }

   }

   def main(args: Array[String]) {

     val spark = SparkSession.builder().appName("parquet").master("local[2]").getOrCreate()

     spark.sparkContext.setLogLevel("WARN") // 设置日志级别为WARN

     val fsUri = new URI(hdfsRoot)

     val fs = FileSystem.get(fsUri, new Configuration())

     val path = hdfsRoot + "/YXFK/compute/KH_JLD"

     val has = fs.exists(getPath(path))

     if(has){

       // 读取hdfs文件系统parquet数据

       val dataFrame = spark.read.parquet(path)

       dataFrame.show(10)

       // 筛选，过滤数据

       val result = dataFrame.select("JLDBH", "JLDDZ", "JLDMC", "JLFSDM", "CJSJ")

         .filter("JLDDZ is not null AND JLFSDM = 3")

         .sort("JLDBH")

       result.show(10)

       // 写入部分数据到本地

       result.write.mode(SaveMode.Overwrite).parquet("E:\\result")

     }

     // 读取本地parquet数据

     val localDataFrame = spark.read.parquet("E:\\jld.parquet")

     localDataFrame.show(10)

     // 读取写入数据验证

     val resultSpace = spark.read.parquet("E:\\result")

     resultSpace.show(10)

   }

 }

结果：

分析：Spark读取parquet数据默认为目录，因此可以只指定到你要读取的上级目录即可（本地模式除外），当保存为parquet时，会自动拆分，因此只能指定为上级目录。

Spark操作parquet文件的更多相关文章

python读取hdfs上的parquet文件方式
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊.从hdfs上使用python获取parquet格式数据的方法(当然也 ...
Spark SQL读parquet文件及保存
import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{Row, SparkSession} im ...
大数据：Parquet文件存储格式
一.Parquet的组成 Parquet仅仅是一种存储格式,它是语言.平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎 ...
大数据：Parquet文件存储格式【转】
一.Parquet的组成 Parquet仅仅是一种存储格式,它是语言.平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎 ...
Spark SQL 小文件问题处理
在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼 ...
Spark操作hbase
于Spark它是一个计算框架,于Spark环境,不仅支持单个文件操作,HDFS档,同时也可以使用Spark对Hbase操作. 从企业的数据源HBase取出.这涉及阅读hbase数据,在本文中尽快为了尽 ...
scala读取parquet文件
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQL ...
Spark操作实战
1. local模式 $SPARK_HOME/bin/spark-shell --master local import org.apache.log4j.{Level,Logger} // 导入ja ...
大数据学习day20-----spark03-----RDD编程实战案例（1 计算订单分类成交金额，2 将订单信息关联分类信息，并将这些数据存入Hbase中，3 使用Spark读取日志文件，根据Ip地址，查询地址对应的位置信息
1 RDD编程实战案例一数据样例字段说明: 其中cid中1代表手机,2代表家具,3代表服装 1.1 计算订单分类成交金额需求:在给定的订单数据,根据订单的分类ID进行聚合,然后管理订单分类名称, ...

随机推荐

Work Queues
Round-robin dispatching 默认情况下,RabbitMQ按顺序分发消息给下一个消费者.平均每个消费者会得到相同数量的消息. Message acknowledgment 为了确保消 ...
IntelliJ IDEA 注册码（秘钥）
给大家提供一个IDEA的注册码,最晚到2018年2月到期. 如下,展开复制即可: C0FHYYCJ22-eyJsaWNlbnNlSWQiOiJDMEZIWVlDSjIyIiwibGljZW5zZWVO ...
Tomcat8源码笔记(六)连接器Connector分析
根据 Tomcat8源码笔记(五)组件Container分析前文分析,StandardService的初始化重心由 StandardEngine转移到了Connector的初始化,本篇记录下Conn ...
Tomcat8源码笔记(五)组件Container分析
Tomcat8源码笔记(四)Server和Service初始化介绍过Tomcat中Service的初始化最先初始化就是Container,而Container初始化过程是咋样的? 说到Contai ...
FFmpeg中overlay滤镜用法-水印及画中画
本文为作者原创,转载请注明出处:https://www.cnblogs.com/leisure_chn/p/10434209.html 1. overlay技术简介 overlay技术又称视频叠加技术 ...
基于SpringMVC+Spring+MyBatis实现秒杀系统【客户端交互】
前言该篇主要实现客户端和服务的交互.在第一篇概况里我已经贴出了业务场景的交互图片. 客户端交互主要放在seckill.js里来实现.页面展现基于jsp+jstl来实现. 准备工作 1.配置web.x ...
asp.net-常用服务器控件-20180329
常用服务器控件 1.文本类型控件 Label控件 TextBox控件 2.按钮类型控件 Button控件 ImageButton控件 3.选择类型控件 CheckBox控件 RadioButton控件 ...
[android] smartimageview&常见的开源代码
github上搜索开源框架android-smarty-imageview,下载压缩包,拷贝我们之前写的网络图片查看器布局. 解压下载包里面的数据,找到java源码拷贝到我们的项目里,这时我们可以看到 ...
WPF Modern UI 主题更换原理
WPF Modern UI 主题更换原理一 . 如何更换主题? 二 . 代码分析代码路径 : FirstFloor.ModernUI.App / Content / SettingsAppeara ...
PHP全路径无限分类导航LINK代码实现
<?php /** * @param php全路径无限分类 */ include('db.inc.php'); function getPathCate($cateid){ $sql = &qu ...

Spark操作parquet文件

Spark操作parquet文件的更多相关文章

随机推荐

热门专题