Spark SQL读parquet文件及保存
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.hive._
/**
  * Created by soyo on 17-10-12.
  */
case class Persons(name:String,age:Int)
case class Record(key: Int, value: String)
object rdd_to_dataframe_parquet {
  val warehouseLocation = "file:${system:user.dir}/spark-warehouse"
          val spark=SparkSession.builder().config("spark.sql.warehouse.dir",warehouseLocation).enableHiveSupport().getOrCreate()
          import spark.implicits._
  def main(args: Array[String]): Unit = {
        val df =spark.sparkContext.textFile("file:///home/soyo/桌面/spark编程测试数据/people.txt")
           .map(_.split(",")).map(x=>Person(x(),x().trim.toInt)).toDF()
             df.write.parquet("file:///home/soyo/桌面/spark编程测试数据/people.parquet")
     val parquetFile=spark.read.parquet("file:///home/soyo/桌面/spark编程测试数据/people.parquet")
        parquetFile.createOrReplaceTempView("people")
      val result=spark.sql("select * from people")
    result.show()
spark.stop()
补充:需要多数据源整合查询时:
val data=result1.union(result2)
data.createOrReplaceTempView("data") 之后执行后续查询
Spark SQL读parquet文件及保存的更多相关文章
- Spark SQL数据加载和保存实战
		一:前置知识详解: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数 ... 
- spark sql读hbase
		项目背景 spark sql读hbase据说官网如今在写,但还没稳定,所以我基于hbase-rdd这个项目进行了一个封装,当中会区分是否为2进制,假设是就在配置文件里指定为#b,如long#b,还实用 ... 
- spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案
		1.背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式.查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop ... 
- Spark SQL 读到的记录数与 hive 读到的不一致
		问题:我用 sqoop 把 Mysql 中的数据导入到 hive,使用了--delete-target-dir --hive-import --hive-overwrite 等参数,执行了两次. my ... 
- spark sql/hive小文件问题
		针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/conflue ... 
- [Spark SQL_3] Spark SQL 高级操作
		0. 说明 DataSet 介绍 && Spark SQL 访问 JSON 文件 && Spark SQL 访问 Parquet 文件 && Spark ... 
- Spark SQL数据载入和保存实战
		一:前置知识具体解释: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作. Load:能够创建DataFrame. Save:把DataFrame中 ... 
- spark SQL (四)数据源 Data Source----Parquet 文件的读取与加载
		spark SQL Parquet 文件的读取与加载 是由许多其他数据处理系统支持的柱状格式.Spark SQL支持阅读和编写自动保留原始数据模式的Parquet文件.在编写Parquet文件时,出于 ... 
- Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
		Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession ... 
随机推荐
- 我已经迷失在事件环(event-loop)中了【Nodejs篇】
			我第一次看到他事件环(event-loop)的时候,我是一脸懵,这是什么鬼,是什么循环吗,为什么event还要loop,不是都是一次性的吗? 浏览器中和nodejs环境中的事件环是有一些区别的,这里我 ... 
- 2018NOIP普及T4---对称二叉树
			题目 对称二叉树 题目描述 思路 检查是否符合对称条件 条件很简单——结构对称&&点权对称 要做到点权对称其实也就顺便结构对称了 于是条件可以简化为点权对称 可以考虑并行搜索 bo ... 
- 1002 A+B for Polynomials (PAT (Advanced Level) Practice)
			This time, you are supposed to find A+B where A and B are two polynomials. Input Specification: Each ... 
- Linux命令学习(3): zcat 直接查看压缩文件
			版权声明:本文为博主原创文章,未经允许不得转载. zcat 用途:在不解压文件的情况下,直接将文件内容输出到标准输出.(原压缩文件不做任何更改) 格式:zcat [-n] [-V] [FILE] 参数 ... 
- 二、第一个ECharts图表
			<!DOCTYPE html> <head> <meta charset="utf-8"> <title>ECharts</t ... 
- Git——跟踪或取消跟踪文件
			在Git是用过程中,可能遇到以下情况: 1.被跟踪文件里面有不想跟踪的文件. 2.每次用git status查看状态时总是列出未被跟踪的文件. 解决方法: 1.当被跟踪的文件里面有不想跟踪的文件时,使 ... 
- [UOJ48] 核聚变反应强度
			QUQ 思路 求出a1的所有约数,与a1.ai放入同一数组: 求出gcd(a1,ai): 枚举约数,得出ans; 代码实现 #include<cmath> #include<cstd ... 
- internalsviewer
			https://intview2.codeplex.com/ https://internalsviewer.codeplex.com/releases/view/21139 
- ASM instance正常启动,但是用sqlplus 连不上的问题
			首先,这是oracle 11g 11.0.2.3 版本.这是一个神奇的问题. asm instance启动正常,但是用sqlplus 去连接的时候会显示如下: [oracle@racnode1 ~]$ ... 
- mybatis中jdbcType的作用和是否必须
			1. mybatis中 jdbcType 时间类型 当jdbcType = DATE 时, 只传入了 年月日 jdbcType = TIMESTAMP , 年月日+ 时分秒 2. jdbcType ... 
