代码示例(默认为parquet数据源类型)



package wujiadong_sparkSQL

import org.apache.spark.sql.SQLContext

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2017/2/3.

  */

object GenericLoadSave {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("GenericLoadSave")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

//load默认是加载parquet格式文件

    val usersDF = sqlContext.read.load("hdfs://master:9000/student/2016113012/spark/users.parquet")

    usersDF.write.save("hdfs://master:9000/student/2016113012/parquet_out1")

  }

}

提交集群运行

hadoop@master:~/wujiadong$ spark-submit --class wujiadong_sparkSQL.GenericLoadSave  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar

运行后查看是否保存成功

hadoop@slave01:~$ hadoop fs -ls /student/2016113012/parquet_out1

17/02/03 12:06:26 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Found 4 items

-rw-r--r--   3 hadoop supergroup          0 2017-02-03 12:05 /student/2016113012/parquet_out1/_SUCCESS

-rw-r--r--   3 hadoop supergroup        476 2017-02-03 12:05 /student/2016113012/parquet_out1/_common_metadata

-rw-r--r--   3 hadoop supergroup        841 2017-02-03 12:05 /student/2016113012/parquet_out1/_metadata

-rw-r--r--   3 hadoop supergroup        864 2017-02-03 12:05 /student/2016113012/parquet_out1/part-r-00000-8025e2a8-ab06-4558-9d76-bb2cad0042cf.gz.parquet

手动指定数据源类型（进行格式转换很方便）

默认情况下不指定数据源类型的话就是parquet类型

代码示例（手动指定数据源类型）

package wujiadong_sparkSQL

import org.apache.spark.sql.SQLContext

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2017/2/3.

  */

object ManuallySpecifyOptions {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("ManuallySpecifyOptions")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

//load读其他格式文件如json时，需要先用format指定格式

    val peopleDF = sqlContext.read.format("json").load("hdfs://master:9000/student/2016113012/people.json")

    peopleDF.select("name").write.format("parquet").save("hdfs://master:9000/sudent/2016113012/people_out1")

  }

}

提交集群运行

hadoop@master:~/wujiadong$ spark-submit --class wujiadong_sparkSQL.ManuallySpecifyOptions  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar

查看是否运行成功

hadoop@master:~/wujiadong$ hadoop fs -ls hdfs://master:9000/sudent/2016113012/people_out1

17/02/03 12:24:27 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Found 4 items

-rw-r--r--   3 hadoop supergroup          0 2017-02-03 12:22 hdfs://master:9000/sudent/2016113012/people_out1/_SUCCESS

-rw-r--r--   3 hadoop supergroup        207 2017-02-03 12:22 hdfs://master:9000/sudent/2016113012/people_out1/_common_metadata

-rw-r--r--   3 hadoop supergroup        327 2017-02-03 12:22 hdfs://master:9000/sudent/2016113012/people_out1/_metadata

-rw-r--r--   3 hadoop supergroup        352 2017-02-03 12:22 hdfs://master:9000/sudent/2016113012/people_out1/part-r-00000-4d1a62a4-f550-4bde-899f-35e9aabfdc0c.gz.parquet

Save Mode

SaveMode.ErrorIfExists (默认)：如果目标位置已经存在数据，那么抛出一个异常

SaveMode.Append：如果目标位置已经存在数据，那么将数据追加进去

SaveMode.Overwrite：如果目标位置已经存在数据，那么就将已经存在的数据删除，用新数据进行覆盖

SaveMode.Ignore：如果目标位置已经存在数据，那么就忽略，不做任何操作

代码示例1

package wujiadong_sparkSQL

import org.apache.spark.sql.{SQLContext, SaveMode}

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2017/2/3.

  */

object SaveModelTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("SaveModelTest")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val peopleDF = sqlContext.read.format("json").load("hdfs://master:9000/student/2016113012/people.json")

    peopleDF.save("hdfs://master:9000/student/2016113012/people.json",SaveMode.ErrorIfExists)

  }

}

因为这种save mode文件已存在就报错

package wujiadong_sparkSQL

import org.apache.spark.sql.{SQLContext, SaveMode}

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2017/2/3.

  */

object SaveModelTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("SaveModelTest")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val peopleDF = sqlContext.read.format("json").load("hdfs://master:9000/student/2016113012/people.json")

    peopleDF.save("hdfs://master:9000/student/2016113012/people.json",SaveMode.Overwrite)

  }

}

这种会直接覆盖

spark SQL学习（load和save操作）的更多相关文章

37、数据源之通用的load和save操作
一.通用的load和save操作 1.概述对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作. load操作主要用于 ...
spark SQL学习（认识spark SQL）
spark SQL初步认识 spark SQL是spark的一个模块,主要用于进行结构化数据的处理.它提供的最核心的编程抽象就是DataFrame. DataFrame:它可以根据很多源进行构建,包括 ...
spark SQL学习（spark连接 mysql）
spark连接mysql(打jar包方式) package wujiadong_sparkSQL import java.util.Properties import org.apache.spark ...
spark SQL学习（数据源之parquet）
Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例 package wujiadong_sparkSQL import org.apache.spark.sql.SQLConte ...
spark SQL学习（案例-统计每日销售）
需求:统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sq ...
spark SQL学习（案例-统计每日uv）
需求:统计每日uv package wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache ...
spark SQL学习（spark连接hive）
spark 读取hive中的数据 scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql. ...
spark SQL学习（数据源之json）
准备工作数据文件students.json {"id":1, "name":"leo", "age":18} {&qu ...
spark SQL学习（综合案例-日志分析）
日志分析 scala> import org.apache.spark.sql.types._ scala> import org.apache.spark.sql.Row scala&g ...

随机推荐

高性能javascript 文件加载阻塞
高性能javascript javascript脚本执行过程中会中断页面加载,直到脚本执行完毕,此操作阻塞了页面加载,造成性能问题. 脚本位置和加载顺序:如果将脚本放在head内,那么再脚本执行完 ...
LightOJ - 1422 （Halloween Costumes）
题目链接:传送门题目大意:要参加聚会,对应聚会要穿对应衣服,衣服可以套着穿,也可以脱下来,但脱下来之后不能再穿,问参加完所有聚会至少需要几件衣服? 题目思路:区间DP 一开始自己没有想出来状态转移方 ...
关于redux应用
redux 有点类似flux.但是我觉得远比flux要复杂.因为他非常的绕.一般搭配使用是redux 和react-redux 使用. 主要的思路就是: 写action:动作类型写reducer:动 ...
在Scrapy中使用IP池或用户代理（python3）
一.创建Scrapy工程 scrapy startproject 工程名二.进入工程目录,根据爬虫模板生成爬虫文件 scrapy genspider -l # 查看可用模板 scrapy gensp ...
Powershell Function Get-TimeZone
代码原文地址: https://gallery.technet.microsoft.com/scriptcenter/Get-TimeZone-PowerShell-4f1a34e6 <# .S ...
luarocks错误 require ‘luasql.mysql' 报module 'luasql.mysql' not found:
错误: require 'luasql.mysql'stdin:1: module 'luasql.mysql' not found: no field package.preload['luasql ...
UIButton+Block
UIButton的一个Category,使用block处理UIControlEvent事件,如常用的TouchUpInside等.代码非原创,也是从网上看到的,用到了实际项目中,目前还没发现什么问题. ...
js身份证号有效性验证
1.简述最近做的系统有用到实名验证的,起初对于用户身份证号只是简单地使用正则表达式进行验证, 很多无效的身份证号就成了漏网之鱼. 导致后台存表里很多无效的身份证号,随便输入用户名和身份证号就可以实名 ...
MongoDB的Python客户端PyMongo（转）
原文:https://serholiu.com/python-mongodb 这几天在学习Python Web开发,于是做准备做一个博客来练练手,当然,只是练手的,博客界有WordPress这样的好玩 ...
Redis配置文件的使用
Redis基本配置常规配置进到配置文件下 vi /etc/redis.conf 写入配置项 port 1111 # 配置端口号 daemonize yes # 是否后台运行 daemonize y ...

spark SQL学习（load和save操作）

load操作：主要用于加载数据，创建出DataFrame

save操作：主要用于将DataFrame中的数据保存到文件中

代码示例(默认为parquet数据源类型)

代码示例（手动指定数据源类型）

Save Mode

spark SQL学习（load和save操作）的更多相关文章

随机推荐

热门专题