37、数据源之通用的load和save操作

一、通用的load和save操作

1、概述

对于Spark SQL的DataFrame来说，无论是从什么数据源创建出来的DataFrame，都有一些共同的load和save操作。

load操作主要用于加载数据，创建出DataFrame；save操作，主要用于将DataFrame中的数据保存到文件中。

Java版本

DataFrame df = sqlContext.read().load("users.parquet");

df.select("name", "favorite_color").write().save("namesAndFavColors.parquet");

Scala版本

val df = sqlContext.read.load("users.parquet")

df.select("name", "favorite_color").write.save("namesAndFavColors.parquet")

2、java实现

package cn.spark.study.sql;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.SQLContext;

/**

 * 通用的load和save操作

 * @author Administrator

 *

 */

public class GenericLoadSave {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName("GenericLoadSave");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        DataFrame usersDF = sqlContext.read().load(

                "hdfs://spark1:9000/users.parquet");

        usersDF.select("name", "favorite_color").write()

                .save("hdfs://spark1:9000/namesAndFavColors.parquet");

    }

}

3、scala实现

package cn.spark.study.sql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.DataFrame

/**

 * @author Administrator

 */

object GenericLoadSave {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

        .setAppName("GenericLoadSave")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val usersDF = sqlContext.read.load("hdfs://spark1:9000/users.parquet")

    usersDF.write.save("hdfs://spark1:9000/namesAndFavColors_scala")

  }

}

二、手动指定数据源类型

1、java实现

package cn.spark.study.sql;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.SQLContext;

/**

 * 手动指定数据源类型

 * @author Administrator

 *

 */

public class ManuallySpecifyOptions {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName("ManuallySpecifyOptions");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        DataFrame peopleDF = sqlContext.read().format("json")

                .load("hdfs://spark1:9000/people.json");

        peopleDF.select("name").write().format("parquet")

                .save("hdfs://spark1:9000/peopleName_java");

    }

}

2、scala实现

package cn.spark.study.sql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

/**

 * @author Administrator

 */

object ManuallySpecifyOptions {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

        .setAppName("ManuallySpecifyOptions")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val peopleDF = sqlContext.read.format("json").load("hdfs://spark1:9000/people.json")

    peopleDF.select("name").write.format("parquet").save("hdfs://spark1:9000/peopleName_scala")

  }

}

三、Save Mode

1、概述

Spark SQL对于save操作，提供了不同的save mode。主要用来处理，当目标位置，已经有数据时，应该如何处理。而且save操作并不会执行锁操作，并且不是原子的，

因此是有一定风险出现脏数据的。

save mode	意义
SaveMode.ErrorIfExists (默认)	如果目标位置已经存在数据，那么抛出一个异常
SaveMode.Append	如果目标位置已经存在数据，那么将数据追加进去
SaveMode.Overwrite	如果目标位置已经存在数据，那么就将已经存在的数据删除，用新数据进行覆盖
SaveMode.Ignore	如果目标位置已经存在数据，那么就忽略，不做任何操作。

2、java实现

package cn.spark.study.sql;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.sql.SaveMode;

/**

 * SaveModel示例

 * @author Administrator

 *

 */

public class SaveModeTest {

    @SuppressWarnings("deprecation")

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName("SaveModeTest");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        DataFrame peopleDF = sqlContext.read().format("json")

                .load("hdfs://spark1:9000/people.json");

        peopleDF.save("hdfs://spark1:9000/people_savemode_test", "json", SaveMode.Append);

    }

}

37、数据源之通用的load和save操作的更多相关文章

spark SQL学习（load和save操作）
load操作:主要用于加载数据,创建出DataFrame save操作:主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型) package wujiadong ...
load、save方法、spark sql的几种数据源
load.save方法的用法 DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.pa ...
SparkSQL读写外部数据源-基本操作load和save
数据源-基本操作load和save object BasicTest { def main(args: Array[String]): Unit = { val spark = SparkSessio ...
spring spring data jpa save操作事务
整合spring spring data jpa的时候,在save方法上加了@Transactional注解.此时调用springdatajpa save方法并不会真的把数据提交给数据库,而是缓存起来 ...
Qt Load and Save Image Dialog 加载图片对话框
在Qt中,我们想要通过对话框来打开某一个图片,可以通过使用QFileDialog来快速实现,参见以下代码: QString fileName = QFileDialog::getOpenFileNam ...
Yii 2 load() 和 save()
我这里用的数据库是mongo 数据库为栗子: public function load($data, $formName = null) { $scope = $formName === null ...
netcore XmlDocument 使用Load和Save方法
string path ="C://xxx/file" XmlDocument xmlDoc = new XmlDocument(); #if NET462 xmlDoc.Load ...
Qt Load and Save PCL/PLY 加载和保存点云
Qt可以跟VTK和PCL等其他库联合使用,十分强大,下面的代码展示了如何使用Qt联合PCL库来加载和保存PCL/PLY格式的点云: 通过按钮加载点云: void QMainWindow::on_pb_ ...
解决tomcat运行报错java.lang.UnsatisfiedLinkError: apache-tomcat-7.0.37\bin\tcnative-1.dll:Can load AMD 64
http://www.apache.org/dist/tomcat/tomcat-connectors/native/ 到该地址下下载一个tomcat-native-1.2.2-win32-bin压缩 ...

随机推荐

min-25筛学习笔记
Min_25筛简介 $\text{min_25}$筛是一种处理一类积性函数前缀和的算法. 其中这类函数$f(x)$要满足\(\sum_{i=1}^{n}[i\in prime]\cdot f( ...
db跟随集群自启动
AME=ora.newora920.db TYPE=ora.database.type ACL=owner:oracle:rwx,pgrp:oinstall:r--,other::r--,group: ...
你有自信写while(true)吗？
每次写while(true)的时候会不会心虚? 特别逻辑稍微复杂一点
VS 引用dll版本冲突问题
1.删除项目中的对应引用: 2.如果是有用到NetGet引用的删除项目中的packages里面的对应包文件: 3.如果是在NetGet中引用的注释项目中packages.config对应的插件名: 4 ...
git add提交时关于 LF will be replaced by CRLF in 问题出现的原因以及解决方式
最近在新创建的github项目中add新框架代码时,出现了LF will be replaced by CRLF in的问题,以下为问题截图查阅资料才知道,LF和FRLF是两种不同的换行格式,这个警 ...
String字符串创建方法
String字符串的创建方法我们总结为3+1,3是一共有3种构造方法,1是有一种特殊的创建方法. 首先来看3种构造方法: 1.new String() 无参构造用该方法创建的字符串是一个空字符串, ...
z7z8记录
http://www.ypppt.com/ ppt模板地址
trie树（前缀树）详解——PHP代码实现
trie树常用于搜索提示.如当输入一个网址,可以自动搜索出可能的选择.当没有完全匹配的搜索结果,可以返回前缀最相似的可能. 一.Tire树的基本性质根节点不包含字符,除根节点外每一个节点都只包含一个 ...
二叉排序树详解——PHP代码实现
二叉排序树(Binary Sort Tree),又称二叉查找树(Binary Search Tree),亦称二叉搜索树. 一.定义二叉排序树或者是一棵空树,或者是具有下列性质的二叉树: 若左子树不空 ...
一个时间O(n)的洗牌算法
//一种O(n)的洗牌算法 vector<int> randNUms(vector<int> &nums, int m) { int len = nums.size() ...

37、数据源之通用的load和save操作

37、数据源之通用的load和save操作的更多相关文章

随机推荐

热门专题