Spark之使用SparkSql操作mysql和DataFrame的Scala实现

通过读取文件转换成DataFrame数据写入到mysql中

package com.zy.sparksql

import java.util.Properties

import org.apache.spark.SparkContext

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, Row, SparkSession}

import org.apache.spark.sql.types.{IntegerType, StringType, StructType}

/**

  * 通过读取文件转换成DataFrame数据写入到mysql中

  */

object SparkSqlToMysql {

  def main(args: Array[String]): Unit = {

    //创建sparkSession

    val sparkSession: SparkSession = SparkSession.builder().appName("SparkSqlToMysql").master("local").getOrCreate()

    //读取数据

    val sc: SparkContext = sparkSession.sparkContext

    val fileRDD: RDD[String] = sc.textFile("D:\\person.txt")

    //切分

    val lineRDD: RDD[Array[String]] = fileRDD.map(_.split(","))

    //关联  通过StructType指定schema将rdd转换成DataFrame

    val rowRDD: RDD[Row] = lineRDD.map(x => Row(x(0).toInt, x(1), x(2).toInt))

    val schema = (new StructType).add("id", IntegerType, true).add("name", StringType, true).add("age", IntegerType, true)

    //根据rdd和schema创建DataFrame

    val personDF: DataFrame = sparkSession.createDataFrame(rowRDD, schema)

    //将df注册成表

    personDF.createOrReplaceTempView("person")

    //操作表

    val resultDF: DataFrame = sparkSession.sql("select * from person order by age desc")

    //将数据存到mysql中

    //创建properties对象 设置连接mysql的信息

    val prop: Properties = new Properties()

    prop.setProperty("user", "root")

    prop.setProperty("password", "root")

    /** mode方法可以指定数据插入模式

      * overwrite:覆盖，覆盖表中已经存在的数据，如果表不存在它会事先帮你创建

      * append:追加，向表中追加数据，如果表不存在它会事先帮你创建

      * ignore:忽略，表示如果表事先存在，就不进行任何操作

      * error :如果表存在就报错，它是默认选项

      */

    resultDF.write.mode("error").jdbc("jdbc:mysql://192.168.44.31:3306/spark", "person", prop)

    sparkSession.stop()

  }

}

从mysql中读取数据到DataFrame中

package com.zy.sparksql

import java.util.Properties

import org.apache.spark.sql.{DataFrame, SparkSession}

/**

  * 从mysql中读取数据到DataFrame中

  */

object DataFromMysql {

  def main(args: Array[String]): Unit = {

    //创建sparkSession

    val sparkSession: SparkSession = SparkSession.builder().appName("DataFromMysql").master("local").getOrCreate()

    //创建properties对象 设置连接mysql的信息

    val prop: Properties = new Properties()

    prop.setProperty("user", "root")

    prop.setProperty("password", "root")

    //读取mysql数据

    val mysqlDF: DataFrame = sparkSession.read.jdbc("jdbc:mysql://192.168.44.31:3306/spark", "person", prop)

    mysqlDF.show()

    sparkSession.stop()

  }

}

Spark之使用SparkSql操作mysql和DataFrame的Scala实现的更多相关文章

【Spark篇】---SparkSQL初始和创建DataFrame的几种方式
一.前述 1.SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制. SparkSQL支持查询原 ...
Spark之使用SparkSql操作Hive的Scala程序实现
依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2 ...
Spark记录-SparkSQL远程操作MySQL和ORACLE
1.项目引入mysql和oracle驱动 2.将mysql和oracle驱动上传到hdfs 3.远程调试源代码如下: import org.apache.spark.sql.SQLContext im ...
在spark中操作mysql数据 ---- spark学习之七
使用spark的 DataFrame 来操作mysql数据. DataFrame是比RDD更高一个级别的抽象,可以应用SQL语句进行操作,详细参考: https://spark.apache.org/ ...
Spark操作MySQL，Hive并写入MySQL数据库
最近一个项目,需要操作近70亿数据进行统计分析.如果存入MySQL,很难读取如此大的数据,即使使用搜索引擎,也是非常慢.经过调研决定借助我们公司大数据平台结合Spark技术完成这么大数据量的统计分析. ...
[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子：
[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子: mydf001=sqlContext.read.format("jdbc").o ...
sparksql连接mysql
1.方法1:分别将两张表中的数据加载为DataFrame /* * 方法1:分别将两张表中的数据加载为DataFrame * */ /* Map<String,String> option ...
JAVA SparkSQL初始和创建DataFrame的几种方式
建议参考SparkSQL官方文档:http://spark.apache.org/docs/latest/sql-programming-guide.html 一.前述 1.SparkSQ ...
sparksql 操作hive
写在前面:hive的版本是1.2.1spark的版本是1.6.x http://spark.apache.org/docs/1.6.1/sql-programming-guide.html#hive- ...

随机推荐

安装 Ruby, Rails 运行环境
步骤1 - 安装 RVM RVM 是干什么的这里就不解释了,后面你将会慢慢搞明白. $ gpg --keyserver hkp://keys.gnupg.net --recv-keys 409B6B1 ...
搭建一个免费的，无限流量的Blog----github Pages和Jekyll入门(转)
转自:http://www.ruanyifeng.com/blog/2012/08/blogging_with_jekyll.html 喜欢写Blog的人,会经历三个阶段. 第一阶段,刚接触Blog, ...
outlook2013插件 VSTO开发与部署
一.背景最近因为项目需要对outlook开发一个插件,功能是将outlook的邮件作导出功能,需要使用VSTO开发一个插件将邮件进行导出的操作.于是,开始学习VSTO outlook的开发了,折腾了 ...
new与malloc的区别，以及内存分配浅析
从函数声明上可以看出.malloc 和 new 至少有两个不同: new 返回指定类型的指针,并且可以自动计算所需要大小.比如: 1 2 3 int *p; p = new int; //返回类型 ...
骰子点数概率__dp
骰子点数概率时间限制:1 秒内存限制:32 兆题目描述: 把n个骰子扔在地上,所有骰子朝上一面的点数之和为S.输入n,打印出S的所有可能的值出现的概率. 输入: 输入包括一个整数N(1<= ...
JAVASE02-Unit012： Unit07： XML语法、 XML解析
Unit07: XML语法 . XML解析 emplist.xml <?xml version="1.0" encoding="UTF-8"?> & ...
(转)SQL server 2005查询数据库表的数量和表的数据量
本文转载自:http://hi.baidu.com/ajyajyajy/item/4e2a7f4dc83393d2c1a592c1 use DBNAMEgoselect * from sysobjec ...
python 变量不断相加 or 相减的简便写法 a +=1
相加: 相减:
appium+python自动化29-toast
注意 toast要appium1.6.3以上版本才支持,appium1.4的版本就别浪费时间了 Supported Platforms 1.查看appium v1.7版本官方文档 Supported ...
CentOS 7 安装Nginx 并配置自动启动
1.官网下载安装包 http://nginx.org/en/download.html,选择适合Linux的版本,这里选择最新的版本,下载到本地后上传到服务器或者centos下直接wget命令下载. ...

Spark之 使用SparkSql操作mysql和DataFrame的Scala实现

通过读取文件转换成DataFrame数据写入到mysql中

从mysql中读取数据到DataFrame中

Spark之 使用SparkSql操作mysql和DataFrame的Scala实现的更多相关文章

随机推荐

热门专题

Spark之使用SparkSql操作mysql和DataFrame的Scala实现

Spark之使用SparkSql操作mysql和DataFrame的Scala实现的更多相关文章