一、pom.xml

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>SparkSQL</groupId>

    <artifactId>com.sparksql.test</artifactId>

    <version>1.0-SNAPSHOT</version>

    <properties>

         <java.version>1.8</java.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>mysql</groupId>

            <artifactId>mysql-connector-java</artifactId>

            <version>5.1.24</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>2.6.0</version>

        </dependency>

        <dependency>

            <groupId>net.sf.json-lib</groupId>

            <artifactId>json-lib</artifactId>

            <version>2.4</version>

            <classifier>jdk15</classifier>

        </dependency>

    </dependencies>

</project>

二、spark代码

2.1 Java方式

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.SQLContext;

import java.util.Properties;

/**

 * Created by Administrator on 2017/11/6.

 */

public class SparkMysql {

    public static org.apache.log4j.Logger logger = org.apache.log4j.Logger.getLogger(SparkMysql.class);

    public static void main(String[] args) {

        JavaSparkContext sparkContext = new JavaSparkContext(new SparkConf().setAppName("SparkMysql").setMaster("local[5]"));

        SQLContext sqlContext = new SQLContext(sparkContext);

        //读取mysql数据

        readMySQL(sqlContext);

        //停止SparkContext

        sparkContext.stop();

    }

        private static void readMySQL(SQLContext sqlContext){

        //jdbc.url=jdbc:mysql://localhost:3306/database

        String url = "jdbc:mysql://localhost:3306/test";

        //查找的表名

        String table = "user_test";

        //增加数据库的用户名(user)密码(password),指定test数据库的驱动(driver)

        Properties connectionProperties = new Properties();

        connectionProperties.put("user","root");

        connectionProperties.put("password","123456");

        connectionProperties.put("driver","com.mysql.jdbc.Driver");

        //SparkJdbc读取Postgresql的products表内容

        System.out.println("读取test数据库中的user_test表内容");

        // 读取表中所有数据

        DataFrame jdbcDF = sqlContext.read().jdbc(url,table,connectionProperties).select("*");

        //显示数据

        jdbcDF.show();

    }

}

2.2 Scala方式

import java.util.Properties

import org.apache.spark.sql.{DataFrame, SparkSession}

object Passanger {

  def main(args: Array[String]): Unit = {

    //创建sparkSession

    val spark: SparkSession = SparkSession.builder().appName("Vehicle").master("local[4]").getOrCreate()

    //创建properties对象 设置连接mysql的信息

    val prop: Properties = new Properties()

    prop.setProperty("user", "root")

    prop.setProperty("password", "123456")

    //读取mysql数据

    val mysqlDF: DataFrame = spark.read.jdbc("jdbc:mysql://127.0.0.1:3306/11", "12", prop)

    mysqlDF.createOrReplaceTempView("passenger")

    vehicleDF.createOrReplaceTempView(("vehicle"))

    spark.stop()

  }

}

三、写入数据到mysql中

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructType;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.List;

import java.util.Properties;

/**

 * Created by Administrator on 2017/11/6.

 */

public class SparkMysql {

    public static org.apache.log4j.Logger logger = org.apache.log4j.Logger.getLogger(SparkMysql.class);

    public static void main(String[] args) {

        JavaSparkContext sparkContext = new JavaSparkContext(new SparkConf().setAppName("SparkMysql").setMaster("local[5]"));

        SQLContext sqlContext = new SQLContext(sparkContext);

        //写入的数据内容

        JavaRDD<String> personData = sparkContext.parallelize(Arrays.asList("1 tom 5","2 jack 6","3 alex 7"));

        //数据库内容

        String url = "jdbc:mysql://localhost:3306/test";

        Properties connectionProperties = new Properties();

        connectionProperties.put("user","root");

        connectionProperties.put("password","123456");

        connectionProperties.put("driver","com.mysql.jdbc.Driver");

        /**

         * 第一步：在RDD的基础上创建类型为Row的RDD

         */

        //将RDD变成以Row为类型的RDD。Row可以简单理解为Table的一行数据

        JavaRDD<Row> personsRDD = personData.map(new Function<String,Row>(){

            public Row call(String line) throws Exception {

                String[] splited = line.split(" ");

                return RowFactory.create(Integer.valueOf(splited[0]),splited[1],Integer.valueOf(splited[2]));

            }

        });

        /**

         * 第二步：动态构造DataFrame的元数据。

         */

        List structFields = new ArrayList();

        structFields.add(DataTypes.createStructField("id",DataTypes.IntegerType,true));

        structFields.add(DataTypes.createStructField("name",DataTypes.StringType,true));

        structFields.add(DataTypes.createStructField("age",DataTypes.IntegerType,true));

        //构建StructType，用于最后DataFrame元数据的描述

        StructType structType = DataTypes.createStructType(structFields);

        /**

         * 第三步：基于已有的元数据以及RDD<Row>来构造DataFrame

         */

        DataFrame personsDF = sqlContext.createDataFrame(personsRDD,structType);

        /**

         * 第四步：将数据写入到person表中

         */

        personsDF.write().mode("append").jdbc(url,"person",connectionProperties);

        //停止SparkContext

        sparkContext.stop();

    }

 }

四、DataFrameLoadTest

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql.{SQLContext, SaveMode}

object DataFrameLoadTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("DataFrameLoadTest").setMaster("local")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    //数据源load sparkSQL默认的文件的格式parquet(列式的文件存储格式)文件

    //sqlContext.read.load("url")

    //可以指定一下文件类型

    //sqlContext.read.format("json").load("url")

    //指定存储格式

    //sqlContext.read.load().write.json()

                            //write.jdbc()

                            //write.parquet()

                            //write.save() 使用默认

                            //write.format("json").save()

    //如果存储目录存在

    /*

    * mode(SaveMode.Append) 追加

    * mode(SaveMode.ErrorIfExists) 报错(默认)

    * mode(SaveMode.Overwrite)重写

    * mode(SaveMode.Ignore)不更新

    * */

    //sqlContext.read.load("url").write.mode(SaveMode.ErrorIfExists).format("json").save()

    //数据源之jdbc     使用mysql

    //postgresql类似于mysql关系型数据库  很多公司用他作为hive的元数据库

    sqlContext.read.format("jdbc").options(

      Map("url"->"jdbc:mysql://hadoop4:3306/sparksqltest","dbtable"->"t_1211","user"->"root","password"->"mysql")

    ).load().show()

    //spark-shell --driver-class-path /usr/local/soft/spark/mysql-connector-java-5.1.44-bin.jar

  }

}

五、读取数据库中的数据写到

import java.util.Properties

import org.apache.spark.sql.{DataFrame, SparkSession}

/**

  * 读取数据库中的数据写到

  * 1.数据库中

  * 2.文本文件中 注意：Text data source supports only a single column

  * 3.json文件中

  * 4.CSV文件中

  * 5.paruet文件中 注：工作中最长用，因为存储列的元数据，可以读取某一列数据

  *

  * Created by lym on 2019/2/11

  */

object JDBCDataSource {

    def main(args: Array[String]): Unit = {

        // 1.创建sparkSession

        val spark: SparkSession = SparkSession.builder().appName(s"${this.getClass.getName}").master("local[*]").getOrCreate()

        // 2.读取数据库中的数据

        val is = Thread.currentThread().getContextClassLoader.getResourceAsStream("config.properties")

        var properties = new Properties()

        properties.load(is)

        val df: DataFrame = spark.read.jdbc("jdbc:mysql://localhost:3307/demo?charactorEncoding=utf-8", "bigdata", properties)

        // 3.将数据输出目标中

        df.createTempView("bigdata")

        val dfRes: DataFrame = spark.sql("select * from bigdata where num > 1000")

        // 3.1将数据写入到数据库中

//        dfRes.write.jdbc("jdbc:mysql://localhost:3307/demo?characterEncoding=utf-8", "bigdata1", properties)

        // 3.2将数据写入到text文件中

//        dfRes.write.text("D:/logs/test/eee")

        // 3.3将数据写入到json文件中

//        dfRes.write.json("D:/logs/test/fff")

        // 3.4将数据写入到CSV文件中

//        dfRes.write.csv("D:/logs/test/ggg")

        // 3.5将数据写入到paruet文件中

        dfRes.write.parquet("D:/logs/test/hhh")

        // 4.展示数据

        dfRes.show()

        // 5.释放资源

        spark.stop()

    }

}

六、通过jdbc方式编程

import java.sql.DriverManager

/**

  * 通过jdbc方式编程

  */

object SparkSQLThriftserverApp {

  def main(args: Array[String]): Unit = {

    Class.forName("org.apache.hive.jdbc.HiveDriver");

    val conn = DriverManager.getConnection("jdbc:hive2://192.168.126.136:10000/lzc","root","");

    val pstmt = conn.prepareStatement("select * from user");

    val rs = pstmt.executeQuery();

    while(rs.next()) {

      println("id:" + rs.getInt("id") + " name:" + rs.getString("name"));

    }

    rs.close();

    pstmt.close();

    conn.close();

  }

}

七、spark：scala读取mysql的4种方法

import java.sql.DriverManager

import org.apache.spark.SparkContext

import org.apache.spark.rdd.JdbcRDD

import org.apache.spark.SparkConf

import org.apache.spark.sql.SQLContext

import java.util.Properties

object SparkOnMysql {

  def main(args: Array[String]) {

    val sparkConf = new SparkConf().setMaster("spark://OPENFIRE-DEV:7080").setAppName("spark sql test");

    val sc = new SparkContext(sparkConf);

    val sqlContext = new SQLContext(sc);

    //1. 不指定查询条件

    //这个方式链接MySql的函数原型是：

    //我们只需要提供Driver的url，需要查询的表名，以及连接表相关属性properties。下面是具体例子：

    val url = "jdbc:mysql://192.168.0.101:3306/sas_vip?user=root&password=123456";

    val prop = new Properties();

    val df = sqlContext.read.jdbc(url, "stock", prop);

    println("第一种方法输出："+df.count());

    println("1.------------->" + df.count());

    println("1.------------->" + df.rdd.partitions.size);

    //2.指定数据库字段的范围

    //这种方式就是通过指定数据库中某个字段的范围，但是遗憾的是，这个字段必须是数字，来看看这个函数的函数原型：

    /* def jdbc(

    url: String,

    table: String,

    columnName: String,

    lowerBound: Long,

    upperBound: Long,

    numPartitions: Int,

    connectionProperties: Properties): DataFrame*/

    //前两个字段的含义和方法一类似。columnName就是需要分区的字段，这个字段在数据库中的类型必须是数字；

    //lowerBound就是分区的下界；upperBound就是分区的上界；numPartitions是分区的个数。同样，我们也来看看如何使用：

    val lowerBound = 1;

    val upperBound = 6;

    val numPartitions = 2;

    val url1 = "jdbc:mysql://192.168.0.101:3306/sas_vip?user=root&password=123456";

    val prop1 = new Properties();

    val df1 = sqlContext.read.jdbc(url1, "stock", "id", lowerBound, upperBound, numPartitions, prop1);

    println("第二种方法输出：" + df1.rdd.partitions.size);

    df1.collect().foreach(println)

     /*这个方法可以将iteblog表的数据分布到RDD的几个分区中，分区的数量由numPartitions参数决定，在理想情况下，每个分区处理相同数量的数据，我们在使用的时候不建议将这个值设置的比较大，因为这可能导致数据库挂掉！但是根据前面介绍，这个函数的缺点就是只能使用整形数据字段作为分区关键字。

这个函数在极端情况下，也就是设置将numPartitions设置为1，其含义和第一种方式一致。*/

    //3.根据任意字段进行分区

    //基于前面两种方法的限制， Spark 还提供了根据任意字段进行分区的方法，函数原型如下：

    /*def jdbc(

    url: String,

    table: String,

    predicates: Array[String],

    connectionProperties: Properties): DataFrame*/

    //这个函数相比第一种方式多了predicates参数，我们可以通过这个参数设置分区的依据，来看看例子：

    //这个函数相比第一种方式多了predicates参数，我们可以通过这个参数设置分区的依据，来看看例子：

    val predicates = Array[String]("id <= 2", "id >= 4 and id <= 5 ")

    val url2 = "jdbc:mysql://192.168.0.101:3306/sas_vip?user=root&password=123456"

    val prop2 = new Properties()

    val df2 = sqlContext.read.jdbc(url, "stock", predicates, prop2)

    println("第三种方法输出："+df2.rdd.partitions.size+","+predicates.length);

    df2.collect().foreach(println)

    //最后rdd的分区数量就等于predicates.length。

    //4.通过load获取

    //Spark还提供通过load的方式来读取数据。

    val url3 = "jdbc:mysql://192.168.0.101:3306/sas_vip?user=root&password=123456"

    val df3 = sqlContext.read.format("jdbc").option("url", url).option("dbtable", "stock").load()

    println("第四种方法输出："+df3.rdd.partitions.size);

    df.collect().foreach(println)

    sc.stop()

  }

}

提交作业：

spark-submit --class com.wonhigh.liuzx.SparkOnMysql --master spark://dev-app-209-211:7080 /usr/local/wonhigh/miu-tag-spark-0.0.1-SNAPSHOT.jar

八、读取csv数据插入到MySQL

将csv的编码格式转为utf-8,否则spark读取中文乱码，转码方法见：https://jingyan.baidu.com/article/fea4511a092e53f7bb912528.html

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.SaveMode

import java.util.Properties

/**

 * 从USER_T.csv读取数据并插入的mysql表中

 */

object MysqlInsertDemo {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("MysqlInsertDemo").master("local").getOrCreate()

    val df = spark.read.option("header", "true").csv("src/main/resources/scala/USER_T.csv")

    df.show()

    val url = "jdbc:mysql://192.168.44.128:3306/hive?useUnicode=true&characterEncoding=utf-8"

    val prop = new Properties()

    prop.put("user", "root")

    prop.put("password", "Root-123456")

    df.write.mode(SaveMode.Append).jdbc(url, "USER_T", prop)

  }

部分博文原文信息

fengzhimohan

spark：scala读取mysql的4种方法

Spark使用Java、Scala 读取mysql、json、csv数据以及写入操作的更多相关文章

读取mysql数据库的数据，转为json格式
# coding=utf-8 ''' Created on 2016-10-26 @author: Jennifer Project:读取mysql数据库的数据,转为json格式 ''' import ...
Java读取CSV数据并写入txt文件
读取CSV数据并写入txt文件 package com.vfsd; import java.io.BufferedWriter; import java.io.File; import java.io ...
java 读取CSV数据并写入txt文本
java 读取CSV数据并写入txt文本 package com.vfsd; import java.io.BufferedWriter; import java.io.File; import ja ...
分享非常有用的Java程序(关键代码)(八)---Java InputStream读取网络响应Response数据的方法!(重要)
原文:分享非常有用的Java程序(关键代码)(八)---Java InputStream读取网络响应Response数据的方法!(重要) Java InputStream读取数据问题 ======== ...
json进阶(一)js读取解析JSON类型数据
js读取解析JSON类型数据一.什么是JSON? JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,采用完全独立于语言的文本格式,是理想的数据交换格式,同 ...
js读取解析JSON类型数据【申明：来源于网络】
js读取解析JSON类型数据[申明:来源于网络] 地址:http://blog.csdn.net/sunhuaqiang1/article/details/47026841
PHP读取mysql中的数据
<!DOCTYPE HTML> <html> <head> <title> PHP动态读取mysql中的数据 </title> <me ...
scala读取解析json文件
import scala.util.parsing.json.JSON._ import scala.io.Source object ScalaJsonParse { def main(args: ...
MySQL JSON 类型数据操作
1.Java 中动态扩展字段,会导致数据库表被锁,在MySQL 5.7.8版本之前,因为MySQL不能直接操作JSON类型数据,可以将一个字段设定成varchar类型,里面存放JSON格式数据,这样在 ...

随机推荐

Java学习日报7.15
package oddor;import java.util.Scanner;public class Oddor{ public static void main(String args[]) { ...
Hadoop之WordCount
求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形 ...
效率工具 | 快速创建虚拟机，Vagrant真香！
Vagrant 是一个基于Ruby的工具,主要用于创建和部署虚拟化开发环境.它以来于Oracle的开源VirtualBox虚拟化系统,通过使用 Chef创建自动化虚拟环境. Vagrant 主要的功能 ...
【Flutter】可滚动组件简介
前言当组件内容超过当前显示视口(ViewPort)时,如果没有特殊处理,Flutter则会提示Overflow错误.为此,Flutter提供了多种可滚动组件(Scrollable Widget)用于 ...
SpringCloud Alibaba Nacos服务注册与配置管理
Nacos SpringCloud Alibaba Nacos是一个狗抑郁构建云原生应用的动态服务发现.配置管理和服务管理平台. Nacos:Dynamic Naming and Configurat ...
CSS 奇思妙想边框动画
今天逛博客网站 -- shoptalkshow,看到这样一个界面,非常有意思: 觉得它的风格很独特,尤其是其中一些边框. 嘿嘿,所以来一篇边框特辑,看看运用 CSS,可以在边框上整些什么花样. bor ...
怎么判断innodb 日志缓冲区该设置为多大呢
怎么判断innodb 日志缓冲区该设置为多大呢
【Oracle】想查询相关的v$视图，但是提示表或视图不存在解决办法
原因是使用的用户没有相关的查询权限导致解决办法: grant select any dictionary to 用户; --这个权限比较大这个权限是最低的要求,但是可以访问到v$相关视图 ...
2021年正确的Android逆向开发学习之路
2021年正确的Android逆向开发学习之路说明文章首发于HURUWO的博客小站,本平台做同步备份发布.如有浏览或访问异常或者相关疑问可前往原博客下评论浏览. 原文链接 2021年正确的Andr ...
开发中经常使用到的Xcode快捷键
工欲善其事必先利其器. 有了这些快捷键加持,你写代码不仅很6而且还很好看. 这些快捷键都是平时使用频率非常高的,今天整理出来分享给大家了. 左缩进:Cmd + [ 右缩进:Cmd + ] 代码格式化/ ...

Spark使用Java、Scala 读取mysql、json、csv数据以及写入操作

Spark使用Java读取mysql数据和保存数据到mysql

一、pom.xml

二、spark代码

2.1 Java方式

2.2 Scala方式

三、写入数据到mysql中

四、DataFrameLoadTest

五、读取数据库中的数据写到

六、通过jdbc方式编程

七、spark：scala读取mysql的4种方法

八、读取csv数据插入到MySQL

部分博文原文信息

Spark使用Java、Scala 读取mysql、json、csv数据以及写入操作的更多相关文章

随机推荐

热门专题