Spark使用Java、Scala 读取mysql、json、csv数据以及写入操作
Spark使用Java读取mysql数据和保存数据到mysql
一、pom.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>SparkSQL</groupId>
    <artifactId>com.sparksql.test</artifactId>
    <version>1.0-SNAPSHOT</version>
    <properties>
         <java.version>1.8</java.version>
    </properties>
    <dependencies>
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.24</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.6.0</version>
        </dependency>
        <dependency>
            <groupId>net.sf.json-lib</groupId>
            <artifactId>json-lib</artifactId>
            <version>2.4</version>
            <classifier>jdk15</classifier>
        </dependency>
    </dependencies>
</project>
二、spark代码
2.1 Java方式
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;
import java.util.Properties;
/**
 * Created by Administrator on 2017/11/6.
 */
public class SparkMysql {
    public static org.apache.log4j.Logger logger = org.apache.log4j.Logger.getLogger(SparkMysql.class);
    public static void main(String[] args) {
        JavaSparkContext sparkContext = new JavaSparkContext(new SparkConf().setAppName("SparkMysql").setMaster("local[5]"));
        SQLContext sqlContext = new SQLContext(sparkContext);
        //读取mysql数据
        readMySQL(sqlContext);
        //停止SparkContext
        sparkContext.stop();
    }
        private static void readMySQL(SQLContext sqlContext){
        //jdbc.url=jdbc:mysql://localhost:3306/database
        String url = "jdbc:mysql://localhost:3306/test";
        //查找的表名
        String table = "user_test";
        //增加数据库的用户名(user)密码(password),指定test数据库的驱动(driver)
        Properties connectionProperties = new Properties();
        connectionProperties.put("user","root");
        connectionProperties.put("password","123456");
        connectionProperties.put("driver","com.mysql.jdbc.Driver");
        //SparkJdbc读取Postgresql的products表内容
        System.out.println("读取test数据库中的user_test表内容");
        // 读取表中所有数据
        DataFrame jdbcDF = sqlContext.read().jdbc(url,table,connectionProperties).select("*");
        //显示数据
        jdbcDF.show();
    }
}
2.2 Scala方式
import java.util.Properties
import org.apache.spark.sql.{DataFrame, SparkSession}
object Passanger {
  def main(args: Array[String]): Unit = {
    //创建sparkSession
    val spark: SparkSession = SparkSession.builder().appName("Vehicle").master("local[4]").getOrCreate()
    //创建properties对象 设置连接mysql的信息
    val prop: Properties = new Properties()
    prop.setProperty("user", "root")
    prop.setProperty("password", "123456")
    //读取mysql数据
    val mysqlDF: DataFrame = spark.read.jdbc("jdbc:mysql://127.0.0.1:3306/11", "12", prop)
    mysqlDF.createOrReplaceTempView("passenger")
    vehicleDF.createOrReplaceTempView(("vehicle"))
    spark.stop()
  }
}
三、写入数据到mysql中
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructType;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Properties;
/**
 * Created by Administrator on 2017/11/6.
 */
public class SparkMysql {
    public static org.apache.log4j.Logger logger = org.apache.log4j.Logger.getLogger(SparkMysql.class);
    public static void main(String[] args) {
        JavaSparkContext sparkContext = new JavaSparkContext(new SparkConf().setAppName("SparkMysql").setMaster("local[5]"));
        SQLContext sqlContext = new SQLContext(sparkContext);
        //写入的数据内容
        JavaRDD<String> personData = sparkContext.parallelize(Arrays.asList("1 tom 5","2 jack 6","3 alex 7"));
        //数据库内容
        String url = "jdbc:mysql://localhost:3306/test";
        Properties connectionProperties = new Properties();
        connectionProperties.put("user","root");
        connectionProperties.put("password","123456");
        connectionProperties.put("driver","com.mysql.jdbc.Driver");
        /**
         * 第一步:在RDD的基础上创建类型为Row的RDD
         */
        //将RDD变成以Row为类型的RDD。Row可以简单理解为Table的一行数据
        JavaRDD<Row> personsRDD = personData.map(new Function<String,Row>(){
            public Row call(String line) throws Exception {
                String[] splited = line.split(" ");
                return RowFactory.create(Integer.valueOf(splited[0]),splited[1],Integer.valueOf(splited[2]));
            }
        });
        /**
         * 第二步:动态构造DataFrame的元数据。
         */
        List structFields = new ArrayList();
        structFields.add(DataTypes.createStructField("id",DataTypes.IntegerType,true));
        structFields.add(DataTypes.createStructField("name",DataTypes.StringType,true));
        structFields.add(DataTypes.createStructField("age",DataTypes.IntegerType,true));
        //构建StructType,用于最后DataFrame元数据的描述
        StructType structType = DataTypes.createStructType(structFields);
        /**
         * 第三步:基于已有的元数据以及RDD<Row>来构造DataFrame
         */
        DataFrame personsDF = sqlContext.createDataFrame(personsRDD,structType);
        /**
         * 第四步:将数据写入到person表中
         */
        personsDF.write().mode("append").jdbc(url,"person",connectionProperties);
        //停止SparkContext
        sparkContext.stop();
    }
 }
四、DataFrameLoadTest
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{SQLContext, SaveMode}
object DataFrameLoadTest {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("DataFrameLoadTest").setMaster("local")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    //数据源load sparkSQL默认的文件的格式parquet(列式的文件存储格式)文件
    //sqlContext.read.load("url")
    //可以指定一下文件类型
    //sqlContext.read.format("json").load("url")
    //指定存储格式
    //sqlContext.read.load().write.json()
                            //write.jdbc()
                            //write.parquet()
                            //write.save() 使用默认
                            //write.format("json").save()
    //如果存储目录存在
    /*
    * mode(SaveMode.Append) 追加
    * mode(SaveMode.ErrorIfExists) 报错(默认)
    * mode(SaveMode.Overwrite)重写
    * mode(SaveMode.Ignore)不更新
    * */
    //sqlContext.read.load("url").write.mode(SaveMode.ErrorIfExists).format("json").save()
    //数据源之jdbc     使用mysql
    //postgresql类似于mysql关系型数据库  很多公司用他作为hive的元数据库
    sqlContext.read.format("jdbc").options(
      Map("url"->"jdbc:mysql://hadoop4:3306/sparksqltest","dbtable"->"t_1211","user"->"root","password"->"mysql")
    ).load().show()
    //spark-shell --driver-class-path /usr/local/soft/spark/mysql-connector-java-5.1.44-bin.jar
  }
}
五、读取数据库中的数据写到
import java.util.Properties
import org.apache.spark.sql.{DataFrame, SparkSession}
/**
  * 读取数据库中的数据写到
  * 1.数据库中
  * 2.文本文件中 注意:Text data source supports only a single column
  * 3.json文件中
  * 4.CSV文件中
  * 5.paruet文件中 注:工作中最长用,因为存储列的元数据,可以读取某一列数据
  *
  * Created by lym on 2019/2/11
  */
object JDBCDataSource {
    def main(args: Array[String]): Unit = {
        // 1.创建sparkSession
        val spark: SparkSession = SparkSession.builder().appName(s"${this.getClass.getName}").master("local[*]").getOrCreate()
        // 2.读取数据库中的数据
        val is = Thread.currentThread().getContextClassLoader.getResourceAsStream("config.properties")
        var properties = new Properties()
        properties.load(is)
        val df: DataFrame = spark.read.jdbc("jdbc:mysql://localhost:3307/demo?charactorEncoding=utf-8", "bigdata", properties)
        // 3.将数据输出目标中
        df.createTempView("bigdata")
        val dfRes: DataFrame = spark.sql("select * from bigdata where num > 1000")
        // 3.1将数据写入到数据库中
//        dfRes.write.jdbc("jdbc:mysql://localhost:3307/demo?characterEncoding=utf-8", "bigdata1", properties)
        // 3.2将数据写入到text文件中
//        dfRes.write.text("D:/logs/test/eee")
        // 3.3将数据写入到json文件中
//        dfRes.write.json("D:/logs/test/fff")
        // 3.4将数据写入到CSV文件中
//        dfRes.write.csv("D:/logs/test/ggg")
        // 3.5将数据写入到paruet文件中
        dfRes.write.parquet("D:/logs/test/hhh")
        // 4.展示数据
        dfRes.show()
        // 5.释放资源
        spark.stop()
    }
}
六、通过jdbc方式编程
import java.sql.DriverManager
/**
  * 通过jdbc方式编程
  */
object SparkSQLThriftserverApp {
  def main(args: Array[String]): Unit = {
    Class.forName("org.apache.hive.jdbc.HiveDriver");
    val conn = DriverManager.getConnection("jdbc:hive2://192.168.126.136:10000/lzc","root","");
    val pstmt = conn.prepareStatement("select * from user");
    val rs = pstmt.executeQuery();
    while(rs.next()) {
      println("id:" + rs.getInt("id") + " name:" + rs.getString("name"));
    }
    rs.close();
    pstmt.close();
    conn.close();
  }
}
七、spark:scala读取mysql的4种方法
import java.sql.DriverManager
import org.apache.spark.SparkContext
import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.SparkConf
import org.apache.spark.sql.SQLContext
import java.util.Properties
object SparkOnMysql {
  def main(args: Array[String]) {
    val sparkConf = new SparkConf().setMaster("spark://OPENFIRE-DEV:7080").setAppName("spark sql test");
    val sc = new SparkContext(sparkConf);
    val sqlContext = new SQLContext(sc);
    //1. 不指定查询条件
    //这个方式链接MySql的函数原型是:
    //我们只需要提供Driver的url,需要查询的表名,以及连接表相关属性properties。下面是具体例子:
    val url = "jdbc:mysql://192.168.0.101:3306/sas_vip?user=root&password=123456";
    val prop = new Properties();
    val df = sqlContext.read.jdbc(url, "stock", prop);
    println("第一种方法输出:"+df.count());
    println("1.------------->" + df.count());
    println("1.------------->" + df.rdd.partitions.size);
    //2.指定数据库字段的范围
    //这种方式就是通过指定数据库中某个字段的范围,但是遗憾的是,这个字段必须是数字,来看看这个函数的函数原型:
    /* def jdbc(
    url: String,
    table: String,
    columnName: String,
    lowerBound: Long,
    upperBound: Long,
    numPartitions: Int,
    connectionProperties: Properties): DataFrame*/
    //前两个字段的含义和方法一类似。columnName就是需要分区的字段,这个字段在数据库中的类型必须是数字;
    //lowerBound就是分区的下界;upperBound就是分区的上界;numPartitions是分区的个数。同样,我们也来看看如何使用:
    val lowerBound = 1;
    val upperBound = 6;
    val numPartitions = 2;
    val url1 = "jdbc:mysql://192.168.0.101:3306/sas_vip?user=root&password=123456";
    val prop1 = new Properties();
    val df1 = sqlContext.read.jdbc(url1, "stock", "id", lowerBound, upperBound, numPartitions, prop1);
    println("第二种方法输出:" + df1.rdd.partitions.size);
    df1.collect().foreach(println)
     /*这个方法可以将iteblog表的数据分布到RDD的几个分区中,分区的数量由numPartitions参数决定,在理想情况下,每个分区处理相同数量的数据,我们在使用的时候不建议将这个值设置的比较大,因为这可能导致数据库挂掉!但是根据前面介绍,这个函数的缺点就是只能使用整形数据字段作为分区关键字。
这个函数在极端情况下,也就是设置将numPartitions设置为1,其含义和第一种方式一致。*/
    //3.根据任意字段进行分区
    //基于前面两种方法的限制, Spark 还提供了根据任意字段进行分区的方法,函数原型如下:
    /*def jdbc(
    url: String,
    table: String,
    predicates: Array[String],
    connectionProperties: Properties): DataFrame*/
    //这个函数相比第一种方式多了predicates参数,我们可以通过这个参数设置分区的依据,来看看例子:
    //这个函数相比第一种方式多了predicates参数,我们可以通过这个参数设置分区的依据,来看看例子:
    val predicates = Array[String]("id <= 2", "id >= 4 and id <= 5 ")
    val url2 = "jdbc:mysql://192.168.0.101:3306/sas_vip?user=root&password=123456"
    val prop2 = new Properties()
    val df2 = sqlContext.read.jdbc(url, "stock", predicates, prop2)
    println("第三种方法输出:"+df2.rdd.partitions.size+","+predicates.length);
    df2.collect().foreach(println)
    //最后rdd的分区数量就等于predicates.length。
    //4.通过load获取
    //Spark还提供通过load的方式来读取数据。
    val url3 = "jdbc:mysql://192.168.0.101:3306/sas_vip?user=root&password=123456"
    val df3 = sqlContext.read.format("jdbc").option("url", url).option("dbtable", "stock").load()
    println("第四种方法输出:"+df3.rdd.partitions.size);
    df.collect().foreach(println)
    sc.stop()
  }
}
提交作业:
spark-submit --class com.wonhigh.liuzx.SparkOnMysql --master spark://dev-app-209-211:7080 /usr/local/wonhigh/miu-tag-spark-0.0.1-SNAPSHOT.jar
八、读取csv数据插入到MySQL
将csv的编码格式转为utf-8,否则spark读取中文乱码,转码方法见:https://jingyan.baidu.com/article/fea4511a092e53f7bb912528.html
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.SaveMode
import java.util.Properties
/**
 * 从USER_T.csv读取数据并插入的mysql表中
 */
object MysqlInsertDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("MysqlInsertDemo").master("local").getOrCreate()
    val df = spark.read.option("header", "true").csv("src/main/resources/scala/USER_T.csv")
    df.show()
    val url = "jdbc:mysql://192.168.44.128:3306/hive?useUnicode=true&characterEncoding=utf-8"
    val prop = new Properties()
    prop.put("user", "root")
    prop.put("password", "Root-123456")
    df.write.mode(SaveMode.Append).jdbc(url, "USER_T", prop)
  }
部分博文原文信息
Spark使用Java、Scala 读取mysql、json、csv数据以及写入操作的更多相关文章
- 读取mysql数据库的数据,转为json格式
		# coding=utf-8 ''' Created on 2016-10-26 @author: Jennifer Project:读取mysql数据库的数据,转为json格式 ''' import ... 
- Java读取CSV数据并写入txt文件
		读取CSV数据并写入txt文件 package com.vfsd; import java.io.BufferedWriter; import java.io.File; import java.io ... 
- java 读取CSV数据并写入txt文本
		java 读取CSV数据并写入txt文本 package com.vfsd; import java.io.BufferedWriter; import java.io.File; import ja ... 
- 分享非常有用的Java程序(关键代码)(八)---Java InputStream读取网络响应Response数据的方法!(重要)
		原文:分享非常有用的Java程序(关键代码)(八)---Java InputStream读取网络响应Response数据的方法!(重要) Java InputStream读取数据问题 ======== ... 
- json进阶(一)js读取解析JSON类型数据
		js读取解析JSON类型数据 一.什么是JSON? JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,采用完全独立于语言的文本格式,是理想的数据交换格式,同 ... 
- js读取解析JSON类型数据【申明:来源于网络】
		js读取解析JSON类型数据[申明:来源于网络] 地址:http://blog.csdn.net/sunhuaqiang1/article/details/47026841 
- PHP读取mysql中的数据
		<!DOCTYPE HTML> <html> <head> <title> PHP动态读取mysql中的数据 </title> <me ... 
- scala读取解析json文件
		import scala.util.parsing.json.JSON._ import scala.io.Source object ScalaJsonParse { def main(args: ... 
- MySQL JSON 类型数据操作
		1.Java 中动态扩展字段,会导致数据库表被锁,在MySQL 5.7.8版本之前,因为MySQL不能直接操作JSON类型数据,可以将一个字段设定成varchar类型,里面存放JSON格式数据,这样在 ... 
随机推荐
- Daphile 安装手册 -- 官方文档译文 [原创]
			Daphile 安装手册(Daphile Installation) 英文原文:https://www.daphile.com/download/DaphileInstallation.pdf 采集日 ... 
- Java8的Optional:如何干掉空指针?
			目录 Optional概述 Optional简单案例 Optional的主要方法 参考阅读 Optional概述 Optional 是个容器:它可以保存类型T的value,或者仅仅保存null.Opt ... 
- 第十二章节 BJROBOT 摄像头寻线 【ROS全开源阿克曼转向智能网联无人驾驶车】
			关于摄像头:普通摄像头, USB 免驱摄像头都可以使用. 1.如下图所示,用红色胶布在地板上贴一条线,小车摆放在线的一头处,让线在小车的中间位置,摄像头角度往下调整倾斜一点,好让摄像头识别到红线.注意 ... 
- 一文彻底吃透MyBatis源码!!
			写在前面 随着互联网的发展,越来越多的公司摒弃了Hibernate,而选择拥抱了MyBatis.而且,很多大厂在面试的时候喜欢问MyBatis底层的原理和源码实现.总之,MyBatis几乎成为了Jav ... 
- 图解HTTP权威指南(四)| 代理
			作者简介 李先生(Lemon),高级运维工程师(自称),SRE专家(目标),梦想在35岁买一辆保时捷.喜欢钻研底层技术,认为底层基础才是王道.一切新技术都离不开操作系统(CPU.内存.磁盘).网络等. ... 
- java13编程基础之数组深入
			大纲一维数组概述数组是相同类型数据的有序集合.数组描述的是相同类型的若干个数据,按照一定的先后次序排列组合而成.其中,每一个数据称作一个元素,每个元素可以通过一个索引(下标)来访问它们. 这些按序排列 ... 
- linux操作系统可以ping通ssh连接长时间无响应
			一.问题描述 某集群数据节点服务器频繁无法连接,服务器间出现可ping通但ssh无法连接的情况,使用带外地址登录后远程控制也无法显示正常界面,重启后会短暂恢复. 二.排查问题 重启服务器后检查服务器S ... 
- 风炫安全WEB安全学习第三十八节课 越权漏洞演示与讲解
			风炫安全WEB安全学习第三十八节课 越权漏洞演示与讲解 越权漏洞 0x01 漏洞介绍 越权漏洞的危害与影响主要是与对应业务的重要性相关,比如说某一页面服务器端响应(不局限于页面返回的信息,有时信息在响 ... 
- 使用 Admission Webhook 机制实现多集群资源配额控制
			1 要解决的问题 集群分配给多个用户使用时,需要使用配额以限制用户的资源使用,包括 CPU 核数.内存大小.GPU 卡数等,以防止资源被某些用户耗尽,造成不公平的资源分配. 大多数情况下,集群原生的 ... 
- 【Java】集合框架(List Set Map)
			文章目录 集合框架 List(列表) ArrayList 案例 Set HashSet 案例 iterator(迭代器) Map HashMap 案例 集合总结 参考资料 重新搞一波 复习巩固 简单记 ... 
