spark连接mysql(打jar包方式)

package wujiadong_sparkSQL

import java.util.Properties

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext} /**
* Created by Administrator on 2017/2/14.
*/
object JdbcOperation {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("JdbcOperation")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val properties = new Properties()
properties.put("user","feigu")
properties.put("password","feigu")
val url = "jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull"
val stud_scoreDF = sqlContext.read.jdbc(url,"stud_score",properties)
stud_scoreDF.show() } }

提交集群

hadoop@master:~/wujiadong$ spark-submit --driver-class-path /home/hadoop/bigdata/hive/lib/mysql-connector-java-5.1.10-2.jar  --class wujiadong_sparkSQL.JdbcOperation  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar
或者
hadoop@master:~/wujiadong$ spark-submit --jars /home/hadoop/bigdata/hive/lib/mysql-connector-java-5.1.10-2.jar --class wujiadong_sparkSQL.JdbcOperation --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar

运行结果

hadoop@master:~/wujiadong$ spark-submit --driver-class-path /home/hadoop/bigdata/hive/lib/mysql-connector-java-5.1.10-2.jar  --class wujiadong_sparkSQL.JdbcOperation  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar
17/02/15 13:21:06 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/02/15 13:21:09 INFO Slf4jLogger: Slf4jLogger started
17/02/15 13:21:09 INFO Remoting: Starting remoting
17/02/15 13:21:09 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@192.168.1.131:40654]
17/02/15 13:21:13 WARN MetricsSystem: Using default name DAGScheduler for source because spark.app.id is not set.
+----------+--------+--------+--------+---------+---------+
| stud_code|sub_code|sub_name|sub_tech|sub_score|stat_date|
+----------+--------+--------+--------+---------+---------+
|2015101000| 10101| 数学分析| | 90| null|
|2015101000| 10102| 高等代数| | 88| null|
|2015101000| 10103| 大学物理| | 67| null|
|2015101000| 10104| 计算机原理| | 78| null|
|2015101000| 10105| 电磁学| | 89| null|
|2015101001| 10101| 数学分析| | 87| null|
|2015101001| 10102| 高等代数| | 78| null|
|2015101001| 10103| 大学物理| | 88| null|
|2015101001| 10104| 计算机原理| | 86| null|
|2015101001| 10105| 电磁学| | 91| null|
|2015101002| 10101| 数学分析| | 98| null|
|2015101002| 10102| 高等代数| | 97| null|
|2015101002| 10103| 大学物理| | 95| null|
|2015101002| 10104| 计算机原理| | 96| null|
|2015101002| 10105| 电磁学| | 90| null|
|2015101003| 10101| 数学分析| | 70| null|
|2015101003| 10102| 高等代数| | 87| null|
|2015101003| 10103| 大学物理| | 65| null|
|2015101003| 10104| 计算机原理| | 98| null|
|2015101003| 10105| 电磁学| | 76| null|
+----------+--------+--------+--------+---------+---------+
only showing top 20 rows 17/02/15 13:21:24 INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon.
17/02/15 13:21:24 INFO RemoteActorRefProvider$RemotingTerminator: Remote daemon shut down; proceeding with flushing remote transports.

常见报错1

Exception in thread "main" java.sql.SQLException: No suitable driver found for jdbc:mysql://slave02:3306/testdb
报错原因是没有jdbc驱动 解决办法
--driver-class-path xxx.jar 或者
--jars xxx.jar

如果添加了命令和jar运行也不行,则用以下办法

在%JAVA_HOME%\jre\lib\ext下添加mysql-connector-java-5.1.12-bin.jar 问题解决

常见报错2

java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Date

0000-00-00 ”在MySQL中是作为一个特殊值存在的,但是在Java中, java.sql.Date 会被视为 不合法的值,被JVM认为格式不正确。  

解决办法:在jdbc的url加上   zeroDateTimeBehavior参数

url = "jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull"

spark连接mysql(spark shell方式)

方式1


//import sqlContext.implicits._ //有时需要用到,需要时导入
scala> import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.SQLContext scala> val sqlContext = new SQLContext(sc)
sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@6cd1ee scala> val url ="jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull"
url: String = jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull scala> val prop = new java.util.Properties
prop: java.util.Properties = {} scala> prop.setProperty("user","feigu")
res3: Object = null scala> prop.setProperty("password","feigu")
res4: Object = null scala> val stud_scoreDF = sqlContext.read.jdbc(url,"stud_score",prop)
stud_scoreDF: org.apache.spark.sql.DataFrame = [stud_code: string, sub_code: string, sub_name: string, sub_tech: string, sub_score: int, stat_date: date] scala> stud_scoreDF.show()
+----------+--------+--------+--------+---------+---------+
| stud_code|sub_code|sub_name|sub_tech|sub_score|stat_date|
+----------+--------+--------+--------+---------+---------+
|2015101000| 10101| 数学分析| | 90| null|
|2015101000| 10102| 高等代数| | 88| null|
|2015101000| 10103| 大学物理| | 67| null|
|2015101000| 10104| 计算机原理| | 78| null|
|2015101000| 10105| 电磁学| | 89| null|
|2015101001| 10101| 数学分析| | 87| null|
|2015101001| 10102| 高等代数| | 78| null|
|2015101001| 10103| 大学物理| | 88| null|
|2015101001| 10104| 计算机原理| | 86| null|
|2015101001| 10105| 电磁学| | 91| null|
|2015101002| 10101| 数学分析| | 98| null|
|2015101002| 10102| 高等代数| | 97| null|
|2015101002| 10103| 大学物理| | 95| null|
|2015101002| 10104| 计算机原理| | 96| null|
|2015101002| 10105| 电磁学| | 90| null|
|2015101003| 10101| 数学分析| | 70| null|
|2015101003| 10102| 高等代数| | 87| null|
|2015101003| 10103| 大学物理| | 65| null|
|2015101003| 10104| 计算机原理| | 98| null|
|2015101003| 10105| 电磁学| | 76| null|
+----------+--------+--------+--------+---------+---------+
only showing top 20 rows

方式2

scala> import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.SQLContext scala> val sqlContext = new SQLContext(sc)
sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@351d726c scala> import sqlContext.implicits._
import sqlContext.implicits._ scala> val url ="jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull"
url: String = jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull scala> val table = "stud_score"
table: String = stud_score scala> val reader = sqlContext.read.format("jdbc")
reader: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918 scala> val reader = sqlContext.read.format("jdbc")
reader: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918 scala> reader.option("url",url)
res0: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918 scala> reader.option("dbtable",table)
res4: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918 scala> reader.option("driver","com.mysql.jdbc.Driver")
res6: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918 scala> reader.option("user","feigu")
res7: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918 scala> reader.option("password","feigu")
res8: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918 scala> val DF = reader.load()
DF: org.apache.spark.sql.DataFrame = [stud_code: string, sub_code: string, sub_name: string, sub_tech: string, sub_score: int, stat_date: date] scala> DF.show()
+----------+--------+--------+--------+---------+---------+
| stud_code|sub_code|sub_name|sub_tech|sub_score|stat_date|
+----------+--------+--------+--------+---------+---------+
|2015101000| 10101| 数学分析| | 90| null|
|2015101000| 10102| 高等代数| | 88| null|
|2015101000| 10103| 大学物理| | 67| null|
|2015101000| 10104| 计算机原理| | 78| null|
|2015101000| 10105| 电磁学| | 89| null|
|2015101001| 10101| 数学分析| | 87| null|
|2015101001| 10102| 高等代数| | 78| null|
|2015101001| 10103| 大学物理| | 88| null|
|2015101001| 10104| 计算机原理| | 86| null|
|2015101001| 10105| 电磁学| | 91| null|
|2015101002| 10101| 数学分析| | 98| null|
|2015101002| 10102| 高等代数| | 97| null|
|2015101002| 10103| 大学物理| | 95| null|
|2015101002| 10104| 计算机原理| | 96| null|
|2015101002| 10105| 电磁学| | 90| null|
|2015101003| 10101| 数学分析| | 70| null|
|2015101003| 10102| 高等代数| | 87| null|
|2015101003| 10103| 大学物理| | 65| null|
|2015101003| 10104| 计算机原理| | 98| null|
|2015101003| 10105| 电磁学| | 76| null|
+----------+--------+--------+--------+---------+---------+
only showing top 20 rows

方式3

scala> import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.SQLContext scala> val sqlContext = new SQLContext(sc)
sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@fdf029a scala> val jdbcDF = sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull","driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "testdb.stud_score","user" -> "feigu","password" -> "feigu")).load()
jdbcDF: org.apache.spark.sql.DataFrame = [stud_code: string, sub_code: string, sub_name: string, sub_tech: string, sub_score: int, stat_date: date] scala> jdbcDF.show()
+----------+--------+--------+--------+---------+---------+
| stud_code|sub_code|sub_name|sub_tech|sub_score|stat_date|
+----------+--------+--------+--------+---------+---------+
|2015101000| 10101| 数学分析| | 90| null|
|2015101000| 10102| 高等代数| | 88| null|
|2015101000| 10103| 大学物理| | 67| null|
|2015101000| 10104| 计算机原理| | 78| null|
|2015101000| 10105| 电磁学| | 89| null|
|2015101001| 10101| 数学分析| | 87| null|
|2015101001| 10102| 高等代数| | 78| null|
|2015101001| 10103| 大学物理| | 88| null|
|2015101001| 10104| 计算机原理| | 86| null|
|2015101001| 10105| 电磁学| | 91| null|
|2015101002| 10101| 数学分析| | 98| null|
|2015101002| 10102| 高等代数| | 97| null|
|2015101002| 10103| 大学物理| | 95| null|
|2015101002| 10104| 计算机原理| | 96| null|
|2015101002| 10105| 电磁学| | 90| null|
|2015101003| 10101| 数学分析| | 70| null|
|2015101003| 10102| 高等代数| | 87| null|
|2015101003| 10103| 大学物理| | 65| null|
|2015101003| 10104| 计算机原理| | 98| null|
|2015101003| 10105| 电磁学| | 76| null|
+----------+--------+--------+--------+---------+---------+
only showing top 20 rows //注册为一个表。这就可以直接进行select等操作样
scala> jdbcDF.registerTempTable("wu_stud_info")
scala> jdbcDF.sqlContext.sql("select sub_name from wu_stud_info").collect.foreach(println)
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[数学分析]
[高等代数]
[大学物理]
[计算机原理]
[电磁学]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]
[计算机软件与理论]
[计算机系统结构]
[操作系统]
[概率统计]
[汇编语言]
[数据结构]

spark SQL学习(spark连接 mysql)的更多相关文章

  1. IDEA 中Spark SQL通过JDBC连接mysql数据库

    一.IDEA装驱动: 1.下载一个MySQL的JDBC驱动:mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudl ...

  2. spark SQL学习(认识spark SQL)

    spark SQL初步认识 spark SQL是spark的一个模块,主要用于进行结构化数据的处理.它提供的最核心的编程抽象就是DataFrame. DataFrame:它可以根据很多源进行构建,包括 ...

  3. spark SQL学习(spark连接hive)

    spark 读取hive中的数据 scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql. ...

  4. spark SQL学习(综合案例-日志分析)

    日志分析 scala> import org.apache.spark.sql.types._ scala> import org.apache.spark.sql.Row scala&g ...

  5. spark SQL学习(案例-统计每日销售)

    需求:统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sq ...

  6. spark SQL学习(案例-统计每日uv)

    需求:统计每日uv package wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache ...

  7. spark SQL学习(数据源之json)

    准备工作 数据文件students.json {"id":1, "name":"leo", "age":18} {&qu ...

  8. spark SQL学习(数据源之parquet)

    Parquet是面向分析型业务得列式存储格式 编程方式加载数据 代码示例 package wujiadong_sparkSQL import org.apache.spark.sql.SQLConte ...

  9. spark SQL学习(load和save操作)

    load操作:主要用于加载数据,创建出DataFrame save操作:主要用于将DataFrame中的数据保存到文件中 代码示例(默认为parquet数据源类型) package wujiadong ...

随机推荐

  1. C程序编译过程浅析(转)

    前几天看了<程序员的自我修养——链接.装载与库>中的第二章“编译和链接”,主要根据其中的内容简单总结一下C程序编译的过程吧. 我现在一般都是用gcc,所以自然以GCC编译hellworld ...

  2. The Model represents your data structures.

    w模型代表数据结构. https://www.codeigniter.com/userguide3/overview/mvc.html http://codeigniter.org.cn/user_g ...

  3. Xcode自带工具symbolicatecrash解析Crash文件

    项目中遇到一台手机运行测试包闪退的现象,而且是一个设备闪退其他设备没有再现的情况 可以看到Crash信息,但是指定的问题给出的是16进制内存地址,根本无法定位问题发生在哪个类的哪个函数中 所以需要解析 ...

  4. Zipline Trading Calendars

    Trading Calendars What is a Trading Calendar? 什么是交易日历? A trading calendar represents the timing info ...

  5. 剑指Offer——把二叉树打印成多行

    题目描述: 从上到下按层打印二叉树,同一层结点从左至右输出.每一层输出一行. 分析: 二叉树的层次遍历,利用队列. 代码: /* struct TreeNode { int val; struct T ...

  6. django 前端传文件到后台项目目录

    Html端: <form action="/student/upload" method="POST" enctype="multipart/f ...

  7. 类的super

    我们经常在类的继承当中使用super(), 来调用父类中的方法.例如下面: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 class A:     def func(self):   ...

  8. 【spring-boot】spring-boot整合ehcache实现缓存机制

    EhCache 是一个纯Java的进程内缓存框架,具有快速.精干等特点,是Hibernate中默认的CacheProvider. ehcache提供了多种缓存策略,主要分为内存和磁盘两级,所以无需担心 ...

  9. python学习笔记(十九)发送邮件

    在python开发项目或者做自动化测试时候,在测试完成后需要将测试结果总结后进行上报,那么我们就可以通过发送邮件来完成这项工作. 下面我们来看看python中怎么发送邮件的,python中发送邮件可以 ...

  10. Laravel 5.3 使用内置的 Auth 组件实现多用户认证功能

    https://blog.csdn.net/kevinbai_cn/article/details/54341779 概述 在开发中,我们经常会遇到多种类型的用户的认证问题,比如后台的管理员和前台的普 ...