spark连接mysql（打jar包方式）

package wujiadong_sparkSQL

import java.util.Properties

import org.apache.spark.sql.SQLContext

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2017/2/14.

  */

object JdbcOperation {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("JdbcOperation")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val properties = new Properties()

    properties.put("user","feigu")

    properties.put("password","feigu")

    val url = "jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull"

    val stud_scoreDF = sqlContext.read.jdbc(url,"stud_score",properties)

    stud_scoreDF.show()

  }

}

提交集群

hadoop@master:~/wujiadong$ spark-submit --driver-class-path /home/hadoop/bigdata/hive/lib/mysql-connector-java-5.1.10-2.jar  --class wujiadong_sparkSQL.JdbcOperation  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar

 或者

hadoop@master:~/wujiadong$ spark-submit --jars /home/hadoop/bigdata/hive/lib/mysql-connector-java-5.1.10-2.jar  --class wujiadong_sparkSQL.JdbcOperation  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar

运行结果

hadoop@master:~/wujiadong$ spark-submit --driver-class-path /home/hadoop/bigdata/hive/lib/mysql-connector-java-5.1.10-2.jar  --class wujiadong_sparkSQL.JdbcOperation  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar

17/02/15 13:21:06 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

17/02/15 13:21:09 INFO Slf4jLogger: Slf4jLogger started

17/02/15 13:21:09 INFO Remoting: Starting remoting

17/02/15 13:21:09 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@192.168.1.131:40654]

17/02/15 13:21:13 WARN MetricsSystem: Using default name DAGScheduler for source because spark.app.id is not set.

+----------+--------+--------+--------+---------+---------+

| stud_code|sub_code|sub_name|sub_tech|sub_score|stat_date|

+----------+--------+--------+--------+---------+---------+

|2015101000|   10101|    数学分析|        |       90|     null|

|2015101000|   10102|    高等代数|        |       88|     null|

|2015101000|   10103|    大学物理|        |       67|     null|

|2015101000|   10104|   计算机原理|        |       78|     null|

|2015101000|   10105|     电磁学|        |       89|     null|

|2015101001|   10101|    数学分析|        |       87|     null|

|2015101001|   10102|    高等代数|        |       78|     null|

|2015101001|   10103|    大学物理|        |       88|     null|

|2015101001|   10104|   计算机原理|        |       86|     null|

|2015101001|   10105|     电磁学|        |       91|     null|

|2015101002|   10101|    数学分析|        |       98|     null|

|2015101002|   10102|    高等代数|        |       97|     null|

|2015101002|   10103|    大学物理|        |       95|     null|

|2015101002|   10104|   计算机原理|        |       96|     null|

|2015101002|   10105|     电磁学|        |       90|     null|

|2015101003|   10101|    数学分析|        |       70|     null|

|2015101003|   10102|    高等代数|        |       87|     null|

|2015101003|   10103|    大学物理|        |       65|     null|

|2015101003|   10104|   计算机原理|        |       98|     null|

|2015101003|   10105|     电磁学|        |       76|     null|

+----------+--------+--------+--------+---------+---------+

only showing top 20 rows

17/02/15 13:21:24 INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon.

17/02/15 13:21:24 INFO RemoteActorRefProvider$RemotingTerminator: Remote daemon shut down; proceeding with flushing remote transports.

常见报错1

Exception in thread "main" java.sql.SQLException: No suitable driver found for jdbc:mysql://slave02:3306/testdb

报错原因是没有jdbc驱动

解决办法

--driver-class-path xxx.jar 或者

--jars xxx.jar

如果添加了命令和jar运行也不行,则用以下办法

在%JAVA_HOME%\jre\lib\ext下添加mysql-connector-java-5.1.12-bin.jar 问题解决

常见报错2

java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Date

0000-00-00 ”在MySQL中是作为一个特殊值存在的，但是在Java中， java.sql.Date 会被视为 不合法的值，被JVM认为格式不正确。  

解决办法：在jdbc的url加上   zeroDateTimeBehavior参数

url = "jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull"

spark连接mysql（spark shell方式）

方式1



//import sqlContext.implicits._   //有时需要用到，需要时导入

scala> import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.SQLContext

scala> val sqlContext = new SQLContext(sc)

sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@6cd1ee

scala> val url ="jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull"

url: String = jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull

scala> val prop = new java.util.Properties

prop: java.util.Properties = {}

scala> prop.setProperty("user","feigu")

res3: Object = null

scala> prop.setProperty("password","feigu")

res4: Object = null

scala> val stud_scoreDF = sqlContext.read.jdbc(url,"stud_score",prop)

stud_scoreDF: org.apache.spark.sql.DataFrame = [stud_code: string, sub_code: string, sub_name: string, sub_tech: string, sub_score: int, stat_date: date]

scala> stud_scoreDF.show()

+----------+--------+--------+--------+---------+---------+

| stud_code|sub_code|sub_name|sub_tech|sub_score|stat_date|

+----------+--------+--------+--------+---------+---------+

|2015101000|   10101|    数学分析|        |       90|     null|

|2015101000|   10102|    高等代数|        |       88|     null|

|2015101000|   10103|    大学物理|        |       67|     null|

|2015101000|   10104|   计算机原理|        |       78|     null|

|2015101000|   10105|     电磁学|        |       89|     null|

|2015101001|   10101|    数学分析|        |       87|     null|

|2015101001|   10102|    高等代数|        |       78|     null|

|2015101001|   10103|    大学物理|        |       88|     null|

|2015101001|   10104|   计算机原理|        |       86|     null|

|2015101001|   10105|     电磁学|        |       91|     null|

|2015101002|   10101|    数学分析|        |       98|     null|

|2015101002|   10102|    高等代数|        |       97|     null|

|2015101002|   10103|    大学物理|        |       95|     null|

|2015101002|   10104|   计算机原理|        |       96|     null|

|2015101002|   10105|     电磁学|        |       90|     null|

|2015101003|   10101|    数学分析|        |       70|     null|

|2015101003|   10102|    高等代数|        |       87|     null|

|2015101003|   10103|    大学物理|        |       65|     null|

|2015101003|   10104|   计算机原理|        |       98|     null|

|2015101003|   10105|     电磁学|        |       76|     null|

+----------+--------+--------+--------+---------+---------+

only showing top 20 rows

方式2

scala> import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.SQLContext

scala> val sqlContext = new SQLContext(sc)

sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@351d726c

scala> import sqlContext.implicits._

import sqlContext.implicits._

scala> val url ="jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull"

url: String = jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull

scala> val table = "stud_score"

table: String = stud_score

scala> val reader = sqlContext.read.format("jdbc")

reader: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918

scala> val reader = sqlContext.read.format("jdbc")

reader: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918

scala> reader.option("url",url)

res0: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918

scala> reader.option("dbtable",table)

res4: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918

scala> reader.option("driver","com.mysql.jdbc.Driver")

res6: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918

scala> reader.option("user","feigu")

res7: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918

scala> reader.option("password","feigu")

res8: org.apache.spark.sql.DataFrameReader = org.apache.spark.sql.DataFrameReader@49c37918

scala> val DF = reader.load()

DF: org.apache.spark.sql.DataFrame = [stud_code: string, sub_code: string, sub_name: string, sub_tech: string, sub_score: int, stat_date: date]

scala> DF.show()

+----------+--------+--------+--------+---------+---------+

| stud_code|sub_code|sub_name|sub_tech|sub_score|stat_date|

+----------+--------+--------+--------+---------+---------+

|2015101000|   10101|    数学分析|        |       90|     null|

|2015101000|   10102|    高等代数|        |       88|     null|

|2015101000|   10103|    大学物理|        |       67|     null|

|2015101000|   10104|   计算机原理|        |       78|     null|

|2015101000|   10105|     电磁学|        |       89|     null|

|2015101001|   10101|    数学分析|        |       87|     null|

|2015101001|   10102|    高等代数|        |       78|     null|

|2015101001|   10103|    大学物理|        |       88|     null|

|2015101001|   10104|   计算机原理|        |       86|     null|

|2015101001|   10105|     电磁学|        |       91|     null|

|2015101002|   10101|    数学分析|        |       98|     null|

|2015101002|   10102|    高等代数|        |       97|     null|

|2015101002|   10103|    大学物理|        |       95|     null|

|2015101002|   10104|   计算机原理|        |       96|     null|

|2015101002|   10105|     电磁学|        |       90|     null|

|2015101003|   10101|    数学分析|        |       70|     null|

|2015101003|   10102|    高等代数|        |       87|     null|

|2015101003|   10103|    大学物理|        |       65|     null|

|2015101003|   10104|   计算机原理|        |       98|     null|

|2015101003|   10105|     电磁学|        |       76|     null|

+----------+--------+--------+--------+---------+---------+

only showing top 20 rows

方式3

scala> import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.SQLContext

scala> val sqlContext = new SQLContext(sc)

sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@fdf029a

scala> val jdbcDF = sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://slave02:3306/testdb?useUnicode=true&characterEncoding=gbk&zeroDateTimeBehavior=convertToNull","driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "testdb.stud_score","user" -> "feigu","password" -> "feigu")).load()

jdbcDF: org.apache.spark.sql.DataFrame = [stud_code: string, sub_code: string, sub_name: string, sub_tech: string, sub_score: int, stat_date: date]

scala> jdbcDF.show()

+----------+--------+--------+--------+---------+---------+

| stud_code|sub_code|sub_name|sub_tech|sub_score|stat_date|

+----------+--------+--------+--------+---------+---------+

|2015101000|   10101|    数学分析|        |       90|     null|

|2015101000|   10102|    高等代数|        |       88|     null|

|2015101000|   10103|    大学物理|        |       67|     null|

|2015101000|   10104|   计算机原理|        |       78|     null|

|2015101000|   10105|     电磁学|        |       89|     null|

|2015101001|   10101|    数学分析|        |       87|     null|

|2015101001|   10102|    高等代数|        |       78|     null|

|2015101001|   10103|    大学物理|        |       88|     null|

|2015101001|   10104|   计算机原理|        |       86|     null|

|2015101001|   10105|     电磁学|        |       91|     null|

|2015101002|   10101|    数学分析|        |       98|     null|

|2015101002|   10102|    高等代数|        |       97|     null|

|2015101002|   10103|    大学物理|        |       95|     null|

|2015101002|   10104|   计算机原理|        |       96|     null|

|2015101002|   10105|     电磁学|        |       90|     null|

|2015101003|   10101|    数学分析|        |       70|     null|

|2015101003|   10102|    高等代数|        |       87|     null|

|2015101003|   10103|    大学物理|        |       65|     null|

|2015101003|   10104|   计算机原理|        |       98|     null|

|2015101003|   10105|     电磁学|        |       76|     null|

+----------+--------+--------+--------+---------+---------+

only showing top 20 rows

//注册为一个表。这就可以直接进行select等操作样

scala> jdbcDF.registerTempTable("wu_stud_info")

scala> jdbcDF.sqlContext.sql("select sub_name from wu_stud_info").collect.foreach(println)

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[数学分析]

[高等代数]

[大学物理]

[计算机原理]

[电磁学]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

[计算机软件与理论]

[计算机系统结构]

[操作系统]

[概率统计]

[汇编语言]

[数据结构]

spark SQL学习（spark连接 mysql）的更多相关文章

IDEA 中Spark SQL通过JDBC连接mysql数据库
一.IDEA装驱动: 1.下载一个MySQL的JDBC驱动:mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudl ...
spark SQL学习（认识spark SQL）
spark SQL初步认识 spark SQL是spark的一个模块,主要用于进行结构化数据的处理.它提供的最核心的编程抽象就是DataFrame. DataFrame:它可以根据很多源进行构建,包括 ...
spark SQL学习（spark连接hive）
spark 读取hive中的数据 scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql. ...
spark SQL学习（综合案例-日志分析）
日志分析 scala> import org.apache.spark.sql.types._ scala> import org.apache.spark.sql.Row scala&g ...
spark SQL学习（案例-统计每日销售）
需求:统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sq ...
spark SQL学习（案例-统计每日uv）
需求:统计每日uv package wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache ...
spark SQL学习（数据源之json）
准备工作数据文件students.json {"id":1, "name":"leo", "age":18} {&qu ...
spark SQL学习（数据源之parquet）
Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例 package wujiadong_sparkSQL import org.apache.spark.sql.SQLConte ...
spark SQL学习（load和save操作）
load操作:主要用于加载数据,创建出DataFrame save操作:主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型) package wujiadong ...

随机推荐

mysql5.7.22在centos7.5下的安装
1.下载,解压把下载的文件放到 /app/programs/目录下 tar -zxvf mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz 地址:https://d ...
maven 整合 ssm 异常分析
异常一:使用tomcat 7 启动没问题访问(JSP)页面就报错:org.apache.jasper.JasperException: Unable to compile class for JSP ...
C#版-Redis缓存服务器在Windows下的使用
Redis缓存服务器是一款key/value数据库,读110000次/s,写81000次/s,因为是内存操作所以速度飞快,常见用法是存用户token.短信验证码等官网显示Redis本身并没有Wind ...
LoadJS
LoadJS是一个微小的异步加载器为现代浏览器(711字节). https://github.com/muicss/loadjs 介绍 LoadJS是一个微小的异步加载库的现代浏览器(IE9 +). ...
安卓和ios的区别
安卓不闪退,会卡死,有几率复活,也有可能要强制重启,iOS默认闪退,强制重启的几率小很多. 总的来说,如果要深层次挖掘Android的漏洞就要明白linux内核安全,如果要挖身深层次挖掘iOS的漏洞就 ...
OS X 10.9 Mavericks下如何安装Command Line Tools(命令行工具)
OS X 10.9 Mavericks下如何安装Command Line Tools(命令行工具) 今天OS X 10.9 Mavericks正式发布,免费更新,立即去更新看看效果. 不过升级后安装命 ...
JsonObject没有fromObject、idea引入maven有红线没依赖、JsonObject maven 依赖包
目录: 1.JsonObject maven 依赖包 2.idea引入maven有红线,没依赖 3.JsonObject没有fromObject \\\\\\\\\\\\\\\\\\\\\\\ 1.J ...
SQL Server去重和判断是否为数字——OBJECT_ID的使用
sql 语句查询时去掉重复项: 使用 distinct 去掉重复项: 首先可以明确的看到存在重复的名字,那么接下来就让我们试试使用 distinct 去重吧. select distinct * fr ...
matplotlib.pyplot 让数据可视化
1.条形图 import matplotlib.pyplot as plt plt.style.use('ggplot') # 使用ggplot样式来模拟ggplot2风格的图形,ggplot2是一个 ...
Maven打包部署
Maven打Jar包问题一 Eclipse突然SB告诉我类不存在还让我导包进来O__O "…,但是我明明有这个类.这是不要慌,通过在网上搜索得知:由于eclipse的编译是基于时间戳的判断 ...

spark SQL学习（spark连接 mysql）

spark连接mysql（打jar包方式）

提交集群

运行结果

常见报错1

常见报错2

spark连接mysql（spark shell方式）

方式1

方式2

方式3

spark SQL学习（spark连接 mysql）的更多相关文章

随机推荐

热门专题