一、环境准备

安装oracle后，创建测试表、数据：

create table test (
username varchar2(32) primary key ,
password varchar2(32)
);
insert into test values('John','1234');
insert into test values('Mike','1234');
insert into test values('Jim','1234');
insert into test values('Ana','1234');
insert into test values('Ennerson','1234');
commit;

二、实现代码

1、建立JDBC连接读取数据

SparkConf sparkConf = new SparkConf().setAppName("JavaSparkSQL").setMaster("local[6]");
JavaSparkContext jsc = new JavaSparkContext(sparkConf);
SQLContext sqlContext = new SQLContext(jsc);
Map<String, String> options = new HashMap<String, String>();
options.put("url", "jdbc:oracle:thin:@192.168.168.100:1521/orcl");
options.put("user", "flume");
options.put("password","1234");
//读取test表
options.put("dbtable", "test");
Dataset<Row> df = sqlContext.read().format("jdbc").options(options).load();
df.show();
/*+--------+--------+
|USERNAME|PASSWORD|
+--------+--------+
| John| 1234|
| Mike| 1234|
| Jim| 1234|
| Ana| 1234|
|Ennerson| 1234|
+--------+--------+*/

2、遍历Dataset<Row>集合

//遍历Dataset<Row>集合
List<Row> list = df.collectAsList();
//读取test表中username字段的数据
for(int i = 0;i < list.size();i++){
System.out.println(list.get(i).<String>getAs("USERNAME"));
}
/*John
Mike
Jim
Ana
Ennerson*/

3、执行SQL语句

//执行sql语句
//一定要有df.createOrReplaceTempView("test"); 否则会报
//“Exception in thread "main" org.apache.spark.sql.AnalysisException: Table or view not found: test; line 1 pos 0”
df.createOrReplaceTempView("test");
sqlContext.sql("insert into test values('Obama','6666')");

4、引入spark-sql依赖包

在pom.xml文件中引入sparksql依赖包

<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.1.1</version>
<scope>runtime</scope>
</dependency>

三、No suitable driver解决

1、在Eclipse上运行报Exception in thread "main" java.sql.SQLException: No suitable driver错误：

Exception in thread "main" java.sql.SQLException: No suitable driver at java.sql .DriverManager .getDriver(DriverManager.java:315) at org.apache.spark.sql.execution.datasources.jdbc .JDBCOptions$$anonfun$7 .apply(JDBCOptions.scala:84) at org.apache.spark.sql.execution.datasources.jdbc .JDBCOptions$$anonfun$7.apply (JDBCOptions.scala:84) at scala.Option.getOrElse(Option.scala:121 ) at org.apache.spark.sql.execution .datasources.jdbc.JDBCOptions.<init>(JDBCOptions.scala:83) at org .apache.spark.sql.execution.datasources .jdbc.JDBCOptions.<init>(JDBCOptions.scala:34) at org.apache .spark.sql.execution.datasources.jdbc .JdbcRelationProvider.createRelation(JdbcRelationProvider .scala:32) at org.apache.spark.sql .execution.datasources.DataSource.resolveRelation(DataSource.scala:330 ) at org.apache.spark.sql .DataFrameReader.load(DataFrameReader.scala:152) at org.apache.spark.sql .DataFrameReader.load (DataFrameReader.scala:125) at com.spark.test.JavaSparkSQL.main(JavaSparkSQL.java :26 )

原因是没有引用oracle的jdbc驱动包，配置pom.xml文件如下：

<dependency>
<groupId>com.oracle</groupId>
<artifactId>ojdbc5</artifactId>
<version>11.2.0.1.0</version>
<scope>runtime</scope>
</dependency>

由于Oracle授权问题，Maven不提供oracle JDBC driver，为了在Maven项目中应用Oracle JDBC driver,必须手动添加到本地仓库。

具体可以参考：maven添加oracle jdbc依赖

2、在spark集群环境上运行报Exception in thread "main" java.sql.SQLException: No suitable driver错误：

Exception in thread "main" java.sql.SQLException: No suitable driver
at java.sql.DriverManager.getDriver(DriverManager.java:315)
at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions$$anonfun$7.apply(JDBCOptions.scala:84)
at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions$$anonfun$7.apply(JDBCOptions.scala:84)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions.<init>(JDBCOptions.scala:83)
at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions.<init>(JDBCOptions.scala:34)
at org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider.createRelation(JdbcRelationProvider.scala:32)
at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:330)
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:125)
at com.spark.main.JavaLocalDirectKafkaSparkSQLCarNumber.main(JavaLocalDirectKafkaSparkSQLCarNumber.java:117)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:743)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

cd /usr/local/spark/spark-2.1.1-bin-hadoop2.7;
bin/spark-submit \
--master spark://master:7077 \
--class "com.spark.main.JavaLocalDirectKafkaSparkSQLCarNumber" \
myApp/test-0.0.1-SNAPSHOT-jar-with-dependencies.jar;

需要在spark集群环境上，指定对应的jdbc驱动包：--driver-class-path myApp/ojdbc5.jar \

cd /usr/local/spark/spark-2.1.1-bin-hadoop2.7;
bin/spark-submit \
--driver-class-path myApp/ojdbc5.jar \
--master spark://master:7077 \
--class "com.spark.main.JavaLocalDirectKafkaSparkSQLCarNumber" \
myApp/test-0.0.1-SNAPSHOT-jar-with-dependencies.jar;

再次运行，成功！！！

sparkSQL以JDBC为数据源的更多相关文章

Spark-2.3.2 Java SparkSQL的自定义HBase数据源
由于SparkSQL不支持HBase的数据源(HBase-1.1.2),网上有很多是采用Hortonworks的SHC,而SparkSQL操作HBase自定义数据源大多数都是基于Scala实现,我就自 ...
Spring JDBC配置数据源
在本系列教程中,使用的的是MySQL数据库,并创建一个数据库实例:test,在这个数据库实例:test中创建一个表student.如果您使用任何其他数据库,则可以相应地更改DDL和SQL查询,这问题不 ...
【Spring JDBC】数据源配置（二）
一.Spring内置数据源 1. 创建Maven Project,修改pom.xml <properties>  <java.version& ...
6_1.springboot2.x整合JDBC与数据源配置原理解析
1.引言对于数据访问层,无论是SQL还是NOSQL,Spring Boot默认采用整合 Spring Data的方式进行统一处理,添加大量自动配置,屏蔽了很多设置.引入各种xxxTemplate,x ...
spring jdbc 配置数据源连接数据库
概述在XML配置数据源,并将数据源注册到JDBC模板 JDBC模板关联业务增删改查在XML配置数据源 <?xml version="1.0" encoding=" ...
spark sql 以JDBC为数据源
一.环境准备: 安装mysql后,进入mysql命令行,创建测试表.数据: 将 mysql-connector-java 的jar文件拷贝到 \spark_home\lib\下,你可以使用最新版本,下 ...
SparkSQL JDBC和JDBCServer区别
注意SparkSQL JDBC和SparkSQL JDBCSever是完全两种不同的场景. SparkSQL JDBC SparkSQL可以使用JDBC的方式访问其他数据库,和普通非spark程序访问 ...
Spark SQL External Data Sources JDBC官方实现读测试
在最新的master分支上官方提供了Spark JDBC外部数据源的实现,先尝为快. 通过spark-shell测试: import org.apache.spark.sql.SQLContext v ...
SparkSql官方文档中文翻译(java版本)
1 概述(Overview) 2 DataFrames 2.1 入口:SQLContext(Starting Point: SQLContext) 2.2 创建DataFrames(Creating ...

随机推荐

wsgi&nginx-理解
WSGI协议首先弄清下面几个概念:WSGI:全称是Web Server Gateway Interface,WSGI不是服务器,python模块,框架,API或者任何软件,只是一种规范,描述web ...
java学习笔记19（Arrays类）
Arrays类: 此类包含用来操作数组的各种方法(比如升序和搜索): import java.util.Arrays; public class Demo { public static void m ...
nexus和maven的安装与配置
如果用普通用户安装就需要创建用户属组例 groupadd configer //创建用户组 useradd -g configer configer //创建用户并指定用户组 passwd co ...
Max(rowid)是否走B树索引
Max(rowid)是否走B树索引测试:SQL文本Max(rowid)执行计划是否走B树索引测试一.猜测执行计划当SQL语句中,执行max(rowid)时,执行计划猜测: A走B树索引全索引范围 ...
JavaScript中HTML DOM focus()与onblur() setSelectionRange()用法
今天在写一个todolist待办事项项目,需要单击编辑待办事项的内容,百度搜了一下这几个方法的用法,总结一下 focus()方法:获得键盘焦点,单击之后就调用绑定的js方法,在span标签里面加一个输 ...
systemd设置静态IP
/********************************************************************************* * systemd设置静态IP * ...
JS中数据类型的判断
typeof 使用 : var n = "hello"; console.log(typeof n); console.log(typeof(n));
difference among String,StringBuilder,StringBuffer
difference among String,StringBuilder,StringBuffer String常用构造函数 String(byte[] bytes) String(byte[] b ...
Elasticsearch Docker环境下安装
Elasticsearch Docker环境下安装 Daemon镜像配置的是https://registry.docker-cn.com Linux:vi /etc/docker/daemon.jso ...
python django day 1
cmd d:\python\python.exe pip install --upgrade pip d:\python\python.exe pip install Django 123.py im ...

sparkSQL以JDBC为数据源