spark sql 以JDBC为数据源

一、环境准备：

安装mysql后，进入mysql命令行，创建测试表、数据：

将 mysql-connector-java 的jar文件拷贝到 \spark_home\lib\下，你可以使用最新版本，下载地址：

http://dev.mysql.com/downloads/connector/j/

二、实现代码

1、准备工作：

        SparkConf conf = new SparkConf().setAppName("JDBCDataSource");//.setMaster("local");  

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

2、从JDBC数据读取：

        Map<String, String> options = new HashMap<String, String>();	options.put("url", "jdbc:mysql://spark1:3306/testdb");

        

	//读取第一个表	options.put("dbtable", "student_infos");

	DataFrame studentInfosDF = sqlContext.read().format("jdbc")

                .options(options).load(); 		//读取第二个表	options.put("dbtable", "student_scores"); 	DataFrame studentScoresDF = sqlContext.read().format("jdbc")		.options(options).load();

3、写入数据到JDBC

studentsDF.javaRDD().foreach(new VoidFunction<Row>() {

    	    privatestaticfinallong serialVersionUID = 1L;

            

            public void call(Row row) throws Exception {

                // TODO Auto-generated method stub

                String sql = "insert into good_student_infos values(" 

                        + "'" + String.valueOf(row.getString(0)) + "',"

                        + Integer.valueOf(String.valueOf(row.get(1))) + ","

                        + Integer.valueOf(String.valueOf(row.get(2))) + ")";   

                

                Class.forName("com.mysql.jdbc.Driver");         

                

                Connection conn = null;

                Statement stmt = null;

                try {

                    conn = DriverManager.getConnection("jdbc:mysql://spark1:3306/testdb", "", "");     	//可能有重复创建conn的问题，此处不做讨论   

                    stmt = conn.createStatement();

                    stmt.executeUpdate(sql);

                } catch (Exception e) {

                    e.printStackTrace();

                } finally {

                    if(stmt != null) {

                        stmt.close();

                    } 

                    if(conn != null) {

                        conn.close();

                    }

                }

            }

        });

三、bug解决

写本片文章的目的就是要记录这个错误，按照以上的方式实现，仍然会有报错，错误信息："No suitable driver found for jdbc:mysql://spark1:3306/testdb"，问题在于，仅仅将mysql-connector-java 的jar文件放到/spark_home/lib 目录是不够的，下面是群里技术前辈告诉我的解决方法，原样贴上：

spark sql 以JDBC为数据源的更多相关文章

大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
spark SQL （五）数据源 Data Source----json hive jdbc等数据的的读取与加载
1,JSON数据集 Spark SQL可以自动推断JSON数据集的模式,并将其作为一个Dataset[Row].这个转换可以SparkSession.read.json()在一个Dataset[Str ...
spark SQL（三）数据源 Data Source----通用的数据加载/保存功能
Spark SQL 的数据源------通用的数据加载/保存功能 Spark SQL支持通过DataFrame接口在各种数据源上进行操作.DataFrame可以使用关系变换进行操作,也可以用来创建临 ...
spark sql使用sequoiadb作为数据源
目前没有实现,理一下思路,有3中途径: 1:spark core可以使用sequoiadb最为数据源,那么是否spark sql可以直接操作sequoiadb. 2: spark sql支持Hive, ...
IDEA 中Spark SQL通过JDBC连接mysql数据库
一.IDEA装驱动: 1.下载一个MySQL的JDBC驱动:mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudl ...
spark SQL （四）数据源 Data Source----Parquet 文件的读取与加载
spark SQL Parquet 文件的读取与加载是由许多其他数据处理系统支持的柱状格式.Spark SQL支持阅读和编写自动保留原始数据模式的Parquet文件.在编写Parquet文件时,出于 ...
load、save方法、spark sql的几种数据源
load.save方法的用法 DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.pa ...
4. Spark SQL数据源
4.1 通用加载/保存方法 4.1.1手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作.一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表.把DataF ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...

随机推荐

[一个经典的多线程同步问题]解决方案一：关键段CS
前面提出了一个经典的多线程同步互斥问题,本篇将用关键段CRITICAL_SECTION来尝试解决这个问题. 本文先介绍如何使用关键段,然后再深层次的分析下关键段的实现机制和原理. 关键段CRITICA ...
JQuery中回车键登陆
//点击回车键 //王东升/2015/3/11 document.onkeydown = function (event) { var e = event ? event : (window.even ...
[置顶] 老孟 DB2 V9.7 ESE（一）产品部署基于centOS 6.4
本文安装系统CENTOS 6.4 DB2位数64 安装中涉及目录位置各位可自行定义生产系统为安全和性能考虑,一般将DB2实例目录.日志目录.归档日志目录.表空间目录区分开,可建立/db2home / ...
理解Ajax
1.优化原则优化的目的是希望降低程序的整体开销.虽然在程序中有许多因素可以优化,但是通常人们会认为这个开销就是程序的执行时间.其实我们更应该把重点放在对程序整体开销最大的那部分. 2.一切都是权 ...
模拟JQUERY的延迟方法绑定
模拟JQUERY的延迟方法绑定, 对于延迟方法绑定,各种语言都有不同的描述什么回调啊,函数指针啊,委托啊,事件啊等,其实也就是那么大回事,不过用好这些特性,对于扩展和架构是非常有好处的, 好处自然就 ...
A Byte of Python 笔记（9）面向对象编程
第11章面向对象编程面向过程:根据操作数据的函数或语句块来设计程序. 面向对象(OOP, object-oriented programming):把数据和功能结合起来,用对象包裹组织程序. 类 ...
文件上传 PHP
参考http://www.w3school.com.cn/php/php_file_upload.asp 文件上传实际上是一个文件复制的过程当我们选中一个文件之后 php默认的tmp文件夹中就有 ...
android application 的使用
参考http://oyeal.iteye.com/blog/941183 由于intent能够传送的对象类型非常有限因此有些很多类都要用到的变量我们放在Application中很像web中的s ...
PHP面试题汇总参考
PHP面试题汇总这是一份比较全面的PHP面试题.对准备去新公司应聘PHP职位的开发者应该有帮助.或者说,对招聘PHP开发人员的企业也有些帮助,不过就不要原样打印出来考了,稍微改一改. 简述题(50分 ...
Decorator Pattern(装饰模式)
装饰模式:动态的给一个对象添加一些额外的职责.当然我们也可以通过继承来实现类似的功能,但是随着子类的增多,各种子类的组合会造成子类的急剧膨胀. Requirement: 假设客户有一个要求,需要打一个 ...

spark sql 以JDBC为数据源

spark sql 以JDBC为数据源的更多相关文章

随机推荐

热门专题