概述：Spark postgresql jdbc 数据库连接和写入操作源代码解读。具体记录了SparkSQL对数据库的操作，通过java程序。在本地开发和执行。总体为，Spark建立数据库连接，读取数据。将DataFrame数据写入还有一个数据库表中。附带完整项目源代码(完整项目源代码github)。

1.首先在postgreSQL中创建一张測试表，并插入数据。（完整项目源代码Github）

1.1. 在postgreSQL中的postgres用户下，创建 `products`

CREATE TABLE products (

    product_no integer,

    name text,

    price numeric

);

1.2. 在 `products` 插入数据

INSERT INTO products (product_no, name, price) VALUES

    (1, 'Cheese', 9.99),

    (2, 'Bread', 1.99),

    (3, 'Milk', 2.99);

查看数据库写入结果。

2.编写SPARK程序。（完整项目源代码Github）

2.1.读取Postgresql某一张表的数据为DataFrame（完整项目源代码Github）

SparkPostgresqlJdbc.java

Properties connectionProperties = new Properties();

//添加数据库的username(user)密码(password),指定postgresql驱动(driver)

connectionProperties.put("user","postgres");

connectionProperties.put("password","123456");

connectionProperties.put("driver","org.postgresql.Driver");

//SparkJdbc读取Postgresql的products表内容

Dataset<Row> jdbcDF = spark.read()

        .jdbc("jdbc:postgresql://localhost:5432/postgres","products",connectionProperties).select("name","price");

//显示jdbcDF数据内容

jdbcDF.show();

2.2.写入Postgresql某张表中

//将jdbcDF数据新建并写入newproducts,append模式是连接模式，默认的是"error"模式。

jdbcDF.write().mode("append")

        .jdbc("jdbc:postgresql://localhost:5432/postgres","newproducts",connectionProperties);

3.执行程序。并查看结果（假设在IDEA中开发不熟练。能够看我还有一篇博文spark (java API) 在Intellij IDEA中开发并执行）。

3.1.直接在intellij IDEA（社区版）中执行。

a.在执行button的“Edit Configeration”中的VM option中加入“-Dspark.master=local”

3.2.在终端(Terminal)中执行。

/opt/spark-2.1.0-bin-hadoop2.7/bin/spark-submit \

  --class "SparkPostgresqlJdbc" \

  --master local[4] \

  --driver-class-path /home/xiaolei/.m2/repository/org/postgresql/postgresql/9.4.1212/postgresql-9.4.1212.jar \

  target/SparkPostgresqlJdbc-1.0-SNAPSHOT.jar

当中 --driver-class-path 指定下载的postgresql JDBC数据

库驱动路径。命令执行要在项目的根文件夹中（/home/xiaolei/Data/GS/Spark/SparkPostgresqlJdbc）。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZHJlYW1fYW4=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="这里写图片描写叙述" title="">

查看Spark写入数据库中的数据

4.下面为项目中主要源代码（完整项目源代码Github）:

4.1.项目配置源代码`pom.xml`

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>wangxiaolei</groupId>

    <artifactId>SparkPostgresqlJdbc</artifactId>

    <version>1.0-SNAPSHOT</version>

    <dependencies>

        <dependency> <!-- Spark dependency -->

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.1.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>2.1.0</version>

        </dependency>

        <dependency>

            <groupId>org.postgresql</groupId>

            <artifactId>postgresql</artifactId>

            <version>9.4.1212</version>

        </dependency>

    </dependencies>

</project>

4.2.java源代码`SparkPostgresqlJdbc.java`

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

import java.util.Properties;

/**

 * MIT.

 * Author: wangxiaolei(王小雷).

 * Date:17-2-9.

 * Project:SparkPostgresqlJdbc.

 */

public class SparkPostgresqlJdbc {

    public static void main (String[] args) {

        SparkSession spark = SparkSession

                .builder()

                .appName("SparkPostgresqlJdbc")

                .config("spark.some.config.option","some-value")

                .getOrCreate();

    //启动runSparkPostgresqlJdbc程序

        runSparkPostgresqlJdbc(spark);

        spark.stop();

    }

    private static void runSparkPostgresqlJdbc(SparkSession spark){

        //new一个属性

        System.out.println("确保数据库已经开启，并创建了products表和插入了数据");

        Properties connectionProperties = new Properties();

        //添加数据库的username(user)密码(password),指定postgresql驱动(driver)

        System.out.println("添加数据库的username(user)密码(password),指定postgresql驱动(driver)");

        connectionProperties.put("user","postgres");

        connectionProperties.put("password","123456");

        connectionProperties.put("driver","org.postgresql.Driver");

        //SparkJdbc读取Postgresql的products表内容

        System.out.println("SparkJdbc读取Postgresql的products表内容");

        Dataset<Row> jdbcDF = spark.read()

                .jdbc("jdbc:postgresql://localhost:5432/postgres","products",connectionProperties).select("name","price");

        //显示jdbcDF数据内容

        jdbcDF.show();

        //将jdbcDF数据新建并写入newproducts,append模式是连接模式。默认的是"error"模式。

jdbcDF.write().mode("append")

                .jdbc("jdbc:postgresql://localhost:5432/postgres","newproducts",connectionProperties);

    }

}

（完整项目源代码Github）

Spark jdbc postgresql数据库连接和写入操作源代码解读的更多相关文章

Spark jdbc postgresql数据库连接和写入操作源码解读
概述:Spark postgresql jdbc 数据库连接和写入操作源码解读,详细记录了SparkSQL对数据库的操作,通过java程序,在本地开发和运行.整体为,Spark建立数据库连接,读取数据 ...
JDBC(1)-数据库连接和CRUD操作
关于jdbc的全部jar包链接:https://pan.baidu.com/s/1peofgu89SpepTTYuZuphNw 提取码:vd5v 一.获取数据库连接 1. Driver接口介绍 ja ...
testbench的设计文件读取和写入操作源代码
十大基本功之 testbench 1. 激励的产生对于 testbench 而言,端口应当和被测试的 module 一一对应.端口分为 input,output 和 inout 类型产生激励信号的时 ...
Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...
Java Web(九) JDBC及数据库连接池及DBCP，c3p0，dbutils的使用
DBCP.C3P0.DBUtils的jar包和配置文件(百度云盘):点我下载 JDBC JDBC(Java 数据库连接,Java Database Connectify)是标准的Java访问数据库的A ...
Spark JDBC系列--取数的四种方式
Spark JDBC系列--取数的四种方式一.单分区模式二.指定Long型column字段的分区模式三.高自由度的分区模式四.自定义option参数模式五.JDBC To Other Dat ...
Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例
场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作: Kafka发送过来的数据格式为:id.name.cityId,分隔符为tab zhangs ...
Spark Streaming、HDFS结合Spark JDBC External DataSouces处理案例
场景:使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作: 使用技术:Spark Streaming + Spark JDBC External Data ...
Java学习-015-CSV 文件写入实例源代码
在日常的自动化测试脚本编写的过程中,有时要将获取的测试结果或者测试数据存放在数据文件中,以用作后续的参数化测试.常用的文件文件类型无非 txt.csv.xls.properties.xml 这五种文件 ...

随机推荐

hdu1007 平面最近点对（暴力+双线程优化）
突发奇想,用双线程似乎可以优化一些暴力比如说平面最近点对这个题目,把点复制成2份一份按照x排序,一份按照y排序然后双线程暴力处理,一份处理x,一份处理y 如果数据利用x递减来卡,那么由于双线程, ...
Codeforces 498D Traffic Jams in the Land | 线段树
题目大意: 给坐标轴1~n的点,每个点有一个权值,从一个点走到下一个点需要1s,如果当前时间是权值的倍数就要多花1s 给出q组操作,C表示单点修改权值,A表示询问0时刻x出发到y的时间题解:因为权值 ...
HTTP协议中GET、POST和HEAD的介绍
HTTP协议中GET.POST和HEAD的介绍 GET: 请求指定的页面信息,并返回实体主体. HEAD: 只请求页面的首部. POST: 请求服务器接受所指定的文档作为对所标识的URI的新的从属实体 ...
css垂直居中的几种方式
1. 对于可以一行处理的设置 height:apx; line-height:apx; 2.对于一段文字(会多行显示的) ->2.1如果是可以设置一个固定高度的 ...
【leetcode】500. Keyboard Row
问题描述: Given a List of words, return the words that can be typed using letters of alphabet on only on ...
Centos7一键安装lnmp脚本
mkdir /root/softwarewget http://mirrors.sohu.com/mysql/MySQL-5.7/mysql-boost-5.7.18.tar.gzwget https ...
在线查看PDF文档
http://www.cnblogs.com/morang/p/4598894.html http://78re52.com1.z0.glb.clouddn.com/resource%2Fscenar ...
maven工程开始
clipse中,maven工程,更新pom.xml文件后,会让你更新工程.快捷键是Alt + F5,也可以右键工程,Maven-->update project...,这样有个问题就是默认的JR ...
CF986A Fair【图论/BFS】
[题意]: 有些公司将在Byteland举办公平的会议.Byteland的n个城镇,m条两镇之间的双向道路.当然,你可以使用道路从任一个城镇到达任何城镇. 有k种商品产自Byteland,并且每个城镇 ...
poj3254（状态压缩DP）
poj3254 题意给出一个01矩阵,1表示当前这个位置可以放牛,要求放牛的方案保证牛不能左右或上下相邻,求方案数. 分析 dp[S][i]: 表示到 i 行时的状态S(用二进制数表示),那么状态转 ...

Spark jdbc postgresql数据库连接和写入操作源代码解读