概述：Spark postgresql jdbc 数据库连接和写入操作源码解读，详细记录了SparkSQL对数据库的操作，通过java程序，在本地开发和运行。整体为，Spark建立数据库连接，读取数据，将DataFrame数据写入另一个数据库表中。附带完整项目源码(完整项目源码github)。

1.首先在postgreSQL中创建一张测试表，并插入数据。（完整项目源码Github）

1.1. 在postgreSQL中的postgres用户下，创建 `products`

CREATE TABLE products (

    product_no integer,

    name text,

    price numeric

);

1.2. 在 `products` 插入数据

INSERT INTO products (product_no, name, price) VALUES

    (1, 'Cheese', 9.99),

    (2, 'Bread', 1.99),

    (3, 'Milk', 2.99);

查看数据库写入结果。

2.编写SPARK程序。（完整项目源码Github）

2.1.读取Postgresql某一张表的数据为DataFrame（完整项目源码Github）

SparkPostgresqlJdbc.java

Properties connectionProperties = new Properties();

//增加数据库的用户名(user)密码(password),指定postgresql驱动(driver)

connectionProperties.put("user","postgres");

connectionProperties.put("password","123456");

connectionProperties.put("driver","org.postgresql.Driver");

//SparkJdbc读取Postgresql的products表内容

Dataset<Row> jdbcDF = spark.read()

        .jdbc("jdbc:postgresql://localhost:5432/postgres","products",connectionProperties).select("name","price");

//显示jdbcDF数据内容

jdbcDF.show();

2.2.写入Postgresql某张表中

//将jdbcDF数据新建并写入newproducts,append模式是连接模式，默认的是"error"模式。

jdbcDF.write().mode("append")

        .jdbc("jdbc:postgresql://localhost:5432/postgres","newproducts",connectionProperties);

3.运行程序，并查看结果（如果在IDEA中开发不熟练，可以看我另一篇博文spark (java API) 在Intellij IDEA中开发并运行）。

3.1.直接在intellij IDEA（社区版）中运行。

a.在运行按钮的“Edit Configeration”中的VM option中添加“-Dspark.master=local”

3.2.在终端(Terminal)中运行。

/opt/spark-2.1.0-bin-hadoop2.7/bin/spark-submit \

  --class "SparkPostgresqlJdbc" \

  --master local[4] \

  --driver-class-path /home/xiaolei/.m2/repository/org/postgresql/postgresql/9.4.1212/postgresql-9.4.1212.jar \

  target/SparkPostgresqlJdbc-1.0-SNAPSHOT.jar

其中 --driver-class-path 指定下载的postgresql JDBC数据

库驱动路径，命令执行要在项目的根目录中（/home/xiaolei/Data/GS/Spark/SparkPostgresqlJdbc）。

查看Spark写入数据库中的数据

4.以下为项目中主要源码（完整项目源码Github）:

4.1.项目配置源码`pom.xml`

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>wangxiaolei</groupId>

    <artifactId>SparkPostgresqlJdbc</artifactId>

    <version>1.0-SNAPSHOT</version>

    <dependencies>

        <dependency> <!-- Spark dependency -->

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.1.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>2.1.0</version>

        </dependency>

        <dependency>

            <groupId>org.postgresql</groupId>

            <artifactId>postgresql</artifactId>

            <version>9.4.1212</version>

        </dependency>

    </dependencies>

</project>

4.2.java源码`SparkPostgresqlJdbc.java`

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

import java.util.Properties;

/**

 * MIT.

 * Author: wangxiaolei(王小雷).

 * Date:17-2-9.

 * Project:SparkPostgresqlJdbc.

 */

public class SparkPostgresqlJdbc {

    public static void main (String[] args) {

        SparkSession spark = SparkSession

                .builder()

                .appName("SparkPostgresqlJdbc")

                .config("spark.some.config.option","some-value")

                .getOrCreate();

    //启动runSparkPostgresqlJdbc程序

        runSparkPostgresqlJdbc(spark);

        spark.stop();

    }

    private static void runSparkPostgresqlJdbc(SparkSession spark){

        //new一个属性

        System.out.println("确保数据库已经开启，并创建了products表和插入了数据");

        Properties connectionProperties = new Properties();

        //增加数据库的用户名(user)密码(password),指定postgresql驱动(driver)

        System.out.println("增加数据库的用户名(user)密码(password),指定postgresql驱动(driver)");

        connectionProperties.put("user","postgres");

        connectionProperties.put("password","123456");

        connectionProperties.put("driver","org.postgresql.Driver");

        //SparkJdbc读取Postgresql的products表内容

        System.out.println("SparkJdbc读取Postgresql的products表内容");

        Dataset<Row> jdbcDF = spark.read()

                .jdbc("jdbc:postgresql://localhost:5432/postgres","products",connectionProperties).select("name","price");

        //显示jdbcDF数据内容

        jdbcDF.show();

        //将jdbcDF数据新建并写入newproducts,append模式是连接模式，默认的是"error"模式。

        jdbcDF.write().mode("append")

                .jdbc("jdbc:postgresql://localhost:5432/postgres","newproducts",connectionProperties);

    }

}

（完整项目源码Github）

Spark jdbc postgresql数据库连接和写入操作源码解读的更多相关文章

Spark jdbc postgresql数据库连接和写入操作源代码解读
概述:Spark postgresql jdbc 数据库连接和写入操作源代码解读.具体记录了SparkSQL对数据库的操作,通过java程序.在本地开发和执行.总体为,Spark建立数据库连接,读取数 ...
Spark（十五）SparkCore的源码解读
一.启动脚本分析独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上:slaves由一台至多台主机构成 ...
Spark Streaming源码解读之流数据不断接收和全生命周期彻底研究和思考
本节的主要内容: 一.数据接受架构和设计模式二.接受数据的源码解读 Spark Streaming不断持续的接收数据,具有Receiver的Spark 应用程序的考虑. Receiver和Drive ...
Spark Streaming源码解读之Receiver生成全生命周期彻底研究和思考
本期内容 : Receiver启动的方式设想 Receiver启动源码彻底分析多个输入源输入启动,Receiver启动失败,只要我们的集群存在就希望Receiver启动成功,运行过程中基于每个Tea ...
Java文件操作源码大全
Java文件操作源码大全 1.创建文件夹 52.创建文件 53.删除文件 54.删除文件夹 65.删除一个文件下夹所有的文件夹 76.清空文件夹 87.读取文件 88.写入文件 99.写入随机文件 9 ...
【原】Spark不同运行模式下资源分配源码解读
版权声明:本文为原创文章,未经允许不得转载. 复习内容: Spark中Task的提交源码解读 http://www.cnblogs.com/yourarebest/p/5423906.html Sch ...
ElasticSearch Index操作源码分析
ElasticSearch Index操作源码分析本文记录ElasticSearch创建索引执行源码流程.从执行流程角度看一下创建索引会涉及到哪些服务(比如AllocationService.Mas ...
Scala 深入浅出实战经典第41讲：List继承体系实现内幕和方法操作源码揭秘
Scala 深入浅出实战经典第41讲:List继承体系实现内幕和方法操作源码揭秘 package com.parllay.scala.dataset /** * Created by richard ...
【原】Spark中Job的提交源码解读
版权声明:本文为原创文章,未经允许不得转载. Spark程序程序job的运行是通过actions算子触发的,每一个action算子其实是一个runJob方法的运行,详见文章 SparkContex源码 ...

随机推荐

利用nodejs安装并运行express的三个坑
概述这是我安装并运行express的三个坑,应该是比较常见的,在此记录一下. 内容 express不是内部或外部命令输入命令:express -V 报错:'express' 不是内部或外部命令,也 ...
分布式任务调度系统xxl-job源码探究（二、服务中心）
接下来看下服务端代码服务端源码服务端通过管理quartz定时任务组件,分发任务先从入口看起,由web.xml进入,可以看出,自己编写的代码从applicationcontext-xxl-job- ...
Spring MVC 后端获取前端提交的json格式字符串并直接转换成control方法对应的参数对象
场景: 在web应用开发中,spring mvc凭借出现的性能和良好的可扩展性,导致使用日渐增多,成为事实标准,在日常的开发过程中,有一个很常见的场景:即前端通过ajax提交方式,提交参数为一个jso ...
移动端h5页面的那些坑
最近一直在写移动端页面,由于之前写移动端写的比较少,所以此次踩过许多坑.特此总结一下: 1.<input type='button'>背景色在ios中的兼容性,颜色发白解决办法:在全局样 ...
排名前 16 的 Java 工具类
在Java中,工具类定义了一组公共方法,这篇文章将介绍Java中使用最频繁及最通用的Java工具类.以下工具类.方法按使用流行度排名,参考数据来源于Github上随机选取的5万个开源项目源码. 一. ...
Liferay7 BPM门户开发之19: 理解Service Builder体系
Service Builder是Liferay为业务开发而设计的模型驱动(model-driven)平台工具,提供一系列的实体类.数据持久化.服务相关的代码自动生成服务.支持Hibernate and ...
Mysql数据库操作命令行小结
-- 创建数据库 create database python_test_1 charset=utf8; -- 使用数据库 use python_test_1; -- students表 create ...
Django内置权限扩展案例
当Django的内置权限无法满足需求的时候就自己扩展吧~ 背景介绍 overmind项目使用了Django内置的权限系统,Django内置权限系统基于model层做控制,新的model创建后会默认新建 ...
Spring Boot + Spring Cloud 实现权限管理系统后端篇（十六）：容器部署项目
容器部署项目这一章我们引入docker,采用docker容器的方式部署我们的项目. 首先需要有一个linux环境,并且安装 java 和 maven 以及 docker 环境,这个教程多如牛毛,不再 ...
Spring Security使用报错 No bean named 'springSecurityFilterChain' is defined
今天配置spring security时,运行报出No bean named 'springSecurityFilterChain' is defined错误,报错信息如下严重: Exception ...

Spark jdbc postgresql数据库连接和写入操作源码解读