spark使用jdbc批次提交方式写入phoniex的工具类

一、需求:spark写入phoniex

二、实现方式

1.官网方式

 dataFrame.write

        .format("org.apache.phoenix.spark")

        .mode("overwrite")

        .option("table", table)

        .option("zkUrl", zkUrl)

        .option("skipNormalizingIdentifier", true)

        .save()

这个方式底层是使用MapReduce的RecordWriter实现类PhoenixRecordWriter通过jdbc方式写入

但是默认的batchsize是1000,所以插入速度极慢，但是官网没有说明写入的参数设置，需要去源码里面寻找一下

所以可以通过设置参数来提升速度

  .option(PhoenixConfigurationUtil.UPSERT_BATCH_SIZE,batch)

二、自己实现jdbc的通用方式（任何jdbc方式都可以写入）

代码：

object JdbcUtils {

  def jdbcBatchInsert(dataFrame: DataFrame, table: String, url: String, pro: Properties, batch: Int): Unit = {

    val fields: Array[String] = dataFrame.schema.fieldNames

    val schema: Array[StructField] = dataFrame.schema.toArray

    val numFields = fields.length

    val fieldsSql = fields.map(str => "\"".concat(str).concat("\"")).mkString("(", ",", ")")

    val charSql = fields.map(str => "?").mkString(",")

    val setters: Array[JDBCValueSetter] = schema.map(f => makeSetter(f.dataType))

    val insertSql = s"upsert into $table $fieldsSql values ($charSql) "

    System.err.println("插入sql:" + insertSql)

    val start = System.currentTimeMillis()

    dataFrame.rdd.foreachPartition(partition => {

      val connection = DriverManager.getConnection(url, pro)

      try {

        connection.setAutoCommit(false)

        val pstmt: PreparedStatement = connection.prepareStatement(insertSql)

        var count = 0

        var cnt = 0

        partition.foreach(row => {

          for (i <- 0 until numFields) {

            if (row.isNullAt(i)) {

              pstmt.setNull(i + 1, getJdbcType(schema(i).dataType))

            } else {

              setters(i).apply(pstmt, row, i)

            }

          }

          pstmt.addBatch()

          count += 1

          if (count % batch == 0) {

            pstmt.executeBatch()

            connection.commit()

            cnt += 1

            println(s"${TaskContext.get.partitionId}分区，提交第${cnt}次,${count}tiao")

          }

        })

        pstmt.executeBatch()

        connection.commit()

        println(s"第${TaskContext.get.partitionId}分区，共提交第${cnt},${count}条")

      } finally {

        connection.close()

      }

    })

    val end = System.currentTimeMillis()

    println(s"插入表$table,共花费时间${(end - start) / 1000}秒")

  }

  private type JDBCValueSetter = (PreparedStatement, Row, Int) => Unit

  /**

   * 类型匹配  如果有其他类型 自行添加

   *

   * @param dataType

   * @return

   */

  def makeSetter(dataType: DataType): JDBCValueSetter = dataType match {

    case IntegerType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        if (row.isNullAt(pos)) {

          stmt.setNull(pos + 1, java.sql.Types.INTEGER)

        } else {

          stmt.setInt(pos + 1, row.getInt(pos))

        }

    case LongType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setLong(pos + 1, row.getLong(pos))

    case DoubleType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setDouble(pos + 1, row.getDouble(pos))

    case FloatType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setFloat(pos + 1, row.getFloat(pos))

    case ShortType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setInt(pos + 1, row.getShort(pos))

    case ByteType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setInt(pos + 1, row.getByte(pos))

    case BooleanType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setBoolean(pos + 1, row.getBoolean(pos))

    case StringType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setString(pos + 1, row.getString(pos))

    case BinaryType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setBytes(pos + 1, row.getAs[Array[Byte]](pos))

    case TimestampType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setTimestamp(pos + 1, row.getAs[java.sql.Timestamp](pos))

    case DateType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setDate(pos + 1, row.getAs[java.sql.Date](pos))

    case t: DecimalType =>

      (stmt: PreparedStatement, row: Row, pos: Int) =>

        stmt.setBigDecimal(pos + 1, row.getDecimal(pos))

    /* case ArrayType(et, _) =>

       // remove type length parameters from end of type name

       val typeName = getJdbcType(et, dialect).databaseTypeDefinition

         .toLowerCase(Locale.ROOT).split("\\(")(0)

       (stmt: PreparedStatement, row: Row, pos: Int) =>

         val array = conn.createArrayOf(

           typeName,

           row.getSeq[AnyRef](pos).toArray)

         stmt.setArray(pos + 1, array)*/

    case _ =>

      (_: PreparedStatement, _: Row, pos: Int) =>

        throw new IllegalArgumentException(

          s"Can't translate non-null value for field $pos")

  }

  /**

   * sql类型匹配 如果有其他类型 自行添加

   *

   * @param dt

   * @return

   */

  private def getJdbcType(dt: DataType): Int = {

    dt match {

      case IntegerType => java.sql.Types.INTEGER

      case LongType => java.sql.Types.BIGINT

      case DoubleType => java.sql.Types.DOUBLE

      case StringType => java.sql.Types.VARCHAR

      case _ => java.sql.Types.VARCHAR

    }

  }

}

测试：

#config是个map集合要不要都可以

val connectionProperties = new Properties();

  connectionProperties.setProperty(QueryServices.MAX_MUTATION_SIZE_ATTRIB, config.getOrDefault("phoenix.mutate.maxSize", "500000")); //改变默认的500000

  connectionProperties.setProperty(QueryServices.MUTATE_BATCH_SIZE_BYTES_ATTRIB, config.getOrDefault("phoenix.mutate.batchSizeBytes", "1073741824000"))

 val batch = config.getOrDefault("phoenix.insert.batchSize", "50000").toInt

//调用插入方法

 JdbcUtils.jdbcBatchInsert(dataFrame, table, phoenixUrl, connectionProperties, batch);

spark使用jdbc批次提交方式写入phoniex的工具类的更多相关文章

Java中常用的加密方式(附多个工具类)
一.Java常用加密方式 Base64加密算法(编码方式) MD5加密(消息摘要算法,验证信息完整性) 对称加密算法非对称加密算法数字签名算法数字证书二.分类按加密算法是否需要key被分为两类 ...
【JDBC】学习路径5-提取JDBCUtils工具类
回顾我们上面几节的内容,我们发现重复代码非常多,比如注册驱动.连接.关闭close()等代码,非常繁杂. 于是我们将这些重复的大段代码进行包装.提取成JDBCUtils工具类. 第一章:提取注册连接模 ...
Spark jdbc postgresql数据库连接和写入操作源码解读
概述:Spark postgresql jdbc 数据库连接和写入操作源码解读,详细记录了SparkSQL对数据库的操作,通过java程序,在本地开发和运行.整体为,Spark建立数据库连接,读取数据 ...
Spark Standalone与Spark on YARN的几种提交方式
不多说,直接上干货! Spark Standalone的几种提交方式别忘了先启动spark集群!!! spark-shell用于调试,spark-submit用于生产. 1.spark-shell ...
Spark jdbc postgresql数据库连接和写入操作源代码解读
概述:Spark postgresql jdbc 数据库连接和写入操作源代码解读.具体记录了SparkSQL对数据库的操作,通过java程序.在本地开发和执行.总体为,Spark建立数据库连接,读取数 ...
spark之JDBC开发（实战）
一.概述 Spark Core.Spark-SQL与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#. ...
spark之JDBC开发（连接数据库测试）
spark之JDBC开发(连接数据库测试) 以下操作属于本地模式操作: 1.在Eclipse4.5中建立工程RDDToJDBC,并创建一个文件夹lib用于放置第三方驱动包 [hadoop@CloudD ...
Spark使用jdbc时的并行度
Spark SQL支持数据源使用JDBC从其他数据库读取数据. 与使用JdbcRDD相比,应优先使用此功能. 这是因为结果以DataFrame的形式返回,并且可以轻松地在Spark SQL中进行处理或 ...
各种数据库使用JDBC连接的方式
Java数据库连接(JDBC)由一组用 Java 编程语言编写的类和接口组成.JDBC 为工具/数据库开发人员提供了一个标准的 API,使他们能够用纯Java API 来编写数据库应用程序.然而各个开 ...
spark下使用submit提交任务后报jar包已存在错误
使用spark submit进行任务提交,离线跑数据,提交后的一段时间内可以application可以正常运行.过了一段时间后,就抛出以下错误: org.apache.spark.SparkExcep ...

随机推荐

[GPT] 神经网络模型方面的课程、神经网络模型与深度学习
现在有很多关于神经网络模型的课程.以下是一些比较受欢迎的神经网络模型课程: Stanford CS231n:卷积神经网络(CNNs)课程 Deep Learning Specialization: ...
[TP5] ThinkPHP 默认模块和单模块的设置方式
由于默认是采用多模块的支持,所以多个模块的情况下必须在URL地址中标识当前模块, 如果只有一个模块的话,可以进行模块绑定,方法是应用的入口文件中添加如下代码: // 绑定当前访问到index模块 de ...
[ML] Tensorflow2 保存完整模型以及使用 HDF5
将模型保存为完整的 HDF5 文件,后面可以直接加载使用: # cnblogs.com/farwish import tenforflow as tf model = tf.keras.models. ...
dotnet 6 通过 DOTNET_ROOT 让调起的应用的进程拿到共享的运行时文件夹
我的应用是独立发布的,在用户的设备上不需要额外去安装 .NET 运行时.但是我的应用有一个需求是下载另一个应用作为插件,由本应用调起插件进程.本文告诉大家如何解决调用插件的进程时,赋值给插件进程运行时 ...
2019-2-11-win10-uwp-安装文件-appinstaller-格式
title author date CreateTime categories win10 uwp 安装文件 appinstaller 格式 lindexi 2019-02-11 08:55:31 + ...
【2023微博签到爬虫】用python爬上千条m端微博签到数据
一.爬取目标大家好,我是 @马哥python说,一枚10年程序猿. 今天分享一期python爬虫案例,爬取目标是新浪微博的微博签到数据,字段包含: 页码,微博id,微博bid,微博作者,发布时间,微 ...
简说python之初连ORACLE数据库
目录 Python操作Oracle数据库 1.安装cx_Oracle模块 2.安装oracle客户端 3.python操作oracle示例 4.配置TNS 5.通过tns连接数据库的python 通过 ...
鸿蒙HarmonyOS实战-ArkUI事件（焦点事件）
前言焦点事件是指程序中的重要事件或关键点.焦点事件通常是程序的核心逻辑和功能,需要引起特殊的关注和处理. 在图形用户界面(GUI)编程中,焦点事件通常与用户交互和界面输入相关.例如,当用户点击按钮. ...
fastposter v2.8.4 发布电商海报生成器
fastposter v2.8.4 发布电商海报生成器 fastposter海报生成器,电商海报编辑器,电商海报设计器,fast快速生成海报海报制作海报开发.贰维海报,图片海报,分享海报贰维码推 ...
centos7实现多网卡多线路
移动线路IP:179.15.5.253 网卡配置内容: TYPE=Ethernet PROXY_METHOD=none BROWSER_ONLY=no BOOTPROTO=static DEFROUT ...

spark使用jdbc批次提交方式写入phoniex的工具类

spark使用jdbc批次提交方式写入phoniex的工具类的更多相关文章

随机推荐

热门专题