SparkSql自定义数据源之读取的实现

一.sparksql读取数据源的过程

1.spark目前支持读取jdbc，hive,text,orc等类型的数据，如果要想支持hbase或者其他数据源，就必须自定义

2.读取过程

（1）sparksql进行 session.read.text()或者 session.read .format("text") .options(Map("a"->"b")).load("")

read.方法：创建DataFrameReader对象

format方法：赋值DataFrameReade数据源类型

options方法：赋值DataFrameReade额外的配置选项

进入 session.read.text()方法内，可以看到format为“text”

(2)进入load方法

load原来是：sparkSession.baseRelationToDataFrame这个方法最终创建dataframe

（3）进入DataSource的resolveRelation()方法

此段就是:providingClass这个类是哪一个接口的实现类,分为有shema与没有传入schema的两种

（3）providingClass是format传入的数据源类型，也就是前面的source

spark提供的所有数据源的map

4.得出结论只要写一个类,实现RelationProvider下面这个方法，在方法里面返回一个baserelation

def createRelation(sqlContext: SQLContext, parameters: Map[String, String]): BaseRelation

我们在实现baserelation里面的逻辑就可以了

5.看看spark读取jdbc类

需要一个类，实现xxxScan这中类，这种类有三种，全局扫描tableScan，PrunedFilteredScan(列裁剪与谓词下推)，PrunedScan ，

实现buildscan方法返回row类型rdd，结合baserelation有shcame这个变量，就凑成了dataframe

6.jdbcRdd.scanTable方法，得到RDD

7.查看jdbcRDD的compute方法，是通过jdbc查询sql的方式获取数据

RDD的计算是惰性的，一系列转换操作只有在遇到动作操作是才会去计算数据，而分区作为数据计算的基本单位。在计算链中，无论一个RDD有多么复杂，其最终都会调用内部的compute函数来计算一个分区的数据。

override def compute(thePart: Partition, context: TaskContext): Iterator[InternalRow] = {

    var closed = false

    var rs: ResultSet = null

    var stmt: PreparedStatement = null

    var conn: Connection = null

    def close() {

      if (closed) return

      try {

        if (null != rs) {

          rs.close()

        }

      } catch {

        case e: Exception => logWarning("Exception closing resultset", e)

      }

      try {

        if (null != stmt) {

          stmt.close()

        }

      } catch {

        case e: Exception => logWarning("Exception closing statement", e)

      }

      try {

        if (null != conn) {

          if (!conn.isClosed && !conn.getAutoCommit) {

            try {

              conn.commit()

            } catch {

              case NonFatal(e) => logWarning("Exception committing transaction", e)

            }

          }

          conn.close()

        }

        logInfo("closed connection")

      } catch {

        case e: Exception => logWarning("Exception closing connection", e)

      }

      closed = true

    }

    context.addTaskCompletionListener{ context => close() }

    val inputMetrics = context.taskMetrics().inputMetrics

    val part = thePart.asInstanceOf[JDBCPartition]

    conn = getConnection()

    val dialect = JdbcDialects.get(url)

    import scala.collection.JavaConverters._

    dialect.beforeFetch(conn, options.asProperties.asScala.toMap)

    // H2's JDBC driver does not support the setSchema() method.  We pass a

    // fully-qualified table name in the SELECT statement.  I don't know how to

    // talk about a table in a completely portable way.

//坐上每个分区的Filter条件

    val myWhereClause = getWhereClause(part)

  //最終查询sql语句

    val sqlText = s"SELECT $columnList FROM ${options.table} $myWhereClause"

//jdbc查询

    stmt = conn.prepareStatement(sqlText,

        ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY)

    stmt.setFetchSize(options.fetchSize)

    rs = stmt.executeQuery()

    val rowsIterator = JdbcUtils.resultSetToSparkInternalRows(rs, schema, inputMetrics)

//返回迭代器

    CompletionIterator[InternalRow, Iterator[InternalRow]](

      new InterruptibleIterator(context, rowsIterator), close())

  }

SparkSql自定义数据源之读取的实现的更多相关文章

JDBC 学习笔记（三）—— 数据源(数据库连接池)：DBCP数据源、C3P0 数据源以及自定义数据源技术
本文目录: 1.应用程序直接获取连接的缺点(图解) 2.使用数据库连接池优化程序性能(图解) 3.可扩展增强某个类方法的功能的三种方式 4.自定 ...
Pro自定义数据源原理
1. 概念 Connector:定义连接到一个数据源的连接信息,用于创建datastore. Datastore:代表一个数据源的实例,用于打开一个或多个tables或feature class. ...
入门大数据---SparkSQL外部数据源
一.简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景. CSV JSON Parquet ORC JD ...
FastReport自定义数据源及ListView控件的使用
##1.想批量生成一堆物资信息卡,效果如下图所示,fastreport可以一下全部生成,并且发现不用单独写东西, ##2.发现FastReport官方给出的Demo.exe很友好,基本可以满足要求,想 ...
C#读取Excel文件：通过OleDb连接，把excel文件作为数据源来读取
转载于:http://developer.51cto.com/art/200908/142392.htm C#读取Excel文件可以通过直接读取和OleDb连接,把excel文件作为数据源来读取: ...
Aspose.Word邮件合并之自定义数据源
Aspose.Word在进行邮件合并时,默认的几个重载方法对Database支持比较友好,但是也可以通过自定义数据源来实现从集合或者对象中返回数据进行邮件合并. 自定义数据源主要是通过实现IMailM ...
20. Spring Boot 默认、自定义数据源、配置多个数据源 jdbcTemplate操作DB
Spring-Boot-2.0.0-M1版本将默认的数据库连接池从tomcat jdbc pool改为了hikari,这里主要研究下hikari的默认配置 0. 创建Spring Boot项目,选中 ...
WinForm中使用CrystalReport水晶报表——基础，分组统计，自定义数据源
开篇本篇文章主要是帮助刚开始接触CrystalReport报表的新手提供一个循序渐进的教程.该教程主要分为三个部分1)CrystalReport的基本使用方法:2)使用CrystalReport对数 ...
如何在ASP.NET Core自定义中间件中读取Request.Body和Response.Body的内容？
原文:如何在ASP.NET Core自定义中间件中读取Request.Body和Response.Body的内容? 文章名称: 如何在ASP.NET Core自定义中间件读取Request.Body和 ...

随机推荐

缩减项目代码中的大面积if策略
参考设计模式 - 策略模式我们可以优化if-else代码段,而在Spring(Boot)中,借助ApplicationContext扫描,可以使代码更加干净. 话不多说,亮代码: 首先按照策略模式的写 ...
dataframe 检查缺失值
s = df.isnull().any() #返回series形式,可以用enumerate打印s #true代表有空值 null_index = [] for i,j in enumerate(s) ...
es6 数组新增方法
1.Array.from(): 这个函数的作用是将类似数组的对象转化为数组,比如DOM对象 let arrayLike = { "0":"TangSir&quo ...
题解-[SDOI2017]数字表格
题解-[SDOI2017]数字表格前置知识: 莫比乌斯反演</> [SDOI2017]数字表格 \(T\) 组测试数据,\(f_i\) 表示 \(\texttt{Fibonacci}\) ...
Feign使用注意事项
使用Feign时,为了不写重复代码,需要写feign公共接口方便调用,这时候需要注意以下问题,以发邮件为例定义公共接口 /** * @author liuyalong * @date 2020/10 ...
C++笔试题续
第一部分:C++与C语言的差异(1-18)1.C 和 C++ 中 struct 有什么区别? Protection行为能否定义函数C 无否,但可以有函数指针C++ 有可以,默认是public2. ...
DVWA各等级命令注入漏洞
漏洞描述在web程序中,因为业务功能需求要通过web前端传递参数到后台服务器上执行,由于开发人员没有对输入进行严格过滤,导致攻击者可以构造一些额外的"带有非法目的的"命令,欺骗后 ...
安全声明标记语言SAML2.0初探
目录简介 SAML的构成 SAML的优势 SAML是怎么工作的 SP redirect request; IdP POST response SP POST Request; IdP POST Re ...
精尽Spring MVC源码分析 - MultipartResolver 组件
该系列文档是本人在学习 Spring MVC 的源码过程中总结下来的,可能对读者不太友好,请结合我的源码注释 Spring MVC 源码分析 GitHub 地址进行阅读 Spring 版本:5.2. ...
02-Dockerfile的基本使用
1. FROM 作用:指定基础镜像使用:FROM 镜像名 demo: FROM mysql FROM mysql:5.6 2. RUN 作用:指令是用来执行命令行命令的使用: shell格式:RU ...

SparkSql自定义数据源之读取的实现

SparkSql自定义数据源之读取的实现的更多相关文章

随机推荐

热门专题