Spark- JdbcRDD以及注意事项

先上Demo

package com.rz.spark.base

import java.sql.DriverManager

import org.apache.spark.rdd.JdbcRDD

import org.apache.spark.{SparkConf, SparkContext}

object JdbcRDDDemo {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[2]")

    val sc = new SparkContext(conf)

    val getConn=()=>{

      DriverManager.getConnection("jdbc:mysql://localhost:3306/bigdata?characterEncoding=utf-8","root","root")

    }

    // 创建RDD，这个RDD会记录以后从MySQL中读取数据

    val jdbcRDD: JdbcRDD[(Int, String, Int)] = new JdbcRDD(sc,

      getConn,

      "select * from logs where id >= ? and id <= ?",

      ,

      ,

      , //分区数量

      rs => {

        val id = rs.getInt()

        val name = rs.getString()

        val age = rs.getInt()

        (id, name, age) //将数据库查询出来的数据集转成想要的数据格式

      }

    )

    val rs = jdbcRDD.collect()

    print(rs.toBuffer)

  }

}

返回查询结果正确

现象

修改查询的SQL，返回的数据量不对。

"select * from logs where id >= ? and id < ?"

原因

在触发Action的时候，Task在每个分区上的业务逻辑是相同的（id >= ? and id < ?"），只是读取的数据和处理的数据不一样。RDD根据数据量和分区数据，均匀地分配每个分区Task读取数据的范围。

分区1读取[1,2）的数据，分区2读取[3,5)的数据。

使用相同的逻辑分区1丢掉了id=2的数据，这是为什么，id >= 1 and id < 5"只返回3条数据的原因，如果只有一个分区的时候能够读取到正确的数据量。

解决办法

为了避免出现丢数据，读取数据时，区间两端都包含。id >= 1 and id < =5。

Spark- JdbcRDD以及注意事项的更多相关文章

Spark JdbcRDD 简单使用
package org.apache.spark.sql.sources import org.apache.spark.SparkContext import java.sql.{ResultSet ...
spark program guide
概述 Spark 应用由driver program 组成,driver program运行用户的主函数,在集群内并行执行各种操作主要抽象RDD: spark提供RDD,是贯穿整个集群中所有节点的分 ...
Spark + Mesos 注意事项
在使用spark-submit的过程中,需要注意 spark-defaults.conf Spark-defaults.conf的作用范围要搞清楚,编辑driver所在机器上的spark-defaul ...
Hadoop/Spark环境运行过程中可能遇到的问题或注意事项
1.集群启动的时候,从节点的datanode没有启动问题原因:从节点的tmp/data下的配置文件中的clusterID与主节点的tmp/data下的配置文件中的clusterID不一致,导致集群启 ...
某人视频中提到的 Spark Streaming 优化的几点事项
某人,并未提他的名字,是因为看的视频是1年前的,视频里他吹得厉害.我看视频时,查了一下他在视频里说的要做到的东西,结果上网一查,就看到了很多人说他骗了钱后,就不管交了学费的人了.真假无从查起.但是无风 ...
Spark SQL官方文档阅读--待完善
1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表. 编程入口:SQLContext 2,SQLContext由SparkContext对象创建也可创建一个功能更 ...
Spark译文(一)
Spark Overview(Spark概述) ·Apache Spark是一种快速通用的集群计算系统. ·它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎. ...
Spark 入门
Spark 入门目录一. 1. 2. 3. 二. 三. 1. 2. 3. (1) (2) (3) 4. 5. 四. 1. 2. 3. 4. 5. 五. Spark Shell使用 ...
Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...

随机推荐

Audit File Delete
OPEN 4656 ACCESS 4663 AN OBJECT WAS DELETED 4660 CLOSE 4658 1537 = Delete 1538 = Read_CONTROL 1541 ...
第20章—跨域访问（CORS）
spring boot 系列学习记录:http://www.cnblogs.com/jinxiaohang/p/8111057.html 码云源码地址:https://gitee.com/jinxia ...
DOM 综合练习(二)
// 需求一: 二级联动菜单 <html> <head> <style type="text/css"> select{ width:100px ...
Delphi日期设置为NULL
在某些情况下,需要将日期字段的值置空,这种操作比较麻烦.在操作的时候,可将变量的值(t:TDateTime)设置为0,在操作的过程中进行判断,当t的值为0或-1的时候,时间值为1899年的Delphi ...
原!操作 excel 03/07
参考所用jar包: poi-3.11.jar poi-ooxml-3.11.jar poi-ooxml-schemas-3.11.jar /* * Project: fusion-may-open- ...
Python基础教程-List和Tuple
List Python内置的一种数据类型是列表:list.list是一种有序的集合,可以随时添加和删除其中的元素. 比如: >>> classmates = ['Michael',' ...
Redis二（Hash操作）
Hash操作 Hash操作,redis中Hash在内存中的存储格式如下图: hset(name, key, value) 1 2 3 4 5 6 7 8 9 # name对应的hash中设置一个键值对 ...
分页和Cookie、Session
分页和Cookie.Session 分页自定义分页函数班 from django.shortcuts import render # Create your views here. data = ...
第一课Linux系统安装知识(2)
接着上节课单击Finish按钮之后,虚拟机将会启动进入安装界面. 根据提示按回车选择图形界面安装. 这里选择Skip跳过媒介检查. 选择安装语言为简体中文,键盘鼠标默认项即可. 这里安装类型选择是定制 ...
LeetCode：二叉树的后序遍历【145】
LeetCode:二叉树的后序遍历[145] 题目描述给定一个二叉树,返回它的后序遍历. 示例: 输入: [1,null,2,3] 1 \ 2 / 3 输出: [3,2,1] 进阶: 递归算法很 ...

Spark- JdbcRDD以及注意事项

现象

原因

解决办法

Spark- JdbcRDD以及注意事项的更多相关文章

随机推荐

热门专题