spark遇到的问题及解决方法

1. 表中数据过亿，加载速度过慢，而我只需要加载增量数据

如：加载昨天一整天的数据，添加predicates分区，方法如下：

//predicates相当于是把昨天的数据分成一个区，其它的数据不加载

val predicates: Array[String] = Array(s"created_at >=\'" + getDateTime.getYesDate() + "\' and created_at <\'" + getDateTime.getNowDate() + "\'")

// 取得该表数据
val orderInfoDF :DataFrame = spark.read.jdbc(TiDBMysqlUrl, orderInfoTable, predicates, properties)

如果需要加载大表中全部数据，可以把数据分成多个区（读取数据库表默认是一个分区），如下是按创建时间分区，把最近三个月数据分成三个区

val predicates: Array[String] =

      Array(

        "2019-08-01" -> "2019-09-01",

        "2019-09-01" -> "2019-10-01",

        "2019-10-01" -> "2019-11-01"

      ).map {

        case (start, end) =>

          s"pay_status=1 and created_at >=\'$start\' and created_at <\'$end\'"

      }

// 取得该表数据

val orderInfoDF :DataFrame = spark.read.jdbc(TiDBMysqlUrl, orderInfoTable, predicates, properties)

2.每次到了最后一个stage,报内存不足错误

原因：

使用了coalesce重设Rdd的分区，可能是分区的数量发生激烈的变化，从父Rdd的几千个分区设置成几个，从而导致这个错误。

方法：

为了避免这个情况，可以设置shuffle=true，即为repartition()方法

有两种方法是可以重设Rdd的分区：分别是 coalesce()和repartition()方法，主要用来合并多个分区，以便生成少数文件

3.插入数据到Tidb里面，直接报超过最大限制条数

Caused by: java.sql.SQLException: statement count  exceeds the transact

解决方法：

可以通过修改tidb的配置，然后重启tidb,但由于运维工程师最大设置为50000，怕负载过高，只能通过批量插入到tidb里面；

由于我这边数据大概每天50万左右，大小不到10M，先是把结果储存在HDFS上，然后读取转换为dataframe格式，相当于分区=文件大小/128M(block块)，

则dataframe默认只有两个分区，需要通过repartition()进行重新分区，然后插入即可，如：

resDF.rdd.getNumPartitions查看该dataframe分成几个分区

resDF.repartition().write.mode("append").jdbc(TiDBConnect.url, tableName, prop)，分成11分区，保证平均每个分区小于50000即可

spark遇到的问题及解决方法的更多相关文章

Spark程序运行常见错误解决方法以及优化
转载自:http://bigdata.51cto.com/art/201704/536499.htm Spark程序运行常见错误解决方法以及优化 task倾斜原因比较多,网络io,cpu,mem都有可 ...
Spark java.lang.outofmemoryerror gc overhead limit exceeded 与 spark OOM:java heap space 解决方法
引用自:http://cache.baiducontent.com/c?m=9f65cb4a8c8507ed4fece7631046893b4c4380146d96864968d4e414c42246 ...
Spark面对OOM问题的解决方法及优化总结 (转载)
转载地址: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况 map执行中内存溢 ...
spark sql 访问hive数据时找不mysql的解决方法
我尝试着在classpath中加n入mysql的驱动仍不行解决方法:在启动的时候加入参数--driver-class中加入mysql 驱动 [hadoop@master spark-1.0.1-bi ...
大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法
前言在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误.我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了.因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题. 说明: ...
spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable
import org.elasticsearch.cluster.routing.Murmur3HashFunction; import org.elasticsearch.common.math.M ...
Spark OOM：java heap space，OOM:GC overhead limit exceeded解决方法
问题描述: 在使用spark过程中,有时会因为数据增大,而出现下面两种错误: java.lang.OutOfMemoryError: Java heap space java.lang.OutOfMe ...
sc.textFile("file:///home/spark/data.txt") Input path does not exist解决方法——submit 加参数 --master local 即可解决
use this val data = sc.textFile("/home/spark/data.txt") this should work and set master as ...
kafka broker Leader -1引起spark Streaming不能消费的故障解决方法
一.问题描述:Kafka生产集群中有一台机器cdh-003由于物理故障原因挂掉了,并且系统起不来了,使得线上的spark Streaming实时任务不能正常消费,重启实时任务都不行.查看kafka t ...

随机推荐

C++判断计算式是大端存储模式，还是小端存储模式
小端存储:数据的低字节存储在地址空间的低字节位,数据的高字节存储在地址空间的高字节位. 大端存储:数据的低字节存储在地址空间的高字节位,数据的高字节存储在地址空间的低字节位. 判断计算机是小端还是大端 ...
SQL Server表 & 存储过程创建日期查询
查询表创建时间 SELECT [name] ,create_date ,modify_date FROM sys.tables ORDER BY modify_date DESC 查下存储过程创建时间 ...
spark 调优（官方文档）
1.序列化对象在进行网络传输或进行持久化时需要进行序列化,如果采用序列化慢或者消耗大量字节的序列化格式,则会拖慢计算. spark 提供了两种序列化类库 1). Java serialization ...
第一周 coursera.org
机器学习:定义一.给予计算机能自我学习的能力而不是编程.定义二.对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习监督学习 ...
word 转 pfd
转自: https://www.cnblogs.com/qiwu1314/p/6101400.html demo: public class Doc2Pdf { public static boole ...
『LCA 树链剖分』
LCA Description 给出一个n个节点的有根树(编号为0到n-1,根节点为0).一个点的深度定义为这个节点到根的距离+1. 设dep[i]表示点i的深度,LCA(i,j)表示i与j的最近公 ...
每天固定备份db sqlserver
DECLARE @DBName varchar(255) DECLARE @DATABASES_Fetch int DECLARE DATABASES_CURSOR CURSOR FOR select ...
【LeetCode】48. Rotate Image
Difficulty:medium More:[目录]LeetCode Java实现 Description https://leetcode.com/problems/rotate-image/ ...
面试题 js重写原生函数（以push为例）
先说明一下为什么要写这个,因为最近在面试,面试的时候面试官问了这个问题,当时是真的没有答上来,回来之后自己考虑了一下,现在给大家分享要求如下: 重写js push函数,使其能够在push的同时打印出 ...
ASP.NET Core中app.UseDeveloperExceptionPage和app.UseExceptionHandler方法有什么用
在新建一个ASP.NET Core项目后,在项目Startup类的Configure方法中默认会添加两个方法的调用,app.UseDeveloperExceptionPage和app.UseExcep ...

spark遇到的问题及解决方法

spark遇到的问题及解决方法的更多相关文章

随机推荐

热门专题