[转] Spark-Sql On YARN自动调整Executor数配置

在所有的NodeManager中,修改yarn-site.xml,为yarn.nodemanager.aux-services添加spark_shuffle值,并设置yarn.nodemanager.aux-services.spark_shuffle.class值为org.apache.spark.network.yarn.YarnShuffleService,如下: <property> <name>yarn.nodemanager.aux-services</name&…

spark执行在yarn上executor内存不足异常ERROR YarnScheduler: Lost executor 542 on host-bigdata3: Container marked as failed: container_e40_1550646084627_1007653_01_000546 on host: host-bigdata3. Exit status: 143.

当spark跑在yarn上时单个executor执行时,数据量过大时会导致executor的memory不足而使得rdd 最后lost,最终导致任务执行失败其中会抛出如图异常信息如图中异常所示对应解决方法可以加上对应的参数调优(这个配置可以在总的处理数据量在几百TB或者1~3PB级别的数据处理时解决executor-memory不足问题) --num-executors=512 --executor-cores=8 --executor-memory=32g --driver-memo…

Spark SQL 读到的记录数与 hive 读到的不一致

问题:我用 sqoop 把 Mysql 中的数据导入到 hive,使用了--delete-target-dir --hive-import --hive-overwrite 等参数,执行了两次. mysql 中只有 20 条记录.在 hive shell 中,查询导入到的表的记录,得到结果 20 条,是对的. 然而在 spark-shell 中,使用 spark sql 得到的结果却是 40 条. 又执行了一次 sqoop 的导入,hive 中仍然查询到 20 条,而 spark shell 中…

Spark SQL如何选择join策略

前言众所周知,Catalyst Optimizer是Spark SQL的核心,它主要负责将SQL语句转换成最终的物理执行计划,在一定程度上决定了SQL执行的性能. Catalyst在由Optimized Logical Plan生成Physical Plan的过程中,会根据: abstract class SparkStrategies extends QueryPlanner[SparkPlan] 中的JoinSelection通过一些规则按照顺序进行模式匹配,从而确定join的最终执行策略…

Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解

梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数.Executor数.core数目的关系. 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block.当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件.随后将为这些输入分片生成具体的Task.Inp…

Spark中Task，Partition，RDD、节点数、Executor数、core数目（线程池）、mem数

Spark中Task,Partition,RDD.节点数.Executor数.core数目的关系和Application,Driver,Job,Task,Stage理解 from:https://blog.csdn.net/u013013024/article/details/72876427 有部分图和语句摘抄别的博客,有些理解是自己的梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数.Executor数.core…

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark SQL相关的知识,如果对Spark不熟的同学可以先看看之前总结的两篇文章: [原]Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令 [原]Learning Spark (Python版) 学习笔记(二)----键值对.数据读取与保存.共享特性 #####…

Spark SQL笔记——技术点汇总

目录概述原理组成执行流程性能 API 应用程序模板通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源数据库JDBC数据源 DataFrame Operation 性能调优缓存数据参数调优案例数据准备查询部门职工数查询各部门职工工资总数,并排序查询各部门职工考勤信息概述 Spark SQL是Spark的结构化数据处理模块. Spark SQL特点数据兼容:可从Hive表.外部数据库(JDBC).RDD.Parqu…

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Running SQL Queries Programmatically 全局临时视图创建Datasets RDD的互操作性使用反射推断Schema 以编程的方式指定Schema Aggregatio…

Spark SQL在100TB上的自适应执行实践（转载）

Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战.为了应对这些挑战,英特尔大数据技术团队和百度大数据基础架构部工程师在Spark 社区版本的基础上,改进并实现了自适应执行引擎.本文首先讨论Spark SQL在大规模数据集上遇到的挑战,然后介绍自适应执行的背景和基本架构,以及自适应执行如何应对Spark SQL这些问题,…

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets

Apache Kyuubi 助力 CDH 解锁 Spark SQL

Apache Kyuubi(Incubating)(下文简称Kyuubi)是⼀个构建在Spark SQL之上的企业级JDBC网关,兼容HiveServer2通信协议,提供高可用.多租户能力.Kyuubi 具有可扩展的架构设计,社区正在努力使其能够支持更多通信协议(如 RESTful. MySQL)和计算引擎(如Flink). Kyuubi的愿景是让大数据平民化.一个的典型使用场景是替换HiveServer2,帮助企业把HiveQL迁移到Spark SQL,轻松获得10~100倍性能提升(具体提升…

Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南

Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化.可以通过SQL.DataFrames API.Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理.用户可以根据自己喜好,在不同API中选择合适的进行处理.本章中所有用例均可以在spark-shell.pyspark shel…

Spark SQL 官方文档-中文翻译

Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 DataFrames 2.1 入口:SQLContext(Starting Point: SQLContext) 2.2 创建DataFrames(Creating DataFrames) 2.3 DataFrame操作(DataFrame Operations) 2.4 运行SQL查询程序(Running…

SparkSQL使用之Spark SQL CLI

Spark SQL CLI描述 Spark SQL CLI的引入使得在SparkSQL中通过hive metastore就可以直接对hive进行查询更加方便:当前版本中还不能使用Spark SQL CLI与ThriftServer进行交互. 使用Spark SQL CLI前需要注意: 1.将hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下: 2.需要在$SPARK_HOME/conf/spark-env.sh中的SPARK_CLASSPATH添加jdbc驱动的jar…

执行Spark运行在yarn上的命令报错 spark-shell --master yarn-client

1.执行Spark运行在yarn上的命令报错 spark-shell --master yarn-client,错误如下所示: // :: ERROR SparkContext: Error initializing SparkContext. org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application…

Spark SQL 性能优化再进一步：CBO 基于代价的优化

摘要: 本文将介绍 CBO,它充分考虑了数据本身的特点(如大小.分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan. Spark CBO 背景上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO,实现简单有效.它属于 LogicalPlan 的优化,所有优化均基于 LogicalPlan 本身的特点,未考虑数据本身的特点,也未考虑算子本身的代价. 本文将介绍 CBO,它充分考虑了数据本身的特点(如大小…

Spark SQL快速离线数据分析

拷贝hive-site.xml到spark的conf目录下面打开spark的conf目录下的hive-site.xml文件加上这段配置(我这里三个节点的spark都这样配置) 把hive中的mysql连接包放到spark中去检查spark-env.sh的hadoop配置项检查dfs是否启动了启动Mysql服务启动hive metastore服务启动hive 创建一个自己的数据库创建一个表 create table if not exists test(userid string,…

Spark SQL与Hive on Spark的比较

简要介绍了SparkSQL与Hive on Spark的区别与联系一.关于Spark 简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题. 架构 Spark的架构如下图所示,主要包含四大组件:Driver.Master.Worker和Executor. Spark特点 Spark可以部署在YARN上 Spark原生支持对HDFS文件系统的访问使用Scala语言编写部署模型单机模型:主要用来开发测试.特点:Driver.Mast…

Adaptive Execution如何让Spark SQL更高效更好用

1 背景 Spark SQL / Catalyst 和 CBO 的优化,从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性.但是执行计划一旦生成,便不可更改,即使执行过程中发现后续执行计划可以进一步优化,也只能按原计划执行: CBO 基于统计信息生成最优执行计划,需要提前生成统计信息,成本较大,且不适合数据更新频繁的场景: CBO 基于基础表的统计信息与操作对数据的影响推测中间结果的信息,只是估算,不够精确. 本文介绍的 Adaptive Execution 将可以根据…

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池

第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark SQL0.3.1 RDD.DataFrame 与 DataSet0.3.2 DataSet 与 RDD 互操作0.3.3 RDD.DataFrame 与 DataSet 之间的转换0.3.4 用户自定义聚合函数(UDAF)0.3.5 开窗函数0.4 Spark Streaming0.4.1 Dst…

自适应查询执行：在运行时提升Spark SQL执行性能

前言 Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO.但是在这些版本中,Spark SQL执行计划一旦确定就不会改变.由于缺乏或者不准确的数据统计信息(如行数.不同值的数量.NULL值.最大/最小值等)和对成本的错误估算导致生成的初始计划不理想,从而导致执行效率相对低下. 那么就引来一个思考:我们如何能够在运行时获取更多的执行信息,然后根据这些信息来动态调整并选择一个更优的执行计划呢? Spark SQL自适应执行优化引擎(Ad…

spark提交至yarn的的动态资源分配

1.为什么开启动态资源分配⽤户提交Spark应⽤到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor 个数,随后,ApplicationMaster会为这些executor申请资源,每个executor作为⼀个Container在 Yarn上运⾏.Spark调度器会把Task按照合适的策略分配到executor上执⾏.所有任务执⾏完后, executor被杀死,应⽤结束.在job运⾏的过程中,⽆论executor是否领取到任务,都会⼀直占有…

spark SQL（六）性能调整

spark SQL 性能调整对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能. 1,在内存中缓存数据 Spark SQL可以通过调用spark.catalog.cacheTable("tableName")或使用内存中的列格式缓存表dataFrame.cache().然后,Spark SQL将只扫描所需的列,并自动调整压缩以最大限度地减少内存使用和GC压力.你可以调用spark.catalog.uncacheTable("tableNam…

spark sql优化

1.内存优化 1.1.RDD RDD默认cache仅使用内存可以看到使用默认cache时,四个分区只在内存中缓存了3个分区,4.4G的数据使用kryo序列化+MEMORY_ONLY_SER 可以看到缓存了四个分区的全部数据,且只缓存了1445.8M 所以这两种缓存方式如何选择,官网建议也就是说集群资源足够使用默认cache,资源紧张使用kryo序列化+MEMORY_ONLY_SER 1.2.DataFrame与DataSet DataSet不使用Java和Kryo序列化,它使用特殊的编码器…

Hive on Spark和Spark sql on Hive，你能分的清楚么

摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql on Hive有啥区别?>,作者:dayu_dls . 结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序.Hive和SparkSQL都不负责计算.Hive的默认执行引擎是mr,还可以运行在Spark和Tez.Spark可以连接多种数据源,然后…

Spark SQL 之 Data Sources

#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFrame接口支持多种数据源的操作.一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表.把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询.Data Sources这部分首先描述了对Spark的数据源执行加载和保存的常用方法,然后对内置数据源进行深入介绍.…

Spark SQL 之 Migration Guide

Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼容(Compatibility with Apache Hive) Spark SQL与Hive Metastore.SerDes.UDFs相兼容.Spark SQL兼容Hive Metastore从0.12到1.2.1的所有版本.Spark SQL也与Hive SerDes和UDFs相兼容,当前S…

Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理

转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主要介绍Spark SQL JDBC方式操作Hive库时的身份认证和权限管理实现. ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据.ThriftServer在启动的时候,会启动了一个sparkSQL的应用程序…

Spark SQL External Data Sources JDBC官方实现读测试

在最新的master分支上官方提供了Spark JDBC外部数据源的实现,先尝为快. 通过spark-shell测试: import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc) import sqlContext._ val TBLS_JDBC_DDL = s""" |CREATE TEMPORARY TABLE spark_tbls |USING org.apache.spark.s…

【[转] Spark-Sql On YARN自动调整Executor数配置】的更多相关文章