spark sql启动优化

./spark-sql --conf spark.driver.maxResultSize=8g --driver-memory 20g --conf spark.kryoserializer.buffer.max=1G --conf spark.kryoserializer.buer=64m

测试语句:

select h02.pvcode, h02.empi, h02.stay, h02.create_time,diag.name_diag,h02.remark chief, h05.remark present, h03.remark vital,lis.name_lis,pacs.name_pacs, treat.name_treat,
h06.remark past, h04.remark person, h07.remark family, h01.remark allergic
from emrdata_h02_parquet h02
left join emrdata_h05_parquet h05 on h02.pvcode = h05.pvcode
left join emrdata_h01_parquet h01 on h02.pvcode = h01.pvcode
left join emrdata_h03_parquet h03 on h02.pvcode = h03.pvcode
left join emrdata_h04_parquet h04 on h02.pvcode = h04.pvcode
left join emrdata_h06_parquet h06 on h02.pvcode = h06.pvcode
left join emrdata_h07_parquet h07 on h02.pvcode = h07.pvcode
left join (select pk_dcpv, concat_ws(',',collect_set(name_diag)) name_diag from diag_final group by pk_dcpv) diag on diag.pk_dcpv = h02.pvcode
left join (select pk_dcpv, concat_ws(',',collect_set(name_orditem)) name_lis from ord_lis group by pk_dcpv) lis on lis.pk_dcpv = h02.pvcode
left join (select pk_dcpv, concat_ws(',',collect_set(name_orditem)) name_pacs from ord_pacs group by pk_dcpv) pacs on pacs.pk_dcpv = h02.pvcode
left join (select pk_dcpv, concat_ws(',',collect_set(name_orditem)) name_treat from ord_treat group by pk_dcpv) treat on treat.pk_dcpv = h02.pvcode limit 5;

测试通过!!!!!

spark sql启动优化的更多相关文章

Spark SQL 性能优化再进一步：CBO 基于代价的优化
摘要: 本文将介绍 CBO,它充分考虑了数据本身的特点(如大小.分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan. Spark ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
spark结构化数据处理：Spark SQL、DataFrame和Dataset
本文讲解Spark的结构化数据处理,主要包括:Spark SQL.DataFrame.Dataset以及Spark SQL服务等相关内容.本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但 ...
Adaptive Execution如何让Spark SQL更高效更好用
1 背景 Spark SQL / Catalyst 和 CBO 的优化,从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性.但是执行计划一旦生成,便不可更改,即使执行过程中发 ...
Spark SQL | 目前Spark社区最活跃的组件之一
Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器.查询优化器等,制约了Spark各个组件之间的相互集成,因此S ...
自适应查询执行：在运行时提升Spark SQL执行性能
前言 Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO.但是在这些版本中,Spark SQL执行计划一旦确定就不会改变.由于缺乏或者不 ...
Spark SQL Catalyst源代码分析之TreeNode Library
/** Spark SQL源代码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心执行流程.SqlParser,和Analyzer,本来打算直接写Optimizer的,可是发 ...
第六篇：Spark SQL Catalyst源码分析之Physical Plan
/** Spark SQL源码分析系列文章*/ 前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程,以及Catalyst包内的SqlParser,Analyzer和Optim ...
第四篇：Spark SQL Catalyst源码分析之TreeNode Library
/** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程.SqlParser,和Analyzer,本来打算直接写Optimizer的,但是发现 ...

随机推荐

打jar包在linux上执行
1.jar包插件 <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>ma ...
Scrapy框架1——简单使用
一.设置与编写打开cmd,选择好路径 1.创建项目scrapy startproject projectname d:\爬虫\11.scrapy>scrapy startproject tes ...
使用pyinstaller编译python文件
1.安装pyinstaller pip install pyinstaller 2.编译 pyinstaller yourprogram.py 具体操作 1.编译 d: cd python pyi ...
oracle随笔之提示“ORA-01002: 提取违反顺序”
如果存储过程中有插入语句并且没有写COMMIT的话在调试时会提示:“ORA-01002: 提取违反顺序”
Golang安装和配置
Golang安装和配置 Linux Golang 下载源码,解压. # /home/superpika为你的主目录 mkdir /home/superpika/go mkdir /home/super ...
dapper 参数不定时用这种方法动态参数
string where = null; var p = new DynamicParameters(); if (classId != null) { where = " and clas ...
CocoaPods - 发布自己的模块（公有库、私有库）
CocoaPods发布框架到远程公有库 1.编写代码~上传远程仓库 git init git add . git commit -m '提交到本地分支' //关联远程仓库 git remote add ...
stm32 SD卡
容量等级 SD容量有8MB.16MB.32MB.64MB.128MB.256MB.512MB.1GB.2GB SDHC容量有2GB .4GB.8GB.16GB.32GB SDXC容量有32GB.48G ...
大学毕业时成都SAP和深圳腾讯的Offer，我是怎么选择的
2006年校园招聘,我拿到了SAP成都研究院和深圳腾讯的offer,而我最后选择了前者. 当时我主要是基于以下四点考虑. SAP成都有最优秀的人才 2006年SAP成都研究院刚刚成立,对人才的挑选非常 ...
【robotframework】robotframework环境搭建
一.基于python3.6环境在dos命令输入 pip install robotframework 在线安装robotframework在dos命令输入 pip install Pypubsub= ...

spark sql启动优化

spark sql启动优化的更多相关文章

随机推荐

热门专题