spark SQL 性能调整

对于某些工作负载，可以通过在内存中缓存数据或打开一些实验选项来提高性能。

1，在内存中缓存数据

Spark SQL可以通过调用spark.catalog.cacheTable("tableName")或使用内存中的列格式缓存表dataFrame.cache()。然后，Spark SQL将只扫描所需的列，并自动调整压缩以最大限度地减少内存使用和GC压力。你可以调用spark.catalog.uncacheTable("tableName")从内存中删除表。

内存中缓存的配置可以使用上面的setConf方法SparkSession或SET key=value使用SQL 运行命令来完成。

属性名称	默认	含义
spark.sql.inMemoryColumnarStorage.compressed	true	设置为true时，Spark SQL将根据数据的统计信息自动为每列选择压缩编解码器。
spark.sql.inMemoryColumnarStorage.batchSize	10000	控制列式高速缓存的批量大小。较大的批量大小可以提高内存利用率和压缩率，但是在缓存数据时会面临OOM风险。

2，其他配置选项

以下选项也可用于调整查询执行的性能。在将来的版本中，这些选项可能会被弃用，因为会自动执行更多的优化。

属性名称	默认	含义
spark.sql.files.maxPartitionBytes	134217728（128 MB）	读取文件时打包到单个分区的最大字节数。
spark.sql.files.openCostInBytes	4194304（4 MB）	可以同时扫描以字节数量度量的打开文件的估计成本。将多个文件放入分区时使用。最好是高估，那么小文件的分区会比大文件的分区快（这是首先安排的）。
spark.sql.broadcastTimeout	300	广播连接中的广播等待时间以秒为单位超时
spark.sql.autoBroadcastJoinThreshold	10485760（10 MB）	配置在执行连接时将广播到所有工作节点的表的最大大小（以字节为单位）。通过将此值设置为-1，可以禁用广播。请注意，目前只有ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan运行命令的Hive Metastore表才支持统计信息。
spark.sql.shuffle.partitions	200	配置混洗连接或聚合数据时要使用的分区数。

3, 分布式SQL引擎

Spark SQL也可以使用其JDBC / ODBC或命令行界面作为分布式查询引擎。在这种模式下，最终用户或应用程序可以直接与Spark SQL进行交互以运行SQL查询，而无需编写任何代码。

4, 运行Thrift JDBC / ODBC服务器

这里实现的Thrift JDBC / ODBC服务器对应HiveServer2 于Hive
1.2.1。您可以使用Spark或Hive 1.2.1附带的beeline脚本测试JDBC服务器。要启动JDBC / ODBC服务器，请在Spark目录中运行以下命令：

./sbin/start-thriftserver.sh

该脚本接受所有的bin/spark-submit命令行选项，还有一个--hiveconf选项来指定Hive属性。您可以运行./sbin/start-thriftserver.sh --help所有可用选项的完整列表。默认情况下，服务器侦听localhost：10000。你可以通过两个环境变量覆盖这个行为，即：

export HIVE_SERVER2_THRIFT_PORT=<listening-port>

export HIVE_SERVER2_THRIFT_BIND_HOST=<listening-host>

./sbin/start-thriftserver.sh \

  --master <master-uri> \

  ...

或系统属性：

./sbin/start-thriftserver.sh \

  --hiveconf hive.server2.thrift.port=<listening-port> \

  --hiveconf hive.server2.thrift.bind.host=<listening-host> \

  --master <master-uri>

  ...

现在，您可以使用直线来测试Thrift JDBC / ODBC服务器：

./bin/beeline

使用以下命令直接连接到JDBC / ODBC服务器：

beeline> !connect jdbc:hive2://localhost:10000

直线会问你一个用户名和密码。在非安全模式下，只需在您的机器上输入用户名和密码即可。对于安全模式，请按照直线文档中的说明进行操作。

hive 的结构是通过将您做hive-site.xml，core-site.xml和hdfs-site.xml文件conf/。

您也可以使用Hive附带的直线脚本。

Thrift JDBC服务器还支持通过HTTP传输发送节俭的RPC消息。使用以下设置启用HTTP模式作为系统属性或在hive-site.xml文件中conf/：

hive.server2.transport.mode - Set this to value: http

hive.server2.thrift.http.port - HTTP port number to listen on; default is 10001

hive.server2.http.endpoint - HTTP endpoint; default is cliservice

要测试，使用直线连接到HTTP模式下的JDBC / ODBC服务器：

beeline> !connect jdbc:hive2://<host>:<port>/<database>?hive.server2.transport.mode=http;hive.server2.thrift.http.path=<http_endpoint>

5, 运行Spark SQL CLI

Spark SQL CLI是一种方便的工具，可以在本地模式下运行Hive Metastore服务，并从命令行执行查询输入。请注意，Spark SQL CLI无法与Thrift JDBC服务器通信。

要启动Spark SQL CLI，请在Spark目录中运行以下命令：

./bin/spark-sql

hive的结构是通过将您做hive-site.xml，core-site.xml和hdfs-site.xml文件conf/。您可以运行./bin/spark-sql --help所有可用选项的完整列表。

spark SQL（六）性能调整的更多相关文章

oracle管理优化必备语句以及oracle SQL语句性能调整
本文转自http://www.dataguru.cn/article-3302-1.html oracle数据库管理优化必备语句: 1. SELECT T.START_TIME,T.USED_UBLK ...
自适应查询执行：在运行时提升Spark SQL执行性能
前言 Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO.但是在这些版本中,Spark SQL执行计划一旦确定就不会改变.由于缺乏或者不 ...
SQL语句性能调整原则
一.问题的提出在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实际应用后,随着数据库中数据的增加,系统 ...
spark sql 的性能调优
Caching Data in Memory 其他调优参数
Spark SQL概念学习系列之性能调优
不多说,直接上干货! 性能调优 Caching Data In Memory Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或 ...
Spark学习之Spark SQL
一.简介 Spark SQL 提供了以下三大功能. (1) Spark SQL 可以从各种结构化数据源(例如 JSON.Hive.Parquet 等)中读取数据. (2) Spark SQL 不仅支持 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL 之 Performance Tuning & Distributed SQL Engine
Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处:http://www.cnblogs.com/BYRans/ 缓 ...
Spark SQL原理及实战
一.Spark SQL的发展 1.spark SQL和shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当 ...
Oracle性能调整ASH,AWR,ADDM
ASH (Active Session History)ASH以V$SESSION为基础,每秒采样一次,记录活动会话等待的事件.不活动的会话不会采样,采样工作由新引入的后台进程MMNL来完成.ASH ...

随机推荐

如何使用容器镜像服务 TCR 轻松实现容器 DevOps
作者周明,腾讯云容器产品工程师.目前主要负责腾讯云TKE.TCR等产品控制台的相关研发工作. 概述当你使用云厂商提供的容器服务部署业务服务后,是否对交付部署全链路的效率有更高的需求,例如实现基于容器 ...
Head First 设计模式 —— 05. 单例模式
全局变量的缺点如果将对象赋值给一个全局变量,那么必须在程序一开始就创建好对象 P170 和 JVM 实现有关,有些 JVM 的实现是:在用到的时候才创建对象思考题 Choc-O-Holic 公司使 ...
地图开发笔记（一）：百度地图介绍、使用和Qt内嵌地图Demo
前言 Qt在地图方面的研发. 百度地图介绍百度的地图分为多个开发,都是在线的(离线的需要自己提取,本篇解说在线地图). 百度地图JavaScript API支持HTTP和HTTPS, ...
WPF DataGrid与ListView性能对比与场景选择
开门见山的说性能对比: 在Demo中,DataGrid与ListView默认开启虚拟化(可以理解为动态渲染,类似懒加载只渲染屏幕可以看见的地方) DataGrid渲染10列50行随机字符280ms ...
Both Dolby Atmos driver and API need to be installed问题的一个解决方法
问题的原因在于缺少以下两个部分: Dolby Atmos driver:指你的声卡驱动中自带的杜比文件如果驱动里没有,说明你的硬件可能不支持杜比,或者驱动太老没有包含杜比. Dolby Atmos ...
【SpringBoot1.x】SpringBoot1.x 安全
SpringBoot1.x 安全文章源码环境搭建 SpringSecurity 是针对 Spring 项目的安全框架,也是 SpringBoot 底层安全模块默认的技术选型.他可以实现强大的 we ...
MongoDB Sharding(一) -- 分片的概念
(一)分片的由来随着系统的业务量越来越大,业务系统往往会出现这样一些特点: 高吞吐量高并发超大规模的数据量高并发的业务可能会耗尽服务器的CPU,高吞吐量.超大规模的数据量也会带来内存.磁盘的压力 ...
【Linux】rsync 守护进程的配置
环境 centos7.2 1.首先查看是否安装rsync的相关包 rpm -qa | grep rsync rsync-3.1.2-4.el7.x86_64 如果没安装就yum install rsy ...
mount: /dev/sdxx already mounted or /xxxx busy解决方法
异常现象: 解决方法: 1. 輸入root的密碼,進入單用戶2. 重新掛載/目錄,使其變為可讀可寫 # mount –o rw,remount / 3. 修改/etc/fstab文件 ...
针对Linux系统主机，进入修复模式，解决开机报错问题
1.让主机重启,进入开机时的内核选择界面,按e进入编辑界面 2.找到linux16那一行,将光标移动到最前面,按下End键,到这一行的末尾,然后空格 rd.break console=tty0 3.第 ...

spark SQL（六）性能调整

spark SQL 性能调整

spark SQL（六）性能调整的更多相关文章

随机推荐

热门专题