Spark SQL概念学习系列之性能调优

【Spark SQL概念学习系列之性能调优】的更多相关文章

Spark SQL概念学习系列之性能调优

不多说,直接上干货! 性能调优 Caching Data In Memory Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache(),将表用一种柱状格式( an inmemory columnar format)缓存至内存中.然后Spark SQL在执行查询任务时,只需扫描必需的列,从而以减少扫描数据量.提高性能. 通过缓存数据,Spark SQL还可以自动调节压缩,从而达到最小化内存使用率和降低GC…

Spark数据本地化-->如何达到性能调优的目的

Spark数据本地化-->如何达到性能调优的目的 1.Spark数据的本地化:移动计算,而不是移动数据 2.Spark中的数据本地化级别: TaskSetManager 的 Locality Levels 分为以下五个级别: PROCESS_LOCAL NODE_LOCAL NO_PREF RACK_LOCAL ANY PROCESS_LOCAL 进程本地化:task要计算的数据在同一个Executor中 NODE_LOCAL 节点本地化:速度比 PR…

Spark SQL概念学习系列之Spark SQL概述

很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark SQL编程 04 分布式SQL引擎 05 用户自定义函数 06 性能调优 Spark SQL概述 Spark SQL是什么? Spark SQL is a Spark module for structured data processing 特别注意:.3.0 及后续版本中,SchemaRD…

SQL Server 列存储性能调优(翻译)

原文地址:http://social.technet.microsoft.com/wiki/contents/articles/4995.sql-server-columnstore-performance-tuning.aspx SQL Server 的列存储索引是SQL Server 2012 release版本新增的内容,用于提高数据仓库的查询性能,本篇文章阐述列存储的性能调优. 列存储索引性能的基本原则在相同的硬盘和数据量时,列存储能够明显提高部分查询的速度.致使列存储查询效率高的因素…

Spark（十二）--性能调优篇

一段程序只能完成功能是没有用的,只能能够稳定.高效率地运行才是生成环境所需要的. 本篇记录了Spark各个角度的调优技巧,以备不时之需. 一.配置参数的方式和观察性能的方式额...从最基本的开始讲,可能一些刚接触Spark的人不是很清楚Spark的一些参数变量到底要配置在哪里. 可以通过三种方式配置参数,任选其一皆可. spark-env.sh文件中配置:最近常使用的配置方式,格式可以参考其中的一些官方保留的配置. 程序中通过SparkConf配置:通过SparkConf对象set方法设置键值…

Spark SQL概念学习系列之Spark SQL入门

前言第1章为什么Spark SQL? 第2章 Spark SQL运行架构第3章 Spark SQL组件之解析第4章深入了解Spark SQL运行计划第5章测试环境之搭建第6章 Spark SQL之基础应用第7章 ThriftServer和CLI 第8章 Spark SQL之综合应用第9章 Spark SQL之调优第10章总结 Spark SQL中的两个重要概念Tree和Rule.然后介绍一下Spark SQL的两个分支sqlContext和hiveContext…

Spark SQL概念学习系列之Spark SQL入门（八）

前言第1章为什么Spark SQL? 第2章 Spark SQL运行架构第3章 Spark SQL组件之解析第4章深入了解Spark SQL运行计划第5章测试环境之搭建第6章 Spark SQL之基础应用第7章 ThriftServer和CLI 第8章 Spark SQL之综合应用第9章 Spark SQL之调优第10章总结 Spark SQL中的两个重要概念Tree和Rule.然后介绍一下Spark SQL的两个分支sqlContext和hiveContext…

Spark SQL概念学习系列之Spark SQL基本原理

Spark SQL基本原理 1.Spark SQL模块划分 2.Spark SQL架构--catalyst设计图 3.Spark SQL运行架构 4.Hive兼容性 1.Spark SQL模块划分 Spark SQL模块划分为Core.caralyst.hive和hive- ThriftServer四大模块. Spark SQL依然是读取数据进去,然后你可以执行sql操作,然后你还可以执行其他的结构化操作,不光仅仅是只能sql操作哈!这一点,很多人都没理解到位. 也有数据的输入和输出的工作. 比…

Spark SQL概念学习系列之SQL on Spark的简介（三）

AMPLab 将大数据分析负载分为三大类型:批量数据处理.交互式查询.实时流处理.而其中很重要的一环便是交互式查询. 大数据分析栈中需要满足用户 ad-hoc.reporting. iterative 等类型的查询需求,也需要提供 SQL 接口来兼容原有数据库用户的使用习惯,同时也需要 SQL 能够进行关系模式的重组.完成这些重要的 SQL 任务的便是 Spark SQL 和 Shark 这两个开源分布式大数据查询引擎,它们可以理解为轻量级 Hive SQL 在 Spark 上的实现,业界将该类…

Spark SQL概念学习系列之Spark SQL的简介（一）

Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark. 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不维护一套Hive分支,而Spark SQL使用Catalyst做查询解析和优化器,并在底层使用Spark作为执行引擎实现SQL的Operator. 用户可以在Spark上直接书写SQL,相当于为Spark扩充了一套SQL算子,这无疑更加丰富了Spark的算子和功能,同时Spark SQL不断兼容不同…

Spark SQL概念学习系列之如何使用 Spark SQL（六）

val sqlContext = new org.apache.spark.sql.SQLContext(sc) // 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询 import sqlContext._ case class Person(name: String, age: Int) // 下面的 people 是含有 case 类型数据的 RDD,会默认由 Scala 的 implicit 机制将 RDD 转换为 SchemaRDD, SchemaRDD…

Spark SQL概念学习系列之Spark SQL 优化策略（五）

查询优化是传统数据库中最为重要的一环,这项技术在传统数据库中已经很成熟.除了查询优化, Spark SQL 在存储上也进行了优化,从以下几点查看 Spark SQL 的一些优化策略. (1)内存列式存储与内存缓存表 Spark SQL 可以通过 cacheTable 将数据存储转换为列式存储,同时将数据加载到内存进行缓存. cacheTable 相当于在分布式集群的内存物化视图,将数据进行缓存,这样迭代的或者交互式的查询不用再从 HDFS 读数据,直接从内存读取数据大大减少了 I/O…

Spark SQL概念学习系列之Spark SQL 架构分析（四）

Spark SQL 与传统 DBMS 的查询优化器 + 执行器的架构较为类似,只不过其执行器是在分布式环境中实现,并采用的 Spark 作为执行引擎. Spark SQL 的查询优化是Catalyst,其基于 Scala 语言开发,可以灵活利用 Scala 原生的语言特性很方便进行功能扩展,奠定了 Spark SQL 的发展空间. Catalyst 将 SQL 语言翻译成最终的执行计划,并在这个过程中进行查询优化.这里和传统不太一样的地方就在于, SQL 经过查询优化器最终转换为可执行的查询计划…

Spark SQL概念学习系列之为什么使用 Spark SQL？（二）

简单地说,Shark 的下一代技术是Spark SQL. 由于 Shark 底层依赖于 Hive,这个架构的优势是对传统 Hive 用户可以将 Shark 无缝集成进现有系统运行查询负载. 但是也看到一些问题:一方面,随着版本升级,查询优化器依赖于 Hive,不方便添加新的优化策略,需要进行另一套系统的学习和二次开发,学习成本很高. 另一方面, MapReduce是进程级并行,例如: Hive 在不同的进程空间会使用一些静态变量,当在同一进程空间进行多线程并行执行,多线程同时写同名称的静态变量…

Spark SQL概念学习系列之用户自定义函数

不多说,直接上干货! 用户自定义函数注册udf 我们可以使用Spark 支持的编程语言编写好函数,然后通过Spark SQL 内建的方法传递进来,非常便捷地注册我们自己的UDF 在Scala 和Python 中,可以利用语言原生的函数和lambda 语法的支持,而在Java 中,则需要扩展对应的UDF 类. 注册udf的功能已经移动到了sqlContext的udf对象上(Scala): sqlContext.udf.register("strLen", (s: String) =&g…

Spark SQL概念学习系列之分布式SQL引擎

不多说,直接上干货! parkSQL作为分布式查询引擎:两种方式除了在Spark程序里使用Spark SQL,我们也可以把Spark SQL当作一个分布式查询引擎来使用,有以下两种使用方式: 1.Thrift JDBC/ODBC服务 2.CLI SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务 Thrift JDBC/ODBC服务与Hive 1.2.1中的HiveServer2一致启动JDBC/ODBC服务: ./sbin/start-thriftserver.sh…

Spark SQL概念学习系列之DataFrame与RDD的区别

不多说,直接上干货! DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能.Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询. 图 DataFrame与RDD的区别从上面的图中可以看出DataFrame和RDD的区别. RDD是分布式的 Java对象的集合,比如,RDD[Person]是以Person为类型参数,但是,Person类的内部结构对于RDD而言却是不可知的. Data…

Go语言系列之性能调优

在计算机性能调试领域里,profiling 是指对应用程序的画像,画像就是应用程序使用 CPU 和内存的情况. Go语言是一个对性能特别看重的语言,因此语言中自带了 profiling 的库,这篇文章就要讲解怎么在 golang 中做 profiling. Go性能优化 Go语言项目中的性能优化主要有以下几个方面: CPU profile:报告程序的 CPU 使用情况,按照一定频率去采集应用程序在 CPU 和寄存器上面的数据 Memory Profile(Heap Profile):报告程序的内…