spark学习笔记3

Spark 支持在集群范围内将数据集缓存至每一个节点的内存中，可避免数据传输，当数据需要重复访问时这个特征非常有用，例如查询体积小的“热”数据集，或是运行如 PageRank 的迭代算法。调用 cache()，就可以将数据集进行缓存：

Spark SQL和 DataFrame可以用于处理结构化数据。

=====================================

请注意, 在 Spark 2.0 之前, Spark 的主要编程接口是弹性分布式数据集（RDD）。在 Spark 2.0 之后, RDD 被 Dataset 替换, RDD 接口仍然受支持, 您可以在 RDD 编程指南中获得更完整的参考。但是, 我们强烈建议您切换到使用 Dataset（数据集）, 其性能要更优于 RDD。请参阅 SQL 编程指南获取更多有关 Dataset 的信息。

http://spark.apachecn.org/docs/cn/2.2.0/sql-programming-guide.html

=============================================

首先从 Spark 官网下载 Spark 的发行包。因为我们将不使用 HDFS, 所以你可以下载一个任何 Hadoop 版本的软件包。

=============================================

参考资料：https://www.cnblogs.com/shishanyuan/p/6629295.html
Spark程序的性能和调优方面，从您的实践上来看，有哪些值得注意的？
回答：在不同的应用场景对Spark优化关注不同，自己谈一下个人的经验：
（1）资源调度：在实际部署的Spark集群资源调度一般分为粗粒度调度和细粒度调度两种模式。粗粒度包括了独立运行模式和Mesos粗粒度运行模式，在这种情况下整个机器作为分配单元执行作业，该模式优点是由于资源长期持有减少了资源调度的时间开销，缺点是该模式中无法感知资源使用的变化，易造成系统资源的闲置，从而造成了资源浪费。而细粒度包括了YARN运行模式和Mesos细粒度运行模式,该模式的优点是系统资源能够得到充分利用，缺点是该模式中每个任务都需要从管理器获取资源，调度延迟较大、开销较大。对于运行的作业工作量较大、集群共享程度低，建议使用粗粒度运行模式，而对于工作量比较均匀、集群共享程度高，则建议使用细粒度运行模式。
（2）作业调度：对于Spark的作业目前提供了两种调度策略：一种是FIFO模式，这也是目前默认的模式；另一种是FAIR模式，该模式的调度可以通过参数的配置来决定作业执行的优先模式。FIFO模式比较简单，但无法根据作业的优先级和权重进行分配，这种情况下对于调度算法也需要根据作业工作量和集群共享程度进行设置，一般认为工作量小或者集群共享程度低则建议使用FIFO模式，反之使用FAIR模式。
（3）Shuffle：尽可能避免Shuffle，如果不能避免则应该减少Shuffle数据的规模，比如在数据处理中包含宽依赖和窄依赖操作，可以通过窄依赖操作把数据规模减下来后再进行宽依赖的操作。另外在Spark中Shuffle分为基于哈希的Shuffle写操作和基于排序的Shuffle写操作，基于哈希的Shuffle写操作在Map和Reduce数量较大的情况会导致写文件数量大和缓存开销过大的问题，在Spark1.2版本开始默认为Shuffle写。
（4）序列化&压缩：业界公认大数据处理最大的瓶颈在于集群的IO。在Spark中，把数据处理过程中的数据存在内存中，减少磁盘的IO，极大提高处理速度。而对于在网络传输上建议采用高效的序列化和压缩算法，这样能够大幅度减少数据处理时间，比如可以使用Kryo序列化算法，在压缩算法LZ4提供了压缩速度和压缩比俱佳的性能。
（5）最后需要说的是如果条件允许，把Spark升级到2.0版本，在该版本中通过钨丝计划对Spark核心和Spark SQL进行底层优化，相比以前的版本有了较大幅度的提升。

==============Spark会把数据都载入到内存么？

https://www.jianshu.com/p/b70fe63a77a8

spark学习笔记3的更多相关文章

Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
Spark学习笔记-GraphX-1
Spark学习笔记-GraphX-1 标签: SparkGraphGraphX图计算 2014-09-29 13:04 2339人阅读评论(0) 收藏举报分类: Spark(8) 版权声明: ...
Spark学习笔记3——RDD（下）
目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...
Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受 ...
Spark学习笔记2——RDD（上）
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子创建 RDD 并行化方式读取外部数据集方式 RDD 操作转化操作行动操作惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...
Spark学习笔记——读写Hbase
1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作一个cell的值,取决于Row,Column family,Column Qualifier和Ti ...

随机推荐

I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系
一.视频传输原理视频是利用人眼视觉暂留的原理,通过播放一系列的图片,使人眼产生运动的感觉.单纯传输视频画面,视频量非常大,对现有的网络和存储来说是不可接受的.为了能够使视频便于传输和存储,人们发现视 ...
python3版本中的zip函数
例如,有两个列表: 1 2 >>>a = [1,2,3] >>>b = [4,5,6] 使用zip()函数来可以把列表合并,并创建一个元组对的列表. 1 2 > ...
python工具 - 从文件名读取特定信息到excel表格
情景:文件名中包含学号和用户名,其中用户名在前学好在后,学号为2位,如harry33.txt.natasha12.txt. 要求:将多个文件名中的用户名与学号分开并保存到excle中. 代码部分: i ...
tensorflow 笔记11：tf.nn.dropout（）的使用
tf.nn.dropout:函数官网说明: tf.nn.dropout( x, keep_prob, noise_shape=None, seed=None, name=None ) Defined ...
linux每日命令(3)：ln命令
ln是linux中又一个非常重要命令,它的功能是为某一个文件在另外一个位置建立一个同步的链接.当我们需要在不同的目录,用到相同的文件时,我们不需要在每一个需要的目录下都放一个必须相同的文件,我们只要在 ...
GPT（保护分区）解决办法
教你在硬盘被GPT保护分区后怎么格式化 GUID 分区表 (GPT) 作为可扩展固件接口 (EFI) 计划的一部分而引入.与 PC 以前通用的旧的主引导记录 (MBR) 分区方案相比,GPT 为磁盘 ...
Java知多少（46）try和catch的使用
尽管由Java运行时系统提供的默认异常处理程序对于调试是很有用的,但通常你希望自己处理异常.这样做有两个好处.第一,它允许你修正错误.第二,它防止程序自动终止.大多数用户对于在程序终止运行和在无论何时 ...
牛客网_Go语言相关练习_选择题（2）
注:题目来源均出自牛客网. 一.选择题 Map(集合)属于Go的内置类型,不需要引入其它库即可使用. Go-Map_菜鸟教程在函数声明中,返回的参数要么都有变量名,要么都没有. C选项函数声明语法有 ...
linux命令后加一个 &
默认情况下,进程是在前台运行的,这时就把shell给占据了,我们无法进行其它操作.对于那些没有交互的进程,很多时候,我们希望将其在后台启动,可以在启动参数的时候加一个'&'实现这个目的. ti ...
解决java.sql.SQLException: The server time zone value 'ÖÐ¹ú±ê×¼Ê±¼ä' is unrecognized or represents more than one time zone
使用spring boot整合MySQL时一直报 java.sql.SQLException: The server time zone value 'ÖÐ¹ú±ê×¼Ê±¼ä' is unrecog ...

spark学习笔记3

spark学习笔记3的更多相关文章

随机推荐

热门专题