Spark 常见问题集合

一、Spark 为什么比 MapReduce 要高效？

举一个例子：

select a.state,count(*),AVERAGE(c.price) from a join b on (a.id=b.id) join c on (a.itemId=c.itermId) group by a.state

如果是用 hive 来实现，那么多个此作业将会被转换成 3 个 job 每一个 job 有一个 map 和一个 reduce，reduce的结果会存储在 hdfs 上

1、hdfs 数据的存储是一个非常耗时的操作，因为存储是通过网络进行传输的，而且还会涉及到 namenode datanode client 之间的一个复杂的通信过程，hdfs 默认是存3份的；
2、每一个map reduce 的作业启动也是一个非常复杂的过程；

所以 map reduce 使用 hdfs 进行中间数据的交互和存储是其低效的重要原因；

而 hive on spark 也会智能的生成一个DAG，但是一个作业只会启动一次，但是中间数据可以根据作业自身的情况选择内存存储或者本地存储，节省了大量的IO操作，这大大的提高了效率。

二、Spark 的 RDD 的数据模型的特点：

RDD --- 弹性分布式数据集合

1、分布式：存在很多的节点上，每个节点上存储一点点，即由多个 partition 构成
2、弹性：多种存储级别，既可以存储在磁盘，亦可以存储在内存，或者一部分存储在磁盘，一部分存储在内存，由用户来决定；
3、RDD 可以转换，可以通过并行的方式进行转换；
4、RDD 具有容错性，失效后自动重构，根据血统的关系，找到其父亲RDD，根据计算关系进行重构。

三、RDD 的 Transformation 和 Action 的区别

1、Transformation 是把一个 RDD 转换成一个新的 RDD，RDD[x]->RDD[y]
2、Action 是把一个 RDD 转发成最终的一个结果，或者进行保存到 hdfs 或者磁盘 RDD->Z
3、Action 是一个触发器，程序只有遇到第一个Action 才会执行【惰性执行】

四、3 行代码实现 spark word count

val roWRdd = sc.textFile(args(1))

val resultRdd = rowRdd.flatMap(line=>line.split("\\s+")).map(word=>(word,1)).reduceByKey(_+_)

resultRdd.saveAsTextFile(args[2])

五、spark 的程序框架中 driver 和 executor的作用分别是什么？

每一个 spark 作业都也有 1 个 driver 和多个 executor 构成

main 函数会跑在 driver 上，executor 是具体干活的

六、spark 的运行模式，local、standalone，Yarn

通过 -- master 来指定

(1) 本地模式（单机运行，不需要hadoop），测试用的

(2) 独立模式（standalone，只能跑spark），是一种 spark 的集群，需要自己搭建 master/slave，一般不用

(3) 运行在 YARN/mesos

一般的中大型公司会把spark 运行在 yarn 上，yarn 又分 yarn-client 和 yarn-cluster 2 种

yarn-client 和 yarn-cluster 模式：

yarn-client 模式是 driver 运行在集群之外，优点是可以打印日志，方便调试，缺点是没有容错，如果本地的程序挂掉了，或者误杀死了，整个作业就挂掉了

yarn-cluster 模式是 driver 也有 yarn 的 nodemanager 来托管，优点是容错性较好，缺点是不便于调试

Spark 常见问题集合的更多相关文章

TPshop之邮箱注册配置教程--附加常见问题集合
准备:企业邮箱(开启POP/SMTP功能) 一.步骤教程: 1.登录企业邮箱(QQ邮箱示例) QQ邮箱 POP3:pop.qq.com SMTP:smtp.qq.com SMTP端口号:25 邮箱 ...
JMeter常见问题集合
前言本文内容仅仅是针对Jmeter的部分功能名词的介绍和解释,以及初学者不易理解的问题的整理.部分内容来自别人做的整理,为了更好地整理自己的思路,所以可耻的整理一下发到博客上. 标题[1-6]和[参 ...
spark转换集合为RDD
SparkContext可以通过parallelize把一个集合转换为RDD def main(args: Array[String]): Unit = { val conf = new SparkC ...
Spark:scala集合转化为DS/DF
scala集合转化为DS/DF case class TestPerson(name: String, age: Long, salary: Double) val tom = TestPerson( ...
【转】Spark常见问题汇总
原文地址:https://my.oschina.net/tearsky/blog/629201 摘要: 1.Operation category READ is not supported in st ...
Spark link集合
Part1. 各种参数的意义及如何配置 Spark官方文档——Spark Configuration(Spark配置) http://www.cnblogs.com/vincent-hv/p/3316 ...
六、spark常见问题总结（转载）
问题导读 1.当前集群的可用资源不能满足应用程序的需求,怎么解决? 2.内存里堆的东西太多了,有什么好办法吗? 1.WARN TaskSchedulerImpl: Initial jo ...
Spark常见问题汇总
原文地址:https://my.oschina.net/tearsky/blog/629201 摘要: 1.Operation category READ is not supported in st ...
redis-cluster 集群搭建详细指南及常见问题集合
只当个搬运工吧搭建篇:https://www.cnblogs.com/mafly/p/redis_cluster.html 测试能用常见问题: 1 redis操作key时出现以下错误 (erro ...

随机推荐

java子类对象和成员变量的隐写&方法重写
1.子类继承的方法只能操作子类继承和隐藏的成员变量名字类新定义的方法可以操作子类继承和子类新生命的成员变量,但是无法操作子类隐藏的成员变量(需要适用super关键字操作子类隐藏的成员变量.) publ ...
DOBRI
问题 : DOBRI 时间限制: 1 Sec 内存限制: 128 MB 题目描述给出一个包含N个整数的序列A,定义这个序列A的前缀和数组为SUM数组 ,当SUM数组中的第i个元素等于在i前面的三个 ...
性能测试四十六：Linux 从网卡模拟延时和丢包的实现
Linux 中模拟延时和丢包的实现使用ifconfig命令查看网卡 Linux 中使用 tc 进行流量管理.具体命令的使用参考 tc 的 man 手册,这里简单记录一下使用 tc 模拟延时和丢包的命 ...
axure--轮播图
1.使用动态面板的循环实现图片轮播的要点:1)当鼠标移出动态面板的范围时才显示左右两边的方向按钮,否则该两个按钮都是隐藏的.则思路如下:且四个条件之间是“or”的关系,不是“and”[[Cursor. ...
【转】asp.net Core 系列【二】—— 使用 ASP.NET Core 和 VS2017 for Windows 创建 Web API
在本教程中,将生成用于管理“待办事项”列表的 Web API. 不会生成 UI. 概述以下是将创建的 API: API 描述请求正文响应正文 GET /api/todo 获取所有待办事项无待 ...
salt 执行shell 脚本修改名字
#!/bin/bash #命令匹配主机执行模块脚本路径,必须放在salt目录下源主机名修改的主机名 #salt tt_LD_LM_LC_1 cmd.script salt://init/re ...
Centos6安装SaltStack
rpm -ivh https://mirrors.tuna.tsinghua.edu.cn/epel/6/x86_64/epel-release-6-8.noarch.rpm yum install ...
centos 6.9安装python 3.6
.下载源码包在官网按照需要下载到本地 wget https://www.python.org/ftp/python/3.6.1/Python-3.6.1.tgz .解压源码包 tar -xvf Pyt ...
Linux 记录所有用户登录和操作的详细日志
1.起因最近Linux服务器上一些文件呗篡改,想追查已经查不到记录了,所以得想个办法记录下所有用户的操作记录. 一般大家通常会采用history来记录,但是history有个缺陷就是默认是1000行 ...
MyEclipse 安装插件 Github安装/使用教程
2016年02月18日 09:45:23 阅读数:4531 本文的目的是 1.在 Myeclipse10.7中集成Github并使用. 选择的安装方式是:MyEclipse 中设置下文中1后,下载g ...

Spark 常见问题集合

Spark 常见问题集合的更多相关文章

随机推荐

热门专题