一、Spark 为什么比 MapReduce 要高效?

举一个例子:

select a.state,count(*),AVERAGE(c.price) from a join b on (a.id=b.id) join c on (a.itemId=c.itermId) group by a.state

如果是用 hive 来实现,那么多个此作业将会被转换成 3 个 job 每一个 job 有 一个 map 和一个 reduce,reduce的结果会存储在 hdfs 上

1、hdfs 数据的存储是一个非常耗时的操作,因为存储是通过网络进行传输的,而且还会涉及到 namenode datanode client 之间的一个复杂的通信过程,hdfs 默认是存3份的;
2、每一个map reduce 的作业启动也是一个非常复杂的过程;

所以 map reduce 使用 hdfs 进行中间数据的交互和存储是其低效的重要原因;

而 hive on spark 也会智能的生成一个DAG,但是一个作业只会启动一次,但是中间数据可以根据作业自身的情况选择内存存储或者本地存储,节省了大量的IO操作,这大大的提高了效率。

二、Spark 的 RDD 的数据模型的特点:

RDD --- 弹性分布式数据集合

1、分布式:存在很多的节点上,每个节点上存储一点点,即由多个 partition 构成
2、弹性:多种存储级别,既可以存储在磁盘,亦可以存储在内存,或者一部分存储在磁盘,一部分存储在内存,由用户来决定;
3、RDD 可以转换,可以通过并行的方式进行转换;
4、RDD 具有容错性,失效后自动重构,根据血统的关系,找到其父亲RDD,根据计算关系进行重构。

三、RDD 的 Transformation 和 Action 的区别

1、Transformation 是 把一个 RDD 转换成一个新的 RDD,RDD[x]->RDD[y]
2、Action 是把 一个 RDD 转发成最终的一个结果,或者进行保存到 hdfs 或者磁盘 RDD->Z
3、Action 是一个触发器,程序只有遇到第一个Action 才会执行【惰性执行】

四、3 行代码实现 spark word count

val roWRdd = sc.textFile(args(1))

val resultRdd = rowRdd.flatMap(line=>line.split("\\s+")).map(word=>(word,1)).reduceByKey(_+_)

resultRdd.saveAsTextFile(args[2])

五、spark 的程序框架中 driver 和 executor的作用分别是什么?

每一个 spark 作业都也有 1 个 driver 和 多个 executor 构成

main 函数会跑在 driver 上,executor 是 具体干活的

六、spark 的运行模式,local、standalone,Yarn

通过 -- master 来指定

(1) 本地模式(单机运行,不需要hadoop),测试用的

(2) 独立模式(standalone,只能跑spark),是一种 spark 的集群,需要自己搭建 master/slave,一般不用

(3) 运行在 YARN/mesos

一般的中大型公司会把spark 运行在 yarn 上,yarn 又 分 yarn-client 和 yarn-cluster 2 种

yarn-client 和 yarn-cluster 模式:

yarn-client 模式是 driver 运行在集群之外,优点是可以打印日志,方便调试,缺点是没有容错,如果本地的程序挂掉了,或者误杀死了,整个作业就挂掉了

yarn-cluster 模式是 driver 也有 yarn 的 nodemanager 来托管,优点是容错性较好,缺点是不便于调试

Spark 常见问题集合的更多相关文章

  1. TPshop之邮箱注册配置教程--附加常见问题集合

    ​ 准备:企业邮箱(开启POP/SMTP功能) 一.步骤教程: 1.登录企业邮箱(QQ邮箱示例) QQ邮箱 POP3:pop.qq.com SMTP:smtp.qq.com SMTP端口号:25 邮箱 ...

  2. JMeter常见问题集合

    前言 本文内容仅仅是针对Jmeter的部分功能名词的介绍和解释,以及初学者不易理解的问题的整理.部分内容来自别人做的整理,为了更好地整理自己的思路,所以可耻的整理一下发到博客上. 标题[1-6]和[参 ...

  3. spark转换集合为RDD

    SparkContext可以通过parallelize把一个集合转换为RDD def main(args: Array[String]): Unit = { val conf = new SparkC ...

  4. Spark:scala集合转化为DS/DF

    scala集合转化为DS/DF case class TestPerson(name: String, age: Long, salary: Double) val tom = TestPerson( ...

  5. 【转】Spark常见问题汇总

    原文地址:https://my.oschina.net/tearsky/blog/629201 摘要: 1.Operation category READ is not supported in st ...

  6. Spark link集合

    Part1. 各种参数的意义及如何配置 Spark官方文档——Spark Configuration(Spark配置) http://www.cnblogs.com/vincent-hv/p/3316 ...

  7. 六、spark常见问题总结(转载)

    问题导读 1.当前集群的可用资源不能满足应用程序的需求,怎么解决? 2.内存里堆的东西太多了,有什么好办法吗?         1.WARN TaskSchedulerImpl: Initial jo ...

  8. Spark常见问题汇总

    原文地址:https://my.oschina.net/tearsky/blog/629201 摘要: 1.Operation category READ is not supported in st ...

  9. redis-cluster 集群搭建详细指南及常见问题集合

    只当个搬运工吧 搭建篇:https://www.cnblogs.com/mafly/p/redis_cluster.html  测试能用 常见问题: 1 redis操作key时出现以下错误 (erro ...

随机推荐

  1. java 自动包装功能

    基本类型直接存储在堆栈中 基本类型所具有的包装容器,使得可以在堆中创建一个非基本对象,用来表示对应的基本类型 基本类型与包装容器类对应如下:boolean Booleanbyte Byte short ...

  2. Kali linux Nessus &Cracking Password

    1 .Nessus漏洞网站测试(真正体会到什么是专业版和社区版的区别,要技术就不光要勤恳的态度,严谨的思维.还有矢志不渝的志气,还必须要求砸钱,所以狠狠的赚钱才是硬道理),我的半个社区版的很多扫描模块 ...

  3. python网络爬虫笔记(五)

    一.python的类对象的继承 1.所有的父类都是object类,由于类可以起到模块的作用,因此,可以在创建实例的时候,巴西一些认为必须要绑定的属性填写上去,通过定义一个特殊的方法 __init__, ...

  4. 广工赛-hdu6469-树链压缩/二分

    比较复杂的一题.. 不管是二分答案还是直接做,都需要压缩树链 /* 给定n种怪物,每个怪物有属性a[i] 打死第i种怪物后,第i只怪物会分裂成a[i]个第i-1种怪 如果打死的是第1种,那么获得经验a ...

  5. Git使用五:回到过去

    reset:将仓库里面的内容恢复回暂存区,类似于从仓库里检出文件到暂存区checkout:将暂存区的文件恢复回工作区,即,把暂存区的文件检出到工作区 下面是之前三次提交的内容 三个区域的文件状态: 执 ...

  6. spring cloud 容错之zuul回退和Zuul过滤器

    一.容错:Zuul回退 如果微服务下线了,针对每个微服务,都需要回复一个中文提示,而不是报异常 1.新建ConsumerFallbackProvider.java package com.pupeiy ...

  7. python的相关基本操作

    1.安装第三方库:pip install requests 2.升级:pip install --upgrade library_name 3.升级所有已安装的库: pip list --outdat ...

  8. 用JAVA写一个简单的英文加密器

    package qhs; import java.util.Scanner; public class JiaM { public static void main(String[] args) { ...

  9. 利用SVD-推荐未尝过的菜肴

    推荐未尝过的菜肴-基于物品相似度的推荐 推荐系统的工作过程:给定一个用户,系统会为此用户返回N个最好的推荐菜 1. 寻找用户没有评级的菜肴,即在用户-物品矩阵中的0值 2. 在用户没有评级的所有物品中 ...

  10. [转]sqlplus /nolog 出错解决 SP2-0667: Message file sp1<lang>.msb not found SP2-0750: You may need to set ORACLE_HOME to your Oracle software directory

    http://techxploration.blogspot.com/2012/01/resolving-sp2-0750-you-may-need-to-set.html Resolving SP2 ...