Spark学习散点总结

使用Spark 时，通常会有两种模式。
一、在交互式编程环境（REPL, a.k.a spark-shell）下实现一些代码，测试一些功能点。
二、像MapReduce 那样提前编写好源代码并编译打包（仅限 Java 或 Scala，Python 不需要），然后将程序代码通过spark-submit 命令提交到 YARN 集群完成计算。

spark-shell

启动 spark-shell 通常需要指定 master、executor 内存、executor 数量等参数。由于 YARN 集群有审计机制，每个人提交的 spark application 需要指定 name 参数，同时确保 name 是以个人的 LDAP 用户名为后缀。另外，如果你不确定 driver 是否有足够的内存能容纳一个 RDD 的计算结果，建议不要使用 RDD 的 collect 方法而使用其 take 方法，否则会使 driver 发生 OOM。

　　1.scala交互式编程环境

　　通过命令启动sprak-shell

/opt/tige/spark2/bin/spark-shell \

--master yarn-client \

--queue root.default \

--driver-memory 4g \

--executor-memory 8g\

--conf spark.dynamicAllocation.maxExecutors= \

--name spark_test_{your username}

启动spark后系统自动创建sc和sqlContext(HiveContext实例)，可以使用它们来创建RDD或者DataFarme

　　2.使用Python交互式编程环境

　　通过命令pyspark

/opt/tiger/spark_deploy/spark2/bin/ipyspark --master yarn-client --queue root.default --driver-memory 4g --executor-memory 8g --num-executors  --name spark_test_${your LDAP user name}

spark-submit

首先我们需要使用 Spark 的 API 实现一个拥有入口（main）的程序，然后通过 spark-submit 提交到 YARN 集群。

Scala 版本的 WordCount

import org.apache.spark.{SparkConf, SparkContext}

object WordCount extends App {

    val sparkConf = new SparkConf()

    sparkConf.setAppName("spark_test_${your LDAP user name}")

    sparkConf.setMaster("yarn-client")

    sparkConf.set("spark.driver.memory", "4g")

    sparkConf.set("spark.executor.memory", "8g")

    sparkConf.set("spark.dynamicAllocation.initialExecutors", "")

    sparkConf.set("spark.dynamicAllocation.maxExecutors", "")

    val sc = new SparkContext(sparkConf)

    val words = sc.textFile("/path/to/text/file")

    val wordCount = words.map(word => (word, 1)).reduceByKey(_ + _).collect()

    wordCount.foreach(println)

}

完成代码编写与编译打包之后就可以通过 spark-submit 来提交应用了，命令如下：

/opt/tiger/spark_deploy/spark2/bin/spark-submit --master yarn-client --class WordCount your_spark_test.jar

python版本的WordCount

from pyspark import SparkContext, SparkConf

from operator import add

if __name__ == '__main__':

    conf = SparkConf()

    conf.setMaster('yarn-client')

    conf.setAppName('spark_test_${your LDAP user name}')

    conf.set("spark.driver.memory", "4g")

    conf.set("spark.executor.memory", "8g")

    conf.set("spark.dynamicAllocation.initialExecutors", "")

    conf.set("spark.dynamicAllocation.maxExecutors", "")

    sc = SparkContext(conf=conf)

    words = sc.textFile("/path/to/text/file")

    wordCount = words.map(lambda word: (word, 1)).reduceByKey(add).collect()

    for key, value in wordCount:

        print key, value

假设上面这段 Python 代码的文件名为 your_spark_test.py，那么提交这段代码到 YARN 集群的命令如下：

/opt/tiger/spark_deploy/spark2/bin/spark-submit --master yarn-client your_spark_test.py

Spark学习散点总结的更多相关文章

Spark学习（一） -- Spark安装及简介
标签(空格分隔): Spark 学习中的知识点:函数式编程.泛型编程.面向对象.并行编程. 任何工具的产生都会涉及这几个问题: 现实问题是什么? 理论模型的提出. 工程实现. 思考: 数据规模达到一台 ...
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
用Spark学习FP Tree算法和PrefixSpan算法
在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法.由于scikit-l ...
用Spark学习矩阵分解推荐算法
在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述在Spark MLlib ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
2019-1-24 Spark 学习 --总体架构
2019-1-24 Spark 学习 --总体架构新建模板小书匠 1548339392539.jpg 1548339357270.jpg 1548339372461.jpg 1548339345 ...
redis学习-散列表常用命令（hash）
redis学习-散列表常用命令(hash) hset,hmset:给指定散列表插入一个或者多个键值对 hget,hmget:获取指定散列表一个或者多个键值对的值 hgetall:获取所欲哦键值以及 ...

随机推荐

Python数据类型-列表(list)增删改查
1.添加元素添加单个元素:使用append(object)函数可以为列表添加单个元素,参数object为对象:也就是说所有Python的对象都可以添加到列表中. 添加多个元素(合并列表):使用ext ...
关于 Unity 的一些小细节，不注意可能会被“坑”一些时间。
关于 Unity 的一些小细节,不注意可能会被"坑"一些时间. 最近因为一些"小"问题,总是需要找很久的原因,总结一下 UnityEngine.Input 在使 ...
PBR Step by Step（五）Phong反射模型
Lamertian模型描述了当光源直接照射到粗糙物体表面时,反射光线的分布情况.在现实中,除了直接光照,还有来自周围环境的间接光照. 直接照射到物体表面的光照,又称为局部光照: 间接照射到物体表面的光 ...
ZXing.Net.Mobile无法识别较大的条码
ZXing.Net.Mobile无法识别较大的条码在Xamarin项目中,使用ZXing.Net.Mobile实现条码扫描时,可能会出现无法顺利识别较大的条码,而可以正常识别较小的条码.这是由于ZX ...
Ubuntu下环境变量该写进哪个文件里
Linux中环境变量包括系统级和用户级,系统级的环境变量是每个登录到系统的用户都要读取的系统变量,而用户级的环境变量则是该用户使用系统时加载的环境变量. 所以管理环境变量的文件也分为系统级和用户级的. ...
[APIO2018]铁人两项 --- 圆方树
[APIO2018] 铁人两项题目大意: 给定一张图,问有多少三元组(a,b,c)(a,b,c 互不相等)满足存在一条点不重复的以a为起点,经过b,终点为c的路径如果你不会圆方树 ------- ...
POJ2185 Milking Grid KMP两次(二维KMP)较难
http://poj.org/problem?id=2185 大概算是我学KMP简单题以来最废脑子的KMP题目了 , 当然细节并不是那么多 , 还是码起来很舒服的 , 题目中描写的平铺是那种瓷砖一 ...
JavaScript设计模式与开发实践——读书笔记1.高阶函数(上)
说来惭愧,4个多月未更新了.4月份以后就开始忙起来了,论文.毕设.毕业旅行等七七八八的事情占据了很多时间,毕业之后开始忙碌的工作,这期间一直想写博客,但是一直没能静下心写.这段时间在看<Java ...
Codeforces Beta Round #7 D. Palindrome Degree hash
D. Palindrome Degree 题目连接: http://www.codeforces.com/contest/7/problem/D Description String s of len ...
《C# to IL》第一章 IL入门
我们用C#.VB.NET语言编写的代码最终都会被编译成程序集或IL.因此用VB.NET编写的代码可以在C#中修改,随后在COBOL中使用.因此,理解IL是非常有必要的. 一旦熟悉了IL,理解.NET技 ...

Spark学习散点总结

spark-shell

spark-submit

Spark学习散点总结的更多相关文章

随机推荐

热门专题