Spark环境的搭建与运行

Spark本地安装与配置

下载spark后解压，并cd到解压目录下
运行实例程序测试是否一切正常

./bin/run-example org.apache.spark.examples.SparkPi

在本地模式下设定要使用的线程数目local[N]

master=local[2] ./bin/run-example org.apache.spark.examples.SparkPi

Spark集群

Spark集群由两类程序构成：一个驱动程序和多个执行程序。
本地模式中，所有的处理都是运行在一个JVM内的。
如果要在一个Spark单机集群上运行示例代码，只要传入猪截点的IP和PROT端口号

master=spark://IP:PORT ./bin/run-example org.apache.spark.examples.SparkPi

Spark 编程模型

SparkContext 和 Spark Shell

SparkContext类和SparkConf类

创建一个四线程的SparkContext类

val conf = new SparkConf()

.setAppName("Text Spark APP")

.setMaster("local[4]")

val sc = new SparkContext(conf)

or

val sc = new SparkContext("local[4]", "Test Spark App")

Spark shell

进入程序主目录下，运行如下代码启动 Spark shell （Scala语言的shell）

./bin/spark shell

启动spark shell 之后会自动初始化一个SparkContext对象。
进入主目录下，运行如下代码启动Python shell。

./bin/pyspark

python下的SparkContext对象可以通过Python变量sc来调用。

弹性分布式数据集

1.创建RDD

从现有的集合创建RDD

val collection = List("a", "b", "c", "d", "e")

val rddFromCollection = sc.parallelize(collection)

也可以从本地文件中创建RDD

val rddFromTextFile = sc.textFile("license")

2.Spark操作

Spark编程模式下，所有的操作都被分为转换（transformation）和执行（action）。
最常见的转换操作就是map，该操作对一个RDD的每一条记录都执行某个函数，从而将输入映射称为新的输出。
实例

对于之前创建的一个由若干String构成的RDD对象，通过map将每一个字符串转换为一个整数，返回一个由若干Int组成RDD对象。

val intsFromStringsRDD = rddFromTextFile.map(line => line.size)

执行count返回RDD中的记录数目。

intsFromStringsRDD.cout

如果要计算每行字符串的平均长度，可以先sum计算所有记录的总长，再除以总的记录数目。

val sumOfRecords = intsFromStringsRDD.sum

val numRecords = intsFromStringsRDD.count

val aveLengthOfRecord = sumOfRecords / numRecords

or

val aveLengthOfRecordChained =rddFromTextFile.map(line => line.size).sum/rddFromTextFile.count

Spark中转换操作是延后的。在RDD上调用一个转换操作并不会立即触发相应的计算。相反，这些转换会链接起来，并只有在执行操作时才会被高效的计算。
实例

下面的代码不会触发实际的操作

val transformedRDD = rddFromTextFile.map(line => line.size).filter(size =>size>10).map(size =>size*2)

调用如下执行操作，计算将会被触发

val computation = transformedRDD.sum

3.RDD缓存策略

将RDD缓存在集群的内存中。

rddFromTextFile.cache

首次缓存会花费一些时间，下一次访问就会很快，数据可以直接从内存中读取，从而减少I/O操作。

3.广播变量和累加变量

两类特殊变量：广播变量和累加变量

+广播变量为只读变量，创建广播变量如下

val broadcastAList = sc.broadcast(List("a", "b", "c", "d", "e"))

广播变量可以被非驱动程序的节点访问

sc.parallelize(List("1", "2", "3")).map(x =>broadcastAList.value ++ x).collect

Spark Scala 编程入门

对于Scala程序而言，需要创建两个文件：Scala代码文件以及项目的构建配置文件。
项目将使用SBT（Scala Build Tool）来构建。
实例

SBT配置文件如下。各行代码之间的空行是必须的！

name := "scala-spark-app"

\空行

version := "1.0"

\空行

scalaVersion := "2.10.4"

\空行

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.0"

导入所需要的Spark类

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

初始化所需要的SparkContext对象，并通过textFile函数来访问CSV数据文件

def main(args: Array[String]){

    val sc = new SparkContext("local[2]", "First Spark App")

    val data = sc.textFile("data/UserPerchaseHistory.csv")

        .map(line => line.split(",")

        .map(purchaseRecord => (perchaseRecord(0), purchaseRecord(1),perchaseRecord(2)))

RDD中每条记录都是由（user, product, price）构成，对商店计算如下指标：购买总次数，客户总个数，总收入。

val numPurchases = data.count()

val uniqueUsers = data.map{ case(user, product, price) => user}.distinct().count()

val totalRevenue = data.map{ case(user, product, price) => price.toDouble}.sum()

val productsByPopularity = data

    .map{case(user, product, price) => (product, 1)}

    .reduceByKey(_ + _)

    .collect()

    .sortBy(-_._2)

val mostPopular = productsByPopularity(0)

结果打印

        println(Total purchases:"+ numPurchases)

        ...

    }

}

Spark Python 编程入门

from pyspark import SparkContext

sc = SparkContext("local[2]", "First Spark App")

# spark读取本地文件

t = sc.textFile("file:///home/users/douzhi/t.txt")

#spark读取hdfs文件

t = sc.textFile("hdfs:///path/...")

print t.first()

Spark环境的搭建与运行的更多相关文章

spark本地环境的搭建到运行第一个spark程序
搭建spark本地环境搭建Java环境 (1)到官网下载JDK 官网链接:https://www.oracle.com/technetwork/java/javase/downloads/jdk8- ...
分布式平台Spark环境的搭建
1.安装Spark之前需要先安装Java,Scala及Python(个人喜欢用pyspark,当然你也可以用原生的Scala) 首先安装Java jdk: 我们可以在Oracle的官网下载Java S ...
在Linux(Debian)环境下搭建并运行GPU
首先通过以下命令查看是否GPU驱动成功: 注意:需要在bash终端输入 import tensorflow as tf hello = tf.constant('Hello, TensorFlow!' ...
分布式计算框架-Spark(spark环境搭建、生态环境、运行架构）
Spark涉及的几个概念:RDD:Resilient Distributed Dataset(弹性分布数据集).DAG:Direct Acyclic Graph(有向无环图).SparkContext ...
Hive On Spark环境搭建
Spark源码编译与环境搭建 Note that you must have a version of Spark which does not include the Hive jars; Spar ...
在Ubuntu14.04 64bit上搭建单机Spark环境，IDE为Intelli IDEA
在Ubuntu14.04 64bit上搭建单机Spark环境,IDE为Intelli IDEA 一. 环境 Ubuntu14.04 64位 JDK 1.8.0_73 scala-2.10. ...
在Ubuntu里搭建spark环境
注意:1.搭建环境:Ubuntu64位,Linux(也有Windows的,我还没空试) 2.一般的配置jdk.Scala等的路径环境是在/etc/profile里配置的,我自己搭建的时候发 ...
Spark On Yarn搭建及各运行模式说明
之前记录Yarn:Hadoop2.0之YARN组件,这次使用Docker搭建Spark On Yarn 一.各运行模式 1.单机模式该模式被称为Local[N]模式,是用单机的多个线程来模拟Spa ...
Spark学习进度-Spark环境搭建&Spark shell
Spark环境搭建下载包所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2. ...

随机推荐

PHP截取字符串，获取长度，获取字符位置的函数
strstr(string,string) = strchr(,) //从前面第一次出现某个字符串的地方截取到最后strrchr(string,string) //从某个字符串从最后出现的位置截取到结 ...
unity3d与eclipse协同工作环境
原地址:http://bbs.9ria.com/thread-212576-1-1.html 这个过程非常复杂.步骤一定要谨记 1,建立一个unity3d工程,然后自己丢点模型进去吧.然后设置导出时候 ...
POJ3258River Hopscotch（二分）
http://poj.org/problem?id=3258 题意:有一条很长很直的河距离为L,里边有n块石头,不包括起点和终点的那两块石头,奶牛们会从一个石头跳到另外一个,但因为有的石头隔得太近了, ...
Google-Gson使用
转自:http://my.oschina.net/itblog/blog/204120 这几天,因为项目的需要,接触了Google的Gson库,发现这个东西很好用,遂记下简单的笔记,供以后参考.至于G ...
bash 读入文件
Suppose we have a file contains the following information, termed input_file: A 0 B 1 C ...
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
摘自: http://www.cnblogs.com/kinglau/p/3796164.html http://www.powerxing.com/install-hadoop/ 当开始着手实践 H ...
JS 动态显示获取下拉框的多个值
<script type="text/javascript"> function GetProcessVal(i, t) { document.getElementsB ...
[swustoj 1095] 挖金子
挖金子(1095) 题目描述你在一个N*M的区域中,一开始在(1,1)的位置,每个位置有可能有金子,也有可能不能到达,也有可能有传送门.你只能往右或者下走,不能走出这个区域.当你位于传送门时,传送门 ...
C#String与string大小写的区别
string是c#中的类 String是.net Framework的类用string需要通过再次编译,所以直接用String速度会更快··· string是关键字,而String不是··· str ...
Java [leetcode 13] Roman to Integer
问题描述: Given a roman numeral, convert it to an integer. Input is guaranteed to be within the range fr ...

Spark环境的搭建与运行

Spark本地安装与配置

Spark集群

Spark 编程模型

SparkContext类和SparkConf类

Spark shell

弹性分布式数据集

1.创建RDD

2.Spark操作

3.RDD缓存策略

3.广播变量和累加变量

Spark Scala 编程入门

Spark Python 编程入门

Spark环境的搭建与运行的更多相关文章

随机推荐

热门专题