Spark官方文档——本地编写并运行scala程序

快速开始

本文将介绍如何用scala、java、python编写一个spark单击模式的程序。

首先你只需要在一台机器上成功建造Spark；做法：

进入Spark的根目录，输入命令：$ sbt/sbt package
（由于天朝伟大的防火墙，大陆地区是无法成功的，除非你可以顺利翻墙），不想爬墙的可以下载预编译好的Spark ，spark-0.7.2-prebuilt-hadoop1.tgz.gz

Spark shell的交互式分析

一、基础

概念：

Spark的交互式脚本是一种学习API的简单途径，也是分析数据集交互的有力工具。在Spark根目录运行：./spark-shell

Spark抽象的分布式集群空间叫做Resilient Distributed Dataset (RDD)弹性数据集。

RDD有两种创建方式：1、从Hadoop的文件系统输入（例如HDFS）；2、有其他已存在的RDD转换得到新的RDD。

实践：

1、现在我们利用Spark目录下的README文件来创建一个新的RDD：

scala> val textFile = sc.textFile("README.md")

textFile: spark.RDD[String] = spark.MappedRDD@2ee9b6e3

2、RDD有两种操作，分别是action（返回values）和transformations（返回一个新的RDD）；下面开始些少量的actions:

scala> textFile.count() // Number of items in this RDD

res0: Long = 74

scala> textFile.first() // First item in this RDD

res1: String = # Spark

3、下面使用transformations中的filter返回一个文件子集的新RDD

scala> textFile.filter(line => line.contains("Spark")).count() // How many lines contain "Spark"?

res3: Long = 15

二、基于RDD的更多操作
1、RDD的actions和transformations可以被用于更多复杂的计算。例如，我们想找出含有字数最多的行：

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

res4: Long = 16

2、为了使程序更简单，我们可以引用包来使用已有的函数方法来编写程序：

scala> import java.lang.Math

import java.lang.Math

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))

res5: Int = 16

3、Spark可以很容易的执行MapReaduce流

scala> val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

wordCounts: spark.RDD[(java.lang.String, Int)] = spark.ShuffledAggregatedRDD@71f027b8
这里我们运用了transformations中的flatMap, map, reduceByKey来计算文件中每个单词出现的次数并存储为（String, Int）对的RDD数据集

4、使用actions的collect方法返回计算好的数值

scala> wordCounts.collect()

res6: Array[(java.lang.String, Int)] = Array((need,2), ("",43), (Extra,3), (using,1), (passed,1), (etc.,1), (its,1), (`/usr/local/lib/libmesos.so`,1), (`SCALA_HOME`,1), (option,1), (these,1), (#,1), (`PATH`,,2), (200,1), (To,3),...

三、缓存
Spark还支持将数据集缓存到内存中。这解决了处理大量迭代运算（例如，机器学习算法）时的反复磁盘IO操作的耗时。内存IO操作和磁盘IO操作的用时完全不是一个数量级的，带来的效率提升是不言而喻的。
1、做个小示例，标记我们之前的linesWithSpark数据集并将其缓存：

scala> linesWithSpark.cache()

res7: spark.RDD[String] = spark.FilteredRDD@17e51082

scala> linesWithSpark.count()

res8: Long = 15

四、一个单机版的scala作业

/*** SimpleJob.scala ***/

import spark.SparkContext

import SparkContext._

object SimpleJob {

  def main(args: Array[String]) {

    val logFile = "/var/log/syslog" // Should be some file on your system

    val sc = new SparkContext("local", "Simple Job", "$YOUR_SPARK_HOME",

      List("target/scala-2.9.3/simple-project_2.9.3-1.0.jar"))

    val logData = sc.textFile(logFile, 2).cache()

    val numAs = logData.filter(line => line.contains("a")).count()

    val numBs = logData.filter(line => line.contains("b")).count()

    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))

  }

}
程序解释：
首先要创建一个SparkContext对象，传入四个参数，分别是：
1.使用的调度器（示例中使用了local scheduler）;
2.程序名称；
3.Spark安装路径；
4.包含这个程序资源的jar包名。
注意：在分布式中后两个参数必须设置，安装路径来确定Spark通过哪个several nodes运行；jar名会让Spark自动向slave nodes传输jar文件

这个程序的文件依靠了Spark的API，所以我们必须有一个sbt的配置文件用以说明程序和Spark的依赖关系。下面是配置文件simple.sbt:

name := "Simple Project"

version := "1.0"

scalaVersion := "2.9.3"

libraryDependencies += "org.spark-project" %% "spark-core" % "0.7.3"

resolvers ++= Seq(

  "Akka Repository" at "http://repo.akka.io/releases/",

  "Spray Repository" at "http://repo.spray.cc/")

为了让sbt正确的工作，我们必须将SimpleJob.scala和simple.sbt根据典型的目录结构进行布局。完成布局后，我们可以创建一个包含了程序源码的JAR包，然后使用sbt的run命令来执行示例程序

$ find .

.

./simple.sbt

./src

./src/main

./src/main/scala

./src/main/scala/SimpleJob.scala

$ sbt package

$ sbt run

...

Lines with a: 8422, Lines with b: 1836

这样就完成了程序在本地运行的示例

Spark官方文档——本地编写并运行scala程序的更多相关文章

spark 官方文档（1）——提交应用程序
Spark版本:1.6.2 spark-submit提供了在所有集群平台提交应用的统一接口,你不需要因为平台的迁移改变配置.Spark支持三种集群:Standalone.Apache Mesos和Ha ...
Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
006-基于hyperledger fabric1.4（官方文档）编写第一个应用【外部nodejs调用】
一.概述官方原文地址 Writing Your First Application如果对fabric网络的基本运行机制不熟悉的话,请看这里. 注意:本教程是对fabric应用以及如何使用智能合约的简 ...
《Spark 官方文档》在Mesos上运行Spark
本文转自:http://ifeve.com/spark-mesos-spark/ 在Mesos上运行Spark Spark可以在由Apache Mesos 管理的硬件集群中运行. 在Mesos集群中使 ...
spark api之一：Spark官方文档 - 中文翻译
转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linking with Spark) 3 初始化Spark(Initi ...
Spark 官方文档（4）——Configuration配置
Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过lo ...
【译】Spark官方文档——Spark Configuration（Spark配置）
注重版权,尊重他人劳动转帖注明原文地址:http://www.cnblogs.com/vincent-hv/p/3316502.html Spark主要提供三种位置配置系统: 环境变量:用来启动 ...
Spark官方文档——独立集群模式（Standalone Mode）
除了部署在Mesos之上, Spark也支持独立部署模式,包括一个Spark master进程和多个 Spark worker进程.独立部署模式可以运行在单机上作为测试之用,也可以部署在集群上.如果你 ...
【译】Spark官方文档——编程指南
本文翻自官方博客,略有添加:https://github.com/mesos/spark/wiki/Spark-Programming-Guide Spark发指南从高的面看,其实每一个Spark的 ...

随机推荐

sqoop安装
环境:Hadoop 2.3.0 sqoop 1.4.5 1.下载并解压sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz (解压完,名字会很长,可以根据需要自己修改下 ...
Chapter Configuration
Chapter Configuration 在Web.config 或App.config的configuration节,插入如下配置: <configuration> …… <co ...
【转】 ip段/数字,如192.168.0.1/24是什么意思?
http://blog.csdn.net/aerchi/article/details/39396423 ip段/数字,如192.168.0.1/24是什么意思? ip段/数字,如192.168.0. ...
SVN小小用法（一）svn服务器搭建
最近由于公司项目用SVN作为版本控制工具,本着学一点是一点的原则,今天小配了下svn,给大家介绍一下软件:TortoiseSVN-1.8.3.24901-win32-svn-1.8.4.msi(本人 ...
Mplayer 官方中文手册
MPlayer 名称总览描述交互式控制用法配置文件配置集通用选项播放器选项(仅适用于MPLAYER)分离器/媒体流选项OSD/字幕选项音频输出选项(仅适用于MPLAYER)音频输出驱动(仅适用于MPL ...
MatlabR2014a 安装破解详细图文教程（附下载链接(内附CVX工具箱)）
MATLAB和Mathematica.Maple并称为三大数学软件.它在数学类科技应用软件中在数值计算方面首屈一指.MATLAB可以进行矩阵运算.绘制函数和数据.实现算法.创建用户界面.连接其他编程语 ...
区域生长算法(附MATLAB代码实现)
一.理论概念区域生长是按照事先定义的生长准则将一个像素或者子区域逐步聚合成一个完整独立的连通区域过程.对于图像感兴趣目标区域R,z为区域R上事先发现的种子点,按照规定的生长准则逐步将与种子点z一定邻 ...
Cocos2dx老版本适配64位
1.出现"__curl_rule_01__ "错误解决方法: 下载新的第三方libcurl库.替换掉libcurl相关的库和头文件,libcul.a .h文件. 相关路径:co ...
android Camera使用(一)
现在的App不可避免的要使用到手机的相机功能首先我们先来介绍下最简单的一个实现方式,启动系统自带的Activity 上代码: public void openCamera() { Intent i= ...
【MySQl】MyISAM和InnoDB索引对比
部分内容转自:http://www.2cto.com/database/201211/172380.html 比较好的文章:http://www.cnblogs.com/hustcat/archive ...

Spark官方文档——本地编写并运行scala程序

Spark官方文档——本地编写并运行scala程序的更多相关文章

随机推荐

热门专题