Spark程序

Spark认识&环境搭建&运行第一个Spark程序

2017-07-09 17:17 by 牛仔裤的夏天, 181 阅读, 0 评论, 收藏, 编辑

摘要：Spark作为新一代大数据计算引擎，因为内存计算的特性，具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spark安装、Spark开发环境搭建及编写第一个scala程序、运行第一个Spark程序。

1.Spark是什么

Spark是一个快速且通用的集群计算平台

2.Spark的特点

1）Spark是快速的

Spark扩充了流行的Mapreduce计算模型

Spark是基于内存的计算

2）Spark是通用的

Spark的设计容纳了其它分布式系统拥有的功能

批处理，迭代式计算，交互查询和流处理等

3）Spark是高度开放的

Spark提供了Python,Java,Scala,SQL的API和丰富的内置库。

Spark和其它的大数据工具整合的很好，包括hadoop,kafka等

3.Spark的组件

Spark包括多个紧密集成的组件

Spark Core:

　　包含Spark的基本功能，包含任务调度，内存管理，容错机制等

　　内部定义了RDDs(弹性分布式数据集)

　　提供了很多APIs来创建和操作这些RDDs

　　应用场景，为其他组件提供底层的服务

Spark SQL:

　　是Spark处理结构化数据的库，就像Hive SQL,Mysql一样

　　应用场景，企业中用来做报表统计

Spark Streaming:

　　是实时数据流处理组件，类似Storm

　　Spark Streaming提供了API来操作实时流数据

　　应用场景，企业中用来从Kafka接收数据做实时统计

Mlib:

一个包含通用机器学习功能的包，Machine learning lib

包含分类，聚类，回归等，还包括模型评估和数据导入。

　　MLib提供的上面这些方法，都支持集群上的横向扩展。

　　应用场景，机器学习。

Graphx:

　　是处理图的库（例如，社交网络图），并进行图的并行计算。

　　像Spark Streaming,Spark SQL一样，它也继承了RDD API。

　　它提供了各种图的操作，和常用的图算法，例如PangeRank算法。

　　应用场景，图计算。

Cluster Managers:

　　就是集群管理，Spark自带一个集群管理是单独调度器。

　　常见集群管理包括Hadoop YARN,Apache Mesos

4.紧密集成的优点

　　Spark底层优化了，基于Spark底层的组件也得到了相应的优化。

　　紧密集成，节省了各个组件组合使用时的部署、测试等时间。

　　向Spark增加新的组件时，其它组件，可立刻享用新组件的功能。

5.Spark与Hadoop的比较

　　Hadoop应用场景：离线处理、对时效性要求不高

　　Spark应用场景：时效性要求高的场景、机器学习等领域

　　Doug Cutting的观点：这是生态系统，每个组件都有其作用，各善其职即可。Spark不具有HDFS的存储能力，要借助HDFS等持久化数据。大数据将会孕育出更多的新技术。

6.Spark运行环境

　　Spark是Scala写的，运行在JVM上，所以运行环境Java7+

　　如果使用Python API,需要安装Python2.6+或者Python3.4+

　　版本对应：Spark1.6.2 - Scala2.10 Spark2.0.0 - Scala2.11

7.Spark安装

　　Spark下载地址：http://spark.apache.org/downloads.html 注：搭Spark不需要Hadoop,如有hadoop集群，可下载相应的版本。

　　这里安装在CentOS6.5虚拟机上，将下载好的文件上传虚拟机，并执行解压：tar -zxvf spark-2.0.1-bin-hadoop2.6.tgz

　　Spark目录：

　　　　bin包含用来和Spark交互的可执行文件，如Spark shell。

　　　　examples包含一些单机Spark job,可以研究和运行这些例子。

　　Spark的Shell:

　　　　Spark的shell能够处理分布在集群上的数据。

　　　　Spark把数据加载到节点的内存中，因此分布式处理可在秒级完成。

　　　　快速使用迭代式计算，实时查询、分析一般能够在shells中完成。

　　　　Spark提供了Python shells和Scala shells。

　　这里以Scala shell为例，演示读取本地文件并进行操作：

　　　　进入Scala shell:./spark-shell

　　　　创建测试文件helloSpark并输入内容：

　　　　输入val lines=sc.textFile("/home/lucy/hellospark") 加载文件内容，输入lines.count()进行统计行数：（注：sc为spark content）

　　ssh的配置：（ssh localhost需要输入密码，这在运行spark程序时是不可以的）

　　　　ssh-keygen （生成秘钥）

　　　　.ssh目录下cat xxx_rsa.pub> authorized_keys

　　　　chmod 600 authorized_keys

8.Spark开发环境搭建

　　Scala 下载地址: http://www.scala-lang.org/download/2.11.6.html 注：默认安装选项会自动配置环境变量,安装路径不能有空格。

　　IntelliJ IDEA 下载地址：https://www.jetbrains.com/idea/

　　注册码地址：http://idea.lanyus.com

　　由于这里下载的ideaIU-15.0.2.exe，已经包含有Scala插件，如果不包含需要下载。查看是否已有scala插件可以新建项目，打开Files->settings选择Plugins,输入scala查看：

9.编写第一个Scala程序

　　依次点击File->New->Project，选择Scala->SBT，下一步，打开如下窗口：

　　这里Scala选择为2.11.6，创建完成后会进行初始化操作，自动下载jar包等。下载时常看具体网络情况。待所有进度条完成后，项目目录已经出来了，如下：

　　编辑build.sbt:

　　name := "LearnSpark"

　　version := "1.0"

　　scalaVersion := "2.11.1"

　　libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.0.2"

　　编辑完成后，点击刷新，后台自动下载对应的依赖：

　　src->scala右击新建scala类WordCount

import org.apache.spark.{SparkContext, SparkConf}

/**

  * Created by Lucy on 2017/7/4.

  */

object WordCount {

  def main(args: Array[String]) {

    val conf=new SparkConf().setAppName("wordcount")

    val sc=new SparkContext(conf)

    val input=sc.textFile("/home/lucy/helloSpark")

    val lines=input.flatMap(line=>line.split(" "))

    val count=lines.map(word=>(word,1)).reduceByKey{case (x,y)=>x+y}

    val output=count.saveAsTextFile("/home/lucy/hellosparkRes")

  }

}

　　代码编写完成后，进行打包（配置jar包，build）:

　　配置jar包：File->Project Structure，选择Artifacts，点击+号：

　　这里不打包依赖。配置jar包完成后，Build->Build Artifacts,等待build完成。

10.运行第一个Spark程序

　　这里需要先启动集群：

　　启动master: ./sbin/start-master.sh

　　启动worker: ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

　　　　　　　　这里的地址为：启动master后,在浏览器输入localhost:8080,查看到的master地址

　　启动成功后，jps查看进程：

　　接下来执行提交命令，将打好的jar包上传到linux目录，jar包在项目目录下的out\artifacts下。

　　提交作业： ./bin/spark-submit --master spark://localhost:7077 --class WordCount /home/lucy/learnspark.jar

　　可以在4040端口查看job进度：

　　查看结果：

　　由于按照空格分割字符串，所以这里将Spark! 视为一个单词。至此，任务运行结束！

Spark程序的更多相关文章

如何运行Spark程序
[hxsyl@CentOSMaster spark-2.0.2-bin-hadoop2.6]# ./bin/spark-submit --class org.apache.spark.examples ...
Spark系列—02 Spark程序牛刀小试
一.执行第一个Spark程序 1.执行程序我们执行一下Spark自带的一个例子,利用蒙特·卡罗算法求PI: 启动Spark集群后,可以在集群的任何一台机器上执行一下命令: /home/spark/s ...
Spark认识&环境搭建&运行第一个Spark程序
摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度.这里总结下对Spark的认识.虚拟机Spark安装.Spark开发环境搭建及编写第一个scala程序.运 ...
IntelliJ IDEA在Local模式下Spark程序消除日志中INFO输出
在使用Intellij IDEA,local模式下运行Spark程序时,会在Run窗口打印出很多INFO信息,辅助信息太多可能会将有用的信息掩盖掉.如下所示要解决这个问题,主要是要正确设置好log4 ...
Spark集群模式&Spark程序提交
Spark集群模式&Spark程序提交 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone-Spark自带的一种集群管理方式,易于构建集群. Apache Mesos- ...
使用IDEA运行Spark程序
使用IDEA运行Spark程序 1.安装IDEA 从IDEA官网下载Community版本,解压到/usr/local/idea目录下. tar –xzf ideaIC-13.1.4b.tar.gz ...
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
[Spark]如何设置使得spark程序不输出 INFO级别的内容
Spark程序在运行的时候,总是输出很多INFO级别内容查看了网上的一些文章,进行了试验. 发现在 /etc/spark/conf 目录下,有一个 log4j.properties.template ...
eclipse运行spark程序时日志颜色为黑色的解决办法
自从开始学习spark计算框架以来,我们老师教的是local模式下用eclipse运行spark程序,然后我在运行spark程序时,发现控制台的日志颜色总是显示为黑色,哇,作为程序猿总有一种强迫症,发 ...
Spark程序运行常见错误解决方法以及优化
转载自:http://bigdata.51cto.com/art/201704/536499.htm Spark程序运行常见错误解决方法以及优化 task倾斜原因比较多,网络io,cpu,mem都有可 ...

随机推荐

上传文件到阿里云linux服务器
在“运行”中输入cmd,打开控制台,切换到刚才Putty的安装目录下,我的是E:\Putty,然后输入pscp命令,我们需要这个命令来实现文件的上传.如下图所示,命令格式为: pscp D:\recy ...
一个好用的C# HttpHelper类
/// <summary> /// 类说明:HttpHelper类,用来实现Http访问,Post或者Get方式的,直接访问,带Cookie的,带证书的等方式,可以设置代理 /// 重要提 ...
C语言实例解析精粹学习笔记——30
实例30: 用已知字符串s中的字符,生成由其中n个字符组成的所有字符排列.设n小于字符串s的字符个数,其中s中的字符在每个排列中最多出现一次.例如,对于s[]="abc",n=2, ...
Kubernetes-深入分析集群安全机制（3.6）
集群的安全性主要考虑以下几个方面: 容器与所在宿主机的隔离: 限制容器给基础设施及其他容器带来消极影响的能力: 最小权限原则--合理限制所有组件的权限,确保组件只执行它被授权的行为,通过限制单个组件的 ...
HDU暑假多校第八场G-Card Game
一.题意给出N个卡牌,卡牌的正反两面具有两个数字,取值范围为[1,2*n],给出若干个默认正面向上的卡牌,求最小反转多少张卡牌可以使得,每张卡牌朝上的面上都有一个不同的数字,同时满足最小反转次数的反 ...
43-Identity MVC：UI
1-打开之前写的MvcCookieAuthSample项目, 在AccountController新加Register,Login方法 public class AccountController : ...
Python的logging模块、os模块、commands模块与sys模块
一.logging模块 import logging logging.debug('This is debug message') logging.info('This is info message ...
Git初步
在多人参与开发的项目中,版本控制工具是必须的,网上有很多不错的教程,能简单使用就ok了,粘几篇教程,方便学习首先我们要了解一些基本的概念,此处简单描述一下 (1)集中式版本控制系统: CVS.SVN ...
Linux 文件与目录管理命令
处理目录的常用命令常见的处理目录的命令: ls: 列出目录 cd:切换目录 pwd:显示目前的目录 mkdir:创建一个新的目录,语法:mkdir [-mp] 目录名称 -m :配置文件的权限 -p ...
vs code 在终端下使用 code ./ 打开当前项目
Mac OS Visual Studio Code的扩展工具菜单中有Install command line的快捷安装运行 VS code并打开命令面板( ⇧⌘P ),然后输入 shell comm ...