Intellij Idea搭建Spark开发环境
在Spark高速入门指南 – Spark安装与基础使用中介绍了Spark的安装与配置。在那里还介绍了使用spark-submit提交应用。只是不能使用vim来开发Spark应用。放着IDE的方便不用。这里介绍使用Intellij Idea搭建Spark的开发环境。
1、Intellij Idea的安装
因为Spark安装在Ubuntu环境中。这里的Idea也安装在Ubuntu中。首先是下载,到官网下载就可以。下载完后解压到待安装的文件夹:
sudo tar -zxvf ideaIU-2016.1.tar.gz -C /usr/local/
我解压在了/usr/local文件夹下,然后更改文件夹名:
mv ideaIU-2016.1 idea
然后改动文件的用户和用户组:
sudo chown -R hadoop:hadoop idea
这里的hadoop是我的username和组名。这样idea就成功安装了。
为了启动idea,进入idea/bin文件夹。运行里面的idea.sh:
bin/idea.sh
这样就能够启动idea。只是这样不方便。能够在桌面新建文件idea.desktop,输入例如以下内容:
[Desktop Entry]
Name=IdeaIU
Comment=Rayn-IDEA-IU
Exec=/usr/local/idea/bin/idea.sh
Icon=/usr/local/idea/bin/idea.png
Terminal=false
Type=Application
Categories=Developer;
这样就创建了一个桌面快捷方式。
2、maven的安装与配置
Maven 是一个项目管理和构建自己主动化工具。作为一个程序猿,都有过为了使用某个功能而在项目中加入jar包的经历,使用的框架多了。须要加入的jar包也多,而maven可以自己主动为我们加入须要的jar包。
首先在maven官网上下载maven:
下载之后在Downloads文件夹下有例如以下文件:
liu@Binja:~/Downloads$ ls
apache-maven-3.3.9-bin.tar.gz
解压到待安装的文件夹:
liu@Binja:~/Downloads$ sudo tar -zxvf apache-maven-3.3.9-bin.tar.gz -C /usr/local/
相同,改动目录名和username:
liu@Binja:/usr/local$ sudo mv apache-maven-3.3.9/ maven
liu@Binja:/usr/local$ sudo chown -R liu:liu maven
liu@Binja:/usr/local$ ll maven
total 52
drwxr-xr-x 6 liu liu 4096 3月 28 20:24 ./
drwxr-xr-x 12 root root 4096 3月 28 20:26 ../
drwxr-xr-x 2 liu liu 4096 3月 28 20:24 bin/
drwxr-xr-x 2 liu liu 4096 3月 28 20:24 boot/
drwxr-xr-x 3 liu liu 4096 11月 11 00:38 conf/
drwxr-xr-x 3 liu liu 4096 3月 28 20:24 lib/
-rw-r--r-- 1 liu liu 19335 11月 11 00:44 LICENSE
-rw-r--r-- 1 liu liu 182 11月 11 00:44 NOTICE
-rw-r--r-- 1 liu liu 2541 11月 11 00:38 README.txt
liu@Binja:/usr/local$
然后将maven加入到环境变量中:
sudo vim ~/.bashrc
在最后加入以下的内容:
export PATH=$PATH:/usr/local/maven/bin
使更改生效:
liu@Binja:/usr/local$ source ~/.bashrc
这样maven就安装好了。
3、用刚安装的maven配置idea
起始idea自带了maven,这里配置自己安装的maven。
一次选择File->Setting->Build,Execution,Deployment->Build Tools->Maven,例如以下图:
在右側里的Maven home directory里设置Maven的安装文件夹。就我这里是/usr/local/maven,在User settings file里设置Mavne的配置文件。我这里使用默认的文件。在Local repository里设置本地包的管理仓库,选择右側的Override后,能够自己定义自己的仓库文件夹,以后Maven自己主动下载的包就会存放在这里。
单击OK后maven就配置完了。
然后就能够创建一个maven项目。
4、创建maven项目
依次选择File->New->New Project。出现例如以下界面:
左側能够选择项目的类型,这里选择Maven。右側能够选择是否使用模板,勾选上面的Create from archetype后。就能够在以下选择项目模板,这里选择Scala的模板。
一路next之后。这里填一下groupID和artifactID。名字随便取:
然后一路next,填写上项目的名字,OK就能够了。
这样新项目就创建成功了,新项目的文件结构例如以下图:
当中的pom.xml就是配置我们项目的依赖包的。src是项目存放代码的文件夹,以下有两个结构同样的文件夹main和test,当中我们在main文件夹下编写代码,test编写測试代码。这里先不使用測试,能够将test文件夹删除。
右側展示的就是pom.xml文件的内容:
勾选右上角的Enable Auto-Import,这样Idea就会自己主动下载项目所需的依赖包。还要注意中间的Scala版本号,选择自己使用的版本号。
在下图中的dependencies标签下能够加入项目的依赖:
每个依赖都在一个dependency标签下,当中包含groupID、artifactID和version。假设不知道依赖包的这些内容的话,能够在这里进行查询,查询结果就有这些信息。比方要查询spark的依赖,有例如以下的结果:
选择要加入的依赖。进入后选择对应的版本,以下就有maven须要的一些信息,同一时候还包含其他包管理工具的信息,比方sbt:
就能够拷贝到pom.xml文件里了。
maven会自己主动下载pom.xml中加入的依赖包。不用我们自己加入,省去了非常多麻烦。
之后就能够写代码了,在src/main/scala/com/liu下新建Scala类,选择类型为Object,填写类名。就能够编写代码了。作为演示样例。这里是一个wordcount的样例:
package com.liu /**
* Created by hadoop on 16-3-28.
*/
import org.apache.spark.{SparkContext,SparkConf}
object Test {
def main(args:Array[String]): Unit ={
val conf=new SparkConf()
val sc=new SparkContext(conf)
val text=sc.textFile("file:///usr/local/spark/README.md")
val result=text.flatMap(_.split(' ')).map((_,1)).reduceByKey(_+_).collect()
result.foreach(println)
}
}
这里不介绍代码的详细含义。
代码写好后,须要生成jar包并提交到spark上执行。
以下的步骤来生成jar包。依次选择File->Project Structure->Artifacts。例如以下图:
单击中间的绿色加号。选择JAR->from modules with dependencies。例如以下图:
在Main Class中选择项目的主要类,OK就可以。结果例如以下:
中间的Output Layout会列出全部的依赖包,我们要提交到Spark上,所以不须要这里的Spark和Hadoop依赖包,删除来节约空间。只是不要删除最后的compile output,要不然就生不成jar包了。点击OK完毕配置。
之后选择Build->Build Artifact->Build,就能够生成jar包了,结果例如以下图:
上图中多了一个out目录。以下有一个jar包。表明生成成功。
5、提交Spark应用
生成了jar包后就能够使用spark-submit来提交应用了,使用例如以下命令:
spark-submit --class "com.liu.Test" ~/SparkDemo.jar
就能够提交应用。结果例如以下:
表明执行成功。列出了单词的计数统计。
至此,Spark的Idea开发环境搭建成功。
Intellij Idea搭建Spark开发环境的更多相关文章
- Spark(八) -- 使用Intellij Idea搭建Spark开发环境
Intellij Idea下载地址: 官方下载 选择右下角的Community Edition版本下载安装即可 本文中使用的是windows系统 环境为: jdk1.6.0_45 scala2.10. ...
- spark学习10(win下利用Intellij IDEA搭建spark开发环境)
第一步:启动IntelliJ IDEA,选择Create New Project,然后选择Scala,点击下一步,输入项目名称wujiadong.spark继续下一步 第二步:导入spark-asse ...
- Intellij IDEA使用Maven搭建spark开发环境(scala)
如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例. 1.准备工作 首先需要在你电脑上安装jdk和scala以 ...
- 使用Intellij IDEA构建spark开发环境
近期开始研究学习spark,开发环境有多种,由于习惯使用STS的maven项目,但是按照许多资料的方法尝试以后并没有成功,也可能是我环境问题:也可以是用scala中自带的eclipse,但是不太习惯, ...
- PyCharm搭建Spark开发环境 + 第一个pyspark程序
一, PyCharm搭建Spark开发环境 Windows7, Java 1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop 2.7.6 通常情况下,Spark开发 ...
- IntelliJ IDEA 搭建 Go 开发环境
本文介绍 Windows7 x64 基于 IntelliJ IDEA 搭建 Go 语言开发环境.主要是一些操作过程截图以及简单文字描述,如有不清楚的地方,欢迎指正.所有软件使用当前(2016.12. ...
- 大数据学习(25)—— 用IDEA搭建Spark开发环境
IDEA是一个优秀的Java IDE工具,它同样支持其他语言.Spark是用Scala语言编写的,用Scala开发Spark是最舒畅的.当然,Spark也提供Java和Python的API. Java ...
- 服务器上搭建spark开发环境
1.安装相应的软件 (1)安装jdk 下载地址:http://www.Oracle.com/technetwork/java/javase/downloads/index.html (2)安装scal ...
- Spark开发环境搭建和作业提交
Spark高可用集群搭建 在所有节点上下载或上传spark文件,解压缩安装,建立软连接 配置所有节点spark安装目录下的spark-evn.sh文件 配置slaves 配置spark-default ...
随机推荐
- [转] Spring4.3.x 浅析xml配置的解析过程(6)——解析context命名空间之property-placeholder和property-override标签
在上一篇解析自定义命名空间的标签中,我们已经知道解析自定义命名空间的标签需要用到NamespaceHandler接口的实现类,并且知道spring是如何获取命名空间对应的命名空间处理器对象的.因此我们 ...
- http 状态码 码表
HTTP状态码详解 - 查询资料 1xx消息 这一类型的状态码,代表请求已被接受,需要继续处理.这类响应是临时响应,只包含状态行和某些可选的响应头信息,并以空行结束.由于HTTP/1.0协议中没有定义 ...
- mongodb MongoDB 聚合 group(转)
MongoDB 聚合 MongoDB中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等),并返回计算后的数据结果.有点类似sql语句中的 count(*). 基本语法为:db.col ...
- Android app 全局异常统一处理
异常处理需求 Android app 出现 crash 时,会出现 "程序异常退出" 的提示并关闭,体验不好,另外主要是无法知道哪里出现的崩溃,需要知道哪里造成的异常,就需要一个全 ...
- Window 7 + Ubuntu 双系统安装
硬件: ThinkPad X260 i5-6200U/8G/480G 当前系统: Window 7 旗舰版 64位 下载 Ubuntu 官网 下载桌面版,当前 Ubuntu 版本为:16.04 镜像安 ...
- PHP use关键字概述
PHP中的use关键字的用法. 很多开源系统如osCommerce框架中,都会在其源码中找到use这个关键字,如osCommerce框架中就在index.php文件中出现了这段源码:use osCom ...
- javascript 关于局部变量和全局变量
js中函数运行过程不仅仅是单纯的局部变量覆盖全局变量.和函数里面的声明情况有关. 比方: <script> var a =1; function test(){ alert(a); //a ...
- Fluent UDF【7】:解释型UDF
UDF宏有两种方式可以被Fluent所接受:编译和解释.其中有一些宏既可以被解释也可以被编译,而一些宏则只能被解释.有一些场合只接受编译后的UDF(如动网格中的一些宏),而有些场合既可以接受编译的UD ...
- org.apache.flink.runtime.entrypoint.StandaloneSessionClusterEntrypoint
org.apache.flink.runtime.entrypoint.StandaloneSessionClusterEntrypoint-Xms2024m -Xmx2024m -Dlog.file ...
- 深入详解JVM内存模型与JVM参数详细配置
对于大多数应用来说,Java 堆(Java Heap)是Java 虚拟机所管理的内存中最大的一块.Java 堆是被所有线程共享的一块内存区域,在虚拟机启动时创建. JVM内存结构 由上图可以清楚的看到 ...