spark Intellij IDEA开发环境搭建
(1)创建Scala项目
File->new->Project,如下图 
选择Scala 
然后next 
其中Project SDK指定安装的JDK,Scala SDK指定安装的Scala(这里使用的是IDEA自带的scala SDK),这里将项目名称命令为SparkWordCount,然后finish 
在IDEA中开发应用程序时,常常需要通过一定的文件目录组织进行源码编写,例如源文件目录、测试源文件目录,下面演示在Intellij IDEA的src目录下创建main/scala源文件目录。
直接按F4或右鍵点击工程文件 
再选择open module setting,打开项目配置,点击src目录,然后右键创建main/scala文件夹,再点击scala文件夹为sources,如下图所示 
### (2)导入Spark 1.5.0依赖包
直接F4打开Project Structure,然后选择libraries 
点击上图中的+添加外部依赖包,选择”java”,然后再选择spark-assembly-1.5.0-hadoop2.4.0.jar 
成功后如下图 
至此Spark开发环境配置完成
2. Spark应用程序开发
(1) 本地方式执行Spark WordCount程序
在src/main/scala源文件目录中创建一个SparkWordCount 应用程序对象,编辑内容如下:
import org.apache.spark.SparkContext._
import org.apache.spark.{SparkConf, SparkContext} object SparkWordCount{
def main(args: Array[String]) {
//输入文件既可以是本地linux系统文件,也可以是其它来源文件,例如HDFS
if (args.length == 0) {
System.err.println("Usage: SparkWordCount <inputfile>")
System.exit(1)
}
//以本地线程方式运行,可以指定线程个数,
//如.setMaster("local[2]"),两个线程执行
//下面给出的是单线程执行
val conf = new SparkConf().setAppName("SparkWordCount").setMaster("local")
val sc = new SparkContext(conf) //wordcount操作,计算文件中包含Spark的行数
val count=sc.textFile(args(0)).filter(line => line.contains("Spark")).count()
//打印结果
println("count="+count)
sc.stop()
}
}
编译代码,直接Build->Make Project 
然后编程运行参数,Run->Edit Configurations 
Main Class输入:SparkWordCount
Program arguments输入:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/README.md
如下图: 
完成后直接Run->Run或Alt+Shift+F10运行程序,执行结果如下图: 
(2) Spark集群上执行Spark WordCount程序
将SparkWordCount打包成Jar文件
将程序内容修改如下:
import org.apache.spark.SparkContext._
import org.apache.spark.{SparkConf, SparkContext}
object SparkWordCount{
def main(args: Array[String]) {
//输入文件既可以是本地linux系统文件,也可以是其它来源文件,例如HDFS
if (args.length == 0) {
System.err.println("Usage: SparkWordCount <inputfile> <outputfile>")
System.exit(1)
}
//提交集群时,本地线程不起作用
val conf = new SparkConf().setAppName("SparkWordCount").setMaster("local")
val sc = new SparkContext(conf)
//rdd2为所有包含Spark的行
val rdd2=sc.textFile(args(0)).filter(line => line.contains("Spark"))
//保存内容,在例子中是保存在HDFS上
rdd2.saveAsTextFile(args(1))
sc.stop()
}
}
点击工程SparkWordCount,然后按F4打个Project Structure并选择Artifacts,如下图 
选择Jar->form modules with dependencies,如下图 
进入下面的界面
在main class中,选择SparkWordCount,如下图 
点击确定后得到如下界面 
因为后期提交到集群上运行,因此相关jar包都存在,为减小jar包的体积,将spark-assembly-1.5.0-hadoop2.4.0.jar等jar包删除即可,如下图 
确定后,再点击Build->Build Artifacts 
生成后的jar文件保存在root@sparkmaster:~/IdeaProjects/SparkWordCount/out/artifacts/SparkWordCount_jar# 目录中,如下图: 
提交集群运行
./spark-submit --master spark://sparkmaster:7077 --class SparkWordCount
--executor-memory 1g
/root/IdeaProjects/SparkWordCount/out/artifacts/SparkWordCount_jar/SparkWordCount.jar
hdfs://ns1/README.md
hdfs://ns1/SparkWordCountResult

执行结果: 
HDFS文件已经生成了SparkWordCountResult 
使用
root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# hadoop dfs -ls
/SparkWordCountResult
root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# hadoop dfs -cat
/SparkWordCountResult/part-00000
查看目录内容,具体结果如下图所示:

spark Intellij IDEA开发环境搭建的更多相关文章
- IntelliJ OpenCV 开发环境搭建
Windows下的IntelliJ + OpenCV开发环境搭建 基于IntelliJ IDEA 15 和 OpenCV 3.1.0 1. 在OpenCV官网下载OpenCV安装程序,双击解压到目标目 ...
- Spark Idea Maven 开发环境搭建
一.安装jdk jdk版本最好是1.7以上,设置好环境变量,安装过程,略. 二.安装Maven 我选择的Maven版本是3.3.3,安装过程,略. 编辑Maven安装目录conf/settings.x ...
- Liferay7 Intellij IDEA 开发环境搭建
一.安装Liferay插件 安装过程不在赘述,推荐两种安装方式: 通过Intellij插件市场安装 通过下载插件zip包安装 安装完成后,在项目板块中点鼠标右键,会出现Liferay菜单. 二.安装L ...
- IntelliJ IDEA安装及jsp开发环境搭建
一.前言 现在.net国内市场不怎么好,公司整个.net组技术转型,就个人来说还是更喜欢.net,毕竟不是什么公司都像微软一样财大气粗开发出VS这样的宇宙级IDE供开发者使用,双击sln即可打开项目, ...
- Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例【附详细代码】
http://blog.csdn.net/xiefu5hh/article/details/51707529 Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例[附 ...
- spark JAVA 开发环境搭建及远程调试
spark JAVA 开发环境搭建及远程调试 以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息.以前折腾过Hadoop,于是看了下Spark官网的文档以及 github ...
- 如何基于Jupyter notebook搭建Spark集群开发环境
摘要:本文介绍如何基于Jupyter notebook搭建Spark集群开发环境. 本文分享自华为云社区<基于Jupyter Notebook 搭建Spark集群开发环境>,作者:apr鹏 ...
- HBase、Hive、MapReduce、Hadoop、Spark 开发环境搭建后的一些步骤(export导出jar包方式 或 Ant 方式)
步骤一 若是,不会HBase开发环境搭建的博文们,见我下面的这篇博客. HBase 开发环境搭建(Eclipse\MyEclipse + Maven) 步骤一里的,需要补充的.如下: 在项目名,右键, ...
- Apache Spark1.1.0部署与开发环境搭建
Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构.与MapReduce不同,Spark并不局限于编写map和reduce ...
随机推荐
- java dom4j解析xml实例(3)
代码运行前需要先导入dom4j架包. 需要解析的XML文件test.xml如下: <students> <student age="25"><!--如 ...
- gnu make
http://stackoverflow.com/questions/448910/makefile-variable-assignment 更加全面的介绍 http://blog.csdn.net/ ...
- 磁盘寻道时间算法之----------------SCAN算法和最短寻道时间优先调度算法
若干个等待访问磁盘者依次要访问的柱面编号为:80,40,74,14,60,31,61,假设每移动一个柱面需要4毫秒时间,移动到当前位于35号柱面,且当前的移动方向向柱面号增加的方向.请计算: (1)若 ...
- css中margin重叠和一些相关概念(包含块containing block、块级格式化上下文BFC、不可替换元素 non-replaced element、匿名盒Anonymous boxes )
平时在工作中,总是有一些元素之间的边距与设定的边距好像不一致的情况,一直没明白为什么,最近仔细研究了一下,发现里面有学问:垂直元素之间的margin有有互相重叠的情况:新建一个BFC后,会阻止元素与外 ...
- Linux下VNC配置多个桌面和修改密码 不会当系统重启vnc失效
1:vncserver 2:iptables -I INPUT -p tcp --dport 5901 -j ACCEPT 客户端方式 3:iptables -I INPUT -p tcp --d ...
- ACM录 之 常识和错误。
接下来说说一些ACM里面的常识和错误...(可能会比较乱) —— 首先ACM里面的代码都是要提交上去,然后让计算机自动判题的,所以...千万不要把 system("pause"); ...
- Delphi 悬浮窗口、浮动窗口的实现
源:Delphi 悬浮窗口.浮动窗口的实现 浮动窗体的实现 http://blog.tianya.cn/blogger/post_show.asp?BlogID=68097&PostID=80 ...
- Blog开始
好久没更新Blog了,去看了下之前的csdn的blog感觉特别的乱,为此决心重开blog,记录工作及学习中的一些事 2013-10-28 ymc ...
- MySQL的 explain 解析
EXPLAIN 的每个输出行提供一个表的相关信息,并且每个行包括下面的列: 项 说明 id MySQL Query Optimizer 选定的执行计划中查询的序列号.表示查询中执行 select 子句 ...
- (中等) POJ 1703 Find them, Catch them,带权并查集。
Description The police office in Tadu City decides to say ends to the chaos, as launch actions to ro ...