使用IDEA运行Spark程序

毛小娃 2024-10-18 20:30:04 原文

使用IDEA运行Spark程序

1.安装IDEA

从IDEA官网下载Community版本，解压到/usr/local/idea目录下。

tar –xzf ideaIC-13.1.4b.tar.gz

mv idea-IC-135.1230/ /usr/local/idea

为了方便使用其bin目录下的命令，把它配置在“/etc/profile”目录下。

export PATH=$PATH:/usr/local/idea/ idea-IC-135.1230/bin

2.安装Scala插件

1. 在终端输入idea.sh进入如下界面：

2. 点击”Configure”进入IDEA的配置界面：

3. 选择“Plugins”,进入插件安装界面：

4. 点击左下角的“Install JetBrains plugin”选项进入如下界面在左上方的输入框输入“scala”来查找scala插件，点击右侧的“Install plugin”开始下载插件：

5. 安装完后重启IDEA:

3.使用scala SBT工程

1. 重启之后进入如下界面，选择“Create New Project”,选择左侧列表中的“Scala”选项，为了方便以后的开发，选择右侧的“SBT”选项：

2. 设置scala工程的名称和目录，点击Finish：

3. 此时发现没有设置Java的JDK路径，点击进入ProjectStructure目录，点击New，选择JDK路径后，关闭后重新打开项目：

4. 此时IDEA会智能的帮助我们构建SBT工具，IDEA自动完成SBT工具的安装需要一段时间（1-2分钟），SBT会自动帮我们建好一些目录：

5. 点击src下的main下的scala在弹出的“New”下选择“Scala Class，输入文件名称并选择类型:

6. 写入代码：

7. 右击代码区点击运行，第一次运行scala程序会有点缓慢：

8. 运行的结果如下：

4.搭建Spark运行环境

1.导入Spark的包，依次点击File -> Project Structure ->Libraries ->点击“+”号 ->选择Java -> 选择spark lib目录下的assembly包

IDEA工作完后发现Spark的jar包导入到我们的工程中

5.运行Spark程序

1.我们这里采用standalone模式运行wordcount作代码演示。数据从hdfs读取，代码如下。

2. 下面描述如何打jar包：

配置路径和包名

之后便可在集群上运行spark程序。

注：每次修改代码后都要rebuild jar包。

使用IDEA运行Spark程序的更多相关文章

eclipse运行spark程序时日志颜色为黑色的解决办法
自从开始学习spark计算框架以来,我们老师教的是local模式下用eclipse运行spark程序,然后我在运行spark程序时,发现控制台的日志颜色总是显示为黑色,哇,作为程序猿总有一种强迫症,发 ...
Hadoop：开发机运行spark程序，抛出异常：ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
问题: windows开发机运行spark程序,抛出异常:ERROR Shell: Failed to locate the winutils binary in the hadoop binary ...
如何在本地使用scala或python运行Spark程序
如何在本地使用scala或python运行Spark程序包含两个部分: 本地scala语言编写程序,并编译打包成jar,在本地运行. 本地使用python语言编写程序,直接调用spark的接口, ...
如何运行Spark程序
[hxsyl@CentOSMaster spark-2.0.2-bin-hadoop2.6]# ./bin/spark-submit --class org.apache.spark.examples ...
luigi框架--关于python运行spark程序
首先,目标是写个python脚本,跑spark程序来统计hdfs中的一些数据.参考了别人的代码,故用了luigi框架. 至于luigi的原理底层的一些东西Google就好.本文主要就是聚焦快速使用, ...
运行Spark程序的几种模式
一. local 模式 -- 所有程序都运行在一个JVM中,主要用于开发时测试无需开启任何服务,可直接运行 ./bin/run-example 或 ./bin/spark-submit 如: ...
在Windows上运行Spark程序
一.下载Saprk程序 https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz 解压到d:\spark-2.1.1-bi ...
spark学习14（spark local模式运行spark程序的报错）
报错1 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 解 ...
记一次运行spark程序遇到的权限问题
设置回滚点在本地运行时正常,在集群时就报错,后来是发现ceshi这个目录其他用户没有写的权限,修改其他用户的权限就好了 hdfs dfs - /ceshi

随机推荐

Codeforces 429E Points and Segments
Description 题面题目大意:有 \(n\) 个区间 \([L_i,R_i]\) ,你要给每一个区间染红蓝,使得每一个位置被红色染过的次数与被蓝色染过的次数差的绝对值不大于\(1\) Sol ...
k-d tree模板练习
1. [BZOJ]1941: [Sdoi2010]Hide and Seek 题目大意:给出n个二维平面上的点,一个点的权值是它到其他点的最长距离减最短距离,距离为曼哈顿距离,求最小权值.(n< ...
Linux 脚本为什么会有#!
我们在Linux系统终端编辑脚本时第一行通常这么写: #!/usr/bin/env python3 为什么要写这一行,起什么作用? 我们先看看不写这一行会出现什么?那么就会报下面的错误. #!/usr ...
C语言程序设计第四次作业--选择结构（2）
(一)改错题输出三角形的面积和周长,输入三角形的三条边a.b.c,如果能构成一个三角形,输出面积area和周长perimeter(保留2位小数):否则,输出"These sides do ...
tf.nn.embedding_lookup TensorFlow embedding_lookup 函数最简单实例
tf.nn.embedding_lookup TensorFlow embedding_lookup 函数最简单实例 #!/usr/bin/env python # -*- coding: utf-8 ...
获得只有 [年月日] 的Date 对象
SimpleDateFormat simpleDateFormat = new SimpleDateFormat("yyyy-MM-dd"); String sDate = sim ...
css控制file控件透明漂浮
css控件透明属性设置IE firefor设置方法<STYLE type=text/css>.upfilefield{position:absolute; FILTER: alpha(op ...
Java并发中的CopyOnWrite容器
Copy-On-Write简称COW,是一种用于程序设计中的优化策略.其基本思路是,从一开始大家都在共享同一个内容,当某个人想要修改这个内容的时候,才会真正把内容Copy出去形成一个新的内容然后再改, ...
Maven实现多环境打包
在开发的过程中,经常需要面对不同的运行环境(开发环境.测试环境.生产环境.内网环境.外网环境等等),在不同的环境中,相关的配置一般不一样,比如数据源配置.日志文件配置.以及一些软件运行过程中的基本配置 ...
韩顺平玩转Oracle视频资料整理
.oracle10g 11g:g(grid)表示网格技术以baidu搜索为准,现在想使用一个软件,但是此软件在离自己非常近的地方就存在了下载地址,但是与自己非常远的地方也同样存在一个下载地址,而搜索 ...