Ubuntu 14.10 下使用IDEA开发Spark应用

1 环境准备

　　1.1 下载IDEA，可在官网下载

　　1.2 IDEA与Eclipse有点不同，IDEA中的New Projects相当于Eclipse中的workspace，New Module才是新建工程

2 建立Spark程序

　　2.1 首先新建项目，New Projects，名字随便取：Create New Project -> Scala -> SBT -> 创建名为SparkExample的project

　　2.2 创建Module，New Module，名字随便取：New Module-> Scala -> Scala，创建名为FirstApp

　　2.3 设置FirstApp 的Project Structure

　　　　2.3.1 增加源码目录，目录结构自己设置

　　　　2.3.2 增加Jar包，File -> Project Structure -> Libraries -> + -> java -> 选择

　　　　　　spark-assembly-1.0.0-hadoop2.2.0.jar

　　　　　　scala-library.jar

　　2.4 编写代码，在源码包下新建Object，这里找了三个Demo

import org.apache.spark._

import scala.math.random

/**

 * Created by hadoop on 15-3-21.

 */

object SparkPi {

  def main (args: Array[String]) {

    val conf = new SparkConf().setAppName("Spark Pi")

    val spark = new SparkContext(conf)

    val slices = if(args.length > 0) args(0).toInt else 2

    val n = 100000 * slices

    val count = spark.parallelize(1 to n,slices).map{ i =>

      val x = random * 2 - 1

      val y = random * 2 - 1

      if(x*x + y*y < 1) 1 else 0

    }.reduce(_+_)

    println("Pi is roughly " + 4.0 * count / n)

    spark.stop()

  }

}

import org.apache.spark.{SparkContext,SparkConf}

import org.apache.spark.SparkContext._

/**

 * Created by hadoop on 15-3-21.

 */

object WordCount1 {

  def main (args: Array[String]) {

    if(args.length == 0){

      System.err.println("Usage: WordCount1 <file1>")

      System.exit(1)

    }

    val conf = new SparkConf().setAppName("WordCount1")

    val sc = new SparkContext(conf)

    sc.textFile(args(0)).flatMap(_.split(" ")).map(x => (x,1)).reduceByKey(_+_).take(10).foreach(println)

    sc.stop()

  }

}

import org.apache.spark.{SparkContext, SparkConf}

import org.apache.spark.SparkContext._

/**

 * Created by hadoop on 15-3-21.

 */

object WordCount2 {

  def main(args: Array[String]) {

    if (args.length == 0) {

      System.err.println("Usage: WordCount2 <file1>")

      System.exit(1)

    }

    val conf = new SparkConf().setAppName("WordCount2")

    val sc = new SparkContext(conf)

    sc.textFile(args(0)).flatMap(_.split(" ")).map(x => (x,1)).reduceByKey(_+_).map(x =>

      (x._2,x._1)).sortByKey(false).map(x => (x._2,x._1)).take(10).foreach(println)

    sc.stop()

  }

}

　　2.5 生成Jar包

　　生成程序包之前要先建立一个artifacts，File -> Project Structure -> Artifacts -> + -> Jars -> From moudles with dependencies，然后随便选一个class作为主class。

　　按OK后，对artifacts进行配置，修改Name为FirstApp，删除Output Layout中FirstApp.jar中的几个依赖包，只剩FirstApp项目本身。

　　按OK后， Build -> Build Artifacts -> FirstApp -> rebuild进行打包，经过编译后，程序包放置在out/artifacts/FirstApp目录下，文件名为FirstApp.jar。

3 测试Jar包，下图摘自http://blog.csdn.net/book_mmicky/article/details/25714545，需要修改Jar包名称，HDFS路径

参考：http://www.aboutyun.com/thread-8404-1-1.html

　　　http://blog.csdn.net/book_mmicky/article/details/25714545

　　　http://blog.csdn.net/david_xtd/article/details/19081341

Ubuntu 14.10 下使用IDEA开发Spark应用的更多相关文章

Ubuntu 14.04 下使用IDEA开发Spark应用入门
网上有很多教程,有用sbt ,也有不用sbt的,看的头大,搞了半天,终于运行成功一个例子,如下: 1.官网下载http://www.jetbrains.com/idea/download/ Inter ...
Ubuntu 14.10下基于Nginx搭建mp4/flv流媒体服务器(可随意拖动)并支持RTMP/HLS协议(含转码工具)
Ubuntu 14.10下基于Nginx搭建mp4/flv流媒体服务器(可随意拖动)并支持RTMP/HLS协议(含转码工具) 最近因为项目关系,收朋友之托,想制作秀场网站,但是因为之前一直没有涉及到这 ...
Ubuntu 14.10 下安装Ganglia监控集群
关于 Ganglia 软件,Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格.它是基于分层设计,它使用广泛的技术,如XML数据代表,便携数据传输,RRDtool用于数 ...
Ubuntu 14.10 下安装java反编译工具 jd-gui
系统环境,Ubuntu 14.10 ,64位 1 下载JD-GUI,网址http://221.3.153.126/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/jd.benow.ca/ ...
Ubuntu 14.10 下ZooKeeper+Hadoop2.6.0+HBase1.0.0 的HA机群高可用配置
1 硬件环境 Ubuntu 14.10 64位 2 软件环境 openjdk-7-jdk hadoop 2.6.0 zookeeper-3.4.6 hbase-1.0.0 3 机群规划 3.1 zoo ...
Ubuntu 14.10 下Hive配置
1 系统环境 Ubuntu 14.10 JDK-7 Hadoop 2.6.0 2 安装步骤 2.1 下载Hive 我第一次安装的时候,下载的是Hive-1.2.1,配置好之后,总是报错 [ERROR] ...
Ubuntu 14.10 下DokuWiki安装
环境说明: Ubuntu 14.10 64位 1 下载DokuWiki:http://download.dokuwiki.org/ 2 解压到 /var/www/html下面 3 如果没有安装Apac ...
Ubuntu 14.10 下Server版本中文乱码问题
在安装Ubuntu server 14.10 时候选择了中文版,但是装好系统发现,里面的中文有乱码,解决办法打开 /etc/default/locale sudo nano /etc/default ...
Ubuntu 14.10 下awk命令详解
简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再 ...

随机推荐

软件安装配置笔记（一）——Oracle及PLSQL Developer的安装与配置
一.Oracle: Oracle服务器端或桌面端可以创建本地的Oracle数据库,而Oracle客户端是用来远程连接其他服务器或电脑上的Oracle服务器端或桌面端的,安装客户端软件只需配置网络连接文 ...
xdoj-1324 (区间离散化-线段树求区间最值）
思想 : 1 优化:题意是覆盖点,将区间看成 (l,r)转化为( l-1,r) 覆盖区间 2 核心:dp[i] 覆盖从1到i区间的最小花费 dp[a[i].r]=min (dp[k])+a[i]s; ...
P1005 矩阵取数游戏（动态规划+高精度）
题目链接:传送门题目大意: 给定长度为m的数列aj,每次从两端取一个数,得到2k * aj的价值(k为当前的次数,从1开始到m),总共有n行这样的数列,求最大价值总和. 1 ≤ n, m ≤ 80, ...
SQL-表-003
注:红色代表关键字,绿色代表解释说明,蓝色代表重点: 什么是数据表? 数据表是数据库中最重要的组成部分,可以将数据表分解成字段(列)和记录(行): 数据表的增加:约束同时创建 create table ...
hdu2732 Leapin' Lizards 最大流+拆点
Your platoon of wandering lizards has entered a strange room in the labyrinth you are exploring. As ...
LeetCode - Trim a Binary Search Tree
Given a binary search tree and the lowest and highest boundaries as L and R, trim the tree so that a ...
Redis源码剖析和注释（七）--- 快速列表(quicklist)
Redis 快速列表(quicklist)1. 介绍quicklist结构是在redis 3.2版本中新加的数据结构,用在列表的底层实现. 通过列表键查看一下:redis 列表键命令详解 127.0. ...
doubleclick protobuf file load to project
1,download protobuf file to local wget https://developers.google.com/ad-exchange/rtb/downloads/openr ...
一次单片机 SFR 页引发的“事故”
一次单片机 SFR 页引发的"事故" 现象需要使用单片机的 ADC 功能,在对 ADC 初始化后,根据内部分的 IVREN 计算出 VDD 的电压值 . 在读取时一直显示 ADC ...
vue 下实现 echarts 全国到省份的地图下钻
vue 下实现 echarts 全国到省份的地图下钻项目地址:https://github.com/cag2050/vue_echarts_v3_demo

Ubuntu 14.10 下使用IDEA开发Spark应用

Ubuntu 14.10 下使用IDEA开发Spark应用的更多相关文章

随机推荐

热门专题