原文引自：http://blog.csdn.net/huanbia/article/details/69084895

1、环境准备

idea采用2017.3.1版本。

创建一个文件a.txt

2、构建maven工程

点击File->New->Project…

点击Next，其中GroupId和ArtifactId可随意命名

点击Next

点击Finish，出现如下界面：

3、书写wordCount代码

请在pom.xml中的version标签后追加如下配置

 <properties>

     <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

 </properties>

 <dependencies>

     <dependency>

         <groupId>junit</groupId>

         <artifactId>junit</artifactId>

         <version>3.8.1</version>

         <scope>test</scope>

     </dependency>

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-core_2.10</artifactId>

         <version>1.6.1</version>

     </dependency>

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-sql_2.10</artifactId>

         <version>1.6.1</version>

     </dependency>

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-hive_2.10</artifactId>

         <version>1.6.1</version>

     </dependency>

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-streaming_2.10</artifactId>

         <version>1.6.1</version>

     </dependency>

     <dependency>

         <groupId>org.apache.hadoop</groupId>

         <artifactId>hadoop-client</artifactId>

         <version>2.7.1</version>

     </dependency>

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-streaming-kafka_2.10</artifactId>

         <version>1.6.1</version>

     </dependency>

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-graphx_2.10</artifactId>

         <version>1.6.1</version>

     </dependency>

     <dependency>

         <groupId>org.apache.maven.plugins</groupId>

         <artifactId>maven-assembly-plugin</artifactId>

         <version>2.2-beta-5</version>

     </dependency>

     <dependency>

         <groupId>commons-lang</groupId>

         <artifactId>commons-lang</artifactId>

         <version>2.3</version>

     </dependency>

 </dependencies>

 <build>

     <sourceDirectory>src/main/java</sourceDirectory>

     <testSourceDirectory>src/test/java</testSourceDirectory>

     <plugins>

         <plugin>

             <artifactId>maven-assembly-plugin</artifactId>

             <configuration>

                 <descriptorRefs>

                     <descriptorRef>jar-with-dependencies</descriptorRef>

                 </descriptorRefs>

                 <archive>

                     <manifest>

                         <maniClass></maniClass>

                     </manifest>

                 </archive>

             </configuration>

             <executions>

                 <execution>

                     <id>make-assembly</id>

                     <phase>package</phase>

                     <goals>

                         <goal>single</goal>

                     </goals>

                 </execution>

             </executions>

         </plugin>

         <plugin>

             <groupId>org.codehaus.mojo</groupId>

             <artifactId>exec-maven-plugin</artifactId>

             <version>1.3.1</version>

             <executions>

                 <execution>

                     <goals>

                         <goal>exec</goal>

                     </goals>

                 </execution>

             </executions>

             <configuration>

                 <executable>java</executable>

                 <includeProjectDependencies>false</includeProjectDependencies>

                 <classpathScope>compile</classpathScope>

                 <mainClass>com.dt.spark.SparkApps.App</mainClass>

             </configuration>

         </plugin>

         <plugin>

             <groupId>org.apache.maven.plugins</groupId>

             <artifactId>maven-compiler-plugin</artifactId>

             <configuration>

                 <source>1.6</source>

                 <target>1.6</target>

             </configuration>

         </plugin>

     </plugins>

 </build>

点击右下角的Import Changes导入相应的包

点击File->Project Structure…->Moudules，将src和main都选为Sources文件

在java文件夹下创建SparkWordCount java文件

该文件代码为：

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

import java.util.Arrays;

/**

 * Created by hadoop on 17-4-4.

 */

public class SparkWordCount {

    public static void main(String[] args){

        SparkConf conf = new SparkConf()

                .setAppName("WordCountCluster");

        //第二步

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> lines = sc.textFile("hdfs://hadoop01:9000/a.txt");

        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>(){

            private static final long serialVersionUID = 1L;

            @Override

            public Iterable<String> call(String line) throws Exception{

                return Arrays.asList(line.split(" "));

            }

        });

        JavaPairRDD<String,Integer> pairs = words.mapToPair(

                new PairFunction<String, String, Integer>() {

                    private  static final long serialVersionUID = 1L;

                    public Tuple2<String, Integer> call(String word) throws Exception {

                        return new Tuple2<String, Integer>(word,1);

                    }

                }

        );

        JavaPairRDD<String,Integer> wordCounts = pairs.reduceByKey(

                new Function2<Integer, Integer, Integer>() {

                    @Override

                    public Integer call(Integer v1, Integer v2) throws Exception {

                        return v1+v2;

                    }

                }

        );

        wordCounts.foreach(new VoidFunction<Tuple2<String, Integer>>() {

            @Override

            public void call(Tuple2<String, Integer> wordCount) throws Exception {

                System.out.println(wordCount._1+" : "+ wordCount._2 );

            }

        });

        sc.close();

    }

}

打包：

执行

会在output目录下生成可执行jar包 sparkStudy

4、jar包上传到集群并执行

从spark官方网站下载spark-1.6.1-bin-hadoop2.6.tgz

Spark目录：

　　　　bin包含用来和Spark交互的可执行文件，如Spark shell。

　　　　examples包含一些单机Spark job,可以研究和运行这些例子。

　　Spark的Shell:

　　　　Spark的shell能够处理分布在集群上的数据。

　　　　Spark把数据加载到节点的内存中，因此分布式处理可在秒级完成。

　　　　快速使用迭代式计算，实时查询、分析一般能够在shells中完成。

　　　　Spark提供了Python shells和Scala shells。

解压

这里需要先启动集群：

　　启动master: ./sbin/start-master.sh

　　启动worker: ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

　　　　　　　　这里的地址为：启动master后,在浏览器输入localhost:8080,查看到的master地址

启动成功后，jps查看进程：

接下来执行提交命令，将打好的jar包上传到linux目录，jar包在项目目录下的out\artifacts下。

　　提交作业： ./bin/spark-submit --master spark://localhost:7077 --class WordCount /home/lucy/learnspark.jar

　　可以在4040端口查看job进度：

将执行的包上传到服务器上，封装执行的脚本。

然后执行脚本，执行结果如下：

任务执行结束。

spark编程入门-idea环境搭建的更多相关文章

Minecraft Forge编程入门一 “环境搭建”
什么是Forge Minecraft Forge is a Minecraft application programming interface (API) which allows almost ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据
将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": ...
大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
【个人笔记】003-PHP基础-01-PHP快速入门-03-PHP环境搭建
003-PHP基础-01-PHP快速入门 03-PHP环境搭建 1.客户端(浏览器) IE FireFox CHROME Opera Safari 2.服务器是运行网站的基本是放置程序代码的地方 ...
Android入门之环境搭建
欢迎访问我的新博客:http://www.milkcu.com/blog/ 原文地址:http://www.milkcu.com/blog/archives/1376935560.html 原创:An ...
scala 入门Eclipse环境搭建
scala 入门Eclipse环境搭建及第一个入门经典程序HelloWorld IDE选择并下载: scala for eclipse 下载: http://scala-ide.org/downloa ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十一）NIFI1.7.1安装
一.nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容. 192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 sla ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）
异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical mem ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十二）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。
Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照<Kafka:ZK+Kafka+Spark Streaming集群环境搭 ...

随机推荐

【笔记篇】斜率优化dp（二） SDOI2016征途
=======传=送=门======= 搜题目名会搜出很多奇怪的东西... 这个题目似乎有点毒? 比如在bzoj和loj上可以1A的代码上会在luogu TLE 2个点, 在cogs TLE 10个点 ...
CSS在工程中改变之面向对象的 CSS
oocss的概念众多开发者忽视了css的表现(认为它) oocss将页面可重用的元素抽象成一个类,用class加以描述,而与其对应的HTML即可看成是此类的一个实例. oocss的作用 1.加强代码 ...
FCC知识点总结
1.DOMContentLoaded事件 2.延迟脚本 defer 3.异步脚本async 4.[找最长单词]—— 找出句子中最长的单词,并返回它的长度. 5.数组slice().splice() s ...
dos中文显示乱码怎么办？
其实只需要一条命令 chcp 65001 执行该操作后,代码页就被变成UTF-8了也可是GBK, 命令式: chcp 936 2.修改窗口属性,改变字体在命令行标题栏上点击右键,选择&quo ...
Han Xin and His Troops（扩展中国剩余定理 Python版）
Han Xin and His Troops(扩展中国剩余定理 Python版) 题目来源:2019牛客暑期多校训练营(第十场) D - Han Xin and His Troops 题意: 看标 ...
PAT甲级——A1139 First Contact【30】
Unlike in nowadays, the way that boys and girls expressing their feelings of love was quite subtle i ...
springboot+springsecurity+thymeleaf
来源:听秦疆老师的课笔记 springsecurity是一个权限管理框架,用来授权,认证,加密等等......类似的工具还有shiro 1.整合我用的是springboot2.2.0版本,导入以下依 ...
爬虫所需要的文档和自动化文本driver下载地址,以及制作词云的文档，api等
Scrapy1.7.3文档 webdriver文档 webdriver下载地址 Chrom各版本下载地址词云1.5文档 selenium中文文档 vue数据可视化文档 element开发组件其他好 ...
Newtonsoft.Json高级篇：TypeNameHandling设置
原文:Newtonsoft.Json高级篇:TypeNameHandling设置此示例使用TypeNameHandling 设置在序列化JSON和读取类型信息时包含类型信息,以便在反序列化JSON时 ...
阻止a标签跳转/刷新
<a href='javascript:;' onClick='functionA()'>点击</a> //注意":"."’":均需为英 ...