大数据学习（25）—— 用IDEA搭建Spark开发环境

别样风景天 2024-10-15 21:01:03 原文

IDEA是一个优秀的Java IDE工具，它同样支持其他语言。Spark是用Scala语言编写的，用Scala开发Spark是最舒畅的。当然，Spark也提供Java和Python的API。

Java是一门热度很高的开发语言，也是一个高龄语言。Java本身很牛逼，但它最牛逼的地方是——成就了JVM。

基于JVM的语言非常多，常用的除了Java还有Scala、Groovy、Kotlin、Clojure。能编译成字节码的语言，都能在JVM上运行。

Scala

Scala 是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。

Scala 运行在 Java 虚拟机上，并兼容现有的 Java 程序。

Scala 源代码被编译成 Java 字节码，所以它可以运行于 JVM 之上，并可以调用现有的 Java 类库。

与JAVA的区别

我们学习的是大数据，重点不在于Scala用的有多么溜，够用就行。作为一个从Java上手的码农，我感觉Java是一个古板先生，语言和语法都规规矩矩，显得有点儿臃肿。Scala像一个翩翩少年，没那么多束缚，语法天马行空，用行话说就是“有很甜的语法糖”，一个API可以做很多事。用惯了Scala的数据集操作，简直就不想再用Java的那一套，什么都要自己写，太麻烦了。当然，想招聘一个精通Scala的人，这个难度比招一个精通Java的人要大得多，毕竟用的人少。

IDEA安装Scala插件

创建Scala Maven项目

建好项目把App、AppTest、MySpec三个类删掉。修改pom文件里scala的版本号。

  <properties>

    <scala.version>2.12.0</scala.version>

  </properties>

引入spark-core依赖。

<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->

<dependency>

    <groupId>org.apache.spark</groupId>

    <artifactId>spark-core_2.12</artifactId>

    <version>3.1.2</version>

</dependency>

编写Scala代码

环境配好之后，可以写代码了。创建一个Scala的Object，它可以运行main方法。

package com.xy

import org.apache.spark.{SparkConf, SparkContext}

object Test {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("Test").setMaster("local")

    val sc = new SparkContext(conf)

    sc.setLogLevel("ERROR")

    val rdd = sc.parallelize(Array(1,2,3,2,1,4,5,2))

    val kv = rdd.map(x=>(x,1)).reduceByKey(_+_)

    kv.foreach(println)

  }

}

从(1,2,3,2,1,4,5,2)这个数据集里计算每个数字出现的次数，运行结果如下。

(4,1)

(1,2)

(3,1)

(5,1)

(2,3)

Process finished with exit code 0

大数据学习（25）—— 用IDEA搭建Spark开发环境的更多相关文章

PyCharm搭建Spark开发环境 + 第一个pyspark程序
一, PyCharm搭建Spark开发环境 Windows7, Java 1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop 2.7.6 通常情况下,Spark开发 ...
Intellij IDEA使用Maven搭建spark开发环境（scala）
如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例. 1.准备工作首先需要在你电脑上安装jdk和scala以 ...
大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法
前言在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误.我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了.因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题. 说明: ...
Intellij Idea搭建Spark开发环境
在Spark高速入门指南 – Spark安装与基础使用中介绍了Spark的安装与配置.在那里还介绍了使用spark-submit提交应用.只是不能使用vim来开发Spark应用.放着IDE的方便不用. ...
大数据学习系列之Hadoop、Spark学习线路（想入门大数据的童鞋，强烈推荐！）
申明:本文出自:http://www.cnblogs.com/zlslch/p/5448857.html(该博客干货较多) 1 Java基础: 视频方面: 推荐<毕向东JAVA ...
大数据学习——HADOOP集群搭建
4.1 HADOOP集群搭建 4.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主 ...
大数据学习——hadoop集群搭建2.X
1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ### ...
大数据学习之scala-环境搭建
scala 下载网站 https://www.scala-lang.org/download/ 安装scala要先安装java,并且配置java环境,官网也有说明不过国内的网站下载不下来可以访问: ...
大数据学习——Storm集群搭建
安装storm之前要安装zookeeper 一.安装storm步骤 1.下载安装包 2.解压安装包 .tar.gz storm 3.修改配置文件 mv /root/apps/storm/conf/st ...

随机推荐

Java行为参数化的演进
首先感谢<java8实战>一书作者某某某. 需求场景: 为一位果农设计一款软件,可以根据果农的需求筛选出相应的水果. 例如: 根据颜色筛选根据重量筛选根据颜色和重量筛选准备工作定义 ...
FutureTask相关
上周因为项目中的线程池参数设置的不合理,引发了一些问题,看了下代码,发现对JUC中的一些概念需要再清晰些. Runnable @FunctionalInterface public interface ...
Redis之Sentinel
Redis的主从复制模式下,一旦主节点由于故障不能提供服务,需要人工将从节点晋升为主节点,同时还要通知应用方更新主节点地址,对于很多应用场景这种故障处理的方式是无法接受的.可喜的是Redis从 2.8 ...
python之list列表（基础篇）
特点:1.有序的 2.可以存放多个元素 3.每个元素可以是任何数据类型,4,通过下标值访问1,定义一个空列表 2,定义一个非空列表 3.访问列表中的元素(同str类型) 4,切片与步长(同str类型 ...
34、mysql数据库（介绍）
34.1.什么是数据库: 数据库(database,DB)是指长期存储在计算机内的,有组织,可共享的数据的集合.数据库中的数据按一定的数学模型组织. 描述和存储,具有较小的冗余,较高的数据独立性和易扩 ...
使用Flash Builder 4.6出现新建配置失败 java.lang.NullPointerException错误
当看到这个错误的时候有点莫名奇妙的感觉,随后的第一反应是: 这跟我前些天安装的java的jre 1.8 有没有关联性.修改了设定,方法如下 "运行" -> "外部工 ...
本地无法访问虚拟机的tomcat
查看 firewalld防火墙是否开启命令: firewall-cmd --state 如果是 running 关闭 firewalld防火墙命令: service firewalld stop ...
yolov5 AssertionError: Image Not Found解决方案
运行yolov5 train.py报错:AssertionError: Image Not Found ../data/images/xxx.png 运行环境一开始在笔记本上用显卡跑训练是可 ...
SpringCloud：eureka的'eurekaAutoServiceRegistration'报错解决方法
报错信息如下: org.springframework.beans.factory.BeanCreationNotAllowedException: Error creating bean with ...
springCloud--admin监控使用
Admin监控应用 Spring Boot提供的监控接口,例如:/health./info等等,实际上除了之前提到的信息,还有其他信息业需要监控:当前处于活跃状态的会话数量.当前应用的并发数.延迟以及 ...