Spark3学习入门【基于Java】
Spark 是离线数据处理的一种大数据技术,和Flick相比数据处理要延后,因为Flick是实时数据处理,而Spark需要先读取数据到内存。
Spark的库是基于Scala写的,虽然Scala也是运行在jvm上的,但是Spark提供的Java api的能力和原生api并不完全相同,据说执行效率也有微弱差异。
但是scala语法比较难,编码也不如Java规范,用的人和企业越来越少。为了更好推广和更好交接,我们也选择Java API。
环境搭建
要用spark的库有两种方法:官方下载或maven依赖。
官方下载
到apache下载网站 Downloads | Apache Spark 点击链接下载

下载后解压到某位置。比如我放在 D:\Programs\spark-3.2.0-bin-hadoop3.2,这里就是SPARK_HOME,可以加到系统的环境变量里。
里面的bin是可执行文件和脚本,jar就是Java的api包:

里面有200+个jar,其中以spark开头的有21个。使用的时候把这个jar目录或者里面特定的jar包引入到项目即可:

maven依赖进来
在上面的下载页面可以同时看到maven的坐标

依赖进来
- </dependencies><dependencies>
- <dependency>
<!-- Spark dependency --> - <groupId>org.apache.spark</groupId>
- <artifactId>spark-core_2.12</artifactId>
- <version>3.2.0</version>
- </dependency>
- </dependencies>
spark-core只是spark的核心和最重要的部分,但是它一般不能独立使用。它里面定义了spark的工作流程和算法,比较底层,提供给其他spark模块使用。
安装hadoop
spark不少功能都是依赖hadoop的,因为spark不提供数据存储的能力(它提供的能力是和map-reduce阶段类似的),那它读取的数据通常都是hdfs来的(当然也可以从其他路径来)。为了以后方便,可以提前安装好hadoop。
从spark下载页面可以看到,和我们这个版本搭配的hadoop是版本3.3。
Hadoop下载页面是 Apache Hadoop,下载后解压到特定目录,并添加环境变量HADOOP_HOME。
小试牛刀
- 通过IDEA创建一个Maven项目,引入jar包或通过maven导入:<dependencies>
- <dependency>
<!-- Spark dependency --> - <groupId>org.apache.spark</groupId>
- <artifactId>spark-sql_2.12</artifactId>
- <version>3.2.0</version>
- </dependency>
- </dependencies>
注意这里引入的是最常用的spark-sql包,解压目录里也能找到。sql模块提供了数据帧和数据集 DataFrame和DataSet的处理,针对的是结构化数据。
> 除了sql模块,还有streaming模块处理流式计算,MLlib处理机器学习,和处理图数据的GraphX。可能有之前就接触过spark的会说RDD,著名的弹性分布式数据集,这个已经过时了,被spark-sql取代

编写程序:
- import org.apache.spark.sql.SparkSession;
- import org.apache.spark.sql.Dataset;
- public
class SimpleApp { - public
static
void main(String[] args) { - String logFile = "D:\\Programs\\spark-3.2.0-bin-hadoop3.2\\README.md";
- SparkSession spark = SparkSession.builder().appName("Simple Application").master("local").getOrCreate();
- Dataset<String> logData = spark.read().textFile(logFile).cache();
- rr
- String a1 = "scala";
- String a2 = "Scala";
- long numAs = logData.filter((org.apache.spark.api.java.function.FilterFunction<String>) s -> s.contains(a1)).count();
- long numBs = logData.filter((org.apache.spark.api.java.function.FilterFunction<String>) s -> s.contains(a2)).count();
- System.out.println("Lines with " + a1 + ": " + numAs + ", lines with " + a2 + ": " + numBs);
- spark.stop();
- }
- }
程序运行
执行上面的main方法就可以看到控制台打印出某个文件里有某个单词的行数。
> 这个程序经过我的改造,官方 Quick Start - Spark 3.2.0 Documentation (apache.org) 给的例子直接运行会报错,连编译都报错。另外只能使用Java8,刚开始使用的java 16总报错也修不好。
任务提交
spark运行的都是一个个任务,需要提交给spark环境。接下来我们把项目打包成jar提交给spark。
执行mvn package,就会在target目录下生成Jar包。拿到它的绝对路径

通过SPARK_HOME\bin\spark-submit.bat来提交:
.\bin\spark-submit --class "SimpleApp" --master local[4] 绝对路径.jar

这样可以执行完并打印计数,但是我本地会报错,执行完的时候要删除零时文件删不掉

在IDEA中可以成功删掉,在cmd中用管理员也删不掉

下一步
接下来开始学习spark sql和spark streaming。
学习网站:Spark SQL and DataFrames - Spark 3.2.0 Documentation (apache.org)
学习视频:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili
Spark3学习入门【基于Java】的更多相关文章
- Spark3学习【基于Java】3. Spark-Sql常用API
学习一门开源技术一般有两种入门方法,一种是去看官网文档,比如Getting Started - Spark 3.2.0 Documentation (apache.org),另一种是去看官网的例子,也 ...
- 带领技术小白入门——基于java的微信公众号开发(包括服务器配置、java web项目搭建、tomcat手动发布web项目、微信开发所需的url和token验证)
微信公众号对于每个人来说都不陌生,但是许多人都不清楚是怎么开发的.身为技术小白的我,在闲暇之余研究了一下基于java的微信公众号开发.下面就是我的实现步骤,写的略显粗糙,希望大家多多提议! 一.申请服 ...
- 每天进步一点点-深度学习入门-基于Python的理论与实现 (2)
今天要补上两天的 不补了,新手,看的比较慢-- 手写识别例子跳过先 思考如何实现数字5的识别 三种方法: 训练数据:学习,寻找最优解 测试数据:评价模型能力. 损失函数:以损失函数为线索寻找自由权重参 ...
- Spring入门学习笔记(2)——基于Java的配置
目录 基于Java的配置 @Configuration & @Bean Annotations Example 注入Bean依赖 @Import注解 Lifecycle Callbacks(声 ...
- 基于java的设计模式入门(1)——为什么要学习设计模式
大年初一,楼主在这里给大家拜年,祝大家码上升职加薪,码上有对象结婚,码上有车有房,幸福安康. 过完年,回学校注册报道之后,大概就要回深圳到公司开始实习了.提高自己,无非就有两种方式,一是看书学习,二是 ...
- Spring入门(8)-基于Java配置而不是XML
Spring入门(8)-基于Java配置而不是XML 本文介绍如何应用Java配置而不是通过XML配置Spring. 0. 目录 声明一个简单Bean 声明一个复杂Bean 1. 声明一个简单Bean ...
- JavaSE入门学习7:Java基础语法之语句(下)
继续接着Java基础语法来:JavaSE入门学习5:Java基础语法(一)和JavaSE入门学习6:Java基础语法(二). 语句 Java经常使用的3种循环:while.do...while,for ...
- JavaSE入门学习21:Java面向对象之接口(interface)(二)
一接口实现的多态 在上一篇博文:JavaSE入门学习20:Java面向对象之接口(interface)(一)中提到了接口的实现存在多态性,那么 这一篇主要就要分析接口实现的多态. 实例一 Test.j ...
- JavaSE入门学习6:Java基础语法之运算符和语句(上)
继续接着上篇:JavaSE入门学习5:Java基础语法(一)来看Java的基础语法. 五运算符 运算符是一种"功能"符号,用以通知Java进行相关的运算.比方.我们须要将变量age ...
随机推荐
- zuul过滤器filter 的编写
通过上一节(zuul的各种配置)的学习,我们学会了zuul路由的各种配置,这一节我们来实现一下zuul的过滤器功能.那么为什么需要用到zuul的过滤器呢?我们知道zuul是我们实现外部系统统一访问的入 ...
- stm32串口USART 硬件流控 --学习笔记
流控的概念源于 RS232 这个标准,在 RS232 标准里面包含了串口.流控的定义.大家一定了解,RS232 中的"RS"是Recommend Standard 的缩写,即&qu ...
- 21.7.1 test
\(NOI\) 模拟赛 呜呜呜 \(\cdots\cdots\) \(T1\) 类似哈夫曼编码,虽然没学过但是我依然画出了二叉树,然后尝试树形dp,并且最后还抓住了一个优化!让我兴奋地以为自己能赛时A ...
- 021中国大学生程序设计竞赛(CCPC)- 压力测试赛题解
A.Matrix 挺狗的一道题,从开始冲到最后都没冲出来,都没啥思路. 其实分开考虑每个数的贡献,这个想法也存在过,就是不知道该怎么计算,我们考虑我们单独考虑一个数字\(i(1\leq i\leq n ...
- Docker+nginx搭建tomcat集群
1.环境准备: a.宿主机CentOS7 b.连接工具FinalShell c.镜像nginx1.20.1,tomcat (镜像拉取:docker pull 镜像名称) 2.创建nginx文件夹,to ...
- shell脚本 PHP+swoole的安装
#!bin/bash set -e # Check if user is root if [ $(id -u) != "0" ]; then echo "Error: p ...
- Java第三天【变量、常量、数据类型】
学习Java第三天!加油!请帖友看看有和不足的地方,和在下说一下,谢谢! 变量 变量(variable): 1.变量的本质就是代表"可操作的存储空间",空间位置是确定的,蛋里面放置 ...
- c++学习笔记3(内联函数)
函数调用是有开销的,调用时需将参数放入栈中,返回地址也要放入,返回时还需从栈中取出,跳转返回地址去执行,需几条语句的时间,如果本身程序代码短,则会显得十分浪费,所以引入了内联函数的机制 写法:在函数前 ...
- JS中innerHTML、outerHTML、innerText 、outerText、value的区别与联系?
1.innerHTML 属性 (参考自<JavaScript高级程序设计>294页) 在读模式下,innerHTML 属性返回与调用元素的所有子节点(包括元素.注释和文本节点)对应的 HT ...
- 菜鸡的Java笔记 第十五 this 关键字
this 关键字 对于this关键字有三种用法:表示本类属性,调用本类方法,当前对象 this 关键字如何实现属性,方法的调用,以及对象本身的描述 ...