.NET for Apache Spark 入门演练
.NET for Apache Spark 入门演练
微软官方文档: .NET for Apache Spark 入门 | Microsoft Learn
注意:由于本次在windows平台下进行演练,以下在未标注操作系统平台处,默认为windows。
1. 环境准备
推荐安装工具: visual studio 2019, 7-zip 或 bandzip 解压工具
1.1 安装.Net
推荐安装 visual studio 2019 作为编码IDE,同时它会自动安装 .net 开发环境。
在windows开发环境下,安装了visual studio 2019或者其它版本时已经安装了.net开发环境。故不做详细说明。
在命令行输入以下命令验证是否有.net环境:
dotnet --version
打印出版本信息,则进行下一步。
1.2 安装 Java
安装 java 8 , 安装完成后可使用如下命令进行测试
java , javac , java -version
打印出版本信息,则进行下一步。
1.3 安装 Apache Spark
本文使用 spark-3.0.1-bin-hadoop2.7.tgz。
官网下载地址:Downloads | Apache Spark
下载完成后,使用7-zip提取嵌套的 .tar文件,然后解压 .tar文件
取消7-zip界面的 "提取到" 勾选框
设置环境变量
# 这里的 C:\bin 替换为自己的安装目录
setx /M HADOOP_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\
setx /M SPARK_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\
setx /M PATH "%PATH%;%HADOOP_HOME%;%SPARK_HOME%bin"
环境变量设置成功后,**打开新的命令行 **运行以下命令
spark-submit --version
如果打印出版本信息,则安装成功,进行下一步。
1.4 安装.NET for Apache Spark
- 从 GitHub Releases · dotnet/spark (github.com) 下载。 这里下载 Microsoft.Spark.Worker.net461.win-x64-2.1.1.zip 版本,因为本文是基于 .NetFramework 演练。
- 使用7-zip提取嵌套的 .tar文件,然后解压 .tar文件
- 取消7-zip界面的 "提取到" 勾选框
1.5 安装 WinUtils(仅限 Windows)
.NET for Apache Spark 要求与 Apache Spark 一起安装 WinUtils。 下载 winutils.exe 。然后,将 WinUtils 复制到 C:\bin\spark-3.0.1-bin-hadoop2.7\bin。
设置环境变量
# 这里的 C:\bin 替换为自己的安装目录
setx /M DOTNET_WORKER_DIR C:bin\Microsoft.Spark.Worker-2.1.1
2 编写演练实例
在本地新建一个文本,输入如下内容
Hello World
This .NET app uses .NET for Apache Spark
This .NET app counts words with Apache Spark
打开 visual studio 2019,选择 .NetFramework,创建控制台程序。
引入 NuGet 包:Microsoft.Spark,默认最新版本2.1.1
在 Progarm.cs 文件中输入以下代码
var inputTxt = @"C:\Users\Administrator\Desktop\新建文本文档.txt";
SparkSession spark = SparkSession
.Builder()
.AppName("word_count_sample")
.GetOrCreate();
// Create initial DataFrame
DataFrame dataFrame = spark.Read().Text(inputTxt);
// Count words
DataFrame words = dataFrame
.Select(Functions.Split(Functions.Col("value"), " ").Alias("words"))
.Select(Functions.Explode(Functions.Col("words"))
.Alias("word"))
.GroupBy("word")
.Count()
.OrderBy(Functions.Col("count").Desc());
// Show results
words.Show();
// Stop Spark session
spark.Stop();
编译输出。
执行。输入如下命令运行
spark-submit --class org.apache.spark.deploy.dotnet.DotnetRunner --master local microsoft-spark-3-0_2.12-2.1.1.jar ConsoleApp1.exe
- spark-submit 提交给spark执行
- --calss 执行程序
- --master 本地还是远程仓库,选local, 然后 指定 microsoft-spark 版本,然后 指定用户程序
这里有个注意的地方,NuGet下载下来的包,在编译输出目录下会有4个jar包

- microsoft-spark-2-4_2.11-2.1.1.jar
- microsoft-spark-3-0_2.12-2.1.1.jar
- microsoft-spark-3-1_2.12-2.1.1.jar
- microsoft-spark-3-2_2.12-2.1.1.jar
这里选择第二个 microsoft-spark-3-0_2.12-2.1.1.jar,只有这个能运行成功 。其它3个应该是 .netcore平台下的,
执行结果如下:

说明第一次演练成功!
.NET for Apache Spark 入门演练的更多相关文章
- [翻译]Apache Spark入门简介
原文地址:http://blog.jobbole.com/?p=89446 我是在2013年底第一次听说Spark,当时我对Scala很感兴趣,而Spark就是使用Scala编写的.一段时间之后,我做 ...
- Apache Spark大数据分析入门(一)
摘要:Apache Spark的出现让普通人也具备了大数据及实时数据分析能力.鉴于此,本文通过动手实战操作演示带领大家快速地入门学习Spark.本文是Apache Spark入门系列教程(共四部分)的 ...
- 新手福利:Apache Spark入门攻略
[编者按]时至今日,Spark已成为大数据领域最火的一个开源项目,具备高性能.易于使用等特性.然而作为一个年轻的开源项目,其使用上存在的挑战亦不可为不大,这里为大家分享SciSpike软件架构师Ash ...
- Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN
快速入门 使用 Spark Shell 进行交互式分析 基础 Dataset 上的更多操作 缓存 独立的应用 快速跳转 本教程提供了如何使用 Spark 的快速入门介绍.首先通过运行 Spark 交互 ...
- Spark 入门
Spark 入门 目录 一. 1. 2. 3. 二. 三. 1. 2. 3. (1) (2) (3) 4. 5. 四. 1. 2. 3. 4. 5. 五. Spark Shell使用 ...
- Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介 随着实时计算的需求日益增多,分布式内存计算 ...
- 使用scala开发spark入门总结
使用scala开发spark入门总结 一.spark简单介绍 关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍.推荐简单介绍连接:http://blog.jobbole.c ...
- Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介 年6月进入Apache成为孵化项目,8个月后成为Apache ...
- Spark入门实战系列--2.Spark编译与部署(中)--Hadoop编译安装
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载mave ...
- Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 ...
随机推荐
- 1778D Flexible String Revisit
1778D Flexible String Revisit 目录 1778D Flexible String Revisit 题目大意: 做法: dp 注意 code 题目大意: 给你两个长度均为\( ...
- SpringCloud导入spring boot项目当作子模块微服务IDEA不识别子module问题
1.在父工程下面引入module. <modules> <module>study-design-mode</module> </modules> 2. ...
- Linux tinyhttpd编译总结
编译环境:ubuntu16.04 x64 直接make编译tinyhttpd弹出如下错误和打印信息 其中报出两个错误信息,一个是cannot find -lsocket,另外一个就是pthread_ ...
- 武装你的WEBAPI-OData与DTO
前面写了很多有关OData使用的文章,很多读者会有疑问,直接将实体对象暴露给最终用户会不会有风险?$expand在默认配置的情况下,数据会不会有泄露风险? 答案是肯定的,由于OData的特性,提供给我 ...
- 2020-08-19:TCP是通过什么机制保障可靠性的?
福哥答案2020-08-19: 福哥口诀法:校(jiao)序确重拥流连(tcp可靠性保障机制:校验.序号.确认.重传.拥塞.流量.连接)校验:数据是否正确.序号:对数据编号seq.确认:ACK.重传: ...
- npm init vite@latest; 项目名字是abcde,选了vue-ts; cd abcde; npm install; npm run dev;浏览器访问,结果是空白的,这是怎么回事?
npm init vite@latest 项目名字是abcde,选了vue-ts cd abcde npm install npm run dev 浏览器访问,结果是空白的,这是怎么回事? 后来发现是 ...
- 报错HTTP 405 Method Not Allowed, Allow: POST, OPTIONS, "detail": "方法 “GET” 不被允许。"
当测试注册功能是否实现时,出现了这种情况的405:HTTP 405 Method Not AllowedAllow: POST, OPTIONSContent-Type: application/js ...
- 第十三届蓝桥杯c++b组国赛题解(还在持续更新中...)
试题A:2022 解题思路: 有2022个物品,它们的编号分别是1到2022,它们的价值分别等于它们的编号.也就是说,有2022种物品,物品价值等于物品编号. 从2022个物品种选取10个物品,满足1 ...
- mac部署flutter时执行brew update无反应
找来找去还是镜像的问题 1.替换brew 镜像 git remote set-url origin https://mirrors.ustc.edu.cn/ew.git 2.替换homebrew-co ...
- 500代码行代码手写docker-设置网络命名空间
(4)500代码行代码手写docker-设置网络命名空间 本系列教程主要是为了弄清楚容器化的原理,纸上得来终觉浅,绝知此事要躬行,理论始终不及动手实践来的深刻,所以这个系列会用go语言实现一个类似do ...