1.java/scala的安装 - 安装JDK
下载:
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
jdk-8u151-windows-x64
双击傻瓜式一步一步安装,需要等一点时间,最终安装在C:\Program Files\Java目录下
JRE: Java Runtime Environment
JDK:Java Development Kit
配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 ):
新增JAVA_HOME=C:\Program Files\Java\jdk1.8.0_151
在系统变量Path中追加 %JAVA_HOME%/bin;
打开cmd验证java -version是否安装成功

2java/scala的安装 - 安装scala
下载: http://www.scala-lang.org/download/2.11.8.html
scala-2.11.8.zip
将下载下来的zip包放置C:\Program Files\scala,然后解压
配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 ):
新增SCALA_HOME=C:\Program Files\scala\scala-2.11.8
在系统变量Path中追加 %SCALA_HOME%/bin;
打开cmd验证scala是否安装成功

3.安装hadoop
下载
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz 
hadoop-2.6.5.tar.gz
将包hadoop-2.6.5.tar.gz放置在D:\spark下,并且解压
配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 ):
新增HADOOP_HOME=D:\spark\hadoop-2.6.5\hadoop-2.6.5
将hadoop的插件包放入到HADOOP_HOME/bin下(mac和linux系统不需要做这一步)
4.安装maven

下载:http://maven.apache.org/download.cgi
apache-maven-3.5.0-bin.tar.gz
将下载下来的包放置在D:\spark中,并且解压
配置conf/settings.xml的仓储
配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 ):
M2_HOME=D:\spark\apache-maven-3.5.0
且将%M2_HOME%/bin追加到系统变量Path中
打开cmd运行mvn -version,看看是否安装成功

5.eclipse - scala/java语言开发

下载: http://www.eclipse.org/ 
eclipse-inst-win64
双击安装eclipse-inst-win64,选择“Eclipse IDE for Java Developers”
选择初始化目录为:D:\eclipse-java,然后点击INSTALL, 开始安装,需要一点点时间
安装完,则点击桌面快捷方式,选择workspace为:D:\workspace\eclipse,点击launch
集成maven
6.eclipse集成scala
help -> Eclipse Marketplace 搜索scala,然后install Scala IDE
保证eclipse集成了maven。默认是支持的
设置Group Id: net.alchim31.maven Artifact Id: scala-archetype-simple Version:1.6
第一种方式:maven配置添加 :http://repo1.maven.apache.org/maven2/archetype-catalog.xml

可以将这个archetype-catalog.xml下载到本地,然后在设置local archetypem模式
第二种方式:安装m2-scala
help -> Install New Software -> http://alchim31.free.fr/m2e-scala/update-site/

新建maven项目 - spark-wordcount-eclipse
设置开发spark应用需要的相关依赖
开发spark应用
本地调试spark应用

7.IntelliJ IDEA - java/scala语言开发

下载: https://www.jetbrains.com/idea/download/#section=windows
ideaIC-2017.2.5

双击ideaIC-2017.2.5,然后一步一步安装,需要一点时间,
最终安装在C:\Program Files\JetBrains\IntelliJ IDEA Community Edition 2017.2.5
idea集成scala, 在plugins中搜索scala,并且install, 安装完这个插件就重启IDEA
idea集成maven
新建maven项目 - spark-wordcount-idea
设置开发spark应用需要的相关依赖
开发spark应用
本地调试spark应用

8.本地安装spark 2.x

下载 http://spark.apache.org/downloads.html
spark-2.2.0-bin-hadoop2.6.tgz
将包spark-2.2.0-bin-hadoop2.6.tgz放置在D:\spark下,并且解压
配置环境变量:
新增SPARK_HOME=D:\spark\spark-2.2.0-bin-hadoop2.6
在系统变量Path中追加 %SPARK_HOME%/bin;

9.本地启动spark-shell
在cmd中执行 :
D:\spark\hadoop-2.6.5\bin\winutils.exe chmod 777 D:\tmp\hive
cmd进入到D:\spark目录下,然后执行spark-shell

10.安装python

下载: https://www.python.org/downloads/release/python-2710/
python-2.7.10.amd64
双击python-2.7.10.amd64,然后一步一步安装,需要一点时间,
python将默认安装到C:\Python27目录下
配置环境变量:将python的安装路径追加到Path中
打开cmd,输入python,看看python是否安装成功

11.PyCharm – python语言开发

下载: https://www.jetbrains.com/pycharm/download/#section=windows
pycharm-community-2017.2.3
双击pycharm-community-2017.2.3,然后一步一步安装,需要一点时间
新建python项目,spark-wordcount-python
在pycharm中将开发spark依赖的python设置到PYTHONPATH中
PYTHONPATH
D:\spark\spark-2.2.0-bin-hadoop2.6\python;D:\spark\spark-2.2.0-bin-hadoop2.6\python\lib\py4j-0.10.4-src.zip
项目关联py4j-some-version.zip和pyspark.zip两个zip包

12.PyCharm – python语言开发

开发spark应用
本地调试spark应用

13.集群spark-submit提交应用

将spark应用打成jar包,用filezilla工具将jar包上传至服务器
用xshell连上服务器,用下面的命令进行提交scala/java spark应用
hadoop fs -rm -r hdfs://master:9999/user/hadoop-twq/wordcount
spark-submit \
--class com.twq.WordCountScala \
--master spark://master:7077 \
--deploy-mode client \
--driver-memory 1g \
--executor-memory 1g \
--num-executors 2 \
--conf spark.wordcount.dataPath=hdfs://master:9999/user/hadoop-twq/ \
spark-wordcount-idea-1.0-SNAPSHOT.jar

14.集群spark-submit提交应用

将spark应用打成zip包,用filezilla工具将zip包上传至服务器
用xshell连上服务器,用下面的命令进行提交python spark应用
hadoop fs -rm -r hdfs://master:9999/user/hadoop-twq/wordcount
spark-submit \
--master spark://master:7077 \
--deploy-mode client \
--driver-memory 1g \
--executor-memory 1g \
--num-executors 2 \
wordcount.py hdfs://master:9999/user/hadoop-twq

15.spark源码环境搭建

git客户端下载和安装
https://git-for-windows.github.io/
打开git客户端,执行git clone https://github.com/apache/spark.git
打开IDEA,设置git
将源代码导入到IDEA中

Spark 在 Window 环境下的搭建的更多相关文章

  1. Window环境下配置MySQL 5.6的主从复制

    原文:Window环境下配置MySQL 5.6的主从复制 1.环境准备 Windows 7 64位 MySQL 5.6 主库:192.168.103.207 从库:192.168.103.208 2. ...

  2. 【转】mysql8.0 在window环境下的部署与配置

    [转]mysql8.0 在window环境下的部署与配置 今天在阿里云window服务器上配置mysql环境,踩了一些坑,分享出来.需要的朋友可以看看.额,或许有人要吐槽我为什么不在linux上去配置 ...

  3. window环境下将solr6.3部署到tomcat中

    1.我下载的solr是6.3版本的,需要jdk1.8及以上,tomcat8 JDK1.8的下载地址:http://www.Oracle.com/technetwork/Java/javase/down ...

  4. window环境下glog的安装

    window环境下glog的安装 分类: c++2014-09-23 14:12 32人阅读 评论(0) 收藏 举报 下载后解压,利用Visual Studio打开google-glog.sln.生成 ...

  5. window环境下杀死tomcat

    window环境下杀死进程 1.首先查找到占用8080端口的进程号PID是多少(tomcat默认是8080端口,假如你修改了tomcat的监听端口,请输入你的tomcat端口号) netstat -a ...

  6. MemCache在Windows环境下的搭建及启动

    MemCache在Windows环境下的搭建及启动 一.memcache服务器端的安装 1.下载memcached的安装包,memcached_en32or64.zip,下载链接:http://pan ...

  7. window环境下npm install node-sass报错

    最近准备想用vue-cli初始化一个项目,需要sass-loader编译: 发现window下npm install node-sass和sass-loader一直报错, window 命令行中提示我 ...

  8. JAVA中调用LevelDB用于Linux和Window环境下快速存储KV结构

    一.简介 JAVA中调用LevelDB用于Linux和Window环境下快速存储KV结构 二.依赖 <!-- https://mvnrepository.com/artifact/org.fus ...

  9. Window环境下,PHP调用Python脚本

    参考 php调用python脚本*** php 调用 python脚本的方法 解决办法:php提供了许多调用其他脚本或程序的方法,比如exec/system/popen/proc_open/passt ...

随机推荐

  1. 【收藏】Supervisor的作用与配置

    原文链接:https://www.jianshu.com/p/0226b7c59ae2 supervisor supervisor管理进程,是通过fork/exec的方式将这些被管理的进程当作supe ...

  2. centOs7.2安装cmake

    最新的3.15的安装不上 wget https://cmake.org/files/v3.5/cmake-3.5.2.tar.gz tar xvf cmake-3.5.2.tar.gz cd cmak ...

  3. 认识BufferedReader的readLine、ready,以及InputStream的available

    最近,同学做实验的时候,在读取服务器端返回的时候,使用了BufferedReader类的readLine,他是这么写的,while(reader.ready()) {//执行读取操作,即readLin ...

  4. AI模型运维——GPU性能监控NVML和DCGM

    最近一年负责运维的GPU主机越来越多,发现现有的监控项无法很好的了解GPU的性能和负载情况,研究了下官方文档,在此记录. 一.NVML和DCGM NVML:https://developer.nvid ...

  5. 聊一聊DTM子事务屏障功能之SQL Server版

    背景 前面写了两篇如何用 C# 基于 DTM 轻松实现 SAGA 和 TCC 的分布式事务,其中有一个子事务屏障的功能,很好的处理了空补偿.悬挂.重复请求等异常问题. https://dtm.pub/ ...

  6. 基于XC7A100T的PCIe千兆电口以太网收发卡

    一.板卡概述 本板卡采用Xilinx公司的Artix7系列的XC7A100T-2FGG484 芯片作为主处理器.包含双路千兆电口网络,双组DDR,PCIeX1 V1.1接口,板卡设计满足工业级要求. ...

  7. suse 12 二进制部署 Kubernetets 1.19.7 - 第02章 - 部署etcd集群

    文章目录 1.2.部署etcd集群 1.2.0.下载etcd二进制文件 1.2.1.创建etcd证书和私钥 1.2.2.生成etcd证书和私钥 1.2.3.配置etcd为systemctl管理 1.2 ...

  8. CSS代码示例-背景属性(background)

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  9. windows server2012 r2 .net framework 3.5失败

    拿到手的虚拟机系统是Windows server 2012R2,本想着安装SQlserver2012轻轻松松,结果途中警告未安装.NET Framework 3.5.于是找了个.NET Framewo ...

  10. 使用fireworks解决图片隐写的问题

    同样也可以用ps来解决图层间隐写的问题