1.我理解常用的Spark部署方式有三种 1).本地服务,就是所谓的local,在IDE上本地跑程序,用于调试 2).Standalone,使用自己的master/worker进行服务的调度. 脱离yarn的资源管理 3).Spark on yarn. 使用yarn来进行资源的调度 2.在spark-env.sh中配置export HADOOP_CONF_DIR= ,这样就可以使用hdfs了. 3.提交应用使用bin/spark-submit,通过指定master来确定是使用什么模式,即spa…