本地Pycharm将spark程序发送到远端spark集群进行处理

前言

　　最近在搞hadoop+spark+python,所以就搭建了一个本地的hadoop环境,基础环境搭建地址hadoop2.7.7 分布式集群安装与配置,spark集群安装并集成到hadoop集群,没有配置的朋友可以参考文章搞一搞.

　　本篇博客主要说明,如何通过pycharm将程序发送到远端spark集群上进行操作处理.

　　注意:本地环境与远端的集群必须可以互相通信(建议配置内网虚拟机,同一网段).不然的话本地程序在接收spark集群发来的数据会报连接超时.如果本地与远端不在同一网段,这篇博客可能无法给你解决问题,仅供参考

说明

　　本地环境:指本人开发环境,即pycharm运行的电脑

　　远端集群:指服务端spark集群

　　Python环境:本地与远端python相同 Python3.5.6(不知道版本不同是否会有问题)

配置流程

配置本地环境spark

将远端集群中master服务器上的spark打包,并复制到本地环境中

配置pycharm

添加新的路径

新的路径地址是你本地spark路径下的python文件夹

指定这个路径后,我们在编写程序的时候导入SparkContext才不会报错

配置环境变量

新建一个文件,配置Edit Configurations

上图红框中是我已经配置好的,添加SPARK_HOME变量

Value表示你本地spark的绝对路径

测试

参考地址

https://blog.csdn.net/mycafe_/article/details/79430320#commentsedit

本地Pycharm将spark程序发送到远端spark集群进行处理的更多相关文章

本地idea开发mapreduce程序提交到远程hadoop集群执行
https://www.codetd.com/article/664330 https://blog.csdn.net/dream_an/article/details/84342770 通过idea ...
Scala进阶之路-Spark独立模式（Standalone）集群部署
Scala进阶之路-Spark独立模式(Standalone)集群部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们知道Hadoop解决了大数据的存储和计算,存储使用HDFS ...
spark学习之路1--用IDEA编写第一个基于java的程序打包，放standalone集群，client和cluster模式上运行
1,首先确保hadoop和spark已经运行.(如果是基于yarn,hdfs的需要启动hadoop,否则hadoop不需要启动). 2.打开idea,创建maven工程.编辑pom.xml文件.增加d ...
Spark on Yarn——spark1.5.1集群配置
写在前面: spark只是一种计算框架,如果要搭建集群要依托与一定的组织模式. 目前来说,Spark集群的组织形式有三种: 1. Standalone:使用akka作为网络IO组件,mast ...
用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控
写在前面相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试用python + hado ...
Spark standalone安装（最小化集群部署）
Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式) 集群规划: 主机 IP ...
【原创】大叔经验分享（14）spark on yarn提交任务到集群后spark-submit进程一直等待
spark on yarn通过--deploy-mode cluster提交任务之后,应用已经在yarn上执行了,但是spark-submit提交进程还在,直到应用执行结束,提交进程才会退出,有时这会 ...
Spark wordcount开发并提交到集群运行
使用的ide是eclipse package com.luogankun.spark.base import org.apache.spark.SparkConf import org.apache. ...
spark学习7（spark2.0集群搭建）
第一步:安装spark 将官网下载好的spark-2.0.0-bin-hadoop2.6.tgz上传到/usr/spark目录下.这里需注意的是spark和hadoop有对应版本关系 [root@sp ...

随机推荐

GO make&new区别
自:http://www.cnblogs.com/ghj1976/archive/2013/02/12/2910384.html 1.make用于内建类型(map.slice 和channel)的内存 ...
【java反射】
反射之中包含了一个「反」字,所以想要解释反射就必须先从「正」开始解释. 一般情况下,我们使用某个类时必定知道它是什么类,是用来做什么的.于是我们直接对这个类进行实例化,之后使用这个类对象进行操作. A ...
米津玄師 - Lemon
Lemon 词:米津玄師曲:米津玄師夢(ゆめ)ならばどれほどよかったでしょう未(いま)だにあなたのことを夢(ゆめ)にみる忘(わす)れた物(もの)を取(と)りに帰(かえ)るように古(ふる) ...
docker install and minikube install
1.选择国内的云服务商,这里选择阿里云为例 curl -sSL http://acs-public-mirror.oss-cn-hangzhou.aliyuncs.com/docker-engine/ ...
arcgis python 新生成的数据设置
try: # Update the spatial index(es) # r = arcpy.CalculateDefaultGridIndex_management(outFeatures) ar ...
oracle利用触发器实现将ddl操作存入数据表中
先创建DDL数据库事件操作表: create table ddl_event( sys_time date primary key, event_name ), ), obj_type ), obj_ ...
关于Mysql-unknow-column-in-where-clause
写在前边: 已经很久不更新了啊,整个2月份几乎没有遇到什么新鲜事.直到昨天我又犯了一次傻,貌似只有我犯傻的时候才有材料可以跟大家分享- 问题表现: mysql 报错: unknow column 's ...
Java四方面组成要素
Java由四方面组成: Java编程语言.Java类文件格式.Java虚拟机和Java应用程序接口(Java API).它们的关系如下图所示:
spring bean容器加载后执行初始化处理@PostConstruct
先说业务场景,我在系统启动后想要维护一个List常驻内存,因为我可能经常需要查询它,但它很少更新,而且数据量不大,明显符合缓存的特质,但我又不像引入第三方缓存.现在的问题是,该List的内容是从数据库 ...
MGR集群搭建
MGR全称MySQL Group Replication(Mysql组复制),是MySQL官方于2016年12月推出的一个全新的高可用与高扩展的解决方案.MGR提供了高可用.高扩展.高可靠的MySQL ...