如何在本地使用scala或python运行Spark程序

包含两个部分：

本地scala语言编写程序，并编译打包成jar，在本地运行。
本地使用python语言编写程序，直接调用spark的接口，并在本地运行。

一，scala在本地能成功调用并运行spark接口的主要原理：

spark发布版会将spark所有能力，和依赖包一起打包成spark-assembly.jar，并能够在单机模式下运行spark的local模式。
spark发布版提供spark-submit等工具来提交jar和启动local模式
scala程序可以很方便地使用sbt工具编译打包成jar

二、scala的编译与打包运行

下载intelij idea ，安装scala，以及scala语言plugin 和 sbt plugin
下载spark 发布包，注意要含Hadoop（可选）、spark-assembly.jar 、py4j（可选）、 pyspark（可选）。（spark-1.5.2-bin-hadoop2.3.tgz）
创建scala项目，F4项目设置dependency： scala和spark-assembly.jar的依赖。如果要支持sql hive 还需提供
1. datanucleus-api-jdo-3.2.6.jar
2. datanucleus-core-3.2.10.jar
3. datanucleus-rdbms-3.2.9.jar
4. spark-1.5.2-yarn-shuffle.jar
5. spark-assembly-1.5.2-hadoop2.3.0.jar
6. spark-examples-1.5.2-hadoop2.3.0.jar
创建build artificial id，只需要manifest（main classs）和 compile output即可。
编译打包后，生成的jar包，使用以下命令提交： spark-submit --class weather --conf spark.dynamicAllocation.enabled=true --conf spark.shuffle.service.enabled=true /home/mobile/rf_test.jar
主程序的依赖包运行法（--driver-library-path 与--jars 指令合用）： spark-submit --class EntropyWeights --jars scopt_2.10-3.5.0.jar --driver-library-path scopt_2.10-3.5.0.jar --conf spark.dynamicAllocation.enabled=true --conf spark.shuffle.service.enabled=true /home/mart_mobile/fdy/EntropyWeights.jar
1. 上述案例是冗余的写法： --jars可以指定driver和executor都需要的依赖，--driver-library-path 为driver程序中依赖的命令行参数解析 jar包，但是excutor中并不需要。
2. executor需要则： --spark.executor.extraClassPath to augment the executor classpath
3. 参考： http://stackoverflow.com/questions/37132559/add-jars-to-a-spark-job-spark-submit
4. spark-submit --class EntropyWeights --jars scopt_2.10-3.5.0.jar --driver-library-path scopt_2.10-3.5.0.jar --conf spark.dynamicAllocation.enabled=true --conf spark.shuffle.service.enabled=true /home/mart_mobile/fdy/EntropyWeights.jar -t app.app_celebrity_properties_4rank_da -d author_id1,author_pin --colweights commission=1.0,pv=1.0,uv=1.0,upvote_num=1.0,comment_num=1.0,share_num=1.0,enter_detail_pv=1.0,enter_detail_uv=1.0,ordnum_inby_5thevent=1.0,ordsum_inby_5thevent=1.0,ordnum_in_direct=1.0,ordsum_in_direct=1.0,ordnum_in_indirect=1.0,ordsum_in_indirect=1.0,detail_ratio=1.0,import_ratio=1.0,fans_num=1.0,rank=1.0,open_rate=1.0, -o app.app_celebrity_rank_da
5. 新的集群出现 org.apache.commons.math jar 包(多 jar 包依赖的制定方法, 分隔符): spark-submit --class EntropyWeights --jars ./scopt_2.10-3.5.0.jar,./commons-math-2.1.jar --driver-library-path ./scopt_2.10-3.5.0.jar:./commons-math-2.1.jar --conf spark.dynamicAllocation.enabled=true --conf spark.shuffle.service.enabled=true ./EntropyWeights.jar -i app.app_celebrity_properties_4rank_da -d author_id1,author_pin --colweights commission=1.0,pv=1.0,uv=1.0,upvote_num=1.0,comment_num=1.0,share_num=1.0,enter_detail_pv=1.0,enter_detail_uv=1.0,ordnum_inby_5thevent=1.0,ordsum_inby_5thevent=1.0,ordnum_in_direct=1.0,ordsum_in_direct=1.0,ordnum_in_indirect=1.0,ordsum_in_indirect=1.0,detail_ratio=1.0,import_ratio=1.0,fans_num=1.0,rank=1.0,open_rate=1.0, -o app.app_celebrity_rank_da -s 5.0 -t norm

三、python在本地能成功调用并运行spark接口的主要原理如下，

首先，依赖以下几个环境：

编译好的spark发布包，包含Hadoop和spark-assembly.jar
spark项目提供的py4j程序，让python可以访问运行在jvm上的spark。
spark项目提供的pyspark接口，在本地调起spark-assembly.jar，并在py4j的帮助下，方便python语言通过py4j来调用运行在jvm上的spark提供的接口。

四、本地python调spark的配置和启动方法

下载spark发布包，注意要含Hadoop、spark-assembly.jar 、py4j 、 pyspark。（spark-1.5.2-bin-hadoop2.3.tgz）
将该包下python目录下的py4j与pyspark放入到本机python安装第三方库的site-packages目录下
环境变量的修改：
1. SPARK_HOME环境变量： os.environ["SPARK_HOME"]='D:\software_bak\spark\spark-1.5.2-bin-hadoop2.3'
2. Hadoop_home环境变量： os.environ["HADOOP_HOME"]='E:\\hadoop-2.4.1'
执行。
1. 可以使用spark的example目录下的wordcount.py与数据people.txt。
2. 修改该文件的源代码，加入3中所述的两个环境变量。
3. 运行： python wordcount.py people.txt 即可。
4. 或者使用 spark-submit 提交 Python 编写的 spark 任务:
5. 1. 比如提交的任务中有依赖的 Python 基础库文件: spark-submit --py-files spark_etl_tools.py --num-executors 4 --executor-cores 8 --executor-memory 4G --driver-memory 10G --conf spark.driver.maxResultSize=6G migration_03_welcome_calls.py

如何在本地使用scala或python运行Spark程序的更多相关文章

luigi框架--关于python运行spark程序
首先,目标是写个python脚本,跑spark程序来统计hdfs中的一些数据.参考了别人的代码,故用了luigi框架. 至于luigi的原理底层的一些东西Google就好.本文主要就是聚焦快速使用, ...
使用IDEA运行Spark程序
使用IDEA运行Spark程序 1.安装IDEA 从IDEA官网下载Community版本,解压到/usr/local/idea目录下. tar –xzf ideaIC-13.1.4b.tar.gz ...
eclipse运行spark程序时日志颜色为黑色的解决办法
自从开始学习spark计算框架以来,我们老师教的是local模式下用eclipse运行spark程序,然后我在运行spark程序时,发现控制台的日志颜色总是显示为黑色,哇,作为程序猿总有一种强迫症,发 ...
Hadoop：开发机运行spark程序，抛出异常：ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
问题: windows开发机运行spark程序,抛出异常:ERROR Shell: Failed to locate the winutils binary in the hadoop binary ...
Python 运行其他程序
10.4 运行其他程序在Python中可以方便地使用os模块运行其他的脚本或者程序,这样就可以在脚本中直接使用其他脚本,或者程序提供的功能,而不必再次编写实现该功能的代码.为了更好地控制运行的进程, ...
如何运行Spark程序
[hxsyl@CentOSMaster spark-2.0.2-bin-hadoop2.6]# ./bin/spark-submit --class org.apache.spark.examples ...
运行Spark程序的几种模式
一. local 模式 -- 所有程序都运行在一个JVM中,主要用于开发时测试无需开启任何服务,可直接运行 ./bin/run-example 或 ./bin/spark-submit 如: ...
Python运行MapReducer程序时所遇异常
landen@Master:~/UntarFile/hadoop-1.0.4$ bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.4.jar ...
spark学习14（spark local模式运行spark程序的报错）
报错1 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 解 ...

随机推荐

JVM 整体流程介绍
一. JVM自身的物理结构从图中可以看出 JVM 的主要组成部分 ClassLoader(类加载器),Runtime Data Area(运行时数据区,内存分区),Execution Engine( ...
Jenkins实用发布与回滚PHP项目生产实践
目录 1.概述 2.项目实践 2.1.环境说明 2.2.Jenkins配置 2.2.1.修改Jenkins的运行用户 2.2.2.配置Jenkins用户和Gitlab的ssh-key 2.2.3.Je ...
python的with语法的深入理解
如果你有一些对象(比如一个文件.网络连接或锁),需要支持 with 语句,下面介绍两种定义方法. 方法(1): 首先介绍下with 工作原理 (1)紧跟with后面的语句被求值后,返回对象的“__en ...
pandas用法总结
pandas用法总结 2018年06月07日 10:49:03 一夜了阅读数 38705更多分类专栏: 杂项一.生成数据表 1.首先导入pandas库,一般都会用到numpy库,所以我们先导 ...
dfs 正则表达式
192. 通配符匹配中文 English 判断两个可能包含通配符“?”和“*”的字符串是否匹配.匹配规则如下: '?' 可以匹配任何单个字符. '*' 可以匹配任意字符串(包括空字符串). 两个串完 ...
Jmeter跨线程组传递cookie,以禅道系统为例；BeanShell的存取数据的使用
先看下脚本结构: 思路:将登陆请求放在setUp Thread Group中:把登陆后的cookie通过正则提取出来,然后存为全局变量,传递到下一个线程组中: 第一步:添加setUp Thread G ...
Zipkin 知识点
在Spring Cloud D版本,zipkin-server通过引入依赖的方式构建工程,自从E版本之后,这一方式改变了,采用官方的jar形式启动. 出处:https://juejin.im/post ...
python 比较2个文件内容
1. 通过使用md5字符串比较2个文件 import hashlib def get_file_md5(filename): '''可以比较两个文件的md5值,来比较文件内容.未使用''' md5 = ...
DOM是什么
UI—html—DOM(tree-structured representation. manipulate)—Virtual DOM(component) Real DOM强调树状结构的整体:核心是 ...
C++传递不定参函数
定义不定参数函数,要用到下面这些宏: va_start(ap, farg): 初始化一个va_list变量ap,farg是第一个形参 va_arg(ap, type): 获取(下)一个type类型的参 ...

如何在本地使用scala或python运行Spark程序

如何在本地使用scala或python运行Spark程序的更多相关文章

随机推荐

热门专题