如何在本地使用scala或python运行Spark程序
- 本地scala语言编写程序,并编译打包成jar,在本地运行。
- 本地使用python语言编写程序,直接调用spark的接口,并在本地运行。
- spark发布版会将spark所有能力,和依赖包一起打包成spark-assembly.jar,并能够在单机模式下运行spark的local模式。
- spark发布版提供spark-submit等工具来提交jar和启动local模式
- scala程序可以很方便地使用sbt工具编译打包成jar
- 下载intelij idea , 安装scala, 以及scala语言plugin 和 sbt plugin
- 下载spark 发布包,注意要含Hadoop(可选) 、spark-assembly.jar 、py4j(可选) 、 pyspark(可选) 。(spark-1.5.2-bin-hadoop2.3.tgz)
- 创建scala项目,F4项目设置dependency: scala和spark-assembly.jar的依赖。如果要支持sql hive 还需提供
- datanucleus-api-jdo-3.2.6.jar
- datanucleus-core-3.2.10.jar
- datanucleus-rdbms-3.2.9.jar
- spark-1.5.2-yarn-shuffle.jar
- spark-assembly-1.5.2-hadoop2.3.0.jar
- spark-examples-1.5.2-hadoop2.3.0.jar
- 创建build artificial id, 只需要manifest(main classs) 和 compile output即可。
- 编译打包后,生成的jar包,使用以下命令提交: spark-submit --class weather --conf spark.dynamicAllocation.enabled=true --conf spark.shuffle.service.enabled=true /home/mobile/rf_test.jar
- 主程序的依赖包 运行法(--driver-library-path 与--jars 指令合用): spark-submit --class EntropyWeights --jars scopt_2.10-3.5.0.jar --driver-library-path scopt_2.10-3.5.0.jar --conf spark.dynamicAllocation.enabled=true --conf spark.shuffle.service.enabled=true /home/mart_mobile/fdy/EntropyWeights.jar
- 上述案例是冗余的写法: --jars可以指定driver和executor都需要的依赖,--driver-library-path 为driver程序中依赖的命令行参数解析 jar包,但是excutor中并不需要。
- executor需要则: --spark.executor.extraClassPath to augment the executor classpath
- 参考: http://stackoverflow.com/questions/37132559/add-jars-to-a-spark-job-spark-submit
- spark-submit --class EntropyWeights --jars scopt_2.10-3.5.0.jar --driver-library-path scopt_2.10-3.5.0.jar --conf spark.dynamicAllocation.enabled=true --conf spark.shuffle.service.enabled=true /home/mart_mobile/fdy/EntropyWeights.jar -t app.app_celebrity_properties_4rank_da -d author_id1,author_pin --colweights commission=1.0,pv=1.0,uv=1.0,upvote_num=1.0,comment_num=1.0,share_num=1.0,enter_detail_pv=1.0,enter_detail_uv=1.0,ordnum_inby_5thevent=1.0,ordsum_inby_5thevent=1.0,ordnum_in_direct=1.0,ordsum_in_direct=1.0,ordnum_in_indirect=1.0,ordsum_in_indirect=1.0,detail_ratio=1.0,import_ratio=1.0,fans_num=1.0,rank=1.0,open_rate=1.0, -o app.app_celebrity_rank_da
- 新的集群出现 org.apache.commons.math jar 包(多 jar 包依赖的制定方法, 分隔符): spark-submit --class EntropyWeights --jars ./scopt_2.10-3.5.0.jar,./commons-math-2.1.jar --driver-library-path ./scopt_2.10-3.5.0.jar:./commons-math-2.1.jar --conf spark.dynamicAllocation.enabled=true --conf spark.shuffle.service.enabled=true ./EntropyWeights.jar -i app.app_celebrity_properties_4rank_da -d author_id1,author_pin --colweights commission=1.0,pv=1.0,uv=1.0,upvote_num=1.0,comment_num=1.0,share_num=1.0,enter_detail_pv=1.0,enter_detail_uv=1.0,ordnum_inby_5thevent=1.0,ordsum_inby_5thevent=1.0,ordnum_in_direct=1.0,ordsum_in_direct=1.0,ordnum_in_indirect=1.0,ordsum_in_indirect=1.0,detail_ratio=1.0,import_ratio=1.0,fans_num=1.0,rank=1.0,open_rate=1.0, -o app.app_celebrity_rank_da -s 5.0 -t norm
- 编译好的spark发布包,包含Hadoop和spark-assembly.jar
- spark项目提供的py4j程序,让python可以访问运行在jvm上的spark。
- spark项目提供的pyspark接口,在本地调起spark-assembly.jar,并在py4j的帮助下,方便python语言通过py4j来调用运行在jvm上的spark提供的接口。
- 下载spark发布包,注意要含Hadoop、spark-assembly.jar 、py4j 、 pyspark。(spark-1.5.2-bin-hadoop2.3.tgz)
- 将该包下python目录下的py4j与pyspark放入到本机python安装第三方库的site-packages目录下
- 环境变量的修改:
- SPARK_HOME环境变量: os.environ["SPARK_HOME"]='D:\software_bak\spark\spark-1.5.2-bin-hadoop2.3'
- Hadoop_home环境变量: os.environ["HADOOP_HOME"]='E:\\hadoop-2.4.1'
- 执行。
- 可以使用spark的example目录下的wordcount.py与数据people.txt。
- 修改该文件的源代码,加入3中所述的两个环境变量。
- 运行: python wordcount.py people.txt 即可。
- 或者使用 spark-submit 提交 Python 编写的 spark 任务:
- 比如 提交的任务中有依赖的 Python 基础库文件: spark-submit --py-files spark_etl_tools.py --num-executors 4 --executor-cores 8 --executor-memory 4G --driver-memory 10G --conf spark.driver.maxResultSize=6G migration_03_welcome_calls.py
如何在本地使用scala或python运行Spark程序的更多相关文章
- luigi框架--关于python运行spark程序
首先,目标是写个python脚本,跑spark程序来统计hdfs中的一些数据.参考了别人的代码,故用了luigi框架. 至于luigi的原理 底层的一些东西Google就好.本文主要就是聚焦快速使用, ...
- 使用IDEA运行Spark程序
使用IDEA运行Spark程序 1.安装IDEA 从IDEA官网下载Community版本,解压到/usr/local/idea目录下. tar –xzf ideaIC-13.1.4b.tar.gz ...
- eclipse运行spark程序时日志颜色为黑色的解决办法
自从开始学习spark计算框架以来,我们老师教的是local模式下用eclipse运行spark程序,然后我在运行spark程序时,发现控制台的日志颜色总是显示为黑色,哇,作为程序猿总有一种强迫症,发 ...
- Hadoop:开发机运行spark程序,抛出异常:ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
问题: windows开发机运行spark程序,抛出异常:ERROR Shell: Failed to locate the winutils binary in the hadoop binary ...
- Python 运行其他程序
10.4 运行其他程序 在Python中可以方便地使用os模块运行其他的脚本或者程序,这样就可以在脚本中直接使用其他脚本,或者程序提供的功能,而不必再次编写实现该功能的代码.为了更好地控制运行的进程, ...
- 如何运行Spark程序
[hxsyl@CentOSMaster spark-2.0.2-bin-hadoop2.6]# ./bin/spark-submit --class org.apache.spark.examples ...
- 运行Spark程序的几种模式
一. local 模式 -- 所有程序都运行在一个JVM中,主要用于开发时测试 无需开启任何服务,可直接运行 ./bin/run-example 或 ./bin/spark-submit 如: ...
- Python运行MapReducer程序时所遇异常
landen@Master:~/UntarFile/hadoop-1.0.4$ bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.4.jar ...
- spark学习14(spark local模式运行spark程序的报错)
报错1 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 解 ...
随机推荐
- 解决使用Microsoft Graph OAuth获取令牌时,没有refresh_token的问题
今天在使用Microsoft Graph 的时候,发现按照官方文档,无论如何都不能获取refresh_token,其他都没问题,经过查询,发现是因为在第一步,获取code授权时,没有给离线权限(off ...
- Ueditor 自动设置上传图片的宽度或高度
Uedior在上传图片的生活,需要自动设置上传图片的宽度或高度属性.该方法只能用于多图上传组件,单图上传无法使用. 该方法基于 ueditor 1.4.3 版本制作: 1.添加属性字段,在config ...
- Linux——Pxe+Nfs+Kickstart自动部署安装Centos7.4
PXE简介 PXE,全名Pre-boot Execution Environment,预启动执行环境:通过网络接口启动计算机,不依赖本地存储设备(如硬盘)或本地已安装的操作系统:由Intel和Syst ...
- 软件测试生命周期(STLC)的8个阶段的详细信息
一.演化 ♦1960年代的趋势: ♦1990年代的趋势: ♦2000年代的趋势: 测试的趋势和能力正在发生变化.现在要求测试人员更加注重技术和流程.现在的测试不仅仅局限于发现错误,而且范围更广,从项目 ...
- reset.css文件下载及剖析
@charset "utf-8"; /* http://meyerweb.com/eric/tools/css/reset/ v2.0-modified | 20110126 Li ...
- Python基础笔记-元祖
Python 的元组与列表类似,不同之处在于元组的元素不能修改. 元组使用小括号,列表使用方括号. 元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可. def main(): tup2 = ...
- windows强制删除文件和文件夹
包括只读类型 Deletes one or more files. DEL [/P] [/F] [/S] [/Q] [/A[[:]attributes]] namesERASE [/P] [/F] [ ...
- 开源项目(5-1) yolo万能检测识别
(1)Windows10+YOLOV3+VisualStudio2017最新版本超详细过程 https://blog.csdn.net/KID_yuan/article/details/8838026 ...
- 开发(二) ardunio批量固件上传地址
https://blog.csdn.net/Naisu_kun/article/details/84958561 批量烧录固件到模块中上面讲了如何编写上传程序,接下来讲讲如何量产.相比<Ardu ...
- UFUN函数UF_MODL UF_DISP UF_OBJ(name_switch) ( UF_DISP_ask_name_display_status、UF_DISP_set_name_display_status)
/* TODO: Add your application code here */ /* 此程序主要演示的是name_switch (设置名称显示) */ UF_initialize(); //MO ...