luigi框架--关于python运行spark程序

首先，目标是写个python脚本，跑spark程序来统计hdfs中的一些数据。参考了别人的代码，故用了luigi框架。

至于luigi的原理底层的一些东西Google就好。本文主要就是聚焦快速使用，知其然不知其所以然。

python写Spark或mapreduce还有其他的方法，google上很多，这里用luigi只是刚好有参考的代码，而且理解起来还是简单，就用了。

上代码：

import luigi, sys
from datetime import datetime, timedelta
from luigi.contrib.spark import PySparkTask

class luigiBase(PySparkTask):
    date = luigi.DateParameter(default=datetime.now())
    def main(self, sc, *args):
        log_rdd = sc.textFile(self.input()[0].path)
        #要做的spark操作
  log_rdd.repartition(1).saveAsTextFile(self.output().path)
    @property
  def name(self):
        return "luigi_test_{}_username".format(format_date(self.date))
    def requires(self):
        return [HdfsFiles(date=self.date)]
    def output(self):
        return luigi.hdfs.HdfsTarget(Files().path,format=luigi.hdfs.PlainDir)

class luigiStats(luigi.Task):
    now = datetime.now()
    date = luigi.DateParameter(default=datetime(now.year, now.month, now.day) )
    def requires(self):
        return luigiBase(self.date)

if __name__ == '__main__':
    luigi.run(main_task_cls=luigiStats)

1.对于普通的luigi任务，关键是要按需实现requires、output和run三个函数；对于luigi封装好的spark任务，关键是要按需实现requires、output和main三个函数

2.base类继承PySparkTask类，该类还有很多参数可以设置，但作为最最简单的luigi例子，就都剔除了，只要在意requires、output和main三个函数就好。可以把requires理解成输入，output输出，main是要实现的逻辑。name函数之所以也写出来，是因为在将代码pushonline的时候，每个Job都要取名字，而公司对job的名字是有规定的，如果name结尾不是你的用户名，Spark程序是会报错的，就是不让你跑的意思。

3.代码有两个类，base和stats类，执行逻辑是这样的：主函数调用stats，然后发现stats类requires（依赖于）base类，就看看这个依赖的输出存不存在，如果存在就作为自己的输入，然后执行自己类中的代码。如果不存在就执行base类。上面代码中我的stats类中不需要执行上面，就没写main，只是用来检查下base执行了没，没执行就执行base去。

3.该base类中requires和ouput都是hdfs文件，逻辑和stats类一样。base类需要继承PySparkTask类，而luigi.run()的参数需要时继承了luigi.Task的类，所以才分开写成两个类了，我自己是这样理解的。

4.requires函数的返回值不能是个target对象，这里具体的理解就是不能是一个直接读取的hdfs文件，可以封装到一个类中去，这个类可以有个属性是path,是用来返回一个hdfs文件的地址的。依赖不仅限一个，可以是多个，生成一个列表返回。

5.如果不是在自己的电脑上安装的Spark，要注意：由于PySparkTask调用的spark集群不在本地，好像不支持对本地文件的一些操作，开始的时候想把结果写在本地，一直找不到输出结果。

6.一般公司都有相对应得网页可以查看spark和hadoop程序的运行的情况，可以查看日志什么的。

7.base类中可以设置下queue 参数，选择你程序的运行队列，有时候默认的队列好像特别慢，可以设置个其他的。

luigi框架--关于python运行spark程序的更多相关文章

如何在本地使用scala或python运行Spark程序
如何在本地使用scala或python运行Spark程序包含两个部分: 本地scala语言编写程序,并编译打包成jar,在本地运行. 本地使用python语言编写程序,直接调用spark的接口, ...
eclipse运行spark程序时日志颜色为黑色的解决办法
自从开始学习spark计算框架以来,我们老师教的是local模式下用eclipse运行spark程序,然后我在运行spark程序时,发现控制台的日志颜色总是显示为黑色,哇,作为程序猿总有一种强迫症,发 ...
使用IDEA运行Spark程序
使用IDEA运行Spark程序 1.安装IDEA 从IDEA官网下载Community版本,解压到/usr/local/idea目录下. tar –xzf ideaIC-13.1.4b.tar.gz ...
Hadoop：开发机运行spark程序，抛出异常：ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
问题: windows开发机运行spark程序,抛出异常:ERROR Shell: Failed to locate the winutils binary in the hadoop binary ...
如何运行Spark程序
[hxsyl@CentOSMaster spark-2.0.2-bin-hadoop2.6]# ./bin/spark-submit --class org.apache.spark.examples ...
Python 运行其他程序
10.4 运行其他程序在Python中可以方便地使用os模块运行其他的脚本或者程序,这样就可以在脚本中直接使用其他脚本,或者程序提供的功能,而不必再次编写实现该功能的代码.为了更好地控制运行的进程, ...
运行Spark程序的几种模式
一. local 模式 -- 所有程序都运行在一个JVM中,主要用于开发时测试无需开启任何服务,可直接运行 ./bin/run-example 或 ./bin/spark-submit 如: ...
在Windows上运行Spark程序
一.下载Saprk程序 https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz 解压到d:\spark-2.1.1-bi ...
spark学习14（spark local模式运行spark程序的报错）
报错1 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 解 ...

随机推荐

20169211《Linux内核原理与分析》第二周作业
<linux内核分析>实验一实验报告 <linux内核设计与实现>第1.2.18章学习总结一.<linux内核分析>实验一实验报告在进行实验楼操作 ...
【欧拉回路】UVA - 10054 The Necklace
题目大意: 一个环被切割成了n个小块,每个小块有头尾两个关键字,表示颜色. 目标是判断给出的n个小块能否重构成环,能则输出一种可行解(按重构次序输出n个色块的头尾颜色).反之输出“some beads ...
php基础知识一
1.PHP是什么: 开源,免费的,跨平台的 2.PHP能做什么: 3.PHP的特点: 4.PHP的标记风格: <?php ?> <? ?> <script languag ...
java8新特性——Lambda表达式
上文中简单介绍了一下java8得一些新特性,与优点,也是为本次学习java8新特性制定一个学习的方向,后面几篇会根据上文中得新特性一一展开学习.本文就从java8新特性中比较重要的Lambda表达式开 ...
Codeforces 806 D.Prishable Roads
Codeforces 806 D.Prishable Roads 题目大意:给出一张完全图,你需要选取其中的一些有向边,连成一个树形图,树形图中每个点的贡献是其到根节点路径上每一条边的边权最小值,现在 ...
【离散化】【DFS】Gym - 101617H - Security Badges
题意:给你一张有向图,每条边有个限制范围,只有权值在限制范围内的人能走这条边,问你权值不超过K的人中,有多少人能从S到T. K很大,因此我们只处理边的范围的上下界这O(m)个权值能否到达,以防万一,还 ...
记一次初步Linux提权
前言. 提权这么久了还是头一次提下Linux的服务器... 由于之前一直钻研的win服务器要不是前些日子爆出来Struts2-045漏洞估计还没时间接触Linux提权.... 正文. st2 ...
pat 打印沙漏
本题要求你写个程序把给定的符号打印成沙漏的形状.例如给定17个“*”,要求按下列格式打印 ***** *** * *** ***** 所谓“沙漏形状”,是指每行输出奇数个符号:各行符号中心对齐:相邻两 ...
[转]软件版本号扫盲——Beta RC Preview release等
1.软件版本阶段说明 *Alpha版:此版本表示该软件在此阶段主要是以实现软件功能为主,通常只在软件开发者内部交流,一般而言,该版本软件的Bug较多,需要继续修改. *Beta版:该版本相对于α版 ...
java常用工具方法2
/* * Copyright 2005 Joe Walker * * Licensed under the Apache License, Version 2.0 (the "License ...

luigi框架--关于python运行spark程序

luigi框架--关于python运行spark程序的更多相关文章

随机推荐

热门专题