Hadoop API：遍历文件分区目录，并根据目录下的数据进行并行提交spark任务

hadoop api提供了一些遍历文件的api,通过该api可以实现遍历文件目录：

import java.io.FileNotFoundException;

import java.io.IOException;

import java.net.URI;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.List;

import java.util.concurrent.CountDownLatch;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

public class BatchSubmitMain {

    public static void main(String[] args) throws Exception {

        String mrTableName = args[0];

        String fglibTableName = args[1];

        Configuration conf = new Configuration();

        /*

         * <property> <name>fs.defaultFS</name> <value>hdfs://hcluster</value>

         * </property>

         */

        conf.set("fs.defaultFS", "hdfs://hcluster");

        FileSystem fileSystem = FileSystem.get(conf);

        String mrFilePath = "/myuser/hivedb/" + mrTableName;

        String fglibFilePath = "/myuser/hivedb/" + fglibTableName;

        System.out.println(mrFilePath);

        List<String> mrObjectIdItems = getObjectIdItems(fileSystem, mrFilePath);

        System.out.println(fglibFilePath);

        List<String> fglibObjectIdItems = getObjectIdItems(fileSystem, fglibFilePath);

        List<String> objectIdItems = new ArrayList<>();

        for (String mrObjectId : mrObjectIdItems) {

            for (String fglibObjectId : fglibObjectIdItems) {

                if (mrObjectId == fglibObjectId) {

                    objectIdItems.add(mrObjectId);

                }

            }

        }

        String submitShPath = "/app/myaccount/service/submitsparkjob.sh";

        CountDownLatch threadSignal = new CountDownLatch(objectIdItems.size());

        for (int ii = 0; ii < objectIdItems.size(); ii++) {

            String objectId = objectIdItems.get(ii);

            Thread thread = new ImportThread(objectId, submitShPath, threadSignal);

            thread.start();

        }

        threadSignal.await();

        System.out.println(Thread.currentThread().getName() + "complete");

    }

    private static List<String> getObjectIdItems(FileSystem fileSystem, String filePath) throws FileNotFoundException, IOException {

        List<String> objectItems = new ArrayList<>();

        Path path = new Path(filePath);

        // 获取文件列表

        FileStatus[] files = fileSystem.listStatus(path);

        // 展示文件信息

        for (int i = 0; i < files.length; i++) {

            try {

                if (files[i].isDirectory()) {

                    String[] fileItems = files[i].getPath().getName().split("/");

                    String objectId = fileItems[fileItems.length - 1].replace("objectid=", "");

                    objectItems.add(objectId);

                    System.out.println(objectId);

                }

            } catch (Exception e) {

                e.printStackTrace();

            }

        }

        return objectItems;

    }

    /**

     * @param hdfs

     *            FileSystem 对象

     * @param path

     *            文件路径

     */

    public static void iteratorShowFiles(FileSystem hdfs, Path path) {

        try {

            if (hdfs == null || path == null) {

                return;

            }

            // 获取文件列表

            FileStatus[] files = hdfs.listStatus(path);

            // 展示文件信息

            for (int i = 0; i < files.length; i++) {

                try {

                    if (files[i].isDirectory()) {

                        System.out.print(">>>" + files[i].getPath() + ", dir owner:" + files[i].getOwner());

                        // 递归调用

                        iteratorShowFiles(hdfs, files[i].getPath());

                    } else if (files[i].isFile()) {

                        System.out.print(" " + files[i].getPath() + ",length:" + files[i].getLen() + ", owner:" + files[i].getOwner());

                    }

                } catch (Exception e) {

                    e.printStackTrace();

                }

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

并行执行sh的线程：

import java.util.concurrent.CountDownLatch;

public class ImportThread extends Thread {

    private final JavaShellInvoker javaShellInvoker = new JavaShellInvoker();

    private CountDownLatch countDownLatch;

    private String objectId;

    private String submitShPath;

    public ImportThread(String objectId, String submitShPath, CountDownLatch countDownLatch) {

        this.objectId = objectId;

        this.submitShPath = submitShPath;

        this.countDownLatch = countDownLatch;

    }

    @Override

    public void run() {

        System.out.println(Thread.currentThread().getName() + "start... " + this.submitShPath + " " + this.objectId.toString());// 打印开始标记

        try {

            int result = this.javaShellInvoker.executeShell("mrraster", this.submitShPath, this.objectId);

            if (result != 0) {

                System.out.println(Thread.currentThread().getName() + " result type is error");

            }

        } catch (Exception e) {

            e.printStackTrace();

            System.out.println(Thread.currentThread().getName() + "-error:" + e.getMessage());

        }

        this.countDownLatch.countDown();// 计时器减1

        System.out.println(Thread.currentThread().getName() + " complete,last " + this.countDownLatch.getCount() + " threads");// 打印结束标记

    }

}

执行sh的java代码：

import java.io.File;

import java.text.SimpleDateFormat;

import java.util.Date;

public class JavaShellInvoker {

    private static final String executeShellLogFile = "./executeShell_%s_%s.log";

    public int executeShell(String shellCommandType, String shellCommand, String args) throws Exception {

        int success = 0;

        args = (args == null) ? "" : args;

        String now = new SimpleDateFormat("yyyy-MM-dd").format(new Date());

        File logFile = new File(String.format(executeShellLogFile, shellCommandType, now));

        ProcessBuilder pb = new ProcessBuilder("sh", shellCommand, args);

        pb.redirectOutput(ProcessBuilder.Redirect.appendTo(logFile));

        pb.redirectError(ProcessBuilder.Redirect.appendTo(logFile));

        Process pid = null;

        try {

            pid = pb.start();

            success = pid.waitFor();

        } catch (Exception ex) {

            success = 2;

            System.out.println("executeShell-error:" + ex.getMessage());

            throw ex;

        } finally {

            if (pid.isAlive()) {

                success = pid.exitValue();

                pid.destroy();

            }

        }

        return success;

    }

}

submitsparkjob.sh

#!/bin/sh

source ../login.sh

spark-submit --master yarn-cluster --class MySparkJobMainClass --driver-class-path /app/myaccount/service/jars/ojdbc7.jar --jars /app/myaccount/service/jars/ojdbc7.jar --num-executors

 20 --driver-memory 6g --executor-cores 1 --executor-memory 8g MySparkJobJar.jar $1

执行BatchSubmit.jar的命令：

hadoop jar BatchSubmit.jar

Hadoop API：遍历文件分区目录，并根据目录下的数据进行并行提交spark任务的更多相关文章

遍历文件夹及其子文件夹下的.pdf文件，并解压文件夹下所有的压缩包
List<PDFPATH> pdfpath = new List<PDFPATH>(); List<string> ziplist = new List<st ...
BAT 遍历文件夹和子文件夹下所有文件
echo off & color 0A ::指定起始文件夹 set DIR="%cd%" echo DIR=%DIR% :: 参数 /R 表示需要遍历子文件夹,去掉表示不遍 ...
windowsAPI遍历文件夹（速度高于递归）
#region API 遍历文件夹及其子文件夹和子文件 #region 声明WIN32API函数以及结构 ************************************** [DllImpo ...
C++下遍历文件夹
编写程序遍历文件夹及其子文件夹下所有文件,并输出到标准输出流或者文件流. 1. 先考虑在单层目录下,遍历所有文件.以C:\WINDOWS为例: 用到数据结构_finddata_t,文件信息结构体的指针 ...
使用Hadoop API 压缩HDFS文件
下篇解压缩:使用Hadoop API 解压缩 HDFS文件起因: 集群磁盘剩余空间不足. 删除了存储在HDFS上的,一定时间之前的中间结果,发现并不能释放太多空间,查看计算业务,发现,每天的日志存在 ...
MFC拖拽、选择目录、遍历文件
1.选择目录 void CDecryptFileDlg::OnBnClickedSel() { std::wstring selectedDir; WCHAR szDir[MAX_PATH]; Zer ...
使用Hadoop API 解压缩 HDFS文件
接上篇:使用Hadoop API 压缩HDFS文件压缩完了,当然需要解压缩了. 直接上代码: private static void getFile(String filePath) throws ...
基于 java 【Web安全】文件上传漏洞及目录遍历攻击
前言:web安全之文件上传漏洞,顺带讲一下目录遍历攻击.本文基于 java 写了一个示例. 原理在上网的过程中,我们经常会将一些如图片.压缩包之类的文件上传到远端服务器进行保存.文件上传攻击指的是恶 ...
MFC_选择目录对话框_选择文件对话框_指定目录遍历文件
选择目录对话框 void C资源共享吧视频广告清理工具Dlg::OnBnClickedCls() { // 清空编辑框内容 m_Edit.SetWindowTextW(L""); ...

随机推荐

getPropertyValue 获取CSS样式
新学习一个js 的方法 getPropertyValue (实现 js框架中 css 的最终调用的函数),取得元素最终计算出的css 样式 DEMO: <!DOCTYPE html> ...
javaMail邮件发送功能(多收件人,多抄送人,多密送人,多附件)
private Session session; private Transport transport; private String mailHost = ""; privat ...
ReactiveCocoa--RACTuple
基本信息例子 [[self rac_signalForSelector:@selector(tableView:didSelectRowAtIndexPath:) fromProtocol:@pro ...
(Matlab)GPU计算及CPU计算能力的比较
%%首先以200*200的矩阵做加减乘除做比较 t = zeros(1,100); A = rand(200,200);B = rand(200,200);C = rand(200,200); fo ...
理解JAVA内存模型
实际上java内存模型是如上图所示一样每个线程有自己的栈内存,存放共享对象的副本,本地变量每个线程自己的本地变量是不可见的,但是共享对象对每个线程都是可见的. 如果想实现线程通信的话, 线程对共享 ...
cocos对lua代码加密
1.0 cocos luacompile 用法我用的普通的cocos2d lua,没用quick,quick好像可以对整个资源包括图像和音频都加密,打包成zip.但我没用quick.看了下luaco ...
[Scala] 了解协变与逆变
首先定义一个类 A,其参数类型 T 为协变,类中包含一个方法 func,该方法有一个类型为 T 的参数: class A[+T] { def func(x: T) {} } 此时在 x 处会有异常提示 ...
Eclipse项目中web app libraries和 Referenced Libraries区别
Referenced Libraries是编译环境下使用的JAR包,所谓编译环境下使用的JAR包, 就是说你在Eclipse中进行源文件的编写的时候,所需要引用到的类都从Referenced Li ...
ssm中iReport报表使用json数据源过程体会
前言:做这个一定要有耐心,因为报表本就是数据杂糅到规整的过程,这篇心得会细讲每一步操作,如果只想着一眼到位,建议close tab 在公司中遇到项目,大概是一个这样的需求,有一个列表和一个标题,需要把 ...
Jupyter Notebook的快捷键
Jupyter Notebook 有两种键盘输入模式. 编辑模式,允许你往单元中键入代码或文本,这时的单元框线是绿色的. 命令模式,键盘输入运行程序命令:这时的单元框线是蓝色. 命令模式 ...

Hadoop API：遍历文件分区目录，并根据目录下的数据进行并行提交spark任务

Hadoop API：遍历文件分区目录，并根据目录下的数据进行并行提交spark任务的更多相关文章

随机推荐

热门专题