hdfs 列出文件

package com.lala.lala.pipe.dbinfo

import java.io.{ByteArrayOutputStream, PrintWriter}

import com.alibaba.fastjson.JSON

import com.alibaba.fastjson.serializer.SerializerFeature

import com.lala.lala.common.query.option.HDFSOptions

import com.lala.lala.common.visual.hdfs.{HdfsFile, HdfsFileStatusWrapper}

import org.apache.hadoop.fs.{FileSystem, Path}

import org.apache.hadoop.security.AccessControlException

import org.apache.spark.sql.SparkSession

class HdfsShow(spark: SparkSession, map: Map[String, String]) {

  private val sc = spark.sparkContext

  def getSampleData: String = {

    val path = map(HDFSOptions.PATH)

    sc.textFile(path).take(DBShow.Num).mkString("\n")

  }

  def listFiles(): String = {

    val pathStr = map.getOrElse(HDFSOptions.PATH, "/")

    val path = new Path(pathStr)

    val hdfs = HdfsShow.getHdfs(spark)

    val baos = new ByteArrayOutputStream()

    val pw = new PrintWriter(baos)

    val lf = new HdfsFileStatusWrapper

    val arr = try {

      val liststatus = hdfs.listStatus(path)

      Some(liststatus)

    } catch {

      case ex: AccessControlException => ex.printStackTrace(pw); lf.setPermissionDenied(true); None

      case ex => ex.printStackTrace(pw); None

    } finally {

      if (pw != null) {

        pw.flush()

        pw.close()

      }

    }

    lf.setPath(pathStr)

    if (arr.isDefined) {

      lf.setSuccess(true)

      val hfarr = for (filestatus <- arr.get) yield {

        val pathx = filestatus.getPath

        new HdfsFile(pathx.getName, s"${pathx.getParent}/${pathx.getName}", filestatus.isDirectory, filestatus.isFile)

      }

      import collection.JavaConverters._

      lf.setFileList(hfarr.toSeq.asJava)

    }

    lf.setMsg(baos.toString)

    JSON.toJSONString(lf, SerializerFeature.WriteNullListAsEmpty)

  }

}

object HdfsShow {

  private var hdfs: FileSystem = null

  def getHdfs(spark: SparkSession) = {

    if (hdfs == null) {

      val hadoopConf = spark.sparkContext.hadoopConfiguration

      hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)

    }

    hdfs

  }

}

hdfs 列出文件的更多相关文章

使用oracle的大数据工具ODCH访问HDFS数据文件
软件下载 Oracle Big Data Connectors:ODCH 下载地址: http://www.oracle.com/technetwork/bdc/big-data-connectors ...
（转）distcp从ftp到hdfs拷贝文件
link :http://blog.csdn.net/sptoor/article/details/11523469 distcp从ftp到hdfs拷贝文件: hadoop distcp ftp:// ...
Spark中加载本地（或者hdfs）文件以及SparkContext实例的textFile使用
默认是从hdfs读取文件,也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读本地文件读取 sc.textFile("路 ...
HDFS的Java客户端操作代码(HDFS删除文件或目录)
1.HDFS删除文件或目录 package Hdfs; import java.io.IOException; import java.net.URI; import org.apache.hadoo ...
Hadoop HDFS分布式文件系统设计要点与架构
Hadoop HDFS分布式文件系统设计要点与架构 Hadoop简介:一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群 ...
分享非常有用的Java程序 (关键代码) (二)---列出文件和目录
原文:分享非常有用的Java程序 (关键代码) (二)---列出文件和目录 File dir = new File("directoryName"); String[] child ...
hadoop 提高hdfs删文件效率----hadoop删除文件流程解析
前言这段时间在用hdfs,由于要处理的文件比较多,要及时产出旧文件,但是发现hdfs的blocks数一直在上涨,经分析是hdfs写入的速度较快,而block回收较慢,所以分心了一下hadoop删文件 ...
HDFS中文件的压缩与解压
HDFS中文件的压缩与解压文件的压缩有两大好处:1.可以减少存储文件所需要的磁盘空间:2.可以加速数据在网络和磁盘上的传输.尤其是在处理大数据时,这两大好处是相当重要的. 下面是一个使用gzip工具 ...
利用JavaAPI访问HDFS的文件
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...

随机推荐

十三道Python练习题
一.完美立方编写一个程序,对任给的正整数N (N≤100),寻找所有的四元组(a, b, c, d),使得a^3= b^3 + c^3 + d^3,其中a,b,c,d 大于 1, 小于等于N. 输入 ...
python实现罗汉塔破解方法
主要使用函数的递归方法,考虑过程如下:n,a,b,c(n代表罗汉塔块数,a,b,c代表三块柱子)若n=1时,只需从a>>>c若n>1时,需要把上面n-1块从a移动到b,底下1块 ...
Linux软件安装——安装软件的命令
Linux软件安装——安装软件的命令摘要:本文主要学习了如何在Linux系统中安装.更新.卸载软件. rpm命令 rpm命令用来在Linux系统上进行软件的安装. 基本语法安装命令: rpm -i ...
maven 学习---Maven Web应用
本教程将教你如何管理使用Maven版本控制系统管理一个基于Web项目.在这里,将学习如何创建/构建/部署和运行Web应用程序: 创建Web应用程序要创建一个简单的java web应用程序,我们将使用 ...
还学不会webpack？看这篇！
摘要: webpack入门教程. 原文:还学不会webpack?看这篇! 作者:MudOnTire Fundebug经授权转载,版权归原作者所有. Webpack已经流行好久了,但很多同学使用webp ...
Python从零开始——集合Set
一:Python集合知识概览二:Python的特性.格式.以及各序列结构对比三:Python集合set的创建四:集合常用操作之——添加元素五:集合常见操作之——删除元素六:集合常见操作之—— ...
Linux下压缩工具gzip和归档工具tar及其实战shell应用
Linux下压缩工具gzip和归档工具tar及其实战shell应用第一章:gzip的使用技巧 gzip [option]... file... -d: 解压缩,相当于gunzip; -# ...
kolla部署openstack allinone，报错 ImportError: cannot import name decorate
使用 kolla-ansible 部署 opnenstack:stein,最后无法导入变量脚本,报错信息如下: [root@kolla ~]# . /etc/kolla/admin-openrc.sh ...
Unity Built-In Shader造成的运行时内存暴涨
在某个PC项目中使用了大量的材质球, 并且都使用了自带的Standard Shader, 在编辑器运行的时候, 一切良好, 运行内存只在1G左右, 然而在进行AssetBundle打包之后, EXE运 ...
JS高阶---变量与函数提升
大纲: 主体: 案例1: 接下来在控制台source里进行断点测试打好断点后,在控制台测试window .

hdfs 列出文件

hdfs 列出文件的更多相关文章

随机推荐

热门专题