Java 读取HDFS文件系统

最近有个需求，计算用户画像。

系统大概有800W的用户量，算每个用户的一些数据。

数据量比较大，算用hive还是毫无压力的，但是写的oracle，在给出数据给前端，就比较难受了。

然后换了种解决方法：

　　1.hive计算，写的HDFS

　　2.API读出来，写到hbase（hdfs和hbase的版本不匹配，没办法用sqoop 直接导）

然后问题就来了。

需要写个API，读HDFS上的文件。

主要类：ReadHDFS

public class ReadHDFS {

    public static void main(String[]args){

        long startLong = System.currentTimeMillis();

        HDFSReadLog.writeLog("start read file");

        String path;

        if (args.length > 1) {

//            path = args[0];

            Constant.init(args[0],args[1]);

        }

        HDFSReadLog.writeLog(Constant.PATH);

        try {

            getFile(Constant.URI + Constant.PATH);

        } catch (IOException e) {

            e.printStackTrace();

        }

        long endLong = System.currentTimeMillis();

        HDFSReadLog.writeLog("cost " + (endLong -startLong)/1000 + " seconds");

        HDFSReadLog.writeLog("cost " + (endLong -startLong)/1000/60 + " minute");

    }

    private static void getFile(String filePath) throws IOException {

        FileSystem fs = FileSystem.get(URI.create(filePath), HDFSConf.getConf());

        Path path = new Path(filePath);

        if (fs.exists(path) && fs.isDirectory(path)) {

            FileStatus[] stats = fs.listStatus(path);

            FSDataInputStream is;

            FileStatus stat;

            byte[] buffer;

            int index;

            StringBuilder lastStr = new StringBuilder();

            for(FileStatus file : stats){

                try{

                    HDFSReadLog.writeLog("start read : " + file.getPath());

                    is = fs.open(file.getPath());

                    stat = fs.getFileStatus(path);

                    int sum  = is.available();

                    if(sum == 0){

                        HDFSReadLog.writeLog("have no data : " + file.getPath() );

                        continue;

                    }

                    HDFSReadLog.writeLog("there have  : " + sum + " bytes" );

                    buffer = new byte[sum];
　　　　　　　　　　　　// 注意一点，如果文件太大了，可能会内存不够用。在本机测得时候，读一个100多M的文件，导致内存不够。

                    is.readFully(0,buffer);

                    String result = Bytes.toString(buffer);

                    // 写到 hbase

                    WriteHBase.writeHbase(result);

                    is.close();

                    HDFSReadLog.writeLog("read : " + file.getPath() + " end");

                }catch (IOException e){

                    e.printStackTrace();

                    HDFSReadLog.writeLog("read " + file.getPath() +" error");

                    HDFSReadLog.writeLog(e.getMessage());

                }

            }

            HDFSReadLog.writeLog("Read End");

            fs.close();

        }else {

            HDFSReadLog.writeLog(path + " is not exists");

        }

    }

}

配置类：HDFSConfie(赶紧没什么用，url和path配好了，不需要配置就可以读)

public class HDFSConf {

    public static Configuration conf = null;

    public static Configuration getConf(){

        if (conf == null){

            conf = new Configuration();

            String path  = Constant.getSysEnv("HADOOP_HOME")+"/etc/hadoop/";

            HDFSReadLog.writeLog("Get hadoop home : " + Constant.getSysEnv("HADOOP_HOME"));

            // hdfs conf

            conf.addResource(path+"core-site.xml");

            conf.addResource(path+"hdfs-site.xml");

            conf.addResource(path+"mapred-site.xml");

            conf.addResource(path+"yarn-site.xml");

        }

        return conf;

    }

}

一些常量：

　url ： hdfs:ip:prot

　path : HDFS的路径

注：考虑到读的表，可能不止有一个文件，做了循环。

看下篇，往hbase写数据

Java 读取HDFS文件系统的更多相关文章

通过java读取HDFS的数据 (转）
原文链接:通过java读取HDFS的数据通过JAVA直接读取HDFS中的时候,一定会用到FSDataInputStream类,通过FSDataInputStream以流的形式从HDFS读数据代码如下 ...
java读取HDFS压缩文件乱码
java通过调用HDFS系统的FileSystem等API 直接读取HDFS的压缩文件会产生乱码解决方法: 1.调用解码的API,解码后通过IO流处理. public static void mai ...
JAVA读取HDFS信息
uri填路径 public static void main(String[] args) throws IOException { String uri = "/user/WeiboAD/ ...
hadoop学习（三）HDFS常用命令以及java操作HDFS
一.HDFS的常用命令 1.查看根目录下的信息:./hadoop dfs -ls 2.查看根目录下的in目录中的内容:./hadoop dfs -ls in或者./hadoop dfs -ls ./i ...
hadoop系列二：HDFS文件系统的命令及JAVA客户端API
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
HDFS文件系统基操--Java实现
Java实现对HDFS文件系统的基本操作 1.准备好jar包 2.创建一个类 1. 测试连接 @Test //测试是否连接成功 public void test() { //添加配置 ==> c ...
使用JAVA API读取HDFS的文件数据出现乱码的解决方案
使用JAVA api读取HDFS文件乱码踩坑想写一个读取HFDS上的部分文件数据做预览的接口,根据网上的博客实现后,发现有时读取信息会出现乱码,例如读取一个csv时,字符串之间被逗号分割英文字符串 ...
使用Java API操作HDFS文件系统
使用Junit封装HFDS import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org ...
Java API 读取HDFS的单文件
HDFS上的单文件: -bash-3.2$ hadoop fs -ls /user/pms/ouyangyewei/data/input/combineorder/repeat_rec_categor ...

随机推荐

51nod 1163 最高的奖励
链接:http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1163 1163 最高的奖励基准时间限制:1 秒空间限制:13 ...
java 空格替换%20
public String replaceSpace(StringBuffer str2) { StringBuffer str4 = new StringBuffer(); int length=s ...
C#获取上传文件的扩展名
然后在代码页中写//上传图片if (UpFile.PostedFile != null){ HttpPostedFile mFile= UpFile.PostedFile; int fileS ...
ERROR: APK path is not specified for
1. 打开project structure 2.设置outpath路径最好为绝对路径点击确定重新编译即可. Note: Android Studio版本使用
YII2中ActiveDataProvider与GridView的配合使用
YII2中ActiveDataProvider可以使用yii\db\Query或yii\db\ActiveQuery的对象,方便我们构造复杂的查询筛选语句. 配合强大的GridView,快速的显示我们 ...
Sqlite文件在ubunut的查看
1. How to list the tables in a SQLite database file that was opened with ATTACH? The .tables, and .s ...
如何查看mysql数据库表所使用的引擎(转载)
我们怎么样才能准确的查看mysql的存储引擎呢,下面我给大家介绍两种正确的方式. 1)正确方式一: SHOW TABLE STATUS from 数据库库名 where Name='表名' 2)mys ...
自适应手机网站meta name代码
<meta name="viewport" content="width=device-width,initial-scale=1.0"> co ...
C++中的getline（）
总结: 尽量使用全局函数string类中的getline(),其读入的第二个参数为string类型,不设置默认是遇到回车停止读入操作 cin.getline是针对数组字符串的,以指定的地址为存放第一个 ...
希尔排序和归并排序（java实现）
希尔排序希尔排序算法实际上是一种特殊的插入排序,由DL．Shell于1959年提出而得名. 算法思想:希尔排序使数组中任意间隔为h的元素都是有序的,这些数组称为h有序数组,对于每个h,按插入排序进行 ...

Java 读取HDFS文件系统

Java 读取HDFS文件系统的更多相关文章

随机推荐

热门专题