工作采坑札记：4. Hadoop获取InputSplit文件信息

mengrennwpu 2024-09-03 23:26:02 原文

1. 场景

　　基于客户的数据处理需求，客户分发诸多小数据文件，文件每行代表一条记录信息，且每个文件以"类型_yyyyMMdd_批次号"命名。由于同一条记录可能存在于多个文件中，且处于多个文件中的相同记录最终只有时间最新的记录有效，但文件的每行记录并未提供时间信息，因此需要从每个文件名中提取时间信息作为文件每行记录信息。

　　因此，考虑到小文件数量较多，且数据总量近千万级别，因此借助Hadoop工具，在MapReduce中获取处理该条记录所对应的拆分后的文件名信息。

2. 技术实现

　　当Hadoop处理简单文本输入时，如job.setInputFormatClass(TextInputFormat.class);，mapper运行时，可以使用如下方法获取对应的filesplit，进而获取到文件路径信息、文件名信息等：

// 0.19 hadoop

(FileSplit) (reporter.getInputSplit());

// 0.20 hadoop

(FileSplit) (context.getInputSplit());

　　但如果使用多输入文件时，如：MultipleInputs.addInputPath(job, new Path(path), SequenceFileInputFormat.class, ProfileMapper.class);，会出现如下异常信息：

java.lang.ClassCastException: org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit cannot be cast to org.apache.hadoop.mapreduce.lib.input.FileSplit

　　而实际需要的FileSplit是TaggedInputSplit中的成员变量inputSplit，但是TaggedInputSplit类在社区版的Hadoop中并非public，所以无法直接获取对应信息。　　

　　可以采用反射来获取TaggedInputSplit中的inputSplit，具体实现方法如下：

String getFileName(){

            InputSplit inputSplit = context.getInputSplit();

            Class<? extends InputSplit> splitClass = inputSplit.getClass();

            FileSplit fileSplit = null;

            if(splitClass.equals(FileSplit.class)){

                fileSplit = (FileSplit) inputSplit;

            }else if(splitClass.getName().equals("org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit")){

                try {

                    Method getInputSplitMethod = splitClass.getDeclaredMethod("getInputSplit");

                    getInputSplitMethod.setAccessible(true);

                    fileSplit = (FileSplit) getInputSplitMethod.invoke(inputSplit);

                } catch (Exception e) {

                }

            }

            return fileSplit.getPath().getName();

        }

参考：

(1) https://blog.csdn.net/rabbitxl/article/details/8645428　

(2)https://stackoverflow.com/questions/11130145/hadoop-multipleinputs-fails-with-classcastexception

工作采坑札记：4. Hadoop获取InputSplit文件信息的更多相关文章

工作采坑札记：1. Hadoop中的BytesWritable误区
1. 背景近日帮外部门的同事处理一个小需求,就是将HDFS中2018年至今所有存储的sequence序列化文件读取出来,重新保存成文本格式,以便于他后续进行处理.由于同事主要做机器学习方向,对had ...
工作采坑札记：2. Hadoop中MultipleInputs的使用陷阱
1. 背景近日在一个Hadoop项目中使用MultipleInputs增加多输入文件时,发现相同路径仅会加载一次,导致后续的统计任务严重失真.本博文旨在记录异常的排查及解决方案. 2. 情景重现 ( ...
工作采坑札记：3. Spark中es-hadoop插件异常解决
1. Es-Hadoop异常: org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [615/300864] ...
工作采坑札记: 4. linux指定目录使用df和du的统计结果相差很大
1. 背景近日,线上的服务出现异常,调用服务返回的JSON格式数据不完整,导致客户端解析异常,因此记录了本次的填坑之旅(nnd)... 2. 排查过程 2.1 服务器分析登录到服务所在linux服 ...
C# 获取 mp3文件信息
C# 获取 mp3文件信息[包括:文件大小.歌曲长度.歌手.专辑] 第一种方式:[代码已验证] // http://bbs.csdn.net/topics/390392612 string fil ...
android播放器如何获取音乐文件信息
转http://blog.csdn.net/hellofeiya/article/details/8464356, android自带的音乐播放器中,在获取音乐文件信息的时候是通过扫描得到相关信息的. ...
【ASP.NET 进阶】获取MP3文件信息并显示专辑图片
突发奇想,想弄个显示MP3文件信息和专辑图片的小Demo,个人不是大牛,遂百度之,总算搞定,现分享如下. 效果图: GIF效果图: 主要是依靠2个DLL文件:ID3.dll 和 Interop.She ...
C# 获取 mp3文件信息【包括：文件大小、歌曲长度、歌手、专辑】
C# 获取 mp3文件信息[包括:文件大小.歌曲长度.歌手.专辑] 第一种方式:[代码已验证] // http://bbs.csdn.net/topics/390392612 string fil ...
nuxt 2.0采坑计之（引入静态文件css）
nuxt 2.0采坑计之静态文件css 外部引入css 全局引用方法为 (在nuxt.config.js配置中在 module.exports = {} 中添加) head: { meta: ...

随机推荐

MVPArms MVP快速集成框架
前言今年的Android技术圈中MVP,Dagger2,Rxjava,Retrofit这些词汇非常火,随便打开一个技术论坛都充斥着大量的关于这些技术的文章,Github也充斥着各种以基于MVP+Re ...
CentOS 网络操作
ifconfig:查看网卡信息网卡配置文件位置: /etc/sysconfig/network-scripts/文件夹 nmtui:配置网卡 netstat -tlunp:查看端口信息端口信息存储 ...
第一篇 Python的数据类型
Python的标准数据类型有五种: (1)字符串 (2)数字(包括整数,浮点数,布尔,复数) (3)列表(list) (4)元组(tuple) (5)字典(dict) 注:使用type函数可以查看对象 ...
857. Minimum Cost to Hire K Workers
There are N workers. The i-th worker has a quality[i] and a minimum wage expectation wage[i]. Now w ...
洛谷P1345 [USACO5.4]奶牛的电信Telecowmunication（最小割）
题目描述农夫约翰的奶牛们喜欢通过电邮保持联系,于是她们建立了一个奶牛电脑网络,以便互相交流.这些机器用如下的方式发送电邮:如果存在一个由c台电脑组成的序列a1,a2,...,a(c),且a1与a2相 ...
更改Linux下的时间
1.使用tzseletect glibc-common-2.12-1.192.el6.x86_64 : Common binaries and locale data for glibc Repo : ...
linux操作之文本编辑器
1.文本编辑器的作用编辑和修改系统中的那些以文本形式存在的文件(特别是各种配置文件),也可以用于编写程序代码 2.linux下的常见编辑器 nano.Emacs.gedit.vim等 3.vim三 ...
CF165D Beard Graph
$ \color{#0066ff}{ 题目描述 }$ 给定一棵树,有m次操作. 1 x 把第x条边染成黑色 2 x 把第x条边染成白色 3 x y 查询x~y之间的黑边数,存在白边输出-1 \(\co ...
Python web前端 06 运算符循环
Python web前端 06 运算符循环一.运算符 #JS六大数据类型 #number 数字 #string 字符串 #boolean 布尔型 #function 函数 #undefined 未 ...
洛谷 P4568 [JLOI2011]飞行路线
题目描述 Alice和Bob现在要乘飞机旅行,他们选择了一家相对便宜的航空公司.该航空公司一共在n个城市设有业务,设这些城市分别标记为0到n-1,一共有m种航线,每种航线连接两个城市,并且航线有一定的 ...