MapReduce中，new Text()引发的写入HDFS的输出文件多一列的问题

前段时间业务系统有个模块数据没有了，在排查问题的时候发现中间处理环节出错了，错误日志为文件格式不正确，将数据导出后发现这个处理逻辑的输入文件中每一行都多了一列，而且是一个空列（列分隔符是\t）。第一次检查代码后没发现代码里多写了一列，第二次排查Reduce代码时，发现在写文件时value为空的Text():

 public void reduce(Text key, Iterator<Text> values,

            OutputCollector<Text, Text> output, Reporter reporter)

            throws IOException

    {

        String keyString = key.toString();

        Iterator<Text> iterValue = values;

        Double totalSize = 0D;

        while (iterValue.hasNext())

        {

            String value = iterValue.next().toString();

            totalSize += Double.valueOf(value);

        }

        keyString += "\t" + totalSize;

         //原来是这么写的

        // output.collect(new Text(keyString), new Text());

        //应当这么写（此处不推荐new Text(keyString)，正确的做法是定义全局的Text,使用的时候用text.Set()）：

        output.collect(new Text(keyString), null);

    }

参见上面的代码段。

如果在输出reduce结果时这么写：

output.collect(new Text(keyString), new Text());

就会导致结果文件中有三个\t。

将new Text() 改成null就可以解决问题了。

MapReduce中，new Text()引发的写入HDFS的输出文件多一列的问题的更多相关文章

MapReduce 示例：减少 Hadoop MapReduce 中的侧连接
摘要:在排序和reducer 阶段,reduce 侧连接过程会产生巨大的网络I/O 流量,在这个阶段,相同键的值被聚集在一起. 本文分享自华为云社区<MapReduce 示例:减少 Hadoop ...
spark读取 kafka nginx网站日志消息并写入HDFS中（转）
原文链接:spark读取 kafka nginx网站日志消息并写入HDFS中 spark 版本为1.0 kafka 版本为0.8 首先来看看kafka的架构图详细了解请参考官方我这边有三台机器用 ...
flink---实时项目--day02-----1. 解析参数工具类 2. Flink工具类封装 3. 日志采集架构图 4. 测流输出 5. 将kafka中数据写入HDFS 6 KafkaProducer的使用 7 练习
1. 解析参数工具类(ParameterTool) 该类提供了从不同数据源读取和解析程序参数的简单实用方法,其解析args时,只能支持单只参数. 用来解析main方法传入参数的工具类 public c ...
flink---实时项目----day03---1.练习讲解（全局参数，数据以parquet格式写入hdfs中） 2 异步查询 3 BroadcastState
1 练习讲解(此处自己没跑通,以后debug) 题目见flink---实时项目---day02 kafka中的数据,见day02的文档 GeoUtils package cn._51doit.flin ...
Hive数据分析——Spark是一种基于rdd（弹性数据集）的内存分布式并行处理框架，比于Hadoop将大量的中间结果写入HDFS，Spark避免了中间结果的持久化
转自:http://blog.csdn.net/wh_springer/article/details/51842496 近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上 ...
Hadoop学习笔记—12.MapReduce中的常见算法
一.MapReduce中有哪些常见算法 (1)经典之王:单词计数这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思 ...
Mapreduce中的字符串编码
Mapreduce中的字符串编码 $$$ Shuffle的执行过程,需要经过多次比较排序.如果对每一个数据的比较都需要先反序列化,对性能影响极大. RawComparator的作用就不言而喻,能够直接 ...
（转）MapReduce中的两表join几种方案简介
转自:http://blog.csdn.net/leoleocmm/article/details/8602081 1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的.而 ...
MapReduce中的Join算法
在关系型数据库中Join是非常常见的操作,各种优化手段已经到了极致.在海量数据的环境下,不可避免的也会碰到这种类型的需求,例如在数据分析时需要从不同的数据源中获取数据.不同于传统的单机模式,在分布式存 ...

随机推荐

通过Fiddler抓取Java HttpClient的HTTP包
设置HttpClient访问Fiddler的代理即可. public static void main(String[] args) throws Exception { HttpPost httpP ...
安装 LUA
为了以后方便,记录一下步骤 1.yum install readline-devel 2.wget http://www.lua.org/ftp/lua-5.1.4.tar.gz 3.cd lua-5 ...
Java ReEntrantLock 之 Condition条件（Java代码实战-002）
import java.util.LinkedList; import java.util.concurrent.locks.Condition; import java.util.concurren ...
【Linux】文件权限
Linux的每一个文件都跟多种类型相关联.在这些权限中,我们通常需要和三类权限打交道(用户.用户组以及其他实体). 1.文件权限查看ls –l Linux:/qinys # ls -l total 6 ...
【Linux】awk详细介绍
awk简介 awk是一种使用方便且表现力很强的编程语言,它可以应用在多种不同的计算与数据处理任务中.由于awk天生提供对文件中文本分列进行处理,所以如果一个文件中的每行都被特定的分隔符(常见的是空格) ...
NotesDocument 作为函数返回值的问题
如下代码 Set recipientDoc = getDocInNAB(“search string”) If Not recipientDoc Is Nothing Then ‘In debug I ...
java第四节异常/访问控制/jar包
/* 异常异常定义了程序中遇到的非致命的错误,而不是编译时的语法错误,如程序要打开一个不存在的文件网络连接中断,操作数越界,装载一个不存在的类等 try, catch语句 throws关键字自定 ...
spring boot mybatis没有扫描jar中的Mapper接口
只需要在spring boot启动类上加上注解,并指定jar包中接口文件包路径即可如下: @ComponentScan(basePackages = "com.xx") @Map ...
一些有用的git命令清单
以下是一些我常用的git命令清单如果以下的命令不清晰细节,请看git的文档. 设置个人信息 git config --global user.name "John Doe" gi ...
Android短信管家视频播放器代码备份
自己保留备份,增强记忆这是video的类 public class VideoActivity extends Activity { /** * 解析网络页面 */ private WebVie ...

MapReduce中，new Text()引发的写入HDFS的输出文件多一列的问题

MapReduce中，new Text()引发的写入HDFS的输出文件多一列的问题的更多相关文章

随机推荐

热门专题