MapReduce (hive表SequenceFile的结果做输入)、MultipleOutputs和Reduce端迭代iterable的一些说明

　　很长时间以来一直写hive,嵌套脚本、偶尔写UDF. 最近用Hive的dynamic partition和多路插入做一些事情，很遗憾的结果是非常不稳定，有时能成功，有时失败。(可能是因为hive版本的问题，查了一些资料也没查的太清楚，因为服务器不能随便动，就想用mapreduce的多路输出吧）。

1.首先这个多路插入也是用的hive的表，表的输出是SequenceFile格式。

按说sequencefile格式输入，取决于内部的Key/value格式。

在驱动类里需要添加

Job job=new Job(getConf(),"dsp_data");
  job.setInputFormatClass(SequenceFileInputFormat.class);
  SequenceFileInputFormat.addInputPath(job, input1);
  SequenceFileInputFormat.addInputPath(job, input2);

Mapper函数的输入：

public class * extends Mapper<BytesWritable , Text, TextPair,TextPair>{}

2.MultipleOutPuts使用：

private static Text value = new Text();
private MultipleOutputs<Text, Text> mos;
@Override
protected void setup(Context context)  throws IOException, InterruptedException {
  Configuration conf = context.getConfiguration();
  mos = new MultipleOutputs<Text,Text>(context);
}

Iterator<TextPair> iter = values.iterator();
  TextPair middle=iter.next();
  if (! middle.getSecond().equals("0")) return;
//  String[] middle_fields=middle.getFirst().toString().split("\t",-1);


  while(iter.hasNext()){
   TextPair xx=iter.next();
   if (xx.getSecond().toString().equals("0")) continue;
   String[] xx_fields=xx.getFirst().toString().split("\t");
   if(xx_fields.length<3) continue;
   String custom_id=xx_fields[xx_fields.length-1];
   value.set(xx_fields[0]+"\t"+xx_fields[1]+"\t"+middle.getFirst().toString());
   mos.write(key.getFirst(), value, custom_id+"/");
  }

@Override
protected void cleanup(Context context)
   throws IOException, InterruptedException {
  super.cleanup(context);
  mos.close();
}

　3.上面的语句有点问题。

在于middle的使用，因为reduce中iterable values使用的对象都是反序列化出来的，而指定的具体的类都是由一个初始化的对象，不断更新里面的字段实现的。

上面的例子，就造成了middle指向的对象没变，但是实际对象中的内容已经被更新成了新序列化的结果，得不到middle最初赋值地方的值。

解决办法有两个：将middle中，需要的数据部分事先取出来。另外一个实现TextPair的clone或者实现一个get方法，获得一个新对象来解决。

MapReduce (hive表SequenceFile的结果做输入)、MultipleOutputs和Reduce端迭代iterable的一些说明的更多相关文章

表单用jquery做输入脱离焦点进行正则验证
 <form class="form1" action="" method="get&quo ...
hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据)；HADOOP存储数据压缩方案对比（LZO,gz，ORC）
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...
导hive表项目总结（未完待续）
shell里面对日期的操作 #!/bin/bash THIS_FROM=$(date +%Y%m%d -d "-7 day") THIS_TO=$(date +%Y-%m-%d - ...
从零自学Hadoop(15)：Hive表操作
阅读目录序创建表查看表修改表删除表系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceL ...
spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
hive表的存储格式; ORC格式的使用
hive表的源文件存储格式有几类: 1.TEXTFILE 默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理.源文件可以直接通过hadoop fs -cat 查 ...
Hive使用SequenceFile存储数据
SequenceFile是使用二进制保存数据,是可以压缩的,并且压缩后的数据可被分割,可以供mapreduce处理. 下面的实例使用SequenceFile保存Hive表的数据,并且使用了压缩. se ...
hive 表优化
一.外部表和内部表的区别 (1)创建表时指定external关键字,就是外部表,不指定external就是内部表 (2)内部表删除后把元数据和数据都删除了,外部表删除后只是删除了元数据,不会删除hdf ...
hive和hbase本质区别——hbase本质是OLTP的nosql DB，而hive是OLAP 底层是hdfs，需从已有数据库同步数据到hdfs;hive可以用hbase中的数据，通过hive表映射到hbase表
对于hbase当前noSql数据库的一种,最常见的应用场景就是采集的网页数据的存储,由于是key-value型数据库,可以再扩展到各种key-value应用场景,如日志信息的存储,对于内容信息不需要完 ...

随机推荐

Python网络爬虫（1）--url访问及参数设置
环境:Python2.7.9 / Sublime Text 2 / Chrome 1.url访问,直接调用urllib库函数即可 import urllib2 url='http://www.baid ...
[转帖]升级 Ubuntu，解决登录时提示有软件包可以更新的问题
升级 Ubuntu,解决登录时提示有软件包可以更新的问题 2017年12月05日 11:58:17 阅读数:2953更多个人分类: ubuntu Connecting to ... Connecti ...
看懂Qt源代码-Qt源码的对象数据存储
第一次看Qt源代码的人都会被其代码所迷惑,经常会看到代码中的d_ptr成员.d_func(函数)和Q_DECLARE_PRIVATE等奇怪的宏,总是让人一头雾水,下面这篇文章转自http://www. ...
VBA笔记（一）——基础配置
开启VBA编程环境——VBE 方法一:按<Alt+F11>组合建方法二:查看代码宏设置当然启用宏的设置方式不同,宏的启动方式也不一样. 首先打开“office 按钮”,选择“exce ...
半夜思考，为什么 String 具有不变性
学习 Java 的数据类型时,特殊关照了 String 类型,具有不变性. 当时没有深入思考为什么 String 有不变性.而且我只碰到了 String 才有不变性.Java这样设计的缘由何在. 突然 ...
深入理解JAVA虚拟机阅读笔记6——线程安全与锁优化
线程安全:如果一个对象可以安全的被多个线程同时使用,那它就是线程安全的. 一.Java中的线程安全 1.不可变不可变的对象一定是线程安全的.String.枚举类型.java.lang.Number的 ...
jQueryEasyUI的使用
easyUI是一个基于jQuery的前端框架,如果想要使用easyUI就需要先导入easyUI的一些js文件和样式文件(本地化的JS文件可以自己选择是否导入),导入方式如下: 其中必须首先导入jQue ...
MT【162】渐近估计
(2017北大优特测试第八题) 数列 $\{a_n\}$ 满足 $a_1=1$,$a_{n+1}=a_n+\dfrac{1}{a_n}$,若 $a_{2017}\in (k,k+1)$ ...
LEP所需环境
一.LEP所需环境 Python 3.6 Flask Docker 二.Python安装 LEP必须在Python3.6环境下运行,如果是在Python2.7下运行会报以下错误! Python3.6的 ...
51nod 1471 小S的兴趣 | 分块链表
51nod 1471 小S的兴趣题面小S喜欢有趣的事.但是,每个人的兴趣都是独特的.小S热衷于自问自答.有一天,小S想出了一个问题. 有一个包含n个正整数的数组a和针对这个数组的几个问题.这些问题 ...

MapReduce (hive表SequenceFile的结果做输入)、MultipleOutputs和Reduce端迭代iterable的一些说明

MapReduce (hive表SequenceFile的结果做输入)、MultipleOutputs和Reduce端迭代iterable的一些说明的更多相关文章

随机推荐

热门专题