1. 背景

近日帮外部门的同事处理一个小需求,就是将HDFS中2018年至今所有存储的sequence序列化文件读取出来,重新保存成文本格式,以便于他后续进行处理。由于同事主要做机器学习方向,对hadoop或spark方面不了解,所以我就想着这么小的需求,简单支持下即可,花个几分钟写了一个脚本提供给他,没想到,过了一天他又找到我,说脚本读取出来的文件大部分有问题…原来自己代码有bug

2. 初始版本

Spark或Hadoop读取sequence文件只需调用相应函数即可。

第一版本的spark程序代码如下:

 package com.ws.test

 import org.apache.hadoop.io.{BytesWritable, Text}
import org.apache.spark.{SparkConf, SparkContext} object Test {
def main(args: Array[String]): Unit = {
if (args.length < 1) {
println("input param error: <method name>")
} else {
args(0) match {
case "deseqData" => deseqData(args)
case _ =>
}
}
} def deseqData(args: Array[String]): Unit ={ if(args.length != 3){
println("input param error: <method name> <input dir> <output dir>")
return
} val conf = new SparkConf()
conf.setAppName(args(0))
val sc = new SparkContext(conf) val inputDir = args(1)
val outputDir = args(2) sc.sequenceFile[Text, BytesWritable](s"hdfs://$inputDir")
.map(data => new String(data._2.getBytes)).saveAsTextFile(outputDir) sc.stop()
}
}

提供的bash脚本如下:

#!/bin/bash

source ~/.bashrc

if [[ $# -ne  ]];then
echo "$(date +'%Y-%m-%d %H:%M:%S') input param error: <file input path> <file output path>"
exit
fi SPARK_BIN_DIR=/home/hadoop/spark/spark-1.5.-bin-hadoop2./bin
HADOOP_BIN_PATH=/home/hadoop/hadoop-2.3.-cdh5.0.0/bin $HADOOP_BIN_PATH/hadoop fs -rm -r $
if [ $? -ne ];then
echo "$(date +'%Y-%m-%d %H:%M:%S') output file dir does not exist in hdfs"
fi runJob(){
echo "$(date +'%Y-%m-%d %H:%M:%S') spark task begins!"
nohup $SPARK_BIN_DIR/spark-submit --class com.ws.test.Test --master yarn --num-executors --driver-memory 7192M --executor-memory 7192M --queue default run.jar deseqData $ $ >> log >& &
if [ $? -ne ];then
echo "$(date +'%Y-%m-%d %H:%M:%S') spark task running error"
exit
fi pid=$!
echo "$(date +'%Y-%m-%d %H:%M:%S') spark task processId is $pid, wait to finish..."
wait $pid
if [ $? -ne ];then
echo "$(date +'%Y-%m-%d %H:%M:%S') spark task running exception"
exit
fi
tail -f log
echo "$(date +'%Y-%m-%d %H:%M:%S') spark task finished!"
} runJob $ $

执行./run.sh /crawler/data/2018-04-04/0/data1522774524.799569.seq /crawler/wstest执行解析任务即可

提取的结果如下:

那些@符号是什么鬼…

3. 优化版本

由于导出的数据存在问题,遂优化了一版,不同之处如下:

 sc.sequenceFile[Text, BytesWritable](s"hdfs://$inputDir")
// .map(data => new String(data._2.getBytes))
.map(data => {
val value = data._2
value.setCapacity(value.getLength)
new String(value.getBytes)
}).saveAsTextFile(outputDir)

打包重新运行bash脚本,得到的结果如下图:

终于正常了,长舒一口气…,but为什么这样呢?

4. 原因分析

当你把byte[]数据保存为BytesWritable后,通过BytesWritable.getBytes()再获取到的数据不一定是原数据,可能变长了很多,这是因为BytesWritable采用自动内存增长算法,你保存数据长度为size时,它可能将数据保存到了长度为capacity(capacity>size)的buffer中。此时,使用BytesWritable.getBytes()得到的数据最后一些字符是多余的。如果里面保存的是protocol buffer序列化后的字符串,则将无法反序列化。

此时可以使用BytesWritable.setCapacity(bytesWritable.getLength())将后面多于空间剔除。

工作采坑札记:1. Hadoop中的BytesWritable误区的更多相关文章

  1. 工作采坑札记:4. Hadoop获取InputSplit文件信息

    1. 场景 基于客户的数据处理需求,客户分发诸多小数据文件,文件每行代表一条记录信息,且每个文件以"类型_yyyyMMdd_批次号"命名.由于同一条记录可能存在于多个文件中,且处于 ...

  2. 工作采坑札记:2. Hadoop中MultipleInputs的使用陷阱

    1. 背景 近日在一个Hadoop项目中使用MultipleInputs增加多输入文件时,发现相同路径仅会加载一次,导致后续的统计任务严重失真.本博文旨在记录异常的排查及解决方案. 2. 情景重现 ( ...

  3. 工作采坑札记:3. Spark中es-hadoop插件异常解决

    1. Es-Hadoop异常: org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [615/300864] ...

  4. 工作采坑札记: 4. linux指定目录使用df和du的统计结果相差很大

    1. 背景 近日,线上的服务出现异常,调用服务返回的JSON格式数据不完整,导致客户端解析异常,因此记录了本次的填坑之旅(nnd)... 2. 排查过程 2.1 服务器分析 登录到服务所在linux服 ...

  5. python+selenium自动化登录dnf11周年活动界面领取奖励登录部分采坑总结[1]

    背景: Dnf的周年庆活动之一,游戏在6月22日 06:00~6月23日 06:00之间登陆过游戏后可以于6月25日 16:00~7月04日 06:00领取奖励 目标:连续四天自动运行脚本,自动领取所 ...

  6. Hadoop环境搭建--Docker完全分布式部署Hadoop环境(菜鸟采坑吐血整理)

    系统:Centos 7,内核版本3.10 本文介绍如何从0利用Docker搭建Hadoop环境,制作的镜像文件已经分享,也可以直接使用制作好的镜像文件. 一.宿主机准备工作 0.宿主机(Centos7 ...

  7. rabbitmq在ios中实战采坑

    1. rabbitmq在ios中实战采坑 1.1. 问题 ios使用rabbitmq连接,没过多久就断开,并报错.且用android做相同的步骤并不会报错,错误如下 Received connecti ...

  8. mybatis中集成sharing-jdbc采坑

    1. mybatis中集成sharing-jdbc采坑 1.1. 错误信息 Caused by: org.apache.ibatis.binding.BindingException: Invalid ...

  9. Cloudera Manager 5.9 和 CDH 5.9 离线安装指南及个人采坑填坑记

    公司的CDH早就装好了,一直想自己装一个玩玩,最近组了台电脑,笔记本就淘汰下来了,加上之前的,一共3台,就在X宝上买了CPU和内存升级了下笔记本,就自己组了个集群. 话说,好想去捡垃圾,捡台8核16线 ...

随机推荐

  1. SQL Server 2014 清理日志

    USE [master] GO ALTER DATABASE [TempTestDb02] SET RECOVERY SIMPLE WITH NO_WAIT GO ALTER DATABASE [Te ...

  2. table 和 div 简单布局

    table 简单布局 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http:// ...

  3. scikit-learn 机器学习库

    一 介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最先是由David Cour ...

  4. P3613 睡觉困难综合征 LCT+贪心+位运算

    \(\color{#0066ff}{ 题目描述 }\) 由乃这个问题越想越迷糊,已经达到了废寝忘食的地步.结果她发现--晚上睡不着了!只能把自己的一个神经元(我们可以抽象成一个树形结构)拿出来,交给D ...

  5. P2155 [SDOI2008]沙拉公主的困惑

    \(\color{#0066ff}{ 题目描述 }\) 大富翁国因为通货膨胀,以及假钞泛滥,政府决定推出一项新的政策:现有钞票编号范围为1到N的阶乘,但是,政府只发行编号与M!互质的钞票.房地产第一大 ...

  6. NOIP后省选集训前文化课划水记

    划水划了一个多月,文化课没啥长进还他妈累死了...--ghj1222 11.11(NOIP Day2) 师傅开车开得很快,晚上8:00多就到了二狱 晚上听毒瘤班主任swh讲了半节语文,我:黑人问号.j ...

  7. JavaScript new Date()IE浏览器下出错 NaN

    当涉及到编程,与日期的工作可能是棘手的.然而,幸运的是,大多数语言都已经完成了这个困难的工作,并有一种内置的日期功能来帮助我们.JavaScript是具有有用的功能来帮助大量输出,设置日期. The ...

  8. CoreData 数据库

    封装CoreManager类 @implementation CoreDataManager { //上下文 NSManagedObjectContext *_ctx; } //单例 +(instan ...

  9. Luogu P1120 小木棍 [数据加强版] 来来来我们一起来剪枝,剪枝,剪枝、、、

    好啊...太棒了... dfs(拼到第几根木棍,这根木棍剩余长度,上一根木棍的位置) len是木棍的长度,cnt是木棍的个数 震撼人心的剪枝: 1.枚举长度从最大的木棍开始,直到sum/2,因为之后只 ...

  10. 奇偶交错排列(DFS)

    Description 一个1-n1−n的排列满足所有相邻数字奇偶性不同,那么称该排列为奇偶交错排列. 按字典序输出1-n1−n的所有奇偶交错排列. Input 输入一个整数n( 2 \le n \l ...