【原创】大叔问题定位分享（15）spark写parquet数据报错ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead

spark 2.1.1

spark里执行sql报错

insert overwrite table test_parquet_table select * from dummy

报错如下：

org.apache.spark.SparkException: Task failed while writing rows.
at org.apache.spark.sql.hive.SparkHiveDynamicPartitionWriterContainer.writeToFile(hiveWriterContainers.scala:333)
at org.apache.spark.sql.hive.execution.InsertIntoHiveTable$$anonfun$saveAsHiveFile$3.apply(InsertIntoHiveTable.scala:210)
at org.apache.spark.sql.hive.execution.InsertIntoHiveTable$$anonfun$saveAsHiveFile$3.apply(InsertIntoHiveTable.scala:210)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:99)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.RuntimeException: Parquet record is malformed: empty fields are illegal, the field should be ommited completely instead
at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.write(DataWritableWriter.java:64)
at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriteSupport.write(DataWritableWriteSupport.java:59)
at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriteSupport.write(DataWritableWriteSupport.java:31)
at parquet.hadoop.InternalParquetRecordWriter.write(InternalParquetRecordWriter.java:121)
at parquet.hadoop.ParquetRecordWriter.write(ParquetRecordWriter.java:123)
at parquet.hadoop.ParquetRecordWriter.write(ParquetRecordWriter.java:42)
at org.apache.hadoop.hive.ql.io.parquet.write.ParquetRecordWriterWrapper.write(ParquetRecordWriterWrapper.java:111)
at org.apache.hadoop.hive.ql.io.parquet.write.ParquetRecordWriterWrapper.write(ParquetRecordWriterWrapper.java:124)
at org.apache.spark.sql.hive.SparkHiveDynamicPartitionWriterContainer.writeToFile(hiveWriterContainers.scala:321)
... 8 more
Caused by: parquet.io.ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead
at parquet.io.MessageColumnIO$MessageColumnIORecordConsumer.endField(MessageColumnIO.java:244)
at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.writeMap(DataWritableWriter.java:241)
at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.writeValue(DataWritableWriter.java:116)
at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.writeGroupFields(DataWritableWriter.java:89)
at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.write(DataWritableWriter.java:60)
... 16 more

跟进代码

org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter

    private void writeMap(Object value, MapObjectInspector inspector, GroupType type) {

        GroupType repeatedType = type.getType(0).asGroupType();

        this.recordConsumer.startGroup();

        this.recordConsumer.startField(repeatedType.getName(), 0);

        Map<?, ?> mapValues = inspector.getMap(value);

        Type keyType = repeatedType.getType(0);

        String keyName = keyType.getName();

        ObjectInspector keyInspector = inspector.getMapKeyObjectInspector();

        Type valuetype = repeatedType.getType(1);

        String valueName = valuetype.getName();

        ObjectInspector valueInspector = inspector.getMapValueObjectInspector();

        for(Iterator i$ = mapValues.entrySet().iterator(); i$.hasNext(); this.recordConsumer.endGroup()) {

            Entry<?, ?> keyValue = (Entry)i$.next();

            this.recordConsumer.startGroup();

            if (keyValue != null) {

                Object keyElement = keyValue.getKey();

                this.recordConsumer.startField(keyName, 0);

                this.writeValue(keyElement, keyInspector, keyType);

                this.recordConsumer.endField(keyName, 0);

                Object valueElement = keyValue.getValue();

                if (valueElement != null) {

                    this.recordConsumer.startField(valueName, 1);

                    this.writeValue(valueElement, valueInspector, valuetype);

                    this.recordConsumer.endField(valueName, 1);

                }

            }

        }

        this.recordConsumer.endField(repeatedType.getName(), 0);

        this.recordConsumer.endGroup();

    }

    private void writeValue(Object value, ObjectInspector inspector, Type type) {

        if (type.isPrimitive()) {

            this.checkInspectorCategory(inspector, Category.PRIMITIVE);

            this.writePrimitive(value, (PrimitiveObjectInspector)inspector);

        } else {

            GroupType groupType = type.asGroupType();

            OriginalType originalType = type.getOriginalType();

            if (originalType != null && originalType.equals(OriginalType.LIST)) {

                this.checkInspectorCategory(inspector, Category.LIST);

                this.writeArray(value, (ListObjectInspector)inspector, groupType);

            } else if (originalType != null && originalType.equals(OriginalType.MAP)) {

                this.checkInspectorCategory(inspector, Category.MAP);

                this.writeMap(value, (MapObjectInspector)inspector, groupType);

            } else {

                this.checkInspectorCategory(inspector, Category.STRUCT);

                this.writeGroup(value, (StructObjectInspector)inspector, groupType);

            }

        }

    }

    private void writePrimitive(Object value, PrimitiveObjectInspector inspector) {

        if (value != null) {

            switch(inspector.getPrimitiveCategory()) {

            case VOID:

                return;

            case DOUBLE:

                this.recordConsumer.addDouble(((DoubleObjectInspector)inspector).get(value));

                break;

            case BOOLEAN:

                this.recordConsumer.addBoolean(((BooleanObjectInspector)inspector).get(value));

                break;

            case FLOAT:

                this.recordConsumer.addFloat(((FloatObjectInspector)inspector).get(value));

                break;

            case BYTE:

                this.recordConsumer.addInteger(((ByteObjectInspector)inspector).get(value));

                break;

            case INT:

                this.recordConsumer.addInteger(((IntObjectInspector)inspector).get(value));

                break;

            case LONG:

                this.recordConsumer.addLong(((LongObjectInspector)inspector).get(value));

                break;

            case SHORT:

                this.recordConsumer.addInteger(((ShortObjectInspector)inspector).get(value));

                break;

            case STRING:

                String v = ((StringObjectInspector)inspector).getPrimitiveJavaObject(value);

                this.recordConsumer.addBinary(Binary.fromString(v));

                break;

            case CHAR:

                String vChar = ((HiveCharObjectInspector)inspector).getPrimitiveJavaObject(value).getStrippedValue();

                this.recordConsumer.addBinary(Binary.fromString(vChar));

                break;

            case VARCHAR:

                String vVarchar = ((HiveVarcharObjectInspector)inspector).getPrimitiveJavaObject(value).getValue();

                this.recordConsumer.addBinary(Binary.fromString(vVarchar));

                break;

            case BINARY:

                byte[] vBinary = ((BinaryObjectInspector)inspector).getPrimitiveJavaObject(value);

                this.recordConsumer.addBinary(Binary.fromByteArray(vBinary));

                break;

            case TIMESTAMP:

                Timestamp ts = ((TimestampObjectInspector)inspector).getPrimitiveJavaObject(value);

                this.recordConsumer.addBinary(NanoTimeUtils.getNanoTime(ts, false).toBinary());

                break;

            case DECIMAL:

                HiveDecimal vDecimal = (HiveDecimal)inspector.getPrimitiveJavaObject(value);

                DecimalTypeInfo decTypeInfo = (DecimalTypeInfo)inspector.getTypeInfo();

                this.recordConsumer.addBinary(this.decimalToBinary(vDecimal, decTypeInfo));

                break;

            case DATE:

                Date vDate = ((DateObjectInspector)inspector).getPrimitiveJavaObject(value);

                this.recordConsumer.addInteger(DateWritable.dateToDays(vDate));

                break;

            default:

                throw new IllegalArgumentException("Unsupported primitive data type: " + inspector.getPrimitiveCategory());

            }

        }

    }

parquet.io.MessageColumnIO.MessageColumnIORecordConsumer

        public void startField(String field, int index) {

            try {

                if (MessageColumnIO.DEBUG) {

                    this.log("startField(" + field + ", " + index + ")");

                }

                this.currentColumnIO = ((GroupColumnIO)this.currentColumnIO).getChild(index);

                this.emptyField = true;

                if (MessageColumnIO.DEBUG) {

                    this.printState();

                }

            } catch (RuntimeException var4) {

                throw new ParquetEncodingException("error starting field " + field + " at " + index, var4);

            }

        }

        public void endField(String field, int index) {

            if (MessageColumnIO.DEBUG) {

                this.log("endField(" + field + ", " + index + ")");

            }

            this.currentColumnIO = this.currentColumnIO.getParent();

            if (this.emptyField) {

                throw new ParquetEncodingException("empty fields are illegal, the field should be ommited completely instead");

            } else {

                this.fieldsWritten[this.currentLevel].markWritten(index);

                this.r[this.currentLevel] = this.currentLevel == 0 ? 0 : this.r[this.currentLevel - 1];

                if (MessageColumnIO.DEBUG) {

                    this.printState();

                }

            }

        }

        public void addInteger(int value) {

            if (MessageColumnIO.DEBUG) {

                this.log("addInt(" + value + ")");

            }

            this.emptyField = false;

            this.getColumnWriter().write(value, this.r[this.currentLevel], this.currentColumnIO.getDefinitionLevel());

            this.setRepetitionLevel();

            if (MessageColumnIO.DEBUG) {

                this.printState();

            }

        }

DataWritableWriter报错的关键代码是这几行

                Object keyElement = keyValue.getKey();

                this.recordConsumer.startField(keyName, 0);

                this.writeValue(keyElement, keyInspector, keyType);

                this.recordConsumer.endField(keyName, 0);

代码流程梳理如下：

DataWritableWriter.writeMap

MessageColumnIORecordConsumer.startField

注释：this.emptyField = true;

迭代entry

处理key

Object keyElement = keyValue.getKey();

MessageColumnIORecordConsumer.startField

DataWritableWriter.writeValue

DataWritableWriter.isPrimitive

DataWritableWriter.writePrimitive

1)if (value == null) 或是Void

注释：this.emptyField依旧为true

2)if (value != null) MessageColumnIORecordConsumer.addInteger

注释：this.emptyField = false;

MessageColumnIORecordConsumer.endField

MessageColumnIORecordConsumer.endField

注释：if (this.emptyField) {throw new ParquetEncodingException("empty fields are illegal, the field should be ommited completely instead");}

当map<?,?>或array<?>类型的列插入空集合或者map中存在key为null的情形时，就会触发这个错误，

后来发现官方已经有讨论：https://issues.apache.org/jira/browse/HIVE-11625

要避免这个问题有两种方式：

1 改用hive执行sql；

2 增加udf函数filter_map，当map为空集合时置为null，当map不为空集合时过滤掉map值中所有key为null的entry

spark.udf.register("filter_map", ((map : Map[String, String]) => {if (map != null && !map.isEmpty) map.filter(_._1 != null) else null}))

【原创】大叔问题定位分享（15）spark写parquet数据报错ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead的更多相关文章

【原创】大叔问题定位分享（16）spark写数据到hive外部表报错ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat
spark 2.1.1 spark在写数据到hive外部表(底层数据在hbase中)时会报错 Caused by: java.lang.ClassCastException: org.apache.h ...
【原创】大叔问题定位分享（2）spark任务一定几率报错java.lang.NoSuchFieldError: HIVE_MOVE_FILES_THREAD_COUNT
最近用yarn cluster方式提交spark任务时,有时会报错,报错几率是40%,报错如下: 18/03/15 21:50:36 116 ERROR ApplicationMaster91: Us ...
【原创】大叔问题定位分享（12）Spark保存文本类型文件（text、csv、json等）到hdfs时为什么是压缩格式的
问题重现 rdd.repartition(1).write.csv(outPath) 写文件之后发现文件是压缩过的 write时首先会获取hadoopConf,然后从中获取是否压缩以及压缩格式 org ...
【原创】大叔问题定位分享（8）提交spark任务报错 Caused by: java.lang.ClassNotFoundException: org.I0Itec.zkclient.exception.ZkNoNodeException
spark 2.1.1 一问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkcli ...
【原创】大叔问题定位分享（27）spark中rdd.cache
spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-2 ...
【原创】大叔问题定位分享（21）spark执行insert overwrite非常慢，比hive还要慢
最近把一些sql执行从hive改到spark,发现执行更慢,sql主要是一些insert overwrite操作,从执行计划看到,用到InsertIntoHiveTable spark-sql> ...
【原创】大叔问题定位分享（19）spark task在executors上分布不均
最近提交一个spark应用之后发现执行非常慢,点开spark web ui之后发现卡在一个job的一个stage上,这个stage有100000个task,但是绝大部分task都分配到两个execut ...
【原创】大叔问题定位分享（18）beeline连接spark thrift有时会卡住
spark 2.1.1 beeline连接spark thrift之后,执行use database有时会卡住,而use database 在server端对应的是 setCurrentDatabas ...
【原创】大叔问题定位分享（17）spark查orc格式数据偶尔报错NullPointerException
spark查orc格式的数据有时会报这个错 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc. ...

随机推荐

Python 属性描述符和属性的查找过程
属性描述符可以用来控制给属性赋值的时候的一些行为 import numbers class IntField: def __get__(self, instance, owner): return s ...
dubbo 使用zookeeper 出现 Dubbo客户端调用报错NullPointerException
现在将网上的方法总结一下方法一:.https://blog.csdn.net/u011294519/article/details/81810631 dubbo-provider.xml:提供者先扫 ...
sql 书写规范优化
规范做注解便于修改和优化规范 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE map ...
最简单的 springboot 发送邮件,使用thymeleaf模板
1,导入需要的包 <dependency> <groupId>org.springframework.boot</groupId> <artifactId&g ...
Shell命令-文件及目录操作之file、md5sum
文件及目录操作 - file.md5sum 1. file:显示文件的类型 file命令的功能说明用于辨识文件类型.通过 file 指令,我们得以辨识该文件的类型. file命令的语法格式 file ...
ckeditor，关于数据回显
python 基本数据类型以及内置方法
一.数字类型 # 一.整型int # ======================================基本使用====================================== ...
【Machine Translation】CMU的NMT教程论文：最全面的神经机器翻译学习教程
这是一篇CMU发的神经机器翻译教程论文,很全很详细,适合新手阅读,即使没有什么MT.DNN.RNN的基础知识. 另外它还配套了CMU自己的一个框架DyNet的练习. 全文共9章,从统计语言模型到DNN ...
洛谷P3806 点分治
点分治第一次写点分治..感觉是一个神奇而又暴力的东西orz 点分治大概就是用来处理树上链的信息,把路径分成过点x和不过点x的两种,不过点x的路径可以变成过点x的子树中一点的路径,递归处理 #incl ...
Linux 配置vim编辑器
最终效果步骤1.下载NERDTree插件安装包(vim目录插件) https://www.vim.org/scripts/script.php?script_id=1658 步骤2.在家目录创建 . ...

【原创】大叔问题定位分享（15）spark写parquet数据报错ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead

【原创】大叔问题定位分享（15）spark写parquet数据报错ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead的更多相关文章

随机推荐

热门专题