本文分享自天翼云开发者社区《Doris-HDFS LOAD常见问题汇总(二)》,作者:刘****阳

1、HDFS Load导入错误,quality not good enough to cancel,

  • 现象描述:导入显示状态为Canceled,URL错误详情显示:quality not good enough to cancel
  • 可能原因:
    • 1、导入的数据字段长度设置有问题,原始数据超长。
    • 2、导入的数据被异常切分了。字段值中含有换行或者文件解析错误。
    • 3、字段对应错误,字段值字段转换异常。
  • 定位方式:
    1. 查询任务状态show load where label="" from db_name;
    2. show load warnings on "URL" 。日志详情里显示具体错误详情。
  • 解决方案:
    • 1、字段值超长可以修改字段值或者截断原始数据。
    • 2、数据被异常切分,需探查所有数据还是极少数数据,极少数数据可通过设置允许脏数据来自动过滤部分脏数据。
    • 3、字段对应错误或者字段转换异常,对应设置相应的set进行显式转换。

2、HDFS Load数据同步到doris丢失了 ,我检查了一下总数 发现掉了几十万 找个帮忙看看是什么原因吗

  • 现象描述:导入后数据少了很多
  • 可能原因:
    • 1、数据导入任务有大量脏数据,当设置允许脏数据,可能会过滤
    • 2、导入的格式是Parquet格式,但在任务中未指定,默认引擎同步异常
    • 3、原始数据重新生成。
  • 定位方式:
    1. 确认是否设置允许脏数据,如果允许可查看ETLinfo详情里查询具体导入情况。

show load where label="" from db;

                  unselected.rows=0; dpp.abnorm.ALL=18; dpp.norm.ALL=221221

    1. 查询原始数据的文件格式是什么

2. 查询原始数据生成时间,是否更新为数据导入任务后,或者有增量数据生成。

  • 解决方案:
    • 1、字段值超长可以修改字段值或者截断原始数据。
    • 2、数据被异常切分,需探查所有数据还是极少数数据,极少数数据可通过设置允许脏数据来自动过滤部分脏数据。
    • 3、字段对应错误或者字段转换异常,对应设置相应的set进行显式转换。

3、HDFS Load导入错误,quality not good enough to cancel,

  • 现象描述:导入显示状态为Canceled,错误详情为

type:ETL_RUN_FAIL; msg:errCode = 2, detailMessage = HDFS list path exception. path=hdfs://user/XXXXXXXXXXX/5G_D/20240418/*, err: errCode = 2, detailMessage = HDFS list path failed. path=hdfs://user/XXXXXXXXXX/5G_D/20240418/*,msg=errors while get file status java.net.UnknownHostException: user

  • 可能原因:
    • 1、host设置异常
  • 定位方式:
    1. 确认配置的HDFS路径是否正确。
  • 解决方案:
    • 修改正确HDFS路径后,重新导入。

4、HDFS Load导入错误, No source file

  • 现象描述:导入显示状态为Canceled,错误详情为

type:ETL_RUN_FAIL; msg:errCode = 2, detailMessage = No source file in this table(o_zXXXXX_d).

  • 可能原因:
    • HDFS路径配置错误,或者HDFS目录下没有相关文件。
  • 定位方式:
    1. 确认配置的HDFS路径是否正确。
    2. 确认原始的数据是否正常生成。
  • 解决方案:
    • 修改正确HDFS路径后或生成原始数据后,重新导入。

5、HDFS Load导入错误,中文字段 the length of input is too long than schema.

  • 现象描述:导入显示状态为Canceled,URL详情为

Reason: column_name[con_bis_type], the length of input is too long than schema. first 32 bytes of input str: [用户姓名] schema length: 10; actual length: 12; . src line [];

  • 可能原因:
    • 中文字段在Doris中单个汉字长度为3.
  • 定位方式:
    1. 查看原始数据的长度
  • 解决方案:
    • 修改表字段的长度,重新导入。

          ALTER TABLE example_db.my_table MODIFY COLUMN val1 VARCHAR(64)

Doris-HDFS LOAD常见问题汇总(二)的更多相关文章

  1. J2EE进阶(十一)SSH框架整合常见问题汇总(二)

    org.hibernate.PropertyAccessException: IllegalArgumentException occurred while calling setter of cn. ...

  2. CentOS安装Oracle数据库详细介绍及常见问题汇总

    一.安装前准备 1.软件硬件要求 操作系统:CentOS 6.4(32bit)Oracle数据库版本:Oracle 10g(10201_database_linux32.zip)最小内存:1G(检查命 ...

  3. SVN集中式版本控制器的安装、使用与常见问题汇总

    SVN是Subversion的简称,是一个开放源代码的版本控制系统,它采用了分支管理系统,集中式版本控制器 官方网站:https://www.visualsvn.com/ 下载右边的服务器端,左边的客 ...

  4. H5项目常见问题汇总及解决方案

    H5项目常见问题汇总及解决方案 H5   2015-12-06 10:15:33 发布 您的评价:       4.5   收藏     4收藏 H5项目常见问题及注意事项 Meta基础知识: H5页 ...

  5. MVC 网站部署常见问题汇总

    一:TGIShare项目是一个MVC5的网站程序,部署在了IIS上,使用的Windows验证方式,并在本机设置了计划任务定时调用某个地址执行命令.问题汇总如下: 1.Window Server 200 ...

  6. 转---CentOS安装Oracle数据库详细介绍及常见问题汇总

    一.安装前准备 1.软件硬件要求 操作系统:CentOS 6.4(32bit)Oracle数据库版本:Oracle 10g(10201_database_linux32.zip)最小内存:1G(检查命 ...

  7. thymeleaf的常见问题汇总

    thymeleaf的常见问题汇总 1.thymeleaf th:href 多个参数传递格式 th:href="@{/Controller/update(param1=1,param2=${p ...

  8. gpload导入常见问题汇总

    gpload导入常见问题汇总 java写文件后使用gpload命令导入greenplum: 问题一: 报错信息:invalid byte sequence for encoding "UTF ...

  9. H5 常见问题汇总及解决方案

    原文链接:http://mp.weixin.qq.com/s/JVUpsz9QHsNV0_7U-3HCMg H5 项目常见问题汇总及解决方案 -- 由钟平勇分享 转自 https://github.c ...

  10. Nuxt.js的踩坑指南(常见问题汇总)

    本文会不定期更新在nuxt.js中遇到的问题进行汇总.转发请注明出处,尊重作者,谢谢! 强烈推荐作者文档版踩坑指南,点击跳转踩坑指南 在Nuxt的官方文档中,中文文档和英文文档都存在着不小的差异. 1 ...

随机推荐

  1. SVN统计时间段内代码修改行数

    1.本地安装svn客户端(方法自行百度) 注:安装时记得勾选命令行工具 若原安装未勾选,可再次启动安装文件: 选中Next即可: 环境变量记得配置svn路径(bin)(方法自行百度) cmd运行命令 ...

  2. doctrine 与 mysql 数据类型的详细转换规则。

    doctrine 与 mysql 数据类型的详细转换规则 // mysql -> doctrine array( 'tinyint' => 'boolean', 'smallint' =& ...

  3. Windows路径或者Linux路径映射成web路径进行访问代码

    package com.soft.mpms.zframe.config; import java.io.File; import org.springframework.context.annotat ...

  4. mysql免密登录

    开启mysql免密登录, vi /etc/my.cnf [mysqld]下添加 skip-grant-tables , 保存后重启mysql服务:service mysqld restart

  5. 23.5K star!零代码构建AI知识库,这个开源神器让问答系统开发像搭积木一样简单!

    嗨,大家好,我是小华同学,关注我们获得"最新.最全.最优质"开源项目和高效工作学习方法 FastGPT 是一个基于大语言模型的智能知识库平台,提供开箱即用的数据处理.RAG检索和可 ...

  6. API接口调用--历史上的今天(v1.0)

    历史上的今天 参考(聚合数据):https://www.juhe.cn/docs/api/id/63 事件列表(v1.0) 接口地址: http://api.juheapi.com/japi/toh ...

  7. 工具 | WExploit

    0x00 简介 WExploit是一款基于java开发的漏洞检测工具. 下载地址 WExploit下载:WExploit下载 0x01 功能说明 Struts2 ThinkPHP 海康威视 泛微OA ...

  8. kubernetes service 原理精讲

    --- # 介绍 Kubernetes Service 用于流量的负载均衡和反向代理,其通过 kube-proxy 组件实现.从服务的角度来看,kube-controller-manager 实现了服 ...

  9. [安洵杯 2019]easy_serialize_php 1 WP

    [安洵杯 2019]easy_serialize_php 1 WP 这道题目考察的主要是序列化与反序列化过程中,对象逃逸的一个漏洞. 说是对象逃逸,我觉得可能叫对象注入比较形象. 首先题目上来可以看到 ...

  10. 循环神经网络(RNN)模型

    一.概述   循环神经网络(Recurrent Neural Network, RNN)是一种专门设计用于处理序列数据(如文本.语音.时间序列等)的神经网络模型.其核心思想是通过引入时间上的循环连接, ...