Hive中的一种假NULL

Hive中有种假NULL，它看起来和NULL一摸一样，但是实际却不是NULL。

例如如下这个查询：

hive> desc ljn004;

a string

Time taken: 0.237 seconds

hive> select a from ljn004;

NULL

Time taken: 46.232 seconds

看上去好像ljn004的a字段保存了一个 NULL，

但是换一个查询会发现它和NULL并不一样：

hive> select a from ljn004 where a is null;

Time taken: 62.56 seconds

来看一下实际存储的是什么：

hive> select * from ljn004;

Time taken: 1.232 seconds

hive> select a from ljn004 where a = '\\N';

NULL

Time taken: 72.933 seconds

ljn004的a字段实际存储的是一个'\N'，a = '\\N'是因为Hive中'\'是转义字符，需要对'\'进行一次转义，所以变成'\\N'。

这种假NULL产生的原因实际上源于对表的错误操作。在Hive中，空值NULL在底层默认是用'\N'来存储的，看一个例子：

hive> create table ljn005 (col1 string);

Time taken: 1.258 seconds

1 Rows loaded to ljn005

Time taken: 63.727 seconds

hive> insert overwrite table ljn005 select NULL from dual;

然后看一下底层的数据存储：

$ hadoop fs -cat /group/hive/ljn005/attempt_201205041518_256192_m_000000_0

可以看到底层数据将NULL存储成了'\N' 。

这样的设计存在一个问题是如果实际想存储'\N'，那么实际查询出来的也是NULL而不是'\N' 。

Hive给出一种并非完美的解决方法就是可以自定义底层用什么字符来表示NULL。

例如我想用字符'a'来表示NULL：

hive> alter table ljn005 SET SERDEPROPERTIES('serialization.null.format' = 'a');

Time taken: 0.175 seconds

hive> insert overwrite table ljn005 select NULL from dual;

1 Rows loaded to ljn005

Time taken: 62.66 seconds

再看一下底层的存储：

$ hadoop fs -cat /group/hive/ljn005/attempt_201205041518_256764_m_000000_0

这时候底层的存储就变成了'a' ，今后插入到这张表中的'a'查询出来就变成了NULL而不是'a' 。

其实上面说的这个假NULL出现的原因就是在默认情况下（即用'\N'表示NULL），插入了NULL值，然后又用SET SERDEPROPERTIES语句修改了存储NULL的字符串。这时候表的属性修改了，但是底层存储的文件并没有修改。而'\N'显示为NULL在Hive中又是一个特例，于是就出现了这个假NULL，在开发过程中一定要注意！

原文地址：http://blog.sina.com.cn/s/blog_6ff05a2c010131sh.html

Hive中的一种假NULL的更多相关文章

hive中的一种假NULL现象
使用hive时,我们偶尔会遇到这样的问题,当你将结果输出到屏幕时,查出的数据往往显示为null,但是当你将结果输出到文本时,却显示为空(即未填充),这是为什么呢? 在hive中有一种假NULL,它看起 ...
061 hive中的三种join与数据倾斜
一:hive中的三种join 1.map join 应用场景:小表join大表一:设置mapjoin的方式: )如果有一张表是小表,小表将自动执行map join. 默认是true. <pro ...
Hive中的三种不同的数据导出方式介绍
问题导读:1.导出本地文件系统和hdfs文件系统区别是什么?2.带有local命令是指导出本地还是hdfs文件系统?3.hive中,使用的insert与传统数据库insert的区别是什么?4.导出数据 ...
Hive 中的四种排序详解，再也不会混淆用法了
Hive 中的四种排序排序操作是一个比较常见的操作,尤其是在数据分析的时候,我们往往需要对数据进行排序,hive 中和排序相关的有四个关键字,今天我们就看一下,它们都是什么作用. 数据准备下面我们 ...
044 HIVE中的几种排序
1.order by:全局排序 select * from emp order by sal; 对于一个reduce才有用. 2.sort by:对于每个reduce进行排序 set mapreduc ...
Hive中的4种Join方式
common join 普通join,性能较差,存在Shuffle map join 适用情况:大表join小表时,做不等值join 原理:将小表数据广播到各个节点,存储在内存中,在map阶段直接jo ...
HIVE中的几种排序
1.order by:全局排序 select * from emp order by sal; 2.sort by:对于每个reduce进行排序 set mapreduce.job.reduces=3 ...
Hive总结（八）Hive数据导出三种方式
今天我们再谈谈Hive中的三种不同的数据导出方式. 依据导出的地方不一样,将这些方式分为三种: (1).导出到本地文件系统. (2).导出到HDFS中: (3).导出到Hive的还有一个表中. 为了避 ...
hive 数据导出三种方式
今天我们再谈谈Hive中的三种不同的数据导出方式.根据导出的地方不一样,将这些方式分为三种:(1).导出到本地文件系统:(2).导出到HDFS中:(3).导出到Hive的另一个表中.为了避免单纯的文字 ...

随机推荐

[Libre 6282] 数列分块入门 6 (分块)
原题:传送门 code: //By Menteur_Hxy #include<cstdio> #include<iostream> #include<algorithm& ...
P1892 团伙
题目描述 1920年的芝加哥,出现了一群强盗.如果两个强盗遇上了,那么他们要么是朋友,要么是敌人.而且有一点是肯定的,就是: 我朋友的朋友是我的朋友: 我敌人的敌人也是我的朋友. 两个强盗是同一团伙的 ...
安装oracle服务端之后再安装oracle客户端导致sqlplus命令无法使用？？
首先小编自述一下所遇到的问题: 昨天在已经安装 oracle 服务端的 win7 X64 主机上安装 oracle client 之后,发现我的sqlplus命令无法用了??经过百度,都说我服务没有开 ...
C# string bytes互转
string str = "spike"; byte[] bytes = System.Text.Encoding.Default.GetBytes(str); foreach ( ...
BA--三相异步电机_星三角降压启动
星一三角启动就是一种简单方便的降压启动方式,同时还可通过手动和自动操作控制方式实现. 星三角起动的优点还是很显著的,因为同任何别的减压起动器相比较,其结构最简单,价格也最便宜除此之外,星三角起动方式 ...
例题2.8 总是整数 LA4119
1.题目描写叙述:点击打开链接 2.解题思路:本题利用差分序列的性质解决.将1,2,..,k+1都带入表达式计算,假设对全部的i.都有D整除P(i),那么该序列全部值都为整数,否则不都为整数. 由于假 ...
【零基础入门学习Python笔记013】元祖：戴上了枷锁的列表
元组:戴上了枷锁的列表因为和列表是近亲关系.所以元祖和列表在实际使用上是很相似的. 本节主要通过讨论元素和列表究竟有什么不同学习元祖. 元组是不可改变元素的.插入.删除或者排序都不能够.列表能够随意 ...
Android框架简要介绍
1. Android架构直观图下图展示了Android系统的主要组成部分: 总体上而言,Android系统结构由5个部分组成.从上到下,别人是Applications (Android应用 ...
HDU 1015.Safecracker【暴力枚举】【8月17】
Safecracker Problem Description === Op tech briefing, 2002/11/02 06:42 CST === "The item is lo ...
2016.03.27,英语,《Vocabulary Builder》Unit 06
equ: from Latin aequus, meaning 'equal', equalize:使相等; equivalent:[ɪ'kwɪvələnt], A is equivalent to ...

Hive中的一种假NULL

Hive中的一种假NULL的更多相关文章

随机推荐

热门专题