Hive中的外部表

对于Hive中的外部表来说，因为表是外部的，Hive认为其并不拥有这份数据，删除该表并不会真正删除其中的数据，其中的表描述元信息会被删除掉。

对数据进行分区后，对于管理表，可以将其显示在hdfs目录中，但是外部表目录中不会真正存在数据，只能通过show partitions命令来显示外部表的分区信息。

我们的外部表是通过dateid进行的partition，如何显示某个partition外部表对应的location：

hive -e "describe extended xxx partition (dateid=20141230)"

显示出来的信息大致如下：

field1 string

dateid string

# Partition Information

# col_name data_type comment

dateid string

Detailed Partition Information Partition(values:[20141230], dbName:logbase_db, tableName:logbase, createTime:1419984079, lastAccessTime:0, sd:StorageDescriptor(cols:[FieldSchema(name:doc, type:string, comment:null), FieldSchema(name:dateid, type:string, comment:null)], location:hdfs://ns1/xxx/20141230, inputFormat:com.inputformat.XXXInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat, compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, parameters:{serialization.format=1}), bucketCols:[], sortCols:[], parameters:{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], skewedColValueLocationMaps:{}), storedAsSubDirectories:false), parameters:{numFiles=129, transient_lastDdlTime=1419984079, COLUMN_STATS_ACCURATE=false, numRows=-1, totalSize=170482370617, rawDataSize=-1})

Time taken: 0.994 seconds, Fetched: 9 row(s)

显示出来某个partition对应的hdfs地址等，使用的InputFormat等详细信息。

关于外部表创建的语句，完整内容大概如下：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

(col_name data_type, ...)

[PARTITIONED BY (col_name data_type, ...)]

[CLUSTERED BY (col_name, col_name, ...)]

[SORTED BY (col_name, col_name, ...)]

[ROW FORMAT row_formart]

[STORED AS file_format]

[LOCATION hdfs_path]

[AS select_statement]

当然，也可以通过使用Like复制一个已经存在的表定义：

CREATE [EXTERNAL] TABLE [IF NOT EXIST] table_name LIKE existing_table name

[LOCATION hdfs_path]

其中各个语句的含义如下：

CREATE TABLE：创建一个指定名字的表名。如果已经存在，使用IF NOT EXIST来忽略抛出的异常
EXTERNAL：创建一个外部表，也就是说在创建一个表的同时指定一个指向实际数据的路径。
LIKE：允许复制一个已经存在的表的定义，而不复制表中已经存在的内容。
PARTITIONED BY：建立带有分区的表。
CLUSTERED：对表和分区进行类聚操作。
SORT BY：根据某个字段进行排序，可以提高数据的查询效率。

如果要使用特定的InputFormat，还需要加入下面的语句：

INPUTFORMAT 'xxxHiveInputFormat'

     OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

     LOCATION '/aaa/hive-table'

这样就指定InputFormat和OutputFormat，以及外部表的Location。其中InputFormat与Hadoop中的略有不同，其中的RecordReader需要特殊继承Hive中的

org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader

可以做一个Adaptor来将原有的RecordReader进行适配以满足Hive查询的要求。

Hive中的分隔符

hive 默认的字段分隔符为ascii码的控制符\001,建表的时候用fields terminated by '\001',如果要测试的话，造数据在vi 打开文件里面，用ctrl+v然后再ctrl+a可以输入这个控制符\001。按顺序，\002的输入方式为ctrl+v,ctrl+b。以此类推。

当前我们新建的Hive表中，默认fields terminated by没有设置，那么就使用'\001'。

比如我们的一条日志，表面上看起来没有问题：

cat a.log

tp=imp^ti=1419076654^md=iPhone3,1^__tid=5zKN0REAy8M%253D^mh=640.00x960.00^me=7.1.2^mf=84fef4314602f88b90dad8f2a9d4b23dv1.1t1419076650kcom.qiyi.iphone^mk=1^plt=1^mn=iphone^m9=128f0ab5^os=i^mm=31.892004x119.898267x50.000000^mp=com.qiyi.iphone^e=i___m^mo=1^m5=9920F2E3-4BDB-430F-BCC3-6ACF6EC6F155^kt=mma^mt=1419076649529^a=UoNVX034P723^rawIp=222.185.12.59^mw=1^j=zh^k=2001515^av=11^ip=222.185.12.59^m0=604a45ed52a06f1535711e3c68a130f2edc^pf=c1^p=101324851^pu=m^pn=iphone^rt=2^uuid=9920f2e3-4bdb-430f-bcc3-6acf6ec6f155^po=http%3a%2f%2fmlt01.com%2fo.htm%3fpv%3d0%26sp%3d0%2c1195912%2c1199754%2c2213157%2c0%2c1%2c1^ag=34

但是通过cat -A(--show-all)，就可以看出所有的隐藏字符：

cat -A a.log

tp=imp^ti=1419076654^md=iPhone3,1^__tid=5zKN0REAy8M%253D^mh=640.00x960.00^me=7.1.2^mf=84fef4314602f88b90dad8f2a9d4b23dv1.1t1419076650kcom.qiyi.iphone^mk=1^plt=1^mn=iphone^m9=128f0ab5^os=i^mm=31.892004x119.898267x50.000000^mp=com.qiyi.iphone^e=i___m^mo=1^m5=9920F2E3-4BDB-430F-BCC3-6ACF6EC6F155^kt=mma^mt=1419076649529^a=UoNVX034P723^rawIp=222.185.12.59^mw=1^j=zh^k=2001515^av=11^ip=222.185.12.59^m0=604a45ed52a06f15357^A11e^@^@^@^@3c68a130f2edc^pf=c1^p=101324851^pu=m^pn=iphone^rt=2^uuid=9920f2e3-4bdb-430f-bcc3-6acf6ec6f155^po=http%3a%2f%2fmlt01.com%2fo.htm%3fpv%3d0%26sp%3d0%2c1195912%2c1199754%2c2213157%2c0%2c1%2c1^ag=34$

而其中看到的^A就是'\001'的表示（实际上是一个字符），这样外部表中该行数据^A前面的字符被截断导致该行数据只能显示前半部分。

最终的简单解决方法便是重写InputFormat，替换掉可能会导致问题的字符串特殊字符。

hive默认分隔符引起的日志分割问题的更多相关文章

Hive 默认分隔符
引言 Hive 中的默认分隔符是 ^A (\001) ,这是一种特殊的分隔符,使用的是 ASCII 编码的值,键盘是打不出来的查看 Hive 默认分隔符文件 Linux 上的文件以 \001 作为 ...
hive默认分隔符
默认分隔符‘\001',对应ascii码SOH: 通过cat -A filename可以查看分隔符:
Hive默认分割符
1.Hive默认的分隔符 Hive的表数据,不管导出到HDFS还是本地文件系统,如果用户在导出时没有指定分割符,那么Hive表的数据在写入文件时,会使用默认的分隔符作为列分隔符,该默认的分割是“CTR ...
Hive 特殊分隔符处理
HIVE特殊分隔符处理 Hive对文件中的分隔符默认情况下只支持单字节分隔符,,默认单字符是\001.当然你也可以在创建表格时指定数据的分割符号.但是如果数据文件中的分隔符是多字符的,如下图: 01| ...
nginx 直接在配置文章中设置日志分割
直接在nginx配置文件中,配置日志循环,而不需使用logrotate或配置cron任务.需要使用到$time_iso8601 内嵌变量来获取时间.$time_iso8601格式如下:2015-08- ...
apache2.4配置访问日志分割并过滤图片CSS等无用内容
相关信息 1.apache日志有访问日志和错误日志,错误日志根据日志级别来输出错误信息,而访问日志根据定义的日志格式来记录访问动作 2.访问日志格式在httpd.conf文件里面定义,在虚拟主机里面引 ...
python 跨模块实现按照文件大小，日期实现日志分割，反转
笔者的一个自动化测试平台项目,采用了python作为后端服务器语言.项目基于快速成型目的,写了一个极其简陋的日志记录功能,支持日志记录到文件和支持根据日志级别在终端打印不同颜色的log.但随着测试平台 ...
Nginx高性能服务器安装、配置、运维（6） —— Nginx日志及日志分割
七.Nginx日志及日志分割 (1)Nginx日志文件查看Nginx配置文件: 找到access_log,yum安装默认存储在/var/log/nginx目录下,且默认main格式: main格式定 ...
nginx 日志分割（简单、全面）
Nginx 日志分割因业务需要做了简单的Nginx 日志分割, 第1章详细配置如下. #建议在mkdir /home/shell -p 专门写shell 脚本位置 root@localhost ...

随机推荐

icmp隧道手工操作
ICMP协议被用于检测网络连通状态的协议,通常情况下,防火墙会默认放过该协议. 渗透测试中经常出现一种情况是,我们通过某一种方式取得了一台主机的权限,得到了一些文件,比如域hash,密码文件之类的东西 ...
React之前端路由
通过之前的博客介绍,对于react,我们已经可以写单个组件.复合组件/单个页面了,接下来就是实现页面的跳转了,这个时候,我们就需要前端路由了. 一.react-router-dom 安装这个依赖,th ...
机器人操作系统（ROS）在线实训平台学习实验指南
机器人操作系统(ROS)在线学习指南在高校开设ROS相关课程已经积累了一年多的经验,由于自动化类专业在课程安排中不同于计算机相关专业,通常没有Linux相关的课程基础,直接上手ROS较为 ...
关于HTTPS理论和实践
Summary: HTTP 通信时,可能信息被监听.服务器或客户端身份伪装等安全问题,HTTPS 则能有效解决这些问题. 原始的HTTP连接的时候,因服务器与用户之间是直接进行明文传输,导致用户面临着 ...
U-Boot 不能识别FAT32 SD分区
/********************************************************************* * U-Boot 不能识别FAT32 SD分区 * 说明: ...
HDU1003 Max Sum
解题思路:最大连续和,此题多了记录的下标,具体见代码. #include<cstdio> #include<algorithm> using namespace std; #d ...
elastic_search 指令
#!/usr/bin/env python # -*- coding: utf-8 -*- """ pass """ import os i ...
mysql的master和slave同步方案
同步原理 master将改变记录到二进制日志(binary log)中 slave将master的binary log events拷贝到它的中继日志(relay log) slave重做中继日志中的 ...
C++面向对象的编程思想机器人
C++的面向对象的编程思想如下,一般情况为一个类中包含了这个对象的所有属性与函数,直接调用这个对象就可以对这个对象执行它可以使用的任何操作. #include <iostream> cla ...
BZOJ1345 Baltic2007 序列问题Sequence 【思维题】*
BZOJ1345 Baltic2007 序列问题Sequence Description 对于一个给定的序列a1,…,an,我们对它进行一个操作reduce(i),该操作将数列中的元素ai和ai+1用 ...

hive默认分隔符引起的日志分割问题

Hive中的外部表

Hive中的分隔符

hive默认分隔符引起的日志分割问题的更多相关文章

随机推荐

热门专题