使用sqoop往hdfs中导入数据供hive使用

sqoop import -fs hdfs://x.x.x.x:8020 -jt local --connect "jdbc:oracle:thin:@x.x.x.x:1521:testdb" --username user2 --password user2 --verbose --as-textfile --delete-target-dir -m 1 --query "select * from test_tb
where \$CONDITIONS" --target-dir /tmp/test --null-string '\\N' --null-non-string '\\N' --fields-terminated-by '\001' --lines-terminated-by '\012' --hive-drop-import-delims

此语句将从oracle数据库中查出的内容放到指定的hdfs路径下，此时手动设置列换行符和行换行符，而不是使用 --hive-import 参数，是因为指定该参数之后它还会让你指定 --hive-table参数。而指定 --hive-import 和 --hive-table 之后，sqoop在将查询结果导入到hdfs中之后，会尝试调用执行sqoop的这台机器上的hive命令，然后执行建表语句以及 load data inpath 的语句将导入到hdfs中的内容移动到 hive对应的表的目录下。

但是如果hive开启了kerberos 认证，hive命令是没有权限操作hive的（记得是这样）。所以我们用以上语句只是将数据导入到hdfs中，后续的load data inpath 可以使用beeline等命令执行。而之所以指定 --hive-drop-import-delims，是因为从oracle中查出的值中可能包含hive默认的列分隔符和行分隔符，所以只能做出妥协，使用该参数将值中的列分隔符和行分隔符直接去掉。

列分隔符还好，列分隔符的ascii码是 001(八进制)，含义是SOH(start of headline)，是个不可见字符，平时文本处理时基本不会用到这个字符。但是行分隔符的ascii码是012(八进制)，含义是 line feed/new line，这个在平时处理文本时会经常遇到。

我们设想一种处理方式，那就是模仿csv文件，列分隔符就继续使用 \001，行分隔符继续使用 \012，如果值中有换行，就enclosed by double quote。但似乎看起来 hive的load data inpath 不支持这么高级的解析方式。关于csv的格式定义和hive的load data inpath 详细的处理方式待去查询对应的文档，此处只是提一下。

使用sqoop往hdfs中导入数据供hive使用的更多相关文章

sqoop从hdfs 中导出数据到mysql
bin/sqoop export \ --connect "jdbc:mysql://mini1:3306/study?useUnicode=true&characterEncodi ...
第3节 sqoop：4、sqoop的数据导入之导入数据到hdfs和导入数据到hive表
注意: (1)\001 是hive当中默认使用的分隔符,这个玩意儿是一个asc 码值,键盘上面打不出来 (2)linux中一行写不下,可以末尾加上一些空格和 “ \ ”,换行继续写余下的命令: bi ...
《sqoop实现hdfs中的数据导出至mysql数据库》
报错Access denied for user 'root'@'localhost' (using password: YES) 参考一参考二登陆mysql时,root密码的修改参考帖子h ...
向Hive中导入数据的方式
一.Hive客户端:根据数据源不同划分 1.从本地文件系统中导入数据到hive表中: load data local inpath "path" [OVERWRITE] into ...
sqoop工具从oracle导入数据2
sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 ...
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟基础环境 ...
sqoop导入数据到hive
1.1hive-import参数使用--hive-import就可以将数据导入到hive中,但是下面这个命令执行后会报错,报错信息如下: sqoop import --connect jdbc:my ...
使用sqoop从mysql导入数据到hive
目录前言一.使用的导入命令二.遇到的问题及解决 1. 用文本字段进行分区的问题 2. Hadoop历史服务器Hadoop JobHistory没开启的问题 3. 连接元数据存储数据库报错 4 ...
（MySQL里的数据）通过Sqoop Import HDFS 里和通过Sqoop Export HDFS 里的数据到（MySQL）（五）
下面我们结合 HDFS,介绍 Sqoop 从关系型数据库的导入和导出一.MySQL里的数据通过Sqoop import HDFS 它的功能是将数据从关系型数据库导入 HDFS 中,其流程图如下所示. ...

随机推荐

PP图和QQ图检查2个数据集是否符合同一分布
1.QQ图检查2个数据集是否符合同一分布,Purpose:Check If Two Data Sets Can Be Fit With the Same Distribution PP图和QQ图 - ...
Log4j使用注意点
Porting log4j到指定项目的时候需要注意: 1. log4j选择字符集的时候通过CMake来更改配置,防止出错; 2.
转：servlet的url-pattern匹配规则详细描述
原文地址:servlet的url-pattern匹配规则详细描述原文写的很详细另外可以参考一下:Web.xml中设置Servlet和Filter时的url-pattern匹配规则一.概述在 ...
c++ 如何获取多线程的返回值？（std::thread ，std::async）
//简单的 c++11 线程,简单方便,成员函数随便调用,非成员函数也一样,如需要获取返回时,请自行使用条件变量 std::thread run([&](){ //执行一些耗时的操作 retu ...
java上传文件代码
import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;impo ...
（5.1）sql server系统数据库
关键词:mssql系统数据库,sql server系统数据库,tempdb的作用 master:它包含一个系统表集合,是整个实例的中央存储库,维护登录账户,其他数据库,文件分布,系统配置设置,磁盘空间 ...
df 查看磁盘大小
[root@salt-server- sh]# df -h Filesystem Size Used Avail Use% Mounted on /dev/mapper/VolGroup-lv_roo ...
what's the 爬虫之基本原理
what's the 爬虫? 了解爬虫之前,我们首先要知道什么是互联网 1.什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,总体上像一张网一样. 2.互联 ...
SQL Server的等待事件
具体查看: https://www.sqlshack.com/sql-server-wait-types/ 早上10:00, 公司的订单数据更新缓慢,查看了监控的sql信息,有大量的HADR_SYNC ...
003-读书笔记-企业IT架构转型之道-阿里巴巴中台战略思想与架构实战-分布式服务框架的选择
3.1.淘宝平台“服务化”历程大约2007年,淘宝500人团队,维护一个war包,200多个功能模块. 1)项目团队协同成本高,业务响应越来越慢 2)应用复杂度超出人的认知负载. 3)错误难于隔离[ ...

使用sqoop往hdfs中导入数据供hive使用

使用sqoop往hdfs中导入数据供hive使用的更多相关文章

随机推荐

热门专题