sqoop导入数据到hive表中的相关操作

1.使用sqoop创建表并且指定对应的hive表中的字段的数据类型,同时指定该表的分区字段名称
　　sqoop create-hive-table --connect "jdbc:oracle:thin:@192.168.13.1:1521/test" --username root --password 12345 --table test --hive-table myhive5 --hive-partition-key partition_time --map-column-hive id=String,number=String,modify_time=String

2.按照时间字段来组装sql增量导入指定时间范围内的数据,同时改变时间的类型,可以使时间精确到秒;另外注意导入时指定的分区值的路径与对应的值
　　sqoop import --connect "jdbc:oracle:thin:@192.168.13.1:1521/test" --username root --password 12345 --query "SELECT i.id,i.number,i.FILE_NO,TO_CHAR(i.MODIFY_DATE_TIME ,'yyyy-mm-dd hh24:mi:ss') FROM JHMR_FILE_INDEX i WHERE MODIFY_DATE_TIME >=TO_DATE('2017-10-23 11:00:00', 'yyyy-mm-dd hh24:mi:ss') and \$CONDITIONS" --target-dir /user/hive/warehouse/myhive5/partition_time=20171023 --hive-import -m 5 --hive-table myhive5 --split-by PATIENT_ID --hive-partition-key partition_time --hive-partition-value 20171023

过滤导入的时候,没有主键的要加--split-by 且 --target-dir 后面的路径加上分区路径即可(这样就不会报路径存在异常)

3.创建表,全量导入(sqlserver条件用where,oracle用and)
　　sqoop create-hive-table --connect "jdbc:sqlserver://192.168.13.1:1433;username=root;password=12345;databasename=test" --table test --hive-table myhive2 --hive-partition-key partition_time --map-column-hive ID=String,name=String,addr=String

　　sqoop import --connect "jdbc:sqlserver://192.168.13.1:1433;username=root;password=12345;databasename=test" --query "select * from test i where \$CONDITIONS" --target-dir /user/hive/warehouse/myhive2/partition_time=20171023 --hive-import -m 5 --hive-table myhive2 --split-by ID --hive-partition-key partition_time --hive-partition-value 20171023

sqoop导入数据到hive表中的相关操作的更多相关文章

批量导入数据到hive表中：假设我有60张主子表如何批量创建导入数据
背景:根据业务需要需要把60张主子表批量入库到hive表. 创建测试数据: def createBatchTestFile(): Unit = { to ) { val sWriter = new P ...
第3节 sqoop：4、sqoop的数据导入之导入数据到hdfs和导入数据到hive表
注意: (1)\001 是hive当中默认使用的分隔符,这个玩意儿是一个asc 码值,键盘上面打不出来 (2)linux中一行写不下,可以末尾加上一些空格和 “ \ ”,换行继续写余下的命令: bi ...
sqoop导入数据到hive
1.1hive-import参数使用--hive-import就可以将数据导入到hive中,但是下面这个命令执行后会报错,报错信息如下: sqoop import --connect jdbc:my ...
sqoop导入数据到hive中元数据问题
简单配置了sqoop之后开始使用,之前用的时候很好用,也不记得有没有启动hivemetastore,今天用的时候没有启动,结果导入数据时,如果使用了db.tablename,就会出现找不到数据库的错, ...
spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
BCP批量导入数据时候如何处理表中自动增加的字段
大容量导入数据时保留标识值 (SQL Server) http://msdn.microsoft.com/zh-cn/library/ms186335(v=sql.120).aspx 使用格式化文件跳 ...
sqoop导入数据到hive---2
1.hive-table 从mysql导入数据到hive表中,可以使用--hive-table来指定hive的表名,不指定hive表名,则hive表名与mysql表名保持一致. sqoop impor ...
将DataFrame数据如何写入到Hive表中
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...
将Hive统计分析结果导入到MySQL数据库表中（一）——Sqoop导入方式
https://blog.csdn.net/niityzu/article/details/45190787 交通流的数据分析,需求是对于海量的城市交通数据,需要使用MapReduce清洗后导入到HB ...

随机推荐

canvas转img，blob相互转换
摘自:https://www.cnblogs.com/jyuf/p/7251591.html 函数都比较简单,直接看就ok了 /*----------------------------------- ...
sublime Text3安装 markdownediting 报错解决记录
看了一下官方文档,也是醉了,都怪自己的无知. 在安装时候不要打开.md的文件,因为你里面有可能有一些语法错误,所以会导致报错. 解决方法关闭其他文件,在重新安装! 官方解释: 参考文档:Trouble ...
jQuery属性操作之.attr()
目录 .attr() 调用形式:$("xxx").attr(name) 调用形式:$("xxx").attr(name,value); 调用形式:$(" ...
linux下环境变量PS1-命令提示符
1.字体颜色 1.1颜色及对应数字颜色表前景背景颜色 30 40 黑色 echo -e "\e[30mforegroud\e[m\e[40mbackground\e[m& ...
NodeJs 实现简单WebSocket 即时通讯
至于服务器语言选择nodeJs,一是因为自己是做前端的,对javascript比较熟悉,相比于其他后台语言,自然会更喜欢nodeJs了, 二是NodeJs本身事件驱动的方式很擅长与大量客户端保持高并发 ...
php wamp基础环境搭建
一.apache 安装配置: 1.安装apache 1.1 下载地址:https://www.apachelounge.com/download/ 1.2 将下载的文件解压到你想安装的目录 D:\WA ...
jinjia2的使用
模板要了解jinja2,那么需要先理解模板的概念.模板在Python的web开发中广泛使用,它能够有效的将业务逻辑和页面逻辑分开,使代码可读性增强.并且更加容易理解和维护. 模板简单来说就是一个其中 ...
go语言Mutex与RWMutex用法
Mutex(互斥锁) Lock()加锁,Unlock()解锁适用于读写不确定,并且只有一个读或者写的场景例: package main import ( "sync" &quo ...
FPGA千兆网UDP协议实现
接着上一篇百兆网接口的设计与使用,我们接着来进行FPGA百兆网UDP(User Datagram Protocol)协议的设计. 1)UDP简介在此,参考博主夜雨翛然的博文“https://www. ...
Linux Shell中管道的原理及C实现框架
在shell中我们经常用到管道,有没考虑过Shell是怎么实现管道的呢? cat minicom.log | grep "error" 标准输入.标准输出与管道我们知道,每一个进 ...

sqoop导入数据到hive表中的相关操作

sqoop导入数据到hive表中的相关操作的更多相关文章

随机推荐

热门专题