sqoop1.4.4从oracle导数据到hive中

sqoop从oracle定时增量导入数据到hive

感谢：

http://blog.sina.com.cn/s/blog_3fe961ae01019a4l.html
http://f.dataguru.cn/thread-94073-1-1.html sqoop.metastore.client.record.password
http://blog.csdn.net/ryantotti/article/details/14226635 开启sqoop metastore

step 1 创建sqoop job
a.配置sqoop metastore服务
修改sqoop/conf/sqoop-site.xml文件

相关属性：

sqoop.metastore.server.location
sqoop.metastore.server.port
sqoop.metastore.client.autoconnect.url

上面三个参数是为了实现共享（shared)metastore，"By default, job descriptions are saved to a private repository stored in $HOME/.sqoop/. You can configure Sqoop to instead use a shared metastore, which makes saved jobs available to multiple users across a shared cluster. Starting the metastore is covered by the section on the sqoop-metastoretool."这样在其他的cluster上就可以共享job并执行。

如果不需要共享job，只需要把上面三个属性在配置文件中用注释掉即可。

sqoop.metastore.client.enable.autoconnect
sqoop.metastore.client.record.password 这个属性是为了保存数据库密码的，默认情况下处于安全需要，不会将密码保存到metastore中，这样每次执行job时就需要重新输入数据库的密码。为了定时执行，我们修改这个属性，是他可以保存密码。

修改如下：

<property>

 <name>sqoop.metastore.server.location</name>

 <value>/tmp/sqoop-metastore/shared.db</value>

</property>

<property>

 <name>sqoop.metastore.server.port</name>

 <value>16000</value>

</property>

<property>

  <name>sqoop.metastore.client.autoconnect.url</name>

 <value>jdbc:hsqldb:hsql://118.228.197.115:16000/sqoop</value>

</property>

<property>

  <name>sqoop.metastore.client.record.password</name>

  <value>true</value>

</property>

<!--注释掉这个属性

<property>

  <name>sqoop.metastore.client.enable.autoconnect</name>

  <value>false</value>

</property>

-->

b.启动metasotre,控制台执行sqoop metastore命令(如果没有配置前三个属性，请跳过此步骤)
c.创建sqoop job

(为了方便执行，将下面的脚本写入到文件保存，然后用chmod u+x FILENAME修改权限后，通过 ./FILENAME执行文件，创建job)

sqoop job --meta-connect jdbc:hsqldb:hsql://hostIP:16000/sqoop --create JOBNAME -- import --hive-import --incremental append --connect jdbc:oracle:thin:@DatabaseIP:1521/INSTANCENAME --username USERNAME --password PASSWD --verbose -m 1 --bindir /opt/sqoop/lib --table TABLENAME --check-column COLUMNNAME --last-value VALUE

注意：

1) 如果前面没有配置共享metastore（即”sqoop.metastore.server.location" 、”sqoop.metastore.server.port“、”sqoop.metastore.client.autoconnect.url“三个属性在配置文件中已经注释了），那就需要将上面的脚本中 ”--meta-connect jdbc:hsqldb:hsql://hostIP:16000/sqoop“ 去掉。

2) "--create JOBNAME -- import"中”--“后面加一个空格再写import命令，否则执行出错
3) --check-column列不能是char varchar等，可以是date，int，
参考官网：http://sqoop.apache.org/docs/1.4.4/SqoopUserGuide.html 在官网页面查找 check-column字段，快速定位到相关解释

step 2 执行sqoop job看是否可以顺利进行

<!--查看job列表，看是否成功创建-->

sqoop job --list

<!--执行job,测试能否正常执行,此处如果导入的数据量大，会很耗费时间-->

sqoop job --exec JOBNAME

step 3 确定sqoop job可以正常执行后，编写脚本定时执行

将下面的脚本写入一个文本文件，如 execJob,然后执行 chmod u+x execJob 命令添加可执行权限

source /etc/profile

rm TABLENAME.java -f

sqoop job -exec JOBNAME

step 4 用crontab工具实现定时执行

执行crontab -e 命令，添加如下一行脚本,保存退出即可

# 每天1点钟执行数据导入job

  * * * execJob 1>/root/execlogs 2>&1

注意：execJob就是step3创建的脚本文件，需要用具体的路径，如/root/execJob。“1>/root/execlogs 2>&1”这句是重定向stdout和stderr输出对象到指定文件，可以在文件中查看执行输出的信息。

crontab命令工具用法参考：

http://www.cnblogs.com/jiafan/articles/1153066.html

http://baike.baidu.com/view/1229061.htm

sqoop1.4.4从oracle导数据到hive中的更多相关文章

sqoop 从oracle导数据到hive中，date型数据时分秒截断问题
oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了 ...
使用sqoop1.4.4从oracle导入数据到hive中错误记录及解决方案
在使用命令导数据过程中,出现如下错误 sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.29.16:1521/testdb ...
使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）
最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...
sqoop从mysql导数据到hive报错：Caused by: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure
背景使用sqoop从mysql导数据到hive,从本地服务器是可以访问mysql的(本地服务器是hadoop集群的一个datanode),但是sqoop导数据的时候依然连接不上mysql 报错如下: ...
hdfs数据到hive中，以及hdfs数据隐身理解
hdfs数据到hive中: 假设hdfs中已存在好了数据,路径是hdfs:/localhost:9000/user/user_w/hive_g2park/user_center_enterprise_ ...
sqoop导oracle数据到hive中并动态分区
静态分区: 在hive中创建表可以使用hql脚本: test.hql USE TEST; CREATE TABLE page_view(viewTime INT, userid BIGINT, pag ...
大数据自学2-Hue集成环境中使用Sqoop组件从Sql Server导数据到Hive/HDFS
安装完CDH后,发现里面的东东实在是太多了,对于一个初学大数据的来说就犹如刘姥姥进了大观园,很新奇,这些东东每个单拿出来都够喝一壶的. 接来来就是一步一步地学习了,先大致学习了每个模组大致做什么用的, ...
hive 之将excel数据导入hive中 : excel 转 txt
一.需求: 1.客户每月上传固定格式的excel文件到指定目录.每月上传的文件名只有结尾月份不同,如: 10月文件名: zhongdiangedan202010.xlsx , 11月文件名: zh ...
Oracle导数据到SQL server的方法总结
通过oracle10g 访问sql server 2008 导数据步骤最近在项目中遇到要将Oracle数据库的数据导入到SQL server数据库中,解决办法如下: 一.准备工作配置Oracle ...

随机推荐

tengine + lua 实现流量拷贝
环境搭建参考地址:http://www.cnblogs.com/cp-miao/p/7505910.html cp.lua local res1, res2, action action = ngx. ...
本机搭建PHP环境全教程（图文）
为了更好的维护空间网站,研究和调试PHP程序,许多人需要在自己的计算机内搭建PHP环境.本文将介绍使用phpnow环境组件搭建的全过程.使用搜索工具,搜索phpnow<ignore_js_op& ...
uCOS-ii笔记
ucos ii system 文件结构上层: 应用软件,用户代码中层: 与处理器无关代码与应用程序相关配置文件与处理器有关代码下层: 硬件(cpu,interupt,timer,gpio,i ...
Java开发中的23种设计模式详解【转】
创建型模式,共五种:工厂方法模式.抽象工厂模式.单例模式.建造者模式.原型模式. 行为型模式,共十一种:策略模式.模板方法模式.观察者模式.迭代子模式.责任链模式.命令模式.备忘录模式.状态模式.访问 ...
unity postprocessing stack v2的优化
今天做到33ms了从45ms 到33ms 后处理占20ms 优化后8ms 去掉两次blit fast mode layer 去掉UI camera 用overlay 层级用sortingorder ...
python 未发现数据源名称并且未指定默认驱动程序
最近在用python连接sqlserver读取数据库,读取数据时候在本机电脑正常,但是把程序部署到服务器运行时一直报错“未发现数据源名称并且未指定默认驱动程序”,后来发现是因为数据源的问题,解决如下: ...
Idea闪退问题-内存不能给太大
Idea闪退问题-内存不能给太大学习了:https://blog.csdn.net/qq_17776287/article/details/77529455 学习了:https://blog.csd ...
Netty 中文教程（二） Hello World ！详解
1.HelloServer 详解 HelloServer首先定义了一个静态终态的变量---服务端绑定端口7878.至于为什么是这个7878端口,纯粹是笔者个人喜好.大家可以按照自己的习惯选择端口.当然 ...
[Spring Boot] Adding JPA and Spring Data JPA
JPA is just like a helper class for providing data for Controller, has method like 'findOne', 'findA ...
DriverStore文件夹特别大，能删除吗？
DriverStore文件夹特别大,能删除吗? DriverStore\FileRepository文件夹特别大,能删除吗? C:\Windows\System32\DriverStore\FileR ...

sqoop1.4.4从oracle导数据到hive中

sqoop1.4.4从oracle导数据到hive中的更多相关文章

随机推荐

热门专题