从RDBMS到HIVE:

sqoop import 
--connect jdbc:oracle:thin:@//192.168.156.111/test--username test
--password test
--query select * from it.t_test where inserttime >= to_date('${date1}','yyyy-mm-dd') and inserttime < to_date('${date2}','yyyy-mm-dd') and $CONDITIONS
--hive-overwrite
--hive-table it.test
--target-dir hdfs://ns1/user/hive/warehouse/it.db/t_test
--null-string \\N
-null-non-string \\N
--fields-terminated-by \001
--delete-target-dir
--split-by emp_no
-m
1

参数详解:

  --connect 关系型数据库连接

  --username 关系型数据库连接用户名

  --password 关系型数据库连接密码

  --table 关系型数据库表

  --query 自定义sql查询,sql结束要加$CONDITIONS

  --hive-overwrite 覆盖之前的分区写入数据

  --hive-drop-import-delims 导入hive的数据某列中如果有换行符或者回车键可以删除

  --hive-table hive的表

  --hive-database hive的数据库

  --hive-partition-key hive的分区字段

  --hive-partition-value hive的分区值

  --fields-terminated-by 导入到hdfs时,hdfs文件的分隔符

  --input-fields-terminated-by 从hdfs导出时,hdfs文件的分隔符

  --export-dir 从hdfs导出时的源目录

  --target-dir 导入到hdfs时的目标目录

  --delete-target-dir 如果hdfs的目录已经存在,则先删除

  --direct 快速模式,使用mysql自带的mysqldump导出数据

  --split-by 如果-m参数不为1,一定要加上该参数而且最好是数值类型,否则会报错

  -m 指定map的数量,也是生成文件的数量

  --split-by 一般和参数-m放在一起使用,-m表示使用几个map并发执行,--split-by表示拆分数据的字段。

  例如:-m设置为2,数据有100条,sqoop会首先获取拆分字段的最大值和最小值,间隔为100/2=50,那么第一个map执行拆分字段为(1,50)之间的数据,第二个map执行拆分字段为(50,100)之间的数据

  NOTES:

    拆分字段默认为主键;

    拆分字段数据类型最好为int,如果为其他类型,将-m参数设置为1,--split-by不设置;

    拆分字段的值最好均匀分布,否则会造成数据倾斜的问题。

  

  HCatalog配置:

  --create-hcatalog-table 指定需要创建表,如果不指定,默认不创建,若指定且创建的表已经存在就会报错

  --hcatalog-table 要导出的目标表

  --hcatalog-storage-stanza 指定存储格式,该参数值会拼接到create table的命令中。默认:stored as rcfile。

  --hcatalog-partition-keys 指定分区字段,多个字段用逗号分隔开(hive-partition-key的加强版)

  --hcatalog-partition-values 指定分区值,多分区值用逗号分隔开(hive-partition-value的加强版)

  

sqoop参数详解的更多相关文章

  1. Nginx主配置参数详解,Nginx配置网站

    1.Niginx主配置文件参数详解 a.上面博客说了在Linux中安装nginx.博文地址为:http://www.cnblogs.com/hanyinglong/p/5102141.html b.当 ...

  2. iptables参数详解

    iptables参数详解 搬运工:尹正杰 注:此片文章来源于linux社区. Iptalbes 是用来设置.维护和检查Linux内核的IP包过滤规则的. 可以定义不同的表,每个表都包含几个内部的链,也 ...

  3. chattr的常用参数详解

    chattr的常用参数详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在实际生产环境中,有的运维工程师不得不和开发和测试打交道,在我们公司最常见的就是部署接口.每天每个人部署的 ...

  4. mha配置参数详解

    mha配置参数详解: 参数名字 是否必须 参数作用域 默认值 示例 hostname Yes Local Only - hostname=mysql_server1, hostname=192.168 ...

  5. $.ajax()方法所有参数详解;$.get(),$.post(),$.getJSON(),$.ajax()详解

    [一]$.ajax()所有参数详解 url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. type: 要求为String类型的参数,请求方式(post或get)默认为get.注 ...

  6. linux PHP 编译安装参数详解

    linux PHP 编译安装参数详解 ./configure --prefix=/usr/local/php --with-config-file-path=/usr/local/php/etc -- ...

  7. 【转】jqGrid 各种参数 详解

      [原文]http://www.cnblogs.com/younggun/archive/2012/08/27/2657922.htmljqGrid 各种参数 详解 JQGrid JQGrid是一个 ...

  8. HTML滚动字幕代码参数详解及Js间隔滚动代码

    html文字滚动代码 <marquee style="WIDTH: 388px; HEIGHT: 200px" scrollamount="2" dire ...

  9. mysql5.6主从参数详解

    mysql5.6的主从相当的不错,增加了不少参数,提升了主从同步的安全和效率,以下是mysql5.6主从参数详解. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...

随机推荐

  1. spring-boot 环境搭建(一)

    环境 jdk 8 tomcat 8.5 sts 4.4.2 maven 3.6.1 新建 maven 项目 首先创建一个普通的 maven 项目. pom.xml <project xmlns= ...

  2. PAT A1058 A+B in Hogwarts (20)

    AC代码 #include <cstdio> struct Money { long long Galleon, Sicklke, Knut; }A, B, Sum; void init( ...

  3. [LGP4707] 重返现世

    世界是物质的,物质是运动的,运动是有规律的,规律是可以被认识的. 关于期望意义下min-max容斥,我们认为每个事件的时间来认识事件,max/min S表示集合S中所有时间最后/最前出现的事件,E(m ...

  4. linux lkm rootkit常用技巧

    简介 搜集一下linux lkm rootkit中常用的一些技巧 1.劫持系统调用 遍历地址空间 根据系统调用中的一些导出函数,比如sys_close的地址来寻找 unsigned long ** g ...

  5. Spring 注解介绍

    @Component与@Bean的区别 @Component注解表明一个类会作为组件类,并告知Spring要为这个类创建bean. @Bean注解告诉Spring这个方法将会返回一个对象,这个对象要注 ...

  6. Vasya and Magic Matrix CodeForces - 1042E (概率dp)

    大意:给定n*m矩阵, 初始位置(r,c), 每一步随机移动到权值小于当前点的位置, 得分为移动距离的平方, 求得分期望. 直接暴力dp的话复杂度是O(n^4), 把距离平方拆开化简一下, 可以O(n ...

  7. 怎样修改输入框 placehoder 提示文本的颜色?

    1. 在这个问题上, 不同浏览器的设置方法有所差异, 可以写成下面这种形式. ::-webkit-input-placeholder { /* WebKit browsers */ color: #9 ...

  8. ArrayList,LinkedList,Vector区别.TreeSet,TreeSet,LinkedHashSet区别

    ArrayList: 基于数组的数据结构,地址连续,一旦数据保存好了,查询效率比较高,但是因为其地址连续,所以增删数据需要移动数据,影响速度 内部数组长度默认为10,当需要扩容时,数组长度按1.5倍增 ...

  9. SQL SERVER 语法

    1.获取所有用户名: Select name FROM Sysusers where status='2' and islogin='1' islogin='1' :表示帐户 islogin='0' ...

  10. JS的 delete操作符 删除对象属性

    JS如何删除对象中的某一属性 var obj={ name: 'zhagnsan', age: 19 } delete obj.name //true typeof obj.name //undefi ...