3.Sqoop的数据导入

  “导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文

本数据(或者Avro、sequence文件等二进制数据)

3.1语法

  下面的语法用于将数据导入HDFS:$ sqoop import (generic-args) (import-args)

3.2 导入表数据到HDFS

  下面的命令用于从MySQL数据库服务器中的emp表导入HDFS:

$bin/sqoop import   \
--connect jdbc:mysql://shizhan2:3306/mysql \
--username root \
--password root \
--table user \
--m 1

  

  导入成功,会有如下输出:

  

  如果没有指定该表导入到那个目录,将使用默认目录,为了验证在HDFS导入的数据,请使用以下命令查看导入的数据:

  

3.3 导入表数据到Hive

bin/sqoop import --connect jdbc:mysql://shizhan2:3306/mysql --username root --password root --table tb_emp --hive-import --m 1

  在HDFS中Hive的默认目录下查看:

  

  

3.5 导入表数据到HDFS的指定目录 

  在导入表数据到HDFS使用Sqoop导入工具,我们可以指定目标目录。

  例如下面的命令是用来导入emp_add表数据到'/queryresult'目录

bin/sqoop import \
--connect jdbc:mysql://shizhan2:3306/mysql \
--username root \
--password root \
--target-dir /queryresult \
--table tb_emp --m 1

  下面的命令是用来验证 /queryresult 目录中 tb_emp表导入的数据形式

 

  它会用逗号(,)分隔tb_emp表的数据和字段

3.6 导入表数据子集:

  我们可以使用Sqoop导入工具导入表的部分数据(子集),"where"子句的一个子集。它执行在各自的数据库服务器相应

的SQL查询,并将结果存储在HDFS的目标目录。

  1.下面的命令用来导入tb_emp表数据的子集。子集查询检索员工ID为1(id = 1)的信息:

bin/sqoop import \
--connect jdbc:mysql://shizhan2:3306/mysql \
--username root \
--password root \
--where "id ='1'" \
--target-dir /wherequery \
--table tb_emp --m 1

  查看文件:默认使用逗号分隔

  

  2.按需导入:

bin/sqoop import \
--connect jdbc:mysql://shizhan2:3306/mysql \
--username root \
--password root \
--target-dir /wherequery2 \
--query 'select id,name from tb_emp WHERE id>1 and $CONDITIONS' \
--split-by id \
--fields-terminated-by '\t' \
--m 1

  查看文件:

  

3.7 增量导入

  增量导入是仅导入表中新添加的行的技术。

  它需要添加‘incremental’, ‘check-column’, 和 ‘last-value’选项来执行增量导入。

  下面的语法用于Sqoop导入命令增量选项,下面的命令用于在tb_emp表执行增量导入:

bin/sqoop import \
--connect jdbc:mysql://shizhan2:3306/mysql \
--username root \
--password root \
--table tb_emp --m 1 \
--incremental append \
--check-column id \
--last-value 2

  

  

  

  

  

  

  

  

  

  

14_sqoop数据导入的更多相关文章

  1. ITTC数据挖掘平台介绍(五) 数据导入导出向导和报告生成

    一. 前言 经过了一个多月的努力,软件系统又添加了不少新功能.这些功能包括非常实用的数据导入导出,对触摸进行优化的画布和画笔工具,以及对一些智能分析的报告生成模块等.进一步加强了平台系统级的功能. 马 ...

  2. FineReport实现EXCEL数据导入自由报表

    在制作填报报表的时候,对于空白填报表,常常导出为Excel,派发给各部门人员填写后上交.如何能避免手动输入,直接将Excel中的数据导入到填报表中提交入库呢? 这里以一个简单的员工信息填报示例进行介绍 ...

  3. Execl数据导入sql server方法

    在日常的程序开发过程中,很多情况下,用户单位给予开发人员的数据往往是execl或者是access数据,如何把这些数据转为企业级是数据库数据呢,下面就利用sqlserver自带的功能来完成此项任务. 首 ...

  4. kettle将Excel数据导入oracle

    导读 Excel数据导入Oracle数据库的方法: 1.使用PL SQL 工具附带的功能,效率比较低 可参考这篇文章的介绍:http://www.2cto.com/database/201212/17 ...

  5. [Asp.net]常见数据导入Excel,Excel数据导入数据库解决方案,总有一款适合你!

    引言 项目中常用到将数据导入Excel,将Excel中的数据导入数据库的功能,曾经也查找过相关的内容,将曾经用过的方案总结一下. 方案一 NPOI NPOI 是 POI 项目的 .NET 版本.POI ...

  6. sqlserver 中数据导入到mysql中的方法以及注意事项

    数据导入从sql server 到mysql (将数据以文本格式从sqlserver中导出,注意编码格式,再将文本文件导入mysql中): 1.若从slqserver中导出的表中不包含中文采用: bc ...

  7. 数据分析(7):pandas介绍和数据导入和导出

    前言 Numpy Numpy是科学计算的基础包,对数组级的运算支持较好 pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数.pandas兼具Numpy高性能的数组计 ...

  8. MySQL学习笔记十一:数据导入与导出

    数据导入 1.mysqlimport命令行导入数据 在使用mysqlimport命令导入数据时,数据来源文件名要和目标表一致,不想改文件名的话,可以复制一份创建临时文件,示例如下. 建立一个文本use ...

  9. geotrellis使用(十二)再记录一次惨痛的伪BUG调试经历(数据导入以及读取瓦片)

    Geotrellis系列文章链接地址http://www.cnblogs.com/shoufengwei/p/5619419.html 目录 前言 BUG还原 查找BUG 解决方案 总结 后记 一.前 ...

随机推荐

  1. react Link标签 火狐失效怎么解决

    这个问题其实找了好多资料都没有具体的解决方法: 今天突然想到可能是层级嵌套出问题了,刚好有个bug也是关于这个的,已经亲测解决了 代码如下:火狐和谷歌都能正常的跳转 <Link to=" ...

  2. Java基础教程:IDEA单元测试

    Java基础教程:IDEA单元测试 环境配置 使用idea IDE 进行单元测试,首先需要安装JUnit 插件. 安装JUnit插件步骤 File-->settings-->Plguins ...

  3. 100道iOS面试题

    面试题: 1__weak什么时候用 想要在block内部变外部变量需要加__weak或者__block 2.是否使用过coreImage和coreText?如果使用过,说说你的体验(答案在另一份) 3 ...

  4. 简单的api实现以及动态函数调用

    实现一个简单的api功能,环境python2.7 请求方法:curl http://ip:8000/?name={api中的方法名}|python -m json.tool 只需编写api的方法即可 ...

  5. Direct2D 学习笔记(2)画刷 Brush

    画刷的使用方法 需要包含的文件:<wincodec.h> 需要包含的库: "windowscodecs.lib" 资源网址:    https://docs.micro ...

  6. ERNIE 2.0 理解与使用

    更新中 更新时间:2019-12-06 17:43:27 实验需要,在自己学习的过程中做如下笔记,欢迎指正,欢迎交流. 1. ERNIE简述 ERNIE和BERT一样,也是基于transformer来 ...

  7. [转帖]Nginx服务器的六种负载均衡策略详解

    Nginx服务器的六种负载均衡策略详解 咔咔侃技术 2019-09-11 17:40:12 一.关于Nginx的负载均衡 在服务器集群中,Nginx起到一个代理服务器的角色(即反向代理),为了避免单独 ...

  8. K8S从入门到放弃系列-(7)kubernetes集群之kube-scheduler部署

    摘要: 1.Kube-scheduler作为组件运行在master节点,主要任务是把从kube-apiserver中获取的未被调度的pod通过一系列调度算法找到最适合的node,最终通过向kube-a ...

  9. Jmeter 跨线程组传递参数 之两种方法(转)

    终于搞定了Jmeter跨线程组之间传递参数,这样就不用每次发送请求B之前,都需要同时发送一下登录接口(因为同一个线程组下的请求是同时发送的),只需要发送一次登录请求,请求B直接用登录请求的参数即可,直 ...

  10. (六)Cookie 知识点总结 (来自那些年的笔记)

    如果你想要转载话,可不可以不要删掉下面的 作者信息 呀!: 作者:淮左白衣 写于 2018年4月18日18:47:41 来源笔者自己之前学javaWeb的时候,写的笔记 : 目录 如果你想要转载话,可 ...