14_sqoop数据导入
3.Sqoop的数据导入
“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文
本数据(或者Avro、sequence文件等二进制数据)
3.1语法
下面的语法用于将数据导入HDFS:$ sqoop import (generic-args) (import-args)
3.2 导入表数据到HDFS
下面的命令用于从MySQL数据库服务器中的emp表导入HDFS:
$bin/sqoop import \
--connect jdbc:mysql://shizhan2:3306/mysql \
--username root \
--password root \
--table user \
--m 1

导入成功,会有如下输出:

如果没有指定该表导入到那个目录,将使用默认目录,为了验证在HDFS导入的数据,请使用以下命令查看导入的数据:

3.3 导入表数据到Hive
bin/sqoop import --connect jdbc:mysql://shizhan2:3306/mysql --username root --password root --table tb_emp --hive-import --m 1
在HDFS中Hive的默认目录下查看:


3.5 导入表数据到HDFS的指定目录
在导入表数据到HDFS使用Sqoop导入工具,我们可以指定目标目录。
例如下面的命令是用来导入emp_add表数据到'/queryresult'目录
bin/sqoop import \
--connect jdbc:mysql://shizhan2:3306/mysql \
--username root \
--password root \
--target-dir /queryresult \
--table tb_emp --m 1
下面的命令是用来验证 /queryresult 目录中 tb_emp表导入的数据形式

它会用逗号(,)分隔tb_emp表的数据和字段
3.6 导入表数据子集:
我们可以使用Sqoop导入工具导入表的部分数据(子集),"where"子句的一个子集。它执行在各自的数据库服务器相应
的SQL查询,并将结果存储在HDFS的目标目录。
1.下面的命令用来导入tb_emp表数据的子集。子集查询检索员工ID为1(id = 1)的信息:
bin/sqoop import \
--connect jdbc:mysql://shizhan2:3306/mysql \
--username root \
--password root \
--where "id ='1'" \
--target-dir /wherequery \
--table tb_emp --m 1
查看文件:默认使用逗号分隔

2.按需导入:
bin/sqoop import \
--connect jdbc:mysql://shizhan2:3306/mysql \
--username root \
--password root \
--target-dir /wherequery2 \
--query 'select id,name from tb_emp WHERE id>1 and $CONDITIONS' \
--split-by id \
--fields-terminated-by '\t' \
--m 1
查看文件:

3.7 增量导入
增量导入是仅导入表中新添加的行的技术。
它需要添加‘incremental’, ‘check-column’, 和 ‘last-value’选项来执行增量导入。
下面的语法用于Sqoop导入命令增量选项,下面的命令用于在tb_emp表执行增量导入:
bin/sqoop import \
--connect jdbc:mysql://shizhan2:3306/mysql \
--username root \
--password root \
--table tb_emp --m 1 \
--incremental append \
--check-column id \
--last-value 2

14_sqoop数据导入的更多相关文章
- ITTC数据挖掘平台介绍(五) 数据导入导出向导和报告生成
一. 前言 经过了一个多月的努力,软件系统又添加了不少新功能.这些功能包括非常实用的数据导入导出,对触摸进行优化的画布和画笔工具,以及对一些智能分析的报告生成模块等.进一步加强了平台系统级的功能. 马 ...
- FineReport实现EXCEL数据导入自由报表
在制作填报报表的时候,对于空白填报表,常常导出为Excel,派发给各部门人员填写后上交.如何能避免手动输入,直接将Excel中的数据导入到填报表中提交入库呢? 这里以一个简单的员工信息填报示例进行介绍 ...
- Execl数据导入sql server方法
在日常的程序开发过程中,很多情况下,用户单位给予开发人员的数据往往是execl或者是access数据,如何把这些数据转为企业级是数据库数据呢,下面就利用sqlserver自带的功能来完成此项任务. 首 ...
- kettle将Excel数据导入oracle
导读 Excel数据导入Oracle数据库的方法: 1.使用PL SQL 工具附带的功能,效率比较低 可参考这篇文章的介绍:http://www.2cto.com/database/201212/17 ...
- [Asp.net]常见数据导入Excel,Excel数据导入数据库解决方案,总有一款适合你!
引言 项目中常用到将数据导入Excel,将Excel中的数据导入数据库的功能,曾经也查找过相关的内容,将曾经用过的方案总结一下. 方案一 NPOI NPOI 是 POI 项目的 .NET 版本.POI ...
- sqlserver 中数据导入到mysql中的方法以及注意事项
数据导入从sql server 到mysql (将数据以文本格式从sqlserver中导出,注意编码格式,再将文本文件导入mysql中): 1.若从slqserver中导出的表中不包含中文采用: bc ...
- 数据分析(7):pandas介绍和数据导入和导出
前言 Numpy Numpy是科学计算的基础包,对数组级的运算支持较好 pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数.pandas兼具Numpy高性能的数组计 ...
- MySQL学习笔记十一:数据导入与导出
数据导入 1.mysqlimport命令行导入数据 在使用mysqlimport命令导入数据时,数据来源文件名要和目标表一致,不想改文件名的话,可以复制一份创建临时文件,示例如下. 建立一个文本use ...
- geotrellis使用(十二)再记录一次惨痛的伪BUG调试经历(数据导入以及读取瓦片)
Geotrellis系列文章链接地址http://www.cnblogs.com/shoufengwei/p/5619419.html 目录 前言 BUG还原 查找BUG 解决方案 总结 后记 一.前 ...
随机推荐
- 【Leetcode_easy】696. Count Binary Substrings
problem 696. Count Binary Substrings 题意:具有相同个数的1和0的连续子串的数目: solution1:还不是特别理解... 遍历元数组,如果是第一个数字,那么对应 ...
- gcc 与g++的区别
原文 http://www.cnblogs.com/wb118115/p/5969775.html 什么是gcc / g++ 首先说明:gcc 和 GCC 是两个不同的东西 GCC:GNU Compi ...
- 【JVM基础】JVM垃圾回收机制算法
- dict字典
dict字典 字典的概述 • 概述:使⽤键-值(key-value)⽅式存储. • key的特点: • 1.字典中的key必须是唯⼀的 • 2.key值必须是不可变的数据类型:字符串.元组.Numbe ...
- css — 权重、继承性、排版、float
目录 1. 继承性 2. css中的权重 3. 常用格式化排版 4. 浮动布局float 1. 继承性 继承性:在css有某些属性是可以继承下来,如 color,text-xxx,line-heigh ...
- 模块 json 和 pickle
目录 序列化 json 和 pickle 模块 序列化 序列:字符串 序列化:将其它数据类型转换成字符串的过程. 反序列化:字符串转成其它数据类型. 序列化的目的 1:以某种存储形式使用自定义对象持久 ...
- diy操作系统 0:万事开头难
许久之前就有写一个tiny的操作系统的打算,但时间和精力关系,想法一直没有成为最终的代码.操作系统的构建本身是个系统工程,门槛较高,需要多方面的知识,往往几行代码背后是厚厚的几本书才能说清 ...
- 使用HSI配置系统时钟
这里我就直接粘代码了.很简单.上节理解了 这也就能简单了. void HSI_SetSysClk( uint32_t RCC_PLLMul_x ) { __IO uint32_t HSIStatus ...
- 《CAP定理》
分布式系统的最大难点,就是各个节点的状态如何同步.CAP 定理是这方面的基本定理,也是理解分布式系统的起点. 分布式系统的三个指标 这三个指标不可能同时做到——这个结论就叫做 CAP 定理. Part ...
- redis 缓存对象、列表
在spring boot环境下有个StringRedisTemplate对象,默认已经为我们配置好了,只需要自动注入过来就能用,但是使用它只能在Redis中存放字符串.具体操作如下: @RunWith ...