大数据入门到精通18--sqoop 导入关系库到hdfs中和hive表中
一,选择数据库,这里使用标准mysql sakila数据库
mysql -u root -D sakila -p
二。首先尝试把表中的数据导入到hdfs文件中,这样后续就可以使用spark来dataframe或者rdd来处理数据
sqoop import --connect "jdbc:mysql://host03.xyy:3306/sakila" --username root --password root --table rental --target-dir "SqoopImport/rental" --num-mappers 1
\\SqoopImport 目录必须有,rental 目录可以不存在
三。如果要导入到hive里面,要使用 --warehouse参数。
sqoop import --connect "jdbc:mysql://host03.xyy:3306/sakila" --username root --password root --table rental --warehouse-dir "/user/hive/warehouse/sakila.db" --num-mappers 2
\\因为之前我们已经全表导入过一次了,会提示文件已经存在的错误
hadoop fs -mv /user/hive/warehouse/sakila.db/rental /user/hive/warehouse/sakila.db/rental2
\\把原来的目录移走
sqoop import --connect "jdbc:mysql://host03.xyy:3306/sakila" --username root --password root --table rental --warehouse-dir "/user/hive/warehouse/sakila.db" --num-mappers 2
四。也可以通过sqoop命令来查看hive的元数据库。
1.查看多少个数据库
sqoop list-databases --connect "jdbc:mysql://host03.xyy:3306" --username root --password root
2.查看多少给表
sqoop list-tables --connect "jdbc:mysql://host03.xyy:3306/sakila" --username root --password root
3.sqoop执行select语句。
sqoop eval --connect "jdbc:mysql://host03.xyy:3306/sakila" --username root --password root --query "select * from rental limit 10"
五。导入hive或者hdfs中使用追加模式
sqoop import --connect "jdbc:mysql://host03.xyy:3306/sakila" --username root --password root --table rental --where "date(return_date) < '2005-07-30'" --warehouse-dir "/user/hive/warehouse/sakila.db" --append --num-mappers 2
Total MapReduce CPU Time Spent: 9 seconds 250 msec
OK
23191
Time taken: 30.055 seconds, Fetched: 1 row(s)
hive>
\\原来数据hive里面的表格数据是16044条,重新append一批数据以后百年城23191条
\\apend 也可以应用 hdfs文件中,和target-dir配合使用
六。导入hdfs和hive中使用删除模式
sqoop import --connect "jdbc:mysql://host03.xyy:3306/sakila" --username root --password root --table rental --where "date(return_date) < '2005-07-30'" --warehouse-dir "/user/hive/warehouse/sakila.db" --delete-target-dir --num-mappers 2
OK
7147
Time taken: 32.115 seconds, Fetched: 1 row(s)
hive>
\\--delete-target-dir 是删除模式导入,清空原来的数据,这个命令也可以在导入hdfs下使用
注意以上例子中都是使用了where条件的导入。
七。关于导入数据的并行数量
前面几个例子都是使用了--num-mapper 2 也就是两个并行。
实际上默认是因为原来的mysql表中有主键,如果没有主键是不能直接指定并行为2 的。因为系统不知道怎么切割数据。
如果要并行需要使用另外一个参数
在mysql中执行复制一个表格
create table customer_copy like customer;
insert into customer_copy select * from customer
sqoop import --connect "jdbc:mysql://host03.xyy:3306/sakila" --username root --password root --table customer_copy --warehouse-dir "/user/hive/warehouse/sakila.db" --delete-target-dir -split-by address_id --num-mappers 2
八。sqoop全表导入
//导入数据库mysql到hive
sqoop import-all-tables --connect "jdbc:mysql://host03.xyy:3306/sakila" --username root --password root --hive-import --hive-database sakila --m 2
如果其中部分表格没有主键 并行就有问题。需要使用一个参数 --autoreset-to-one-mapper
sqoop import-all-tables --connect "jdbc:mysql://host03.xyy:3306/sakila" --username root --password root --warehouse-dir "SqoopImport/sakila" --autoreset-to-one-mapper --m 2
这样对于没有主键的自动变成一个map去处理
九。文件格式
通过参数决定每个表存入hdfs中的格式
--as-textfile (default)
--as-avrodatafile
--as-sequencefile
--as-parquetfile
10.sqoop import参数列表
| Argument | Description |
|---|---|
--append |
Append data to an existing dataset in HDFS |
--as-avrodatafile |
Imports data to Avro Data Files |
--as-sequencefile |
Imports data to SequenceFiles |
--as-textfile |
Imports data as plain text (default) |
--as-parquetfile |
Imports data to Parquet Files |
--boundary-query <statement> |
Boundary query to use for creating splits |
--columns <col,col,col…> |
Columns to import from table |
--delete-target-dir |
Delete the import target directory if it exists |
--direct |
Use direct connector if exists for the database |
--fetch-size <n> |
Number of entries to read from database at once. |
--inline-lob-limit <n> |
Set the maximum size for an inline LOB |
-m,--num-mappers <n> |
Use n map tasks to import in parallel |
-e,--query <statement> |
Import the results of statement. |
--split-by <column-name> |
Column of the table used to split work units. Cannot be used with --autoreset-to-one-mapper option. |
--split-limit <n> |
Upper Limit for each split size. This only applies to Integer and Date columns. For date or timestamp fields it is calculated in seconds. |
--autoreset-to-one-mapper |
Import should use one mapper if a table has no primary key and no split-by column is provided. Cannot be used with --split-by <col>option. |
--table <table-name> |
Table to read |
--target-dir <dir> |
HDFS destination dir |
--temporary-rootdir <dir> |
HDFS directory for temporary files created during import (overrides default "_sqoop") |
--warehouse-dir <dir> |
HDFS parent for table destination |
--where <where clause> |
WHERE clause to use during import |
-z,--compress |
Enable compression |
--compression-codec <c> |
Use Hadoop codec (default gzip) |
--null-string <null-string> |
The string to be written for a null value for string columns |
--null-non-string <null-string> |
The string to be written for a null value for non-string columns |
大数据入门到精通18--sqoop 导入关系库到hdfs中和hive表中的更多相关文章
- 大数据入门到精通1--大数据环境下的基础文件HDFS 操作
1.使用hdfs用户或者hadoop用户登录 2.在linux shell下执行命令 hadoop fs -put '本地文件名' hadoop fs - put '/home/hdfs/sample ...
- 大数据入门到精通19--mysql 数据导入到hive数据中
一.正常按照数据库和表导入 \\前面介绍了通过底层文件得形式导入到hive的表中,或者直接导入到hdfs中,\\现在介绍通过hive的database和table命令来从上层操作.sqoop impo ...
- 大数据入门到精通13--为后续和MySQL数据库准备
We will be using the sakila database extensively inside the rest of the course and it would be great ...
- 大数据入门到精通2--spark rdd 获得数据的三种方法
通过hdfs或者spark用户登录操作系统,执行spark-shell spark-shell 也可以带参数,这样就覆盖了默认得参数 spark-shell --master yarn --num-e ...
- 大数据学习之路之sqoop导入
按照网上的代码导入 hadoop(十九)-Sqoop数据清洗 - 简书 (jianshu.com) ./sqoop import --connect "jdbc:mysql://192.16 ...
- 大数据入门到精通16--hive 的条件语句和聚合函数
一.条件表达 case when ... then when .... then ... when ... then ...end select film_id,rpad(title,20," ...
- 大数据入门到精通12--spark dataframe 注册成hive 的临时表
一.获得最初的数据并形成dataframe val ny= sc.textFile("data/new_york/")val header=ny.firstval filterNY ...
- 大数据入门到精通11-spark dataframe 基础操作
// dataframe is the topic 一.获得基础数据.先通过rdd的方式获得数据 val ny= sc.textFile("data/new_york/")val ...
- 大数据入门到精通10--spark rdd groupbykey的使用
//groupbykey 一.准备数据val flights=sc.textFile("data/Flights/flights.csv")val sampleFlights=sc ...
随机推荐
- MongoDB分片(Sharding)技术
分片(sharding)是MongoDB用来将大型集合分割到不同服务器(或者说一个集群)上所采用的方法.尽管分片起源于关系型数据库分区,但MongoDB分片完全又是另一回事. 和MySQL分区方案相比 ...
- navigateTo、redirectTo、switchTap与reLaunch的区别
wx.navigateTo:保留当前页,跳转到指定页,非tabBar:使用 wx.navigateBack 可以返回到当前的页面. wx.redirectTo:关闭当前页,跳转到指定页,非tabBar ...
- 使用Gson解析复杂、变态的Json数据(包含中文key)
接口文档: app配置 接口 client/init 请求数据 json={"uid":"","sid":"",&quo ...
- 微慕-专业WordPress微信小程序
2018年9月,微慕小程序(以下简称微慕版)发布以来,一直想写一篇详细详细的说明文字,全面解读这套专业的WordPress小程序.昨天,又上线了一个稳定版本后,我才下决心,也更有信心,写点文字,向你推 ...
- 高性能 TCP & HTTP 通信框架 HP-Socket v4.2.1
HP-Socket 是一套通用的高性能 TCP/UDP/HTTP 通信框架,包含服务端组件.客户端组件和 Agent 组件,广泛适用于各种不同应用场景的 TCP/UDP/HTTP 通信系统,提供 C/ ...
- 三、CSS样式——列表
概念: CSS列表属性允许你放置.改变列表标志,或者将图像作为列表项标志 属性 描述 list-style 简写列表项 list-style-image 列表项图像 list-style-positi ...
- package.json文件解析
1.用途:管理你所安装的npm包的依赖,在开发过程中能清楚的查询安装的包的版本以及项目中使用的包依赖,便于开发组成员共享. 2.创建:可以手动创建也可以通过npm init 自动创建. 3.配置项: ...
- python if,循环的练习
1.变量值的交换 s1='alex' s2='SB' (s1,s2) = (s2,s1) 2.有存放用户信息的列表如下,分别存放用户的名字.年龄.公司信息 userinfo={ 'name':' ...
- intellij idea工具 DeBug调试
断点的设定和eclipse一样,只要点一下就可以,下面是我设定的几个断点,再下面的三个窗口是用来调试代码的,这个和eclipse类似 调试常用的快捷键 F9 resume programe 恢复程序 ...
- [java,2019-01-28] 枪手博弈,谁才是最后赢家
什么是枪手博弈: 枪手博弈指彼此痛恨的甲乙丙三个枪手准备决斗.甲枪法最好,十发八中.乙枪法次之,十发六中.丙枪法最差,十发四中.假设他们了解彼此实力,也能做出理性判断. 问题一:如果三人同时开枪,并且 ...