sqoop将mysql数据导入hbase、hive的常见异常处理

原创不易，如需转载，请注明出处https://www.cnblogs.com/baixianlong/p/10700700.html，否则将追究法律责任！！！

一、需求：

1、将以下这张表（test_goods[id,goods_name,goods_price]）数据导入Hbase

由此，编写如下sqoop导入命令

sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:mysql://192.168.1.9/spider --username root --password root --table test_goods --hbase-create-table --hbase-table t_goods  --column-family cf --hbase-row-key id -m 1

一切看着都很正常，接下来开始执行命令，报如下错误：

Error during import: No primary key could be found for table *

报错原因就是指定的mysql表名不是大写，所以mysql表名必须大写
Could not insert row with null value for row-key column

报错原因是没有指定mysql的列名，所以必须指定列名，并且hbase-row-key id 中的id，必须在–columns中显示。 --columns ID,GOODS_NAME, GOODS_PRICE
Error parsing arguments for import Unrecognized argument

报错原因是在指定mysql的列名时，用逗号隔开的时候我多加了空格，所以在

Columns后显示的列名只能用逗号隔开，不要带空格

将以上三个问题排除后：我的最新导入命令变为如下：

sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:mysql://192.168.1.9:3306/spider --username root --password root --table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE --hbase-create-table --hbase-table t_goods --column-family cf --hbase-row-key ID --where "ID >= 5" -m 1

注意：这里有个小问题：记得将id>=5引起来,ok，查看hbase,数据已经成功导入！！！

2、将导入命令写成一个脚本来执行（通过sqoop –options-file xxx.file 执行导入命令）

错误写法如下：

import

-D sqoop.hbase.add.row.key=true

--connect jdbc:mysql://192.168.1.9:3306/spider

--username root

--password root

--table TEST_GOODS

--columns ID,GOODS_NAME,GOODS_PRICE

--hbase-create-table

--hbase-table test_goods

--column-family cf

--hbase-row-key ID

--where "ID >= 5"

-m 1

错误原因：参数的名称和参数的值没有进行回车换行

正确写法：

import

-D

sqoop.hbase.add.row.key=true

--connect

jdbc:mysql://192.168.1.9:3306/spider

--username

root

--password

root

--table

TEST_GOODS

--columns

ID,GOODS_NAME,GOODS_PRICE

--hbase-create-table

--hbase-table

tt_goods

--column-family

cf

--hbase-row-key

ID

--where

ID>=5

-m

1

注：参数含义解释

-D sqoop.hbase.add.row.key=true 是否将rowkey相关字段写入列族中，默认为false，默认情况下你将在列族中看不到任何row key中的字段。注意，该参数必须放在import之后。

--connect 数据库连接字符串

--username –password  mysql数据库的用户名密码

--table Test_Goods表名，注意大写

--hbase-create-table  如果hbase中该表不存在则创建

--hbase-table   对应的hbase表名

--hbase-row-key   hbase表中的rowkey,注意格式

--column-family   hbase表的列族

--where    导入是mysql表的where条件，写法和sql中一样

--split-by CREATE_TIME   默认情况下sqoop使用4个并发执行任务，需要制订split的列，如果不想使用并发，可以用参数 --m 1

二、定时增量导入

1、Sqoop增量导入

sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:mysql://192.168.1.9:3306/spider --username root --password root --table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE --hbase-create-table --hbase-table t_goods --column-family cf --hbase-row-key ID --incremental lastmodified --check-column U_DATE --last-value '2017-06-27' --split-by U_DATE

--incremental lastmodified 增量导入支持两种模式 append 递增的列；lastmodified时间戳。

--check-column 增量导入时参考的列

--last-value 最小值，这个例子中表示导入2017-06-27到今天的值

2、Sqoop job

sqoop job --create testjob01 --import --connect jdbc:mysql://192.168.1.9:3306/spider --username root --password root --table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE --hbase-create-table --hbase-table t_goods --column-family cf --hbase-row-key ID -m 1

设置定时执行以上sqoop job

使用linux定时器：crontab -e

例如每天执行

0 0 * * * /opt/local/sqoop-1.4.6/bin/sqoop job ….

--exec testjob01

三、数据从mysql导入hive中后，出现数据不一致情况

我们运行hadoop fs -cat /user/hadoop/student/part-m-00000,可以看到原来字段与字段之间都用‘,’分隔开，这是sqoop默认的，这时候，如果一个字段值当中包含‘,’，再向hive中插入数据时分隔就会出错。因为hive也是用‘,’分隔的。

解决方法：建议用‘001'来进行sqoop 导入数据时的分割。也就是--fields-terminated-by 参数。

例子：

sqoop import --connect "jdbc:oracle:thin:@//localhost:1521/student" --password "***" --username "***" --query "select * from student where name='zhangsan' and class_id='003' and \$CONDITIONS" --target-dir "/user/hadoop/student" --fields-terminated-by "\001" --verbose -m 1

四、总结

这些只是工作中一些小问题的解决，希望对大家有所帮助~~

个人博客地址：

cnblogs:https://www.cnblogs.com/baixianlong

csdn:https://blog.csdn.net/tiantuo6513

segmentfault:https://segmentfault.com/u/baixianlong

github:https://github.com/xianlongbai

sqoop将mysql数据导入hbase、hive的常见异常处理的更多相关文章

Sqoop将mysql数据导入hbase的血与泪
Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...
使用 sqoop 将mysql数据导入到hive表（import）
Sqoop将mysql数据导入到hive表中先在mysql创建表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` varchar() ...
使用sqoop将mysql数据导入到hive中
首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了... 一.将MySQL数据导入到hdfs 首先我测试将zhaopin表 ...
使用sqoop把mysql数据导入hive
使用sqoop把mysql数据导入hive export HADOOP_COMMON_HOME=/hadoop export HADOOP_MAPRED_HOME=/hadoop cp /hive ...
使用 sqoop 将mysql数据导入到hdfs（import）
Sqoop 将mysql 数据导入到hdfs(import) 1.创建mysql表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` va ...
python脚本用sqoop把mysql数据导入hive
转:https://blog.csdn.net/wulantian/article/details/53064123 用python把mysql数据库的数据导入到hive中,该过程主要是通过pytho ...
使用sqoop将mysql数据导入到hadoop
hadoop的安装配置这里就不讲了. Sqoop的安装也很简单. 完成sqoop的安装后,可以这样测试是否可以连接到mysql(注意:mysql的jar包要放到 SQOOP_HOME/lib 下): ...
使用sqoop将MySQL数据库中的数据导入Hbase
使用sqoop将MySQL数据库中的数据导入Hbase 前提:安装好 sqoop.hbase. 下载jbdc驱动:mysql-connector-java-5.1.10.jar 将 mysql-con ...
Sqoop导入mysql数据到Hbase
sqoop import --driver com.mysql.jdbc.Driver --connect "jdbc:mysql://11.143.18.29:3306/db_1" ...

随机推荐

Python自动化编程-树莓派的介绍与使用(一)
Raspberry Pi(中文名为“树莓派”,简写为RPi,(或者RasPi / RPI) [1] 是为学习计算机编程教育而设计),只有信用卡大小的微型电脑,其系统基于Linux. 随着Windo ...
redis主从架构，分片集群详解
写在前面:这篇笔记有点长,如果你认真看完,收获会不少,如果你只是忘记了相关命令,请翻到末尾. redis的简单介绍: 一个提供多种数据类类型储存,整个系统都在内存中运行的, 定期通过异步的方式把数据刷 ...
Python爬虫学习之正则表达式爬取个人博客
实例需求:运用python语言爬取http://www.eastmountyxz.com/个人博客的基本信息,包括网页标题,网页所有图片的url,网页文章的url.标题以及摘要. 实例环境:pytho ...
每天学点SpringCloud（六）：Hystrix使用
Hystrix是一个实现断路器模式的库.什么是断路器模式呢?就像我们家庭中的电闸一样,如果有那一处出现意外,那么电闸就会立刻跳闸来防止因为这一处意外而引起更大的事故,直到我们确认处理完那一处意外后才可 ...
Java对象的克隆和深浅问题
Java实现克隆的方式 Java实现克隆的方式有如下两种, 推荐采用实现Cloneable接口的方式实现Cloneable接口, 重写clone方法, 调用父类的clone方法还有另一种方法, 不 ...
FAIR开源Detectron：整合全部顶尖目标检测算法
昨天,Facebook AI 研究院(FAIR)开源了 Detectron,业内最佳水平的目标检测平台. 昨天,Facebook AI 研究院(FAIR)开源了 Detectron,业内最佳水平的目标 ...
shell编程其实真的很简单（一）
如今,不会Linux的程序员都不意思说自己是程序员,而不会shell编程就不能说自己会Linux.说起来似乎shell编程很屌啊,然而不用担心,其实shell编程真的很简单. 背景什么是shell编 ...
WebService学习-第一弹
一:WebService简介(1)简介----百度百科(注意标识的重点) Web service是一个平台独立的,低耦合的,自包含的.基于可编程的web的应用程序,可使用开放的XML(标准通用标记语言 ...
【转】CSS中的浮动和清除浮动
以下转自<CSS中的浮动和清除浮动,梳理一下!> 浮动到底是什么? 浮动核心就一句话:浮动元素会脱离文档流并向左/向右浮动,直到碰到父元素或者另一个浮动元素.请默念3次! 浮动最初设计的目 ...
避免jquery的click多次绑定方法
$("#xxx").click(function(){}) 这样只是会在原click方法中继续添加新方法: 当然解决办法是解绑: $("#xxx").unbin ...