前言

这篇文章主要是用sqoop从mysql导入数据到hive时遇到的坑的总结。

环境：

系统：Centos 6.5
Hadoop：Apache，2.7.3
Mysql：5.1.73
JDK：1.8
Sqoop：1.4.7

Hadoop以伪分布式模式运行。

一、使用的导入命令

我主要是参考一篇文章去测试的，Sqoop: Import Data From MySQL to Hive。

参照里面的方法，在mysql建了表，填充了数据，然后按照自己的情况输入了命令：

sqoop import --connect jdbc:mysql://localhost:3306/test --username root -P --split-by id --columns id,name --table customer  --target-dir /user/cloudera/ingest/raw/customers --fields-terminated-by "," --hive-import --create-hive-table --hive-table sqoop_workspace.customers

然后开始了打地鼠之旅。

回到顶部

二、遇到的问题及解决

1. 用文本字段进行分区的问题

报错信息:"Generating splits for a textual index column allowed only in case of "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" property passed as a parameter"。

主要问题是“--split-by id”这个参数指定的id是一个文本格式，所以需要在命令中加入选项"-Dorg.apache.sqoop.splitter.allow_text_splitter=true"，补齐命令：

sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" --connect jdbc:mysql://localhost:3306/test --username root -P --split-by id --columns id,name --table customer  --target-dir hdfs://harry.com:9000/user/cloudera/ingest/raw/customers --fields-terminated-by "," --hive-import --create-hive-table --hive-table sqoop_workspace.customers

2. Hadoop历史服务器Hadoop JobHistory没开启的问题

报错信息：“ERROR tool.ImportTool: Import failed: java.io.IOException: java.net.ConnectException: Call From harry.com/192.168.0.210 to 0.0.0.0:10020 failed on connection exception: …”。

主要原因是sqoop在运行完MapReduce任务之后需要用hadoop jobhistory记录这些作业信息并存放在指定的HDFS目录下，默认情况下是没有启动的，需要配置完后手工启动服务。

解决方法：mapred-site.xml添加如下配置：

<property>

    <name>mapreduce.jobhistory.address</name>

    <value>0.0.0.0:10020</value>

</property>

<property>

    <name>mapreduce.jobhistory.webapp.address</name>

    <value>0.0.0.0:19888</value>

</property>

<property>

    <name>mapreduce.jobhistory.done-dir</name>

    <value>/history/done</value>

</property>

<property>

    <name>mapreduce.jobhistory.intermediate-done-dir</name>

    <value>/history/done_intermediate</value>

</property>

重启hdfs和yarn:

stop-dfs.sh

stop-yarn.sh

start-dfs.sh

start-yarn.sh

启动历史服务器：

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

后面如果需要停止，可以用命令：

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver

然后重新执行命令。

3. 连接元数据存储数据库报错

报错信息：“Caused by: javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database. JDBC url…”。

主要是因为我用的hive元数据数据库是默认的Derby，我在另外一个会话开了一个hive cli来访问hive，而Derby的一个缺点就是当有多个用户同时访问hive的时候，会报错。

解决：退出hive cli，重新运行

4. 没有在hive创建数据库

报错信息：“ERROR ql.Driver: FAILED: SemanticException [Error 10072]: Database does not exist: sqoop_workspace…”，这个就很明显了，直接在hive里创建一个就是了。

5. 其他警告和报错

其他报错实际上没有阻碍导入过程，譬如下面这个WARN：

“WARN hdfs.DFSClient: Caught exception java.lang.InterruptedException…”，实际上是hadoop自己的bug，具体是HDFS 9794的bug：

当关闭DFSStripedOutputStream的时候，如果在向data/parity块刷回数据失败的时候，streamer线程不会被关闭。同时在DFSOutputStream#closeImpl中也存在这个问题。DFSOutputStream#closeImpl总是会强制性地关闭线程，会引起InterruptedException。

这些报错一般忽略就可以了。

回到顶部

三、参考

1. Sqoop Import: "-Dorg.apache.sqoop.splitter.allow_text_splitter=true"

2. Hadoop JobHistory

3. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep解决方法

4. WARN hdfs.DFSClient: Caught exception java.lang.InterruptedException

（完）

使用sqoop从mysql导入数据到hive的更多相关文章

使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟基础环境 ...
教程 | 使用Sqoop从MySQL导入数据到Hive和HBase
基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78, hive:hive-0.13.1+cdh5.3.6+397, hbase:hbase-0.98.6+cdh5.3.6+115 S ...
sqoop从mysql导数据到hive报错：Caused by: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure
背景使用sqoop从mysql导数据到hive,从本地服务器是可以访问mysql的(本地服务器是hadoop集群的一个datanode),但是sqoop导数据的时候依然连接不上mysql 报错如下: ...
mysql导入数据到oracle中
mysql导入数据到oracle中. 建立Oracle表: CREATE TABLE "GG_USER" ( "USERID" BYTE) NOT NULL, ...
mysql导入数据load data infile用法
mysql导入数据load data infile用法基本语法: load data [low_priority] [local] infile 'file_name txt' [replace | ...
MYSQL导入数据出现The MySQL server is running with the --secure-file-priv
MYSQL导入数据出现The MySQL server is running with the --secure-file-priv option so it cannot execute this ...
MySQL导入数据遇到Error Number: 1467 Failed to read auto-increment value from storage engine错误
MySQL导入数据遇到Error Number: 1467 Failed to read auto-increment value from storage engine错误创建表的语句 CREAT ...
三十三、MySQL 导入数据
MySQL 导入数据本章节我们为大家介绍几种简单的 MySQL 导出的数据的命令. 1.mysql 命令导入使用 mysql 命令导入语法格式为: mysql -u用户名 -p密码 < 要导 ...
安装配置elasticsearch、安装elasticsearch-analysis-ik插件、mysql导入数据到elasticsearch、安装yii2-elasticsearch及使用
一.安装elasticsearch 获取elasticsearch的rpm:wget https://download.elastic.co/elasticsearch/release/org/ela ...

随机推荐

配置中心Client端
配置中心Client端 1.在Order工程中的Order-Server模块的pom.xml中增加 <dependency> <groupId>org.springframew ...
eclipse配置maven后无法下载jar
1.检查网络拦截是否正常 2.进入maven依赖库根目录搜索出该目录下的*lastUpdated.properties文件并删除然后就可以继续下载jar包了
Centos 使用find查找
CentOS查找目录或文件 find / -name svn 查找目录:find /(查找范围) -name '查找关键字' -type d查找文件:find /(查找范围) -name 查找关键字 ...
为什么.net 4.6.1装了却没看到
今天在做SignalR网站,需要在发布到的云服务器安装.net4.6.1 从网上下载了安装包,安装完之后,到Windows文件夹的 Microsoft.NET文件夹中却找不到4.6.1的文件夹. 云服 ...
java线程调度原则
线程的调度采用占先原则,优先级越高的线程越优先执行.每个JAVA线程优先级有设置在常数1-10的范围,默认值是5.但优先级高并不代表能独自占用执行时间片,而是优先级越高得到越多的执行时间片,反之,优先 ...
<亲测>CentOS7yum安装PHP7.2
如果之前已经安装我们先卸载一下 yum -y remove php* 由于linux的yum源不存在php7.x,所以我们要更改yum源 rpm -Uvh https://dl.fedoraproje ...
js 复制文本到剪贴板
js 复制文本到剪贴板 <!DOCTYPE html> <html lang="en"> <head> <meta charset=&qu ...
ApplicationDomain
ApplicationDomain 类的用途是存储 ActionScript 3.0 定义表.SWF 文件中的所有代码被定义为存在于ApplicationDomain 中.在使用 Loader 类 A ...
appium+python自动化42-微信公众号 (可能以后会遇到也遇到切换不了webview的问题记录再此还没试)
前言本篇介绍如何在微信公众号上自动化测试,以操作我的个人公众号:yoyoketang为例,没关注的,先微信关注了,再跟着操作环境准备:python 3.6appium 1.7以上版本微信6.6.6 ...
Java学习——加法器
package cys; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.aw ...

使用sqoop从mysql导入数据到hive

前言