Sqoop1.99.7将MySQL数据导入到HDFS中
准备
本示例将实现从MySQL数据库中将数据导入到HDFS中
参考文档:
http://sqoop.apache.org/docs/1.99.7/user/Sqoop5MinutesDemo.html
http://blog.csdn.net/m_signals/article/details/53190965
http://blog.csdn.net/lazythinker/article/details/52064165
http://blog.sina.com.cn/s/blog_61d8d9640102whof.html
mysql数据库信息:
test库中user表中的记录(共1条)
HDFS数据情况 
创建了一个/root/test的空目录
实现目标:
本示例需要实现将上方MySQL数据库中的数据导入到HDFS中
开始
启动Hadoop,启动sqoop,命令行进入sqoop
# 设置交互的命令行打印更多信息,打印的异常信息更多set option --name verbose --value true# 连接sqoop,其中hadoop1是需要连接的sqoop的主机名set server --host hadoop1 --port 12000--webapp sqoop# 查看连接show version --all
创建link
如果需要使用sqoop进行导入导出操作,需要先创建连接。
使用show conncetor命令可以查看sqoop支持的连接器。
而sqoop中默认提供了如下几种连接。 
创建mysql-link
本例实现mysql-->hdfs的数据导入操作,所以需要创建一个mysql的link和hdfs的link。
注意:在创建mysql-link的时候需要将mysql的jar包放入到$SQOOP2_HOME/server/lib/extra-lib目录中
首先创建mysql-link,过程如下
sqoop:000> create link -connector generic-jdbc-connectorCreating link for connector with name generic-jdbc-connectorPlease fill following values to create new link objectName: mysql-linkDatabase connectionDriverclass: com.mysql.jdbc.DriverConnectionString: jdbc:mysql://10.25.40.37/testUsername: rootPassword:*********FetchSize:ConnectionProperties:There are currently 0 values in the map:entry# protocol=tcpThere are currently 1 values in the map:protocol = tcpentry#SQL DialectIdentifier enclose:New link was successfully created with validation status OK and name mysql-linksqoop:000>
以上输入项说明,下图中红色的表示需要输入的内容。
注意Identifier enclose项需要输入一个空格,然后回车 
创建hdfs-link
创建HDFS的link的配置就比较简单,配置HDFS访问地址和hadoop配置文件目录路径即可
sqoop:000> create link -connector hdfs-connectorCreating link for connector with name hdfs-connectorPlease fill following values to create new link objectName: hdfs-linkHDFS clusterURI: hdfs://hadoop1:9000Conf directory:/usr/local/hadoop/hadoop-2.7.4/etc/hadoopAdditional configs::There are currently 0 values in the map:entry#New link was successfully created with validation status OK and name hdfs-linksqoop:000>

创建job
创建job时,配置项较多。
命令:
# create job -f formLinkName -t toLinkNamecreate job -f mysql-link -t hdfs-link
注意下面红色部分
sqoop:000> create job -f mysql-link -t hdfs-link
Creating job for links with from name mysql-link and to name hdfs-link
Please fill following values to create new job object
Name: test1(job名称)
Database source
Schema name: test(数据库的schema名称)
Table name: user(数据库表名)
SQL statement:
Column names:
There are currently 0 values in the list:
element#
Partition column:
Partition column nullable:
Boundary query:
Incremental read
Check column:
Last value:
Target configuration
Override null value:
Null value:
File format:
0 : TEXT_FILE
1 : SEQUENCE_FILE
2 : PARQUET_FILE
Choose: (选择NONE)
Custom codec:
Output directory: /root/test(这里输入HDFS文件的目录,需要是空目录)
Append mode:
Throttling resources
Extractors: (这里是参考官网填的2)
Classpath configuration
Extra mapper jars:
There are currently 0 values in the list:
element#
New job was successfully created with validation status OK and name test1
sqoop:000>
启动job
命令
# start job -name jobNamestart job -name test1
期间遇到的问题及解决方案
以下问题均是创建完link和job后,开始启动job时报的错。
Host '10.25.40.37' is not allowed to connect to this MySQL server

错误原因:
这问题表示主机10.25.40.37没有授权外部访问其MySQL
解决方案:
将连接的MySQL主机中的授权信息改了
- 直接改mysql库中user表root的那条记录,将其值改为%(表示任何主机都可访问)

- 使用授权命令,授权指定的主机可访问该数据库(推荐:更安全)
mysql> GRANT ALL PRIVILEGES ON *.* TO 'username'@'%' IDENTIFIED BY 'password' WITH GRANT OPTION;mysql> FLUSH PRIVILEGES;
详细操作步骤可自行百度。
User: root is not allowed to impersonate root

错误原因:
该错误是因为在安装sqoop时,在hadoop的core-site.xml配置文件中配置的用户权限错误
在之前的sqoop安装文章里,按照官网的配置如下。其中hadoop.proxyuser.sqoop2.hosts中的sqoop2是用户的意思,同理hadoop.proxyuser.sqoop2.groups中的sqoop2是用户组的意思。
<property><name>hadoop.proxyuser.sqoop2.hosts</name><value>*</value></property><property><name>hadoop.proxyuser.sqoop2.groups</name><value>*</value></property>
解决方案:
将sqoop2改为root即可,改完后如下:(PS:这里的解决方案感觉还是有问题不完美,没有深入了解)
<property><name>hadoop.proxyuser.root.hosts</name><value>*</value></property><property><name>hadoop.proxyuser.root.groups</name><value>*</value></property>
GENERIC_HDFS_CONNECTOR_0007:Invalid input/output directory - Unexpected exception
输入输出目录有问题,检查HDFS中是否存在相应目录即可
There are 0 datanode(s) running and no node(s) are excluded in this operation

错误原因:
启动job的时候报的错,这应该是datanode节点数据的问题
解决方案:
- 配置dfs.datanode.data.dir和core-site.xml里面的hadoop.tmp.dir一致
hdfs-site.xml里面的
dfs.datanode.data.dir
/tmp/hdfs_tmp
与core-site.xml里面的
hadoop.tmp.dir
/tmp/hdfs_tmp
两个配置应该是指向同一个目录地址,而且必须是一个已经存在的linux目录(不存在目录的话,在启动hadoop时,必须手动创建,否则put文件到hdfs系统时就会报错),今天报这个错就是因为两个配置没有指向同一个目录地址,且两个地址还不存在对应的目录
参考至:
http://blog.sina.com.cn/s/blog_61d8d9640102whof.html
- 删除dfs.namenode.data.dir中的current文件夹中的内容,格式化namenode,重新启动hadoop
参考至:
http://blog.csdn.net/qiruiduni/article/details/50280943
最后我使用了1解决方案后问题解决了,但是不知道以后会不会有其他问题。
Call From hadoop1/192.168.56.110 to 0.0.0.0:10020 failed on connection exception

问题原因:
报错信息提示,在访问端口 100020的时候出错,这表示DataNode 需要访问 MapReduce JobHistory Server,而默认值是: 0.0.0.0:10020 。
解决方案:
找到{HADOOP_HOME}/etc/hadoop/mapred-site.xml配置文件 ,增加如下配置:
<property><name>mapreduce.jobhistory.address</name><!-- 配置实际的主机名和端口--><value>{namenode}:10020</value></property>
这里我的主机名是hadoop1,所以配置的值是hadoop1:10020
参考至:
http://blog.csdn.net/lazythinker/article/details/52064165
GENERIC_HDFS_CONNECTOR_0007:Invalid input/output directory - Output directory is not empty

错误原因:
输入或者输出目录不是空目录,本示例的错误原因是之前启动job后,在HDFS里已经导入过一些数据进去。没删除,所以报这个错。
解决方案:
删除该目录下的内容即可
清空上方创建job时指定的output目录(/root/test)中内容即可。
验证是否导入成功
查看HDFS中的/root/test/目录中的数据,共出现了2个文件 
查看文件内容 
可以看到2ea38d69-e9e4-4364-adfc-67d88f5c8153.txt文件中已经存在了导入的数据,而8962bce1-08e7-4ebc-939e-4839d05eb145.txt是个空文件。
Sqoop1.99.7将MySQL数据导入到HDFS中的更多相关文章
- 使用 sqoop 将mysql数据导入到hdfs(import)
Sqoop 将mysql 数据导入到hdfs(import) 1.创建mysql表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` va ...
- 使用sqoop将mysql数据导入到hive中
首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了... 一.将MySQL数据导入到hdfs 首先我测试将zhaopin表 ...
- Logstash:把MySQL数据导入到Elasticsearch中
Logstash:把MySQL数据导入到Elasticsearch中 前提条件 需要安装好Elasticsearch及Kibana. MySQL安装 根据不同的操作系统我们分别对MySQL进行安装.我 ...
- 使用Logstash把MySQL数据导入到Elasticsearch中
总结:这种适合把已有的MySQL数据导入到Elasticsearch中 有一个csv文件,把里面的数据通过Navicat Premium 软件导入到数据表中,共有998条数据 文件下载地址:https ...
- Sqoop mysql 数据导入到hdfs
1.--direct 模式使用mysqldump 工具,所以节点上需要安装该工具,非direct 模式直接使用jdbc ,所以不需要 具体script参考如下: sqoop import --conn ...
- Talend 将Oracle中数据导入到hive中,根据系统时间设置hive分区字段
首先,概览下任务图: 流程是,先用tHDFSDelete将hdfs上的文件删除掉,然后将oracle中的机构表中的数据导入到HDFS中:建立hive连接->hive建表->tJava获取系 ...
- Sqoop将mysql数据导入hbase的血与泪
Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...
- 使用 sqoop 将mysql数据导入到hive表(import)
Sqoop将mysql数据导入到hive表中 先在mysql创建表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` varchar() ...
- 【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96,并自己主动生成组合行键
目的: 使用Sqoop将Oracle中的数据导入到HBase中,并自己主动生成组合行键! 环境: Hadoop2.2.0 Hbase0.96 sqoop-1.4.4.bin__hadoop-2.0.4 ...
随机推荐
- Linux cat /proc/meminfo 输出分析
$cat /proc/meminfoMemTotal: 2052440 kB //总内存MemFree: 50004 kB //空闲内存Buffers: ...
- 团队作业8----第二次项目冲刺(Beta阶段) 第四天
BETA阶段冲刺第四天 1.小会议ing 2.每个人的工作 (1)昨天已完成的工作 1.修改了学生上传的方式: 2.完善了学生和老师修改的代码: (2) 今天计划完成的工作 (3) 工作中遇到的困难: ...
- 201521123091 《Java程序设计》第12周学习总结
Java 第十一周总结 第十一周的作业. 目录 1.本章学习总结 2.Java Q&A 3.码云上代码提交记录及PTA实验总结 4.课后阅读 1.本章学习总结 1.1 以你喜欢的方式(思维导图 ...
- 团队作业4——第一次项目冲刺(Alpha版本)2017.4.27
2017.04.27 天气阴沉 小雨. 时间:上午 9:35 ---10:10分 地点:陆大314实验室 会议内容:每天充分利用好大课间的时间,今天对昨天的的细节问题进行了讨论及方法更正.时间不等人这 ...
- 201521123037 《Java程序设计》第8周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结集合与泛型相关内容. 1.2 选做:收集你认为有用的代码片段 1. String[] list1=str.split(" ...
- 201521123032 《Java程序设计》第7周学习总结
1. 本周学习总结 以你喜欢的方式(思维导图或其他)归纳总结集合相关内容. 2. 书面作业 ArrayList代码分析 1.1 解释ArrayList的contains源代码 在contains方法中 ...
- Python[小甲鱼005Python的数据类型]
一.数值类型 整形 布尔类型 True 和 False 即1和0 浮点型 e记法 e ,例如 1.5e11 = 150000000000 ...
- Java 第十一周总结
1. 本周学习总结 2. 书面作业 1.互斥访问与同步访问 完成题集4-4(互斥访问)与4-5(同步访问) 1.1 除了使用synchronized修饰方法实现互斥同步访问,还有什么办法实现互斥同步访 ...
- SharePoint备份文件
stp文件:SharePoint的.stp文件 在做一个和SharePoint有关的项目时,由于对SharePoint的unfamiliar,所以客户发了几个后缀为.stp的文件将我纳闷了半天,不 ...
- linux crontab设置定期执行脚本
Linux下crontab命令的用法 任务调度的crond常驻命令crond 是linux用来定期执行程序的命令.当安装完成操作系统之后,默认便会启动此任务调度命令.crond命令每分锺会定期检查是否 ...