准备

本示例将实现从MySQL数据库中将数据导入到HDFS中 
参考文档: 
http://sqoop.apache.org/docs/1.99.7/user/Sqoop5MinutesDemo.html 
http://blog.csdn.net/m_signals/article/details/53190965 
http://blog.csdn.net/lazythinker/article/details/52064165 
http://blog.sina.com.cn/s/blog_61d8d9640102whof.html 
mysql数据库信息: 
test库中user表中的记录(共1条) 
 
HDFS数据情况 

创建了一个/root/test的空目录 
实现目标: 
本示例需要实现将上方MySQL数据库中的数据导入到HDFS中

开始

启动Hadoop,启动sqoop,命令行进入sqoop

  1. # 设置交互的命令行打印更多信息,打印的异常信息更多
  2. set option --name verbose --value true
  3. # 连接sqoop,其中hadoop1是需要连接的sqoop的主机名
  4. set server --host hadoop1 --port 12000--webapp sqoop
  5. # 查看连接
  6. show version --all

创建link

如果需要使用sqoop进行导入导出操作,需要先创建连接。 
使用show conncetor命令可以查看sqoop支持的连接器。 
而sqoop中默认提供了如下几种连接。 

创建mysql-link

本例实现mysql-->hdfs的数据导入操作,所以需要创建一个mysql的link和hdfs的link。 
注意:在创建mysql-link的时候需要将mysql的jar包放入到$SQOOP2_HOME/server/lib/extra-lib目录中 
首先创建mysql-link,过程如下

  1. sqoop:000> create link -connector generic-jdbc-connector
  2. Creating link for connector with name generic-jdbc-connector
  3. Please fill following values to create new link object
  4. Name: mysql-link
  5. Database connection
  6. Driverclass: com.mysql.jdbc.Driver
  7. ConnectionString: jdbc:mysql://10.25.40.37/test
  8. Username: root
  9. Password:*********
  10. FetchSize:
  11. ConnectionProperties:
  12. There are currently 0 values in the map:
  13. entry# protocol=tcp
  14. There are currently 1 values in the map:
  15. protocol = tcp
  16. entry#
  17. SQL Dialect
  18. Identifier enclose:
  19. New link was successfully created with validation status OK and name mysql-link
  20. sqoop:000>

以上输入项说明,下图中红色的表示需要输入的内容。 
注意Identifier enclose项需要输入一个空格,然后回车 

创建hdfs-link

创建HDFS的link的配置就比较简单,配置HDFS访问地址和hadoop配置文件目录路径即可

  1. sqoop:000> create link -connector hdfs-connector
  2. Creating link for connector with name hdfs-connector
  3. Please fill following values to create new link object
  4. Name: hdfs-link
  5. HDFS cluster
  6. URI: hdfs://hadoop1:9000
  7. Conf directory:/usr/local/hadoop/hadoop-2.7.4/etc/hadoop
  8. Additional configs::
  9. There are currently 0 values in the map:
  10. entry#
  11. New link was successfully created with validation status OK and name hdfs-link
  12. sqoop:000>

创建job

创建job时,配置项较多。 
命令:

  1. # create job -f formLinkName -t toLinkName
  2. create job -f mysql-link -t hdfs-link

注意下面红色部分 
sqoop:000> create job -f mysql-link -t hdfs-link 
Creating job for links with from name mysql-link and to name hdfs-link 
Please fill following values to create new job object 
Name: test1(job名称)

Database source

Schema name: test(数据库的schema名称) 
Table name: user(数据库表名) 
SQL statement: 
Column names: 
There are currently 0 values in the list: 
element# 
Partition column: 
Partition column nullable: 
Boundary query:

Incremental read

Check column: 
Last value:

Target configuration

Override null value: 
Null value: 
File format: 
0 : TEXT_FILE 
1 : SEQUENCE_FILE 
2 : PARQUET_FILE 
Choose: (选择NONE) 
Custom codec: 
Output directory: /root/test(这里输入HDFS文件的目录,需要是空目录) 
Append mode:

Throttling resources

Extractors: (这里是参考官网填的2)

Classpath configuration

Extra mapper jars: 
There are currently 0 values in the list: 
element# 
New job was successfully created with validation status OK and name test1 
sqoop:000>

启动job

命令

  1. # start job -name jobName
  2. start job -name test1

期间遇到的问题及解决方案

以下问题均是创建完link和job后,开始启动job时报的错。

Host '10.25.40.37' is not allowed to connect to this MySQL server


错误原因: 
这问题表示主机10.25.40.37没有授权外部访问其MySQL 
解决方案: 
将连接的MySQL主机中的授权信息改了

  1. 直接改mysql库中user表root的那条记录,将其值改为%(表示任何主机都可访问) 
  2. 使用授权命令,授权指定的主机可访问该数据库(推荐:更安全)
  1. mysql> GRANT ALL PRIVILEGES ON *.* TO 'username'@'%' IDENTIFIED BY 'password' WITH GRANT OPTION;
  2. mysql> FLUSH PRIVILEGES;

详细操作步骤可自行百度。

User: root is not allowed to impersonate root


错误原因: 
该错误是因为在安装sqoop时,在hadoop的core-site.xml配置文件中配置的用户权限错误 
在之前的sqoop安装文章里,按照官网的配置如下。其中hadoop.proxyuser.sqoop2.hosts中的sqoop2是用户的意思,同理hadoop.proxyuser.sqoop2.groups中的sqoop2是用户组的意思。

  1. <property>
  2. <name>hadoop.proxyuser.sqoop2.hosts</name>
  3. <value>*</value>
  4. </property>
  5. <property>
  6. <name>hadoop.proxyuser.sqoop2.groups</name>
  7. <value>*</value>
  8. </property>

解决方案: 
将sqoop2改为root即可,改完后如下:(PS:这里的解决方案感觉还是有问题不完美,没有深入了解)

  1. <property>
  2. <name>hadoop.proxyuser.root.hosts</name>
  3. <value>*</value>
  4. </property>
  5. <property>
  6. <name>hadoop.proxyuser.root.groups</name>
  7. <value>*</value>
  8. </property>

GENERIC_HDFS_CONNECTOR_0007:Invalid input/output directory - Unexpected exception

输入输出目录有问题,检查HDFS中是否存在相应目录即可

There are 0 datanode(s) running and no node(s) are excluded in this operation


错误原因: 
启动job的时候报的错,这应该是datanode节点数据的问题 
解决方案:

  1. 配置dfs.datanode.data.dir和core-site.xml里面的hadoop.tmp.dir一致 
    hdfs-site.xml里面的 
    dfs.datanode.data.dir 
    /tmp/hdfs_tmp 
    与core-site.xml里面的 
    hadoop.tmp.dir 
    /tmp/hdfs_tmp 
    两个配置应该是指向同一个目录地址,而且必须是一个已经存在的linux目录(不存在目录的话,在启动hadoop时,必须手动创建,否则put文件到hdfs系统时就会报错),今天报这个错就是因为两个配置没有指向同一个目录地址,且两个地址还不存在对应的目录

参考至: 
http://blog.sina.com.cn/s/blog_61d8d9640102whof.html

  1. 删除dfs.namenode.data.dir中的current文件夹中的内容,格式化namenode,重新启动hadoop 
    参考至: 
    http://blog.csdn.net/qiruiduni/article/details/50280943

最后我使用了1解决方案后问题解决了,但是不知道以后会不会有其他问题。

Call From hadoop1/192.168.56.110 to 0.0.0.0:10020 failed on connection exception


问题原因: 
报错信息提示,在访问端口 100020的时候出错,这表示DataNode 需要访问 MapReduce JobHistory Server,而默认值是: 0.0.0.0:10020 。 
解决方案: 
找到{HADOOP_HOME}/etc/hadoop/mapred-site.xml配置文件 ,增加如下配置:

  1. <property>
  2. <name>mapreduce.jobhistory.address</name>
  3. <!-- 配置实际的主机名和端口-->
  4. <value>{namenode}:10020</value>
  5. </property>

这里我的主机名是hadoop1,所以配置的值是hadoop1:10020 
 
参考至: 
http://blog.csdn.net/lazythinker/article/details/52064165

GENERIC_HDFS_CONNECTOR_0007:Invalid input/output directory - Output directory is not empty


错误原因: 
输入或者输出目录不是空目录,本示例的错误原因是之前启动job后,在HDFS里已经导入过一些数据进去。没删除,所以报这个错。 
解决方案: 
删除该目录下的内容即可 
清空上方创建job时指定的output目录(/root/test)中内容即可。

验证是否导入成功

查看HDFS中的/root/test/目录中的数据,共出现了2个文件 

查看文件内容 

可以看到2ea38d69-e9e4-4364-adfc-67d88f5c8153.txt文件中已经存在了导入的数据,而8962bce1-08e7-4ebc-939e-4839d05eb145.txt是个空文件。

Sqoop1.99.7将MySQL数据导入到HDFS中的更多相关文章

  1. 使用 sqoop 将mysql数据导入到hdfs(import)

    Sqoop 将mysql 数据导入到hdfs(import) 1.创建mysql表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` va ...

  2. 使用sqoop将mysql数据导入到hive中

    首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了... 一.将MySQL数据导入到hdfs 首先我测试将zhaopin表 ...

  3. Logstash:把MySQL数据导入到Elasticsearch中

    Logstash:把MySQL数据导入到Elasticsearch中 前提条件 需要安装好Elasticsearch及Kibana. MySQL安装 根据不同的操作系统我们分别对MySQL进行安装.我 ...

  4. 使用Logstash把MySQL数据导入到Elasticsearch中

    总结:这种适合把已有的MySQL数据导入到Elasticsearch中 有一个csv文件,把里面的数据通过Navicat Premium 软件导入到数据表中,共有998条数据 文件下载地址:https ...

  5. Sqoop mysql 数据导入到hdfs

    1.--direct 模式使用mysqldump 工具,所以节点上需要安装该工具,非direct 模式直接使用jdbc ,所以不需要 具体script参考如下: sqoop import --conn ...

  6. Talend 将Oracle中数据导入到hive中,根据系统时间设置hive分区字段

    首先,概览下任务图: 流程是,先用tHDFSDelete将hdfs上的文件删除掉,然后将oracle中的机构表中的数据导入到HDFS中:建立hive连接->hive建表->tJava获取系 ...

  7. Sqoop将mysql数据导入hbase的血与泪

    Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天)  版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...

  8. 使用 sqoop 将mysql数据导入到hive表(import)

    Sqoop将mysql数据导入到hive表中 先在mysql创建表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` varchar() ...

  9. 【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96,并自己主动生成组合行键

    目的: 使用Sqoop将Oracle中的数据导入到HBase中,并自己主动生成组合行键! 环境: Hadoop2.2.0 Hbase0.96 sqoop-1.4.4.bin__hadoop-2.0.4 ...

随机推荐

  1. 团队作业7---Alpha冲刺值事后诸葛

    一.设想和目标 1.我们的软件要解决什么问题? 解决教师和助教对实验报告查重的问题,拥有两个用户:1.教师或助教:查看学生实验报告的重复率:4.学生:上传实验报告. 2.是否定义得很清楚?是否对典型用 ...

  2. 201521123056《Java程序设计》 第2周学习总结

    1. 本周学习总结 String类: 不可变字符串型: 粗略介绍了枚举类型: 完全限定类名: 泛型数组列表的应用: 2. 书面作业 Q1.使用Eclipse关联jdk源代码,并查看String对象的源 ...

  3. 201521123087 《Java程序设计》第1周学习总结

    1.学习总结 初步了解面对对象编程思想 学会安装JDK和设置JAVA_HOME,PATH,CLASSPATH环境变量 简单了解java 2.书面作业 1.为什么java程序可以跨平台运行?执行java ...

  4. 201521123045 《JAVA程序设计》 第14周学习总结

    1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多数据库相关内容. 2. 书面作业 1. MySQL数据库基本操作 建立数据库,将自己的姓名.学号作为一条记录插入.(截图,需出现自 ...

  5. 201521123049 《JAVA程序设计》 第14周学习总结

    1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多数据库相关内容. 2. 书面作业 1. MySQL数据库基本操作 建立数据库,将自己的姓名.学号作为一条记录插入.(截图,需出现自 ...

  6. dbda数据库类

    <?phpclass DBDA{ public $host="localhost";//服务器地址 public $uid="root";//用户名 pu ...

  7. ThinkPHP空操作及命名空间

    空操作是指访问不存在的路径: 解决方法:在控制其中创建 _empty方法 空控制器是指访问存在的控制器: 解决方法:创建EmptyController控制器 命名空间: 初识命名空间是Library: ...

  8. 在Ubuntu中部署并测试Fabric 1.0 Beta

    [更新:1.0Beta已经是过去式了,现在出了1.0.0的正式版,请大家参照 http://www.cnblogs.com/studyzy/p/7437157.html  安装Fabric 1.0.0 ...

  9. Project Euler 92:Square digit chains C++

    A number chain is created by continuously adding the square of the digits in a number to form a new ...

  10. SQL Server安装【转载】

    http://blog.csdn.net/sangjinchao/article/details/62044021?locationNum=6&fps=1