1.1-1.4 sqoop概述及安装cdh版hadoop

一、概述

Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是Mysql、Oracle等RDBMS。

Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且

相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提升。    如果要用Sqoop，必须正确安装并配置Hadoop，因依赖于本地的hadoop环境启动MR程序；mysql、oracle等数据库的JDBC驱动也要放到Sqoop的lib目录下。

本文针对的是Sqoop1，不涉及到Sqoop2，两者有很大区别；

import是把数据从RDBMS导入到Hadoop的工具；

二、安装hadoop

1、说明

sqoop与hadoop集成需要编译，比较麻烦，这里直接使用cdh版本的hadoop；

CDH安装包下载：http://archive.cloudera.com/cdh5/

使用cdh-5.3.6版本：

http://archive.cloudera.com/cdh5/cdh/5/

hadoop-2.5.0-cdh5.3.6.tar.gz
        hive-0.13.1-cdh5.3.6.tar.gz
       zookeeper-3.4.5-cdh5.3.6.tar.gz
       sqoop-1.4.5-cdh5.3.6.tar.gz

2、准备安装

#创建安装目录

[root@hadoop-senior opt]# mkdir /opt/cdh-5.3.6

#上传安装包

[root@hadoop-senior cdh]# pwd

/opt/softwares/cdh

[root@hadoop-senior cdh]# ls

 hadoop-2.5.0-cdh5.3.6.tar.gz  hive-0.13.1-cdh5.3.6.tar.gz  sqoop-1.4.5-cdh5.3.6.tar.gz

#解压hadoop、hive

[root@hadoop-senior cdh]# tar zxf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/

[root@hadoop-senior cdh]# tar zxf hive-0.13.1-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/

#查看

[root@hadoop-senior cdh-5.3.6]# cd /opt/cdh-5.3.6/

[root@hadoop-senior cdh-5.3.6]# ls

hadoop-2.5.0-cdh5.3.6  hive-0.13.1-cdh5.3.6

[root@hadoop-senior cdh-5.3.6]# cd hadoop-2.5.0-cdh5.3.6/

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# ls

bin  bin-mapreduce1  cloudera  etc  examples  examples-mapreduce1  include  lib  libexec  sbin  share  src

3、配置

java_home:

##/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/opt/modules/jdk1.7.0_80

##/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/yarn-env.sh

export JAVA_HOME=/opt/modules/jdk1.7.0_80

##/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/mapred-env.sh

export JAVA_HOME=/opt/modules/jdk1.7.0_80

core-site.xml

##/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/core-site.xml

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://hadoop-senior.ibeifeng.com:8020</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/data/tmp</value>

     </property>

</configuration>

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# mkdir -pv /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/data/tmp

hdfs-site.xml

##/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/hdfs-site.xml

<configuration>

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>hadoop-senior.ibeifeng.com:50090</value>

    </property>

    <property>

        <name>dfs.namenode.http-address</name>

        <value>hadoop-senior.ibeifeng.com:50070</value>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

    <property>

        <name>dfs.permissions</name>

        <value>false</value>

    </property>

</configuration>

slaves文件

##/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/slaves

hadoop-senior.ibeifeng.com

yarn-site.xml

##/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/yarn-site.xml

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>hadoop-senior.ibeifeng.com</value>

    </property>

    <property>

        <name>yarn.nodemanager.resource.cpu-vcores</name>

        <value>4</value>

    </property>

    <property>

        <name>yarn.log-aggregation-enable</name>

        <value>true</value>

    </property>

    <property>

        <name>yarn.log-aggregation.retain-seconds</name>

        <value>604800</value>

    </property>

</configuration>

mapred-site.xml

##/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/mapred-site.xml         //先重命名

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>hadoop-senior.ibeifeng.com:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>hadoop-senior.ibeifeng.com:19888</value>

    </property>

</configuration>

3、启动

#格式化文件系统

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# bin/hdfs namenode -format

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# rm -rf /tmp/*

#启动hdfs

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# sbin/hadoop-daemon.sh start namenode

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# sbin/hadoop-daemon.sh start datanode

#启动yarn

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# sbin/yarn-daemon.sh start resourcemanager

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# sbin/yarn-daemon.sh start nodemanager

#启动historyserver

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# sbin/mr-jobhistory-daemon.sh start historyserver

#查看

[root@hadoop-senior ~]# jps

3165 Jps

3119 JobHistoryServer

2683 ResourceManager

2573 DataNode

2471 NameNode

2960 NodeManager

三、安装hive

1、/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/conf/hive-env.sh //先重命名

HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6

export HIVE_CONF_DIR=/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/conf

2、/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/conf/hive-log4j.properties //先重命名

hive.log.dir=/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/logs

3、创建配置文件

[root@hadoop-senior ~]# cd /opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/conf/

[root@hadoop-senior conf]# touch hive-site.xml

################hive-site.xml#######################

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

        <name>javax.jdo.option.ConnectionURL</name>

        <value>jdbc:mysql://hadoop-senior.ibeifeng.com:3306/metadata?createDatabaseIfNotExist=true</value>

        <description>JDBC connect string for a JDBC metastore</description>

    </property>

    <property>

        <name>javax.jdo.option.ConnectionDriverName</name>

        <value>com.mysql.jdbc.Driver</value>

        <description>Driver class name for a JDBC metastore</description>

    </property>

    <property>

        <name>javax.jdo.option.ConnectionUserName</name>

        <value>root</value>

        <description>username to use against metastore database</description>

    </property>

    <property>

        <name>javax.jdo.option.ConnectionPassword</name>

        <value>123456</value>

        <description>password to use against metastore database</description>

    </property>

    <property>

        <name>hive.cli.print.header</name>

        <value>true</value>

        <description>Whether to print the names of the columns in query output.</description>

    </property>

    <property>

        <name>hive.cli.print.current.db</name>

        <value>true</value>

        <description>Whether to include the current database in the Hive prompt.</description>

    </property>

    <property>

        <name>hive.fetch.task.conversion</name>

        <value>more</value>

        </property>

</configuration>

4、拷贝mysql驱动文件

[root@hadoop-senior hive-0.13.1-cdh5.3.6]# cp /opt/modules/hive-0.13.1/lib/mysql-connector-java-5.1.27-bin.jar ./lib/

5、连接hive

##连接测试

[root@hadoop-senior hive-0.13.1-cdh5.3.6]# bin/hive

Logging initialized using configuration in file:/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/conf/hive-log4j.properties

hive (default)>

##创建hive的数据存储目录

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# bin/hdfs dfs -mkdir -p /user/hive/warehouse

[root@hadoop-senior hadoop-2.5.0-cdh5.3.6]# bin/hdfs dfs -chmod g+w /user/hive/warehouse

##创建一张测试表

hive (default)> create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

OK

Time taken: 0.708 seconds

hive (default)> load data local inpath '/opt/datas/student.txt' overwrite into table student;

Loading data to table default.student

Table default.student stats: [numFiles=1, numRows=0, totalSize=36, rawDataSize=0]

OK

Time taken: 0.885 seconds

hive (default)> select * from student;

OK

student.id    student.name

1001    zhangsan

1002    lisi

1003    wangwu

Time taken: 0.218 seconds, Fetched: 3 row(s)

此时web页面应该也可以打开：ip:8088 ip:50070

1.1-1.4 sqoop概述及安装cdh版hadoop的更多相关文章

Apache Sqoop - Overview——Sqoop 概述
Apache Sqoop - Overview Apache Sqoop 概述使用Hadoop来分析和处理数据需要将数据加载到集群中并且将它和企业生产数据库中的其他数据进行结合处理.从生产系统加载大 ...
OpenVAS漏洞扫描基础教程之OpenVAS概述及安装及配置OpenVAS服务
OpenVAS漏洞扫描基础教程之OpenVAS概述及安装及配置OpenVAS服务 1. OpenVAS基础知识 OpenVAS(Open Vulnerability Assessment Sys ...
Sqoop简介及安装
Hadoop业务的大致开发流程以及Sqoop在业务中的地位: Sqoop概念 Sqoop可以理解为[SQL–to–Hadoop],正如名字所示,Sqoop是一个用来将关系型数据库和Hadoop中的数据 ...
C++框架_之Qt的开始部分_概述_安装_创建项目_快捷键等一系列注意细节
C++框架_之Qt的开始部分_概述_安装_创建项目_快捷键等一系列注意细节 1.Qt概述 1.1 什么是Qt Qt是一个跨平台的C++图形用户界面应用程序框架.它为应用程序开发者提供建立艺术级图形界面 ...
ElasticSearch入坑指南之概述及安装
---恢复内容开始--- ElasticSearch入坑指南之概述及安装了解ElasticSearch ElasticSearch(简称ES)基于Lucene的分布式全文检索引擎.使用ES可以实现近 ...
Flask 学习（一）概述及安装
Flask 概述及安装 Flask 简介 Flask是一个使用 Python 编写的轻量级 Web 应用框架.其 WSGI 工具箱采用 Werkzeug ,模板引擎则使用 Jinja2 . 官方网址 ...
1.5.7、CDH 搭建Hadoop在安装之前(定制安装解决方案---配置单用户模式)
配置单用户模式在传统的Cloudera Manager部署中,管理每台主机上的Hadoop进程的Cloudera Manager Agent以root用户身份运行.但是,某些环境会限制对root帐户 ...
CDH 部署 Hadoop：5.开始安装
Cloudera Enterprise 6.2.x 或者参考https://blog.csdn.net/shawnhu007/article/details/52579204 第零步:优化相关 e ...
CentOS7安装CDH 第十一章：离线升级CDH版本
相关文章链接 CentOS7安装CDH 第一章:CentOS7系统安装 CentOS7安装CDH 第二章:CentOS7各个软件安装和启动 CentOS7安装CDH 第三章:CDH中的问题和解决方法 ...

随机推荐

C#基础关键字
1:override & new public class A { public virtual void Test() { Console.WriteLine("A Test()& ...
sql quer
SELECT (SELECT COUNT (sysid) FROM FwInvConsumable WHERE parentref = g.sysid AND (ns.state = 'Invento ...
轻松搞定RabbitMQ（一）——RabbitMQ基础知识+HelloWorld
转自 http://blog.csdn.net/xiaoxian8023/article/details/48679609 本文是简单介绍一下RabbitMQ,参考官网上的教程.同时加入了一些自己的理 ...
AndroidManifest具体解释之Application(有图更好懂)
可以包括的标签: <activity> <activity-alias> <service> <receiver> <provider> & ...
Java泛型擦除
Java泛型擦除: 什么是泛型擦除? 首先了解一下什么是泛型?我个人的理解:因为集合中能够存储随意类型的对象.可是集合中最先存储的对象类型一旦确定后,就不能在存储其它类型的对象了,否则,编译时不会报错 ...
erlang实现DNS解析域名
erlang的DNS解析,有个inet模块,可以做这个事情,对应的api如下:(这里用的R16B的版本) inet:getaddr/2解析对应一个ip,而inet:getaddr/2解析有可能对应1个 ...
怎么将linux的动态IP设置成静态IP
例如我的eth0网卡信息如下 eth0 Link encap:Ethernet HWaddr :0C::AA:B2:CA inet addr:192.168.79.135 Bcast:192.168. ...
兼容最新firefox、chrome和IE的javascript图片预览实现代码
这篇文章主要介绍了兼容最新firefox.chrome和IE的javascript图片预览实现代码,测试了浏览器firefox6.firefox12.chrome 25.0.1364.172 m.IE ...
WPF触发器(Trigger、DataTrigger、EventTrigger)
WPF中有种叫做触发器的东西(记住不是数据库的trigger哦).它的主要作用是根据trigger的不同条件来自动更改外观属性,或者执行动画等操作. WPFtrigger的主要类型有:Trigger. ...
前端基础——CSS盒子模型
如今很多网页都是由很多个"盒子"拼接.嵌套而成,所以多少接触过网页设计的朋友一定都对CSS盒子模型有所了解. 为了更好的说明,先举个通俗的样例:在一个仓库中放了10个纸箱,每一个纸 ...

1.1-1.4 sqoop概述及安装cdh版hadoop

1.1-1.4 sqoop概述及安装cdh版hadoop的更多相关文章

随机推荐

热门专题