快速搭建Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境

原文链接：

https://www.toutiao.com/i6771763211927552523/

CDH简单了解

CDH: C：cloudera(公司) D：distribute H：Hadoop

解决了大数据Hadoop 2.x生态系统中各个框架的版本兼容问题，不用自己编译, CDH适合商用，版本更新比较慢，也可以选择其他版本。

CDH版本的安装

在线：不推荐，受网速影响

离线：rpm包，tar包

之前已经安装使用过Apache版本的Hadoop，这次为了区分，我们再单独见一个cdh目录，用于安装cdh版本的Hadoop、Hive和Sqoop。在使用sqoop需要先部署CDH版本的Hadoop&Hive，CDH版本和apache版本的服务不要混用，只开启CDH或者只开启apache服务就可以。

安装过程（YUM源已安装好、系统版本CentOS6.5、java版本是1.7）

首先我们先创建好目录

准备好安装包

创建目录 mkdir –p /opt/bigdata

解压安装包

tar -zxvf sqoop-1.4.5-cdh5.3.6.tar.gz -C /opt/bigdata/

tar -zxvf hive-0.13.1-cdh5.3.6.tar.gz -C /opt/bigdata/

tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/bigdata/

我们进入hadoop目录，把share下doc目录东西删除掉，这个用处不大

配置三个env（hadoop,mapred,yarn）文件

export JAVA_HOME= /usr/lib/jvm/java-1.7.0-openjdk.x86_64

编辑三个文件

编辑内容

4个site.xml文件

core:（修改主机名，tmp.dir目录并在linux下创建相应目录，用户名）

hdfs：（修改主机名）

mapred:需先重命名（修改主机名）

yarn：（修改主机名）

core-site.xml

fs.defaultFS

hdfs://mastercdh:8020

hadoop.tmp.dir

/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp

hdfs-site.xml

dfs.replication

dfs.permissions.enabled

false

dfs.namenode.secondary.http-address

mastercdh:50090

将这个文件重命名为mapred-site.xml

mapred-site.xml

mapreduce.framework.name

yarn

mapreduce.jobhistory.address

mastercdh:10020

mapreduce.jobhistory.webapp.address

mastercdh:19888

yarn-site.xml

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.resourcemanager.hostname

mastercdh

yarn.log-aggregation-enable

true

yarn.log-aggregation.retain-seconds

106800

格式化namenode

$ bin/hdfs namenode –format

启动服务

开启各服务：

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

sbin/hadoop-daemon.sh start secondarynamenode

sbin/mr-jobhistory-daemon.sh start historyserver

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

关闭服务

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh stop datanode

sbin/hadoop-daemon.sh stop secondarynamenode

sbin/mr-jobhistory-daemon.sh stop historyserver

sbin/yarn-daemon.sh stop resourcemanager

sbin/yarn-daemon.sh stop nodemanager

我们开启服务

配置SSH免密登陆可使用：

$ sbin/start-dfs.sh

$ sbin/start-yarn.sh

$ sbin/start-all.sh

我们访问下,和apache版本相比，页面颜色有变化

安装mysql

检查下是否已下载还有卸载残留

rpm -qa | grep mysql

find / -name mysql

看来还是有的，通过rm -rf将以上目录删掉即可，另外顺便把配置文件/etc/my.cnf也删掉吧，用rm –f

安装mysql

yum -y install mysql mysql-server

安装mysql扩展

yum -y install mysql-connector-odbc mysql-devel libdbi-dbd-mysql

启动mysql

service mysqld start

设置开启启动： chkconfig mysqld on

检查下

chkconfig | grep mysql

设置登录密码：mysqladmin -u root password 'password'

进入数据库，查询用户信息

设置远程登录权限

grant all privileges on *.* to 'root'@'%' identified by 'password' with grant option;

删除用户信息

delete from user where user='root' and host='127.0.0.1';

刷新信息

flush privileges;

update user set password = password("password") where user ="root" and host = "mastercdh";

flush privileges;

重启mysqld服务

service mysqld restart

先重命名hive-default.xml.template

mv hive-default.xml.template hive-site.xml

再重命名hive-env.sh.template

mv hive-env.sh.template hive-env.sh

再重命名hive-log4j.properties.template

mv hive-log4j.properties.template hive-log4j.properties

依次配置

首先hive-env.sh

HADOOP_HOME=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

export HIVE_CONF_DIR=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

编辑hive-site.xml,我们输入4000dd删除原来的内容

输入配置文件

javax.jdo.option.ConnectionURL

jdbc:mysql://mastercdh:3306/cdhmetastore?createDatabaseIfNotExist=true

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

javax.jdo.option.ConnectionUserName

root

javax.jdo.option.ConnectionPassword

password

hive.cli.print.current.db

true

hive.cli.print.header

true

配置hive-log4j.properties

hive.log.dir=/opt/bigdata/hive-0.13.1-cdh5.3.6/logs

我们将准备好的mysql的jar包上传到lib目录下

mysql-connector-java-5.1.27-bin.jar

切换到Hadoop目录，建立目录，并修改权限

/user/hive/warehouse为Hive存放数据的目录

bin/hdfs dfs -mkdir -p /user/hive/warehouse

bin/hdfs dfs -chmod g+w /user/hive/warehouse

bin/hdfs dfs -chmod g+w /tmp

启动客户端使用Hive bin/hive就可以了

解压zookeeper

tar -zxvf zookeeper-3.4.5-cdh5.3.6.tar.gz -C /opt/bigdata/

进入zookkeeper目录，创建存放数据的目录

在conf目录里

cp -a zoo_sample.cfg zoo.cfg

然后修改：dataDir= /opt/bigdata/zookeeper-3.4.5-cdh5.3.6/zkData

启动

sbin/zkServer.sh start

可以去查看状态：sbin/zkServer.sh status

部署sqoop

解压sqoop后

配置conf/sqoop-env.sh

复制： cp -a sqoop-env-template.sh sqoop-env.sh

或直接重命名重命名hive-env.sh (去掉.template)

编辑文件

export HADOOP_COMMON_HOME=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

export HADOOP_MAPRED_HOME=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

export HIVE_HOME=/opt/bigdata/hive-0.13.1-cdh5.3.6

export ZOOCFGDIR=/opt/bigdata/zookeeper-3.4.5-cdh5.3.6

拷贝jdbc驱动包达到lib目录

查看帮助信息：bin/sqoop help

测试：sqoop连接mysql

bin/sqoop list-databases --connect jdbc:mysql://mastercdh:3306/ --username root --password password

快速搭建Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境的更多相关文章

Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置环境搭建记录
Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置环境搭建记录 Hadoop 2.6 的安装与配置(伪分布式) 下载并解压缩配置 .bash_profile : ...
基于Docker搭建Hadoop+Hive
为配合生产hadoop使用,在本地搭建测试环境,使用docker环境实现(主要是省事~),拉取阿里云已有hadoop镜像基础上,安装hive组件,参考下面两个专栏文章: 克里斯:基于 Docker 构 ...
手把手教你搭建hadoop+hive测试环境(新手向)
本文由网易云发布. 作者:唐雕龙本篇文章仅限内部分享,如需转载,请联系网易获取授权. 面向新手的hadoop+hive学习环境搭建,加对我走过的坑总结,避免大家踩坑. 对于hive相关docke ...
快速搭建Hadoop及HBase分布式环境
本文旨在快速搭建一套Hadoop及HBase的分布式环境,自己测试玩玩的话ok,如果真的要搭一套集群建议还是参考下ambari吧,目前正在摸索该项目中.下面先来看看怎么快速搭建一套分布式环境. 准备 ...
Ubuntu 14.04 (32位)上搭建Hadoop 2.5.1单机和伪分布式环境
引言一直用的Ubuntu 32位系统(准备下次用Fedora,Ubuntu越来越不适合学习了),今天准备学习一下Hadoop,结果下载Apache官网上发布的最新的封装好的2.5.1版,配置完了根本 ...
快速搭建hadoop，学习使用
1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=myvm ### 1 ...
环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一
一.前言 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关 ...
使用HDP快速搭建Hadoop开发环境 | Debugo
本文简单记录了一下使用VMware workstation 10.CentOS和HDP 2.0.6(Hadoop 2.2)发行版构建Hadoop开发测试环境的全部流程.这个过程中我遇到了不少问题,也耽 ...
如何快速搭建hadoop集群
安装好虚拟机,重命名为master 配置网卡命令:vi /etc/sysconfig/network-scripts/ifcfg-en(按tab键) 这里要配置ip,网关,域名解析例如我的 IPA ...
使用docker快速搭建hive环境
记录一下使用docker快速搭建部署hive环境目录写在前面步骤安装docker 安装docker 安装docker-compose 配置docker国内镜像源(可选) 安装git & ...

随机推荐

Redis集群断电恢复
再集群整体断点或关闭后,默认启动集群后,会成为孤立的单点,需要删除每个节点的pid文件,node.conf.并将RDB和AOF文件移动出来,再挨个启动每个节点,并用create创建集群脚本,重新创建集 ...
Nginx配置正向代理
目录一.简介二.配置三.参数一.简介场景: 用于内网机器访问外网,就需要正向代理,类似VPN. 原理: A机器可以访问外网,而B,C,D机器只能内网,便可以设立正向代理,将B,C,D机器的访 ...
Nginx LOCATOIN块配置
1 匹配模式优先级 location = /uri =开头表示精确匹配,只有完全匹配上才能生效. location ^~ /uri ^~ 开头对URL路径进行前缀匹配,并且在正则之前.无正则普通匹配( ...
【划重点】Python matplotlib绘图设置坐标轴的刻度
一.语法简介 plt.xticks(ticks,labels,rotation=30,fontsize=10,color='red',fontweight='bold',backgroundcolor ...
Excel字符串函数公式大全
一.Excel字符串的操作 1.1.Excel根据字节截取对应字符串(注:一个中文汉字对应两个字节) =LEFTB(A3,7) 从左边开始截取7个字节 =RIGHTB(A10,10) 从右边开始截取 ...
联盛德 HLK-W806 (九): 软件SPI和硬件SPI驱动ST7789V液晶LCD
目录联盛德 HLK-W806 (一): Ubuntu20.04下的开发环境配置, 编译和烧录说明联盛德 HLK-W806 (二): Win10下的开发环境配置, 编译和烧录说明联盛德 HLK-W ...
判断存在…Contains…（Power Query 之 M 语言）
表函数判断记录在表中是否存在 = Table.Contains( 表, 记录, {"指定列1",-, "指定列n"}) = Table.ContainsAll ...
4、BFS算法套路框架——Go语言版
前情提示:Go语言学习者.本文参考https://labuladong.gitee.io/algo,代码自己参考抒写,若有不妥之处,感谢指正关于golang算法文章,为了便于下载和整理,都已开源放在 ...
Python+Robot Framework实现UDS诊断自动化测试
一.环境搭建 1.概述由于项目需要进行UDS诊断测试,所以对这方面进行了研究学习,网上很少能查询到相关资料,故记录一下UDS自动化测试开发过程,由于保密原则,案例都是Demo,希望能帮到感兴趣的朋友 ...
在执行java代码时，设置了断点，然后莫名的没执行完方法内的代码就结束了，此刻一般在出错处代码用try，catch包括起来
在执行java代码时,设置了断点,然后莫名的没执行完方法内的代码就结束了,此刻一般在出错处代码用try,catch包括起来就能看到是什么异常了,记住try,catch语句的作用

快速搭建Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境

快速搭建Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境的更多相关文章

随机推荐

热门专题