Hadoop伪分布式环境快速搭建

Hadoop分支

Apache
Cloudera
Hortonworks

本文是采用Cloudera分支的hadoop。

下载cdh-5.3.6 版本

下载地址：http://archive.cloudera.com/cdh5/cdh/5/

各组件版本一定保持一致。

cdh5.3.6-snappy-lib-natirve.tar.gz
hadoop-2.5.0-cdh5.3.6.tar.gz
hive-0.13.1-cdh5.3.6.tar.gz
sqoop-1.4.5-cdh5.3.6.tar.gz

安装配置

配置好jdk
上传到ubuntu /opt/software/cdh。
tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6
tar -zxvf hive-0.13.1-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6

修改hadoop-env.sh、yarn-env.sh、mapred-env.sh中JAVA_HOME 配置core-site.xml

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://hp-expert.tianpo.com:8020</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/data/tmp</value>

    </property>

</configuration>

配置hdfs-site.xml

<configuration>

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>hp-expert.tianpo.com:50090</value>

    </property>

    <property>

        <name>dfs.namenode.http-address</name>

        <value>hp-expert.tianpo.com:50070</value>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

        <property>

        <name>dfs.permissions</name>

        <value>false</value>

    </property>

</configuration>

配置mapred-site.xml

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>hp-expert.tianpo.com:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>hp-expert.tianpo.com:19888</value>

    </property>

</configuration>

配置yarn-site.xml

<configuration>

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>hp-expert.tianpo.com</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.log-aggregation-enable</name>

        <value>true</value>

    </property>

    <property>

        <name>yarn.log-aggregation.retain-seconds</name>

        <value>640800</value>

    </property>

</configuration>

配置slaves

hp-expert.tianpo.com

格式化namenode

cd /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6

bin/hdfs namenode -format

启动

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

sbin/mr-jobhistory-daemon.sh start historyserver

检查jps:

1905 NameNode
2354 NodeManager
2499 JobHistoryServer
2084 ResourceManager
1991 DataNode
2538 Jps

访问：http://hp-expert.tianpo.com:50070/ 如果打不开，检查是否有端口在监听：netstat –ant 50070

检查host配置：格式为（不能以用127.0.0.1）：IP 域名

配置hive

配置hive-env.sh

# Set HADOOP_HOME to point to a specific hadoop install directory

HADOOP_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6

# Hive Configuration Directory can be controlled by:

export HIVE_CONF_DIR=/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/conf

配置hive-log4j.properties

hive.log.threshold=ALL

hive.root.logger=WARN,DRFA

hive.log.dir=/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/logs

hive.log.file=hive.log

配置hive.site.xml(touch hive.site.xml)

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

      <name>javax.jdo.option.ConnectionURL</name>

      <value>jdbc:mysql://host:3306/metadata?createDatabaseIfNotExist=true</value>

    </property>

    <property>

      <name>javax.jdo.option.ConnectionDriverName</name>

      <value>com.mysql.jdbc.Driver</value>

    </property>

    <property>

      <name>javax.jdo.option.ConnectionUserName</name>

      <value>***</value>

    </property>  

    <property>

      <name>javax.jdo.option.ConnectionPassword</name>

      <value>***</value>

    </property>

    <property>

      <name>hive.cli.print.header</name>

      <value>true</value>

    </property>

    <property>

      <name>hive.cli.print.current.db</name>

      <value>true</value>

    </property>

    <property>

      <name>hive.fetch.task.conversion</name>

      <value>more</value>

    </property>

</configuration>

需要把jdbc驱动上传到hive/lib下（mysql-connector-java-5.1.27.jar），注意对应的版本。

在hdfs中创建hive数据仓库目录

bin/hdfs dfs -mkdir -p /user/hive/warehouse

bin/hdfs dfs -chomd g+w /user/hive/warehouse

启动hive : bin/hive

测试hive

create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

从外部加载数据：

load data local inpath '/opt/datas/student.txt'into table student ;

web站点

http://hp-expert.tianpo.com:50070
http://hp-expert.tianpo.com:8088/cluster

Hadoop伪分布式环境快速搭建的更多相关文章

hadoop伪分布环境快速搭建
1.首先下载一个完成已经进行简单配置好的镜像文件(hadoop,HBASE,eclipse,jdk环境已经搭建好,tomcat为7.0版本,建议更改为tomcat8.5版本,运行比较稳定). 2安装V ...
【Hadoop离线基础总结】CDH版本Hadoop 伪分布式环境搭建
CDH版本Hadoop 伪分布式环境搭建服务规划步骤第一步:上传压缩包并解压 cd /export/softwares/ tar -zxvf hadoop-2.6.0-cdh5.14.0.tar ...
CentOS7下Hadoop伪分布式环境搭建
CentOS7下Hadoop伪分布式环境搭建前期准备 1.配置hostname(可选,了解) 在CentOS中,有三种定义的主机名:静态的(static),瞬态的(transient),和灵活的(p ...
基于Centos搭建 Hadoop 伪分布式环境
软硬件环境: CentOS 7.2 64 位, OpenJDK- 1.8,Hadoop- 2.7 关于本教程的说明云实验室云主机自动使用 root 账户登录系统,因此本教程中所有的操作都是以 roo ...
Hadoop学习笔记（一）：ubuntu虚拟机下的hadoop伪分布式集群搭建
hadoop百度百科:https://baike.baidu.com/item/Hadoop/3526507?fr=aladdin hadoop官网:http://hadoop.apache.org/ ...
《OD大数据实战》Hadoop伪分布式环境搭建
一.安装并配置Linux 8. 使用当前root用户创建文件夹,并给/opt/下的所有文件夹及文件赋予775权限,修改用户组为当前用户 mkdir -p /opt/modules mkdir -p / ...
Hadoop伪分布式环境搭建+Ubuntu:16.04+hadoop-2.6.0
Hello,大家好 !下面就让我带大家一起来搭建hadoop伪分布式的环境吧!不足的地方请大家多交流.谢谢大家的支持准备环境: 1, ubuntu系统,(我在16.04测试通过.其他版本请自行测试, ...
[转]搭建Hadoop伪分布式环境
https://my.oschina.net/MyHeaven1987/blog/1821509 http://hadoop.apache.org/docs/current/hadoop-projec ...
hadoop伪分布式集群搭建与安装（ubuntu系统）
1:Vmware虚拟软件里面安装好Ubuntu操作系统之后使用ifconfig命令查看一下ip; 2:使用Xsheel软件远程链接自己的虚拟机,方便操作.输入自己ubuntu操作系统的账号密码之后就链 ...

随机推荐

解决svn锁定
问题:今天去公司 svn-update的时候,报错svn:E155004,提示说什么locked 解决:svn cleanup解除锁定,然后就可以操作了. 原因:SVN 本地更新时,由于一些操作中断更 ...
devops流程
学习资源: https://www.youtube.com/watch?v=JBtWxj9l7zM&list=PLoYCgNOIyGAAzevEST2qm2Xbe3aeLFvLc&t= ...
转: MyEclipse 10.0,9.0,8.0 下添加jadClipse反编译插件
MyEclipse 10.0,9.0,8.0 下添加jadClipse反编译插件 (2012-11-19 15:36:35) 转载▼ 标签: myeclipse jad 反编译插件 it 分类: M ...
git学习——记录每次更新到仓库
记录每次更新到仓库工作目录下面的所有文件都不外乎这两种状态:已跟踪或未跟踪.已跟踪的文件是指本来就被纳入版本控制管理的文件,在上次快照中有它们的记录,工作一段时间后,它们的状态可能是未更新,已修改或 ...
倍福TwinCAT(贝福Beckhoff)基础教程2.0 TwinCAT常用快捷键
F5:运行程序 CTRL+F5:停止运行当前程序 F12:登出 F11:登录 CTRL+F7:强制写入数值更多教学视频和资料下载,欢迎关注以下信息: 我的优酷空间: http://i.you ...
Input.GetAxis 获取轴
static function GetAxis (axisName : string) : float Description描述 Returns the value of the virtual a ...
Hbase笔记：批量导入
工作中可能会有对HBase的复杂操作,我们现在对HBase的操作太简单了.复杂操作一般用HBaseScan操作,还有用框架对HBase进行复杂操作,iparler,sharker.我们说HBase是数 ...
GB28181出内网
最近关注GB28181的朋友很多,昨天有位朋友问到GB28181出内网的问题,希望我花5分钟的时间讲讲如何通过GB28181协议将内网的摄像机视频推送到公网.要说清楚这个问题,5分钟的时间应该不够 ...
struts2中怎样处理404？
眼下在做一个网络应用程序,struts2 + spring + hibernate,server是tomcat.希望用户在IE地址栏乱敲的时候.所敲入的全部没有定义的URL都能被程序捕捉到,然后转到一 ...
初识C++之虚函数
1.什么是虚函数在基类中用virtual关键字修饰.并在一个或多个派生类中被又一次定义的成员函数.使用方法格式为: virtual 函数返回类型函数名(參数表) { 函数体 } 虚函数是实现多态性 ...