Impala 安装笔记1一Cloudera CDH4.3.0安装

　　Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎，可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。

　　Impala依赖CDH，依赖hive，hive依赖mysql做元数据存储数据库，所以需要在安装impala之前要检查环境，先安装他的Cloudera Impala Requirements。

安装环境：

OS：Red Hat Enterprise Linux Server release 6.3 (Santiago)

内存：4G

CPU：要支持SSE3扩展指令集（impala要求）

Cloudera CDH4.3.0安装

　　我部署的是hadoop-2.0.0-cdh4.3.0.tar.gz，下载地址为http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.3.0.tar.gz。

(在http://archive.cloudera.com/cdh4/cdh/4/下还可以下载到CDH hadoop生态圈内相关的包)。再准备一个jdk1.6+的java环境，设置好JAVA_HOME。

需要注意的是，window下直接点击链接下载到的包可能无法解压成功，原因是包是放在linux ftp上的，直接下载会有问题。建议在linux机器上用wget命令下载就可以了。

　　基础配置

　　给集群配好 SSH；在hosts里可以准备好自己机器的名字。

　　以下配置文件里就用该名称代替。单机就配置 localhost。

　　配置文件

　　tar包的部署方式只要具备CDH4的包就可以了，其余步骤不需联网，只要配置好几个配置文件即可。我提供一份自己的配置，可以完全拷贝下来使用。进入到目录hadoop-2.0.0-cdh4.3.0/etc/hadoop下面，修改这几个文件：

　　core-site.xml

 <configuration>

   <property>

     <name>fs.defaultFS</name>

     <value>hdfs://localhost:9000</value>

   </property>

   <property>

     <name>fs.trash.interval</name>

     <value>10080</value>

   </property>

   <property>

     <name>fs.trash.checkpoint.interval</name>

     <value>10080</value>

   </property>

 </configuration>

　　hdfs-site.xml（后半部分是impala需要的配置）

 <configuration>

   <property>

     <name>dfs.replication</name>

     <value>1</value>

   </property>

   <property>

     <name>hadoop.tmp.dir</name>

     <value>/home/godp/hadoop-2.0.0-cdh4.3.0/tmp</value>

   </property>

   <property>

     <name>dfs.namenode.http-address</name>

     <value>localhost:50070</value>

   </property>

   <property>

     <name>dfs.namenode.secondary.http-address</name>

     <value>localhost:50090</value>

   </property>

   <property>

     <name>dfs.webhdfs.enabled</name>

     <value>true</value>

   </property>

 <property>

 <name>dfs.block.local-path-access.user</name>

 <value>impala</value>

 </property>

 <property>

     <name>dfs.client.read.shortcircuit</name>

         <value>true</value>

         </property>

 <property>

     <name>dfs.domain.socket.path</name>

         <value>/var/run/hadoop-hdfs/dn._PORT</value>

         </property>

 <property>

     <name>dfs.client.file-block-storage-locations.timeout</name>

     <value>3000</value>

 </property>

 </configuration>

　　yarn-site.xml

 <?xml version="1.0"?>

 <configuration>

 <!-- Site specific YARN configuration properties -->

   <property>

     <name>yarn.resourcemanager.resource-tracker.address</name>

     <value>localhost:8031</value>

   </property>

   <property>

     <name>yarn.resourcemanager.address</name>

     <value>localhost:8032</value>

   </property>

   <property>

     <name>yarn.resourcemanager.scheduler.address</name>

     <value>localhost:8030</value>

   </property>

   <property>

     <name>yarn.resourcemanager.admin.address</name>

     <value>localhost:8033</value>

   </property>

   <property>

     <name>yarn.resourcemanager.webapp.address</name>

     <value>localhost:8088</value>

   </property>

 <property>

     <description>Classpath for typical applications.</description>

     <name>yarn.application.classpath</name>

     <value>$HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/share/hadoop/common/*,

     $HADOOP_COMMON_HOME/share/hadoop/common/lib/*,

     $HADOOP_HDFS_HOME/share/hadoop/hdfs/*,$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*,

     $YARN_HOME/share/hadoop/yarn/*,$YARN_HOME/share/hadoop/yarn/lib/*,

     $YARN_HOME/share/hadoop/mapreduce/*,$YARN_HOME/share/hadoop/mapreduce/lib/*

     </value>

   </property>

   <property>

     <name>yarn.nodemanager.aux-services</name>

     <value>mapreduce.shuffle</value>

   </property>

   <property>

     <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

     <value>org.apache.hadoop.mapred.ShuffleHandler</value>

   </property>

   <property>

     <name>yarn.nodemanager.local-dirs</name>

     <value>/home/godp/hadoop-2.0.0-cdh4.3.0/yarn/local</value>

   </property>

 <property>

     <name>yarn.nodemanager.log-dirs</name>

     <value>/home/godp/hadoop-2.0.0-cdh4.3.0/yarn/logs</value>

   </property>

   <property>

     <description>Where to aggregate logs</description>

     <name>yarn.nodemanager.remote-app-log-dir</name>

     <value>/home/godp/hadoop-2.0.0-cdh4.3.0/yarn/logs</value>

   </property>

   <property>

     <name>yarn.app.mapreduce.am.staging-dir</name>

     <value>/home/godp/hadoop-2.0.0-cdh4.3.0</value>

 </property>

 </configuration>

　　mapred-site.xml

 <?xml version="1.0"?>

 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

 <!-- Put site-specific property overrides in this file. -->

 <configuration>

  <property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

   </property>

   <property>

     <name>mapreduce.jobhistory.address</name>

     <value>localhost:10020</value>

   </property>

   <property>

     <name>mapreduce.jobhistory.webapp.address</name>

     <value>localhost:19888</value>

   </property>

 </configuration>

　　最后在/etc/profile中添加环境变量，添加如下配置：

export JAVA_HOME=/usr/lib/jvm/jdk7

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=./:$JAVA_HOME/lib:$JRE_HOME/lib:$JRE_HOME/lib/tools.jar

export HADOOP_HOME=/home/godp/hadoop-2.0.0-cdh4.3.0

export HADOOP_MAPRED_HOME=${HADOOP_HOME}

export HADOOP_COMMON_HOME=${HADOOP_HOME}

export HADOOP_HDFS_HOME=${HADOOP_HOME}

export YARN_HOME=${HADOOP_HOME}

export HADOOP_YARN_HOME=${HADOOP_HOME}

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/sbin

export HIVE_HOME=/home/godp/hive-0.9.0-cdh4.1.0

export PATH=$PATH:$HADOOP_HOME/bin:$HIVE_HOME/bin

　　source之使之生效。如果是分布式环境，然后把这台机器上的hadoop配置 scp到其他各台机器上。

　　启动集群
　　HADOOP_HOME/bin下，第一次格式化namenode

　　hadoop namenode -format

然后在namenode机器上逐个启动

start-dfs.sh

start-yarn.sh

可以使用jps命令在各台机器上查看已经起来的进程和端口，在 namenode:8088/cluster
可以看集群情况。 datanode:8042/node 可以看到节点情况。

启动dfs的时候无论成功或者失败，命令行都会显示输出的日志路径，如果需要查看详细信息或者某个datanode启动失败的时候，就去相应的路径下查看datanode对应的log，那里会有详细的出错信息，可以排错。我就是这么解决错误的。

问题排查

如果某几个节点没有起来，很可能是因为端口占用的问题，比如yarn启动的时候

会使用8080端口，如果被占用，该datanode就起不了了，可以使用

netstat -anp | grep 8080

找到id，然后kill -9 xxx 掉。

8080是默认的tomcat 的端口，所以装有tomcat类似应用web服务器的节点在此端口的占用上需要二者选其一，另一个需要改端口。

另一个头疼一整天的问题，配置检查不出什么错误，但是一直是起不来hdfs，去

日志里边找，提示错误：

　　attempt_1389859916143_0002_m_000001_0, Status : FAILED

　　Container launch failed for container_1389859916143_0002_01_000003 : java.lang.IllegalArgumentException: Does not contain a valid host:port authority: XX-XX-0.95:39561

　　找不到有效的host：port在XXX：XXXX上，本能的以为是配置错了，端口问题，或者主机的配置问题。

　　出错原因及解决办法：

　　Hadoop的主机名不能既有“-”又有“.”，二者不能都在，否则无法解析主机名。

　　修改掉主机名，重启ok。

　　至此，如果没有问题了，可以上传hdfs文件，看hdfs是否成功可用。

　　测试是否成功

　　测试mapreduce任务是否可以被顺利执行，可以采用hadoop自带的example的jar包中的例子，这里有个小技巧：不需要每次测试新的环境都要上传新的wordcount的单词文件，我们只需要跑一个不需要输入文件的计算圆周率PI的例子程序就ok。

　　这样默认采用10个随机点，10个map采用蒙特卡罗算法估算pi，一般可以估算到3.20左右，这个过程就可以验证你的集群环境是否配置成功了。

Impala 安装笔记1一Cloudera CDH4.3.0安装的更多相关文章

SequoiaDB、SequoiaSQL、Cloudera Manager4.8.0、Cloudera CDH4.5 详细安装教程
1安装SequoaiDB集群 1.1配置信任关系以root用户执行下面的操作 1 执行命令 ssh-keygen 然后一直回车确定即可 2 每台机器都打开id_rsa.pub文件 vi ~/.ssh ...
Libevent 学习笔记（1）——Libevent 2.0安装与简单演示样例
今天開始学习Libevent . Libevent 是开源社区的一款高性能I/O框架库. 主要特点有: 1 跨平台. 2 统一事件源 3 线程安全 4 基于Reactor 今天主要进行了Libeven ...
SQL Server的安装笔记
SQL安装笔记安装SQL Server 2008 打开SQL Server 2008中的setup.exe,显示SQL安装程序的对话框. 提示必须安装相关组件Microsoft.NET Framew ...
Vmware10.0 安装系统以及使用笔记
1.安装教程参考大致分为:vmware10.0安装-------建立虚拟机---------设置虚拟机---------启动虚拟机(IOS安装)---------安装系统---------安装vmt ...
Impala 安装笔记3一impala安装
安装impala之前,确认满足Cloudera Impala Requirements中要求的所有条件: Supported Operating Systems Supported CDH Versi ...
Impala ODBC 安装笔记
Impala在线文档介绍了 Impala ODBC接口安装和配置 http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5 ...
cloudera安装笔记
Cloudera安装教程教程1:http://blog.csdn.net/a921122/article/details/51939692教程2:http://www.6gdown.com/soft ...
Cloudera Manager 4.6 安装部署hadoop CDH集群
Cloudera Manager 4.6 安装详解 1. Cloudera Manager介绍 1.1. 功能介绍 Cloudera Manager是一个针对hadoop集群的管理工具,功能包括:cd ...
CentOS7 Cloudera Manager6 完全离线安装 CDH6 集群
本文是在CentOS7.4 下进行CDH6集群的完全离线部署.CDH5集群与CDH6集群的部署区别比较大. 说明:本文内容所有操作都是在root用户下进行的. 文件下载首先一些安装CDH6集群的必须 ...

随机推荐

dedecms--二次开发文章内容页未登录禁止访问和同一个帐号只允许一个ip登录
最近在用dedecms二次开发会员功能,领导要求,会员未登录不允许访问文章内容页,和同一个账号只允许一个ip登录,我是将这两个在一起判断的,判断session存不存在,不存在的情况下就是未登录,这时候 ...
dedecms--二次开发之前后台登录分开
最近在写dedecms系统下会员功能二次开发,然后发现在本地测试的时候每次登录后台,管理员帐号都会在前台页面也显示登录了,但是如果真的是在前台页面用管理员账号登录的话那是登陆不了的,所以我觉得这样的效 ...
Redis实用监控工具一览
Redis已经成为web应用开发不可或缺的一个组成部分,在项目中的应用越来越广泛,这篇文章就来讲讲那些关于Redis监控的那点事. vredis-benchmark 1.1 简介第一个就介绍一下,R ...
link2005 重复定义错误
造成LNK2005错误主要有以下几种情况: 1．重复定义全局变量. 对于一些初学编程的程序员,有时候会以为需要使用全局变量的地方就可以使用定义申明一下.其实这是错误的,全局变量是针对整个工程的. 正 ...
SpringUtils写法
@Componentpublic class SpringUtils implements ApplicationContextAware { @Override public void setApp ...
【spring mvc】后台spring mvc接收List参数报错如下：org.springframework.beans.BeanInstantiationException: Failed to instantiate [java.util.List]: Specified class is an interface
后台spring mvc接收List参数报错如下:org.springframework.beans.BeanInstantiationException: Failed to instantiate ...
【java】RC4加密转16进制获取长度为40的不重复优惠码字符串【未优化版本】
需求:需要一串给各机构独有的优惠码间接需求:固定长度.不重复.没有规律可循实现思想如下: 1.首先获取一个UUID 2.去除UUID中的“-” 3.小写转大写 4.获取一个固定长度字符串 5.按照 ...
[反汇编练习] 160个CrackMe之030
[反汇编练习] 160个CrackMe之030. 本系列文章的目的是从一个没有任何经验的新手的角度(其实就是我自己),一步步尝试将160个CrackMe全部破解,如果可以,通过任何方式写出一个类似于注 ...
poj 2932 Coneology （扫描线）
题意平面上有N个两两不相交的圆,求全部最外层的,即不被其它圆包括的圆的个数并输出思路挑战程序竞赛P259页代码 /* ************************************* ...
JSP技术基础（动态网页基础）
前言:如果说html为静态网页基础,那么jsp就是动态网页基础,两者的区别就是jsp在html的前面多加了几行而已.当然,jsp里面对java的支持度更高.要明白,js只是嵌入在客户端的小程序小脚本而 ...

Impala 安装笔记1一Cloudera CDH4.3.0安装

Impala 安装笔记1一Cloudera CDH4.3.0安装的更多相关文章

随机推荐

热门专题