运行impala tpch

1.安装git和下载tpc-h-impala脚步

[root@ip-172-31-34-31 ~]# yum install git

[root@ip-172-31-34-31 ~]# git clone https://github.com/kj-ki/tpc-h-impala

[root@ip-172-31-34-31 ~]# cd tpc-h-impala/

[root@ip-172-31-34-31 tpc-h-impala]# ls
benchmark.conf confs data README.md tpch_benchmark.sh tpch_hive tpch_impala tpch_prepare

2.将tpch dbgen tool生成好的数据移动到指定目录
[root@ip-172-31-34-31 data]# mv /root/tpch_2_17_0/data10g/*.tbl /root/tpc-h-impala/data

3.调整tpc-h-impala脚本

由于涉及到权限问题，调整tpch_prepare_data.sh脚步:将第一行改为如下：
sudo -u hdfs /usr/bin/hadoop fs -mkdir /tpch/
并增加一行：
sudo -u hdfs /usr/bin/hadoop fs -chown root /tpch

4.运行脚步tpch_prepare_data.sh,将数据从本地写到HDFS

[root@ip-172-31-34-31 data]# ./tpch_prepare_data.sh

5.调整tpch_benchmark.sh脚本
由于在运行过程中会在Hive上建表，这些表要对impala可见，需要运行invalidate metadata，在运行impala查询的语句前加入以下一行

$IMPALA_CMD -q 'invalidate metadata' 2>&1

#!/usr/bin/env bash

# set up configurations

source benchmark.conf;

if [ -e "$LOG_FILE" ]; then

        timestamp=`date "+%F-%R" --reference=$LOG_FILE`

        backupFile="$LOG_FILE.$timestamp"

        mv $LOG_FILE $LOG_DIR/$backupFile

fi

echo ""

echo "***********************************************"

echo "*          TPC-H benchmark on Impala          *"

echo "***********************************************"

echo "                                               "

echo "See $LOG_FILE for more details of query errors."

echo ""

trial=

while [ $trial -lt $NUM_OF_TRIALS ]; do

        trial=`expr $trial + `

        echo "Executing Trial #$trial of $NUM_OF_TRIALS trial(s)..."

        for query in ${TPCH_QUERIES_ALL[@]}; do

                echo "Running query: $query" | tee -a $LOG_FILE

                echo "Running Hive prepare query: $query" >> $LOG_FILE

                $TIME_CMD $HIVE_CMD -f $BASE_DIR/tpch_prepare/${query}.hive >& | tee -a $LOG_FILE | grep '^Time:'

                returncode=${PIPESTATUS[]}

                if [ $returncode -ne  ]; then

                        echo "ABOVE QUERY FAILED:$returncode"

                fi

                # If you want to use old beta, enable below.

                #$TIME_CMD $IMPALA_CMD -q 'refresh' >& | tee -a $LOG_FILE | grep '^Time:'

                #returncode=${PIPESTATUS[]}

                #if [ $returncode -ne 0 ]; then

                #       echo "ABOVE QUERY FAILED:$returncode"

                #fi

                echo "Running Impala query: $query" >> $LOG_FILE

                $IMPALA_CMD -q 'invalidate metadata' >&

                $TIME_CMD $IMPALA_CMD --query_file=$BASE_DIR/tpch_impala/${query}.impala >& | tee -a $LOG_FILE | grep '^Time:'

                returncode=${PIPESTATUS[]}

                if [ $returncode -ne  ]; then

                        echo "ABOVE QUERY FAILED:$returncode"

                fi

                #echo "Running Hive query: $query" >> $LOG_FILE

                #$TIME_CMD $HIVE_CMD -f $BASE_DIR/tpch_hive/${query}.hive >& | tee -a $LOG_FILE | grep '^Time:'

                #returncode=${PIPESTATUS[]}

                #if [ $returncode -ne 0 ]; then

                #       echo "ABOVE QUERY FAILED:$returncode"

                #fi

        done

done # TRIAL

echo "***********************************************"

6.修改配置文件benchmark.conf，使指向正确的impala master:

由于在impala-shell的集群上没有配置impala-daemon，所以需要这个修改
# impala
IMPALA_CMD="/usr/bin/impala-shell --impalad=172.31.25.244:21000"

7.mr,hive,impala
注意，要运行impala,hive必须先启动MR

8.运行benmark脚本
[root@ip-172-31-34-31 tpc-h-impala]# pwd
/root/tpc-h-impala
[root@ip-172-31-34-31 tpc-h-impala]# ./tpch_benchmark.sh

运行impala tpch的更多相关文章

为集群配置Impala和Mapreduce
FROM: http://www.importnew.com/5881.html -- 扫描加关注,微信号: importnew -- 原文链接: Cloudera 翻译: ImportNew.com ...
Impala SQL 语言元素（翻译）[转载]
原 Impala SQL 语言元素(翻译) 本文来源于http://my.oschina.net/weiqingbin/blog/189413#OSC_h2_2 摘要 http://www.cloud ...
Impala SQL 语言元素（翻译）
摘要: http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Usin ...
学习Hive和Impala必看经典解析
Hive和Impala作为数据查询工具,它们是怎样来查询数据的呢?与Impala和Hive进行交互,我们有哪些工具可以使用呢? 我们首先明确Hive和Impala分别提供了对应查询的接口: (1)命令 ...
Llama－impala on yarn的中间协调服务
本文基于CDH发行版下的Hadoop Yarn和Impala 早期的Impala版本号中.为了使用Impala.我们一般会在以Client/Server的结构在各个集群节点启动impala-serve ...
Cloudera Impala需求
Cloudera Impala需求为了达到预期的效果,Impala依赖于软件.硬件的可用性,以及下面章节描述的配置. 继续阅读: 支持的操作系统支持的Hadoop发布 Hive Metastore ...
Hadoop/Spark生态圈里的新气象
令人惊讶的是,Hadoop在短短一年的时间里被重新定义.让我们看看这个火爆生态圈的所有主要部分,以及它们各自具有的意义. 对于Hadoop你需要了解的最重要的事情就是 ,它不再是原来的Hadoop. ...
TPCH Benchmark with Impala
1. 生成测试数据在TPC-H的官网http://www.tpc.org/tpch/上下载dbgen工具,生成数据http://www.tpc.org/tpch/spec/tpch_2_17_0.zi ...
CIB Training Scripts For TPC-H Benchmark
http://52.11.56.155:7180/http://52.11.56.155:8888/ impala-shell -i 172.31.25.244 sudo -u hdfs hdfs d ...

随机推荐

OpenLayers控制瓦片的绽放级别
先说说这个功能可能使用到的地方,当我们下载的网上瓦片或者矢量数据的第一级或开始几级效果不是很好时,我们就就想让用户看到这些级别的瓦片.实现这个功能比较简单,主要就是修改Openlayers.map的i ...
c++共享内存（转载）
对于连个不同的进程之间的通信,共享内存是一种比较好的方式,一个进程把数据发送到共享内存中, 另一个进程可以读取改数据,简单记录一下代码 #define BUF_SIZE 256 TCHAR szNam ...
mysql基本命令整理
1.replace into(insert into 的增强版) replace into tbl_name(col_name, ...) values(...)replace into tbl_na ...
第一次写Web API接口
API是什么?只知道是网络接口,具体怎么写?不会!如何调用?不会!那怎么办? 第一次的经历~~ 需求:为其他项目提供一个接口功能:为项目提供询盘信息和商家信息,格式为Json字符串拿过来,就开始做 ...
关于xml配置实现AOP的小知识
除了前面介绍的基于JDK1.5的注解方式来定义切面,切入点和增强处理外,Spring AOP也允许直接使用XML配置文件来管理它们.在JDK1.5之前,只能使用配置文件的方式来管理,在Spring2. ...
position之fixed固定定位、absolute绝对定位和relative相对定位
什么是层模型? 什么是层布局模型?层布局模型就像是图像软件PhotoShop中非常流行的图层编辑功能一样,每个图层能够精确定位操作,但在网页设计领域,由于网页大小的活动性,层布局没能受到热捧.但是在网 ...
mac 工具集
1.brew brew 全名叫homebrew,引用官网的一句话就是 "The missing package manager for macOS",意思brew是mac os上不 ...
settings.php rwx
440/400 https://www.drupal.org/node/137702 You must understand the meaning of XYZ chmod from file at ...
folder、source folder、package 区别与联系
在eclipse下,package,source folder,folder都是文件夹. 它们的区别如下: package:当你在建立一个package时,它自动建立到source folder下 ...
基本类型和引用类型调用是的区别（Object.create）
var person = { name : 'jim', address:{ province:'浙', city:'A' } } var newPerson = Object.create(pers ...

运行impala tpch

运行impala tpch的更多相关文章

随机推荐

热门专题