前面两篇介绍了一下tajo,下面就说一下安装和使用吧。

一、分布式安装

前提:hadoop2中的hdfs和yarn已经安装并运行正常。

1、下载source并build源码

$git clone https://git-wip-us.apache.org/repos/asf/incubator-tajo.git tajo

$ cd tajo

$ mvn clean package -DskipTests -Pdist -Dtar

$ ls tajo-dist/target/tajo-x.y.z-SNAPSHOT.tar.gz

2、将tag.gz解压到需要安装的地方

 $ tar xzvf tajo-0.2.-SNAPSHOT.tar.gz

3、配置tajo-site.xml

 <property>

     <name>tajo.rootdir</name>

     <value>hdfs://hostname:9000/tajo</value>

   </property>

   <property>

     <name>tajo.worker.tmpdir.locations</name>

     <value>/home/ds/clouderaCDH/tajoTmp</value>

   </property>

 <property>

     <name>tajo.master.umbilical-rpc.address</name>

     <value>hostname:</value>

   </property>

   <property>

     <name>tajo.catalog.client-rpc.address</name>

     <value>hostname:</value>

   </property>

  <property>

     <name>tajo.master.client-rpc.address</name>

     <value>hostname:</value>

   </property>

 <property>

     <name>tajo.worker.parallel-execution.max-num</name>

     <value></value>

   </property>

4、 配置tag-env.sh

# Hadoop home. Required

export HADOOP_HOME=/home/ds/clouderaCDH/hadoop-2.0.-cdh4.2.1

# The java implementation to use.  Required.

export JAVA_HOME=/usr/lib/jvm/java--sun

# The maximum amount of heap to use, in MB. Default is .

export TAJO_MASTER_HEAPSIZE=

# The maximum amount of heap to use, in MB. Default is .

export TAJO_WORKER_HEAPSIZE=

5、 配置workers文件

worker01
worker02

6、 将配置好的tajo同步到其他节点并启动

scp -r tajo02 worker01:/home/ds/clouderaCDH/

bin/start-tajo.sh

7、 查看进程是否启动

jps
TajoMaster
TajoWorker

二、SQL交互

创建表

1、 从hdfs上得csv文件创建外部表

test文件夹下放一个data.csv文件,内容:

|abc|1.1|a
|def|2.3|b
|ghi|3.4|c
|jkl|4.5|d
|mno|5.6|e

创建表并load数据

create external table table1 (id int, name text, score float, type text) using csv with ('csvfile.delimiter'='|') location 'hdfs://hostname:9000/tajo/warehouse/test’

查询交互

支持绝大部分的SQL92。

1、使用limit查询

$ select * from table1 limit ;

id,  name,  score,  type
-------------------------------
, abc, 1.1, a
, def, 2.3, b

三、参考资料

[1]     http://wiki.apache.org/tajo

[2]     http://tajo.incubator.apache.org/

[3]     https://issues.apache.org/jira/browse/TAJO

[4]     http://www.slideshare.net/hyunsikchoi/tajo-intro

[5]     http://vdisk.weibo.com/s/xpJ29

Tajo--一个分布式数据仓库系统(分布式环境安装试用)的更多相关文章

  1. Ubuntu15.10下Hadoop2.6.0伪分布式环境安装配置及Hadoop Streaming的体验

    Ubuntu用的是Ubuntu15.10Beta2版本,正式的版本好像要到这个月的22号才发布.参考的资料主要是http://www.powerxing.com/install-hadoop-clus ...

  2. Hadoop Yarn(一)—— 单机伪分布式环境安装

    HamaWhite(QQ:530422429)原创作品,转载请注明出处:http://write.blog.csdn.net/postedit/40556267. 本文是依据Hadoop官网安装教程写 ...

  3. Hadoop 3.1.3伪分布式环境安装Hive 3.1.2的异常总结

    背景:hadoop版本为3.1.3, 且以伪分布式形式安装,hive版本为3.1.2,hive为hadoop的一个客户端. 1. 安装简要步骤 (1) 官网下载apache-hive-3.1.2-bi ...

  4. Hadoop伪分布式环境安装

    一.环境准备 阿里云ECS(Centos7).已预装JDK8 Hadoop安装包 hadoop-2.7.7.tar.gz 二. 安装步骤 1.确认JDK环境的安装位置 命令 echo $JAVA_HO ...

  5. Hbase 分布式环境安装部署

    Hbase分布式集群搭建--安装步骤 这一步如果没有deploy.sh脚本的可以使用scp命令分别分发到其他节点去 到集群里看看安装好的hbase 使用脚本启动所有节点的zookeeper 启动HDF ...

  6. hadoop分布式环境安装

    1. 下载hadoop和jdk安装包到指定目录,并安装java环境. 2.解压hadoop到指定目录,配置环境变量.vim /etc/profile export JAVA_HOME=/home/xi ...

  7. hadoop 分布式环境安装

    centos 多台机器免密登录 hadoop学习笔记(五)--全分布模式下SSH免密码登陆的实现 参考安装教程 Hadoop-2.7.4 集群快速搭建 启动hadoop cd /opt/soft/ha ...

  8. Hadoop完全分布式环境搭建(四)——基于Ubuntu16.04安装和配置Hadoop大数据环境

    [系统环境] [安装配置概要] 1.上传hadoop安装文件到主节点机器 2.给文件夹设置权限 3.解压 4.拷贝到目标文件夹 放在/opt文件夹下,目录结构:/opt/hadoop/hadoop-2 ...

  9. Tajo--一个分布式数据仓库系统(概述)

    前言:一直对OS X比较仰慕,刚工作送给自己的第一件大礼就是mac pro,嘿嘿.最近在看一个叫tajo得分布式数据仓库,需要依赖protoc 2.4.1,2.5.0都不work,不知道为啥,我在装2 ...

随机推荐

  1. bzoj1011 遥远的行星

    bzoj1011 遥远的行星 原题链接 题解 一道真正的玄学题.... 其实这题根本没法做 首先暴力这么跑:\[ans(s)=\sum_{i=1}^{\lfloor As\rfloor}\frac{M ...

  2. EF中一对多的自反关系设置

            对于一般的目录树,通常就是一对多的自反关系,一般会有一个PID,引用于这个ID,实体类代码类似于下: public partial class Catalog { public Cat ...

  3. youtube高清视频下载方法

    youtube下载方法有多种, 但都不支持1080P以上的高清下载, 今天找到一种支持1080P的, 记录一下 步骤1: 百度搜: Dooseen tubedown 下载该软件, 并安装, 一直下一步 ...

  4. Java泛型理解

    Java泛型提供了编译时类型安全检测机制,该机制允许程序员在编译时检测到非法的类型.当需要使用某一种算法时,又无法具体算法的数据类型,或者想指定类型值的上限或下限,那么这时就需要Java泛型来大显身手 ...

  5. MySQL5.6.14从安装到启动全过程

    1.下载 地址:http://dev.mysql.com/downloads/mysql/ 这里选择的是Linux-Generic平台,下载了MySQL-5.6.14-1.linux_glibc2.5 ...

  6. datax 执行流程分析

    https://www.jianshu.com/nb/29319571 https://www.jianshu.com/p/b10fbdee7e56

  7. 4星|《财经》2018年第15期:电动飞机、无人小飞机、AI无人机

    <财经>2018年第15期 总第532期 旬刊 本期主题是AI.有多篇国内AI行业的比较深入的调查报告,比较有意思的有:电动飞机.无人小飞机.AI无人机.欧盟通用数据保护条例.Amazon ...

  8. 【Pthon入门学习】多级菜单小例子

    menu_list = { '北京':{ '昌平':{ '回龙观':{ '和谐家园':{}, '矩阵小区':{}, '北店家园':{} }, '沙河':{ '北街家园1区':{}, '北街家园2区': ...

  9. 获取秒级时间戳和毫秒级时间戳---基于python

    获取秒级时间戳和毫秒级时间戳 import timeimport datetime t = time.time() print (t) #原始时间数据print (int(t)) #秒级时间戳prin ...

  10. CSS布局之圣杯布局和双飞翼布局

    其实圣杯布局和双飞翼布局实现的都是三栏布局,两边的盒子宽度固定,中间盒子自适应,也就是我们常说的固比固布局.它们实现的效果都是一样的,差别在于其实现的思想. 一.圣杯布局 html代码中,将重要的内容 ...