使用impala操作kudu之创建kudu表（内部表和外部表）

依次启动HDFS、mysql、hive、kudu、impala

登录impala的shell控制端：

Impala-shell

1：使用该impala-shell命令启动Impala Shell 。默认情况下，impala-shell 尝试连接到localhost端口21000 上的Impala守护程序。要连接到其他主机，请使用该-i <host:port>选项。要自动连接到特定的Impala数据库，请使用该-d <database>选项。例如，如果您的所有Kudu表都位于数据库中的Impala中impala_kudu，则-d impala_kudu可以使用此数据库。

2：要退出Impala Shell，请使用以下命令： quit;

使用Impala创建新的Kudu表时，可以将该表创建为内部表或外部表。

内部表

内部表由Impala管理，当您从Impala中删除时，数据和表确实被删除。当您使用Impala创建新表时，它通常是内部表。

使用impala创建内部表：

CREATE TABLE my_first_table

(

  id BIGINT,

  name STRING,

  PRIMARY KEY(id)

)

PARTITION BY HASH PARTITIONS 16

STORED AS KUDU

TBLPROPERTIES (

  'kudu.master_addresses' = 'hadoop01:7051,hadoop02:7051,hadoop03:7051',

  'kudu.table_name' = 'my_first_table'

);

在 CREATE TABLE 语句中，必须首先列出构成主键的列。

此时创建的表是内部表，从impala删除表的时候，在底层存储的kudu也会删除表

drop table if exists my_first_table;

使用 CREATE TABLE ... AS SELECT 语句查询 Impala 中的任何其他表或表来创建表

准备kudu表和数据，使用java创建kudu表以及插入数据：

创建kudu表：

import org.apache.kudu.ColumnSchema;

import org.apache.kudu.Schema;

import org.apache.kudu.Type;

import org.apache.kudu.client.CreateTableOptions;

import org.apache.kudu.client.KuduClient;

import org.apache.kudu.client.KuduException;

import java.util.LinkedList;

import java.util.List;

public class CreateTable {

    private static ColumnSchema newColumn(String name, Type type, boolean iskey) {

        ColumnSchema.ColumnSchemaBuilder column = new ColumnSchema.ColumnSchemaBuilder(name, type);

        column.key(iskey);

        return column.build();

    }

    public static void main(String[] args) throws KuduException {

        // master地址

        final String masteraddr = "hadoop01,hadoop02,hadoop03";

        // 创建kudu的数据库链接

        KuduClient client = new KuduClient.KuduClientBuilder(masteraddr).defaultSocketReadTimeoutMs(6000).build();

        // 设置表的schema

        List<ColumnSchema> columns = new LinkedList<ColumnSchema>();

        columns.add(newColumn("CompanyId", Type.INT32, true));

        columns.add(newColumn("WorkId", Type.INT32, false));

        columns.add(newColumn("Name", Type.STRING, false));

        columns.add(newColumn("Gender", Type.STRING, false));

        columns.add(newColumn("Photo", Type.STRING, false));

        Schema schema = new Schema(columns);

        //创建表时提供的所有选项

        CreateTableOptions options = new CreateTableOptions();

        // 设置表的replica备份和分区规则

        List<String> parcols = new LinkedList<String>();

        parcols.add("CompanyId");

        //设置表的备份数

        options.setNumReplicas(1);

        //设置range分区

        options.setRangePartitionColumns(parcols);

        //设置hash分区和数量

        options.addHashPartitions(parcols, 3);

        try {

            client.createTable("PERSON", schema, options);

        } catch (KuduException e) {

            e.printStackTrace();

        }

        client.close();

    }

}

插入数据到kudu：

import org.apache.kudu.client.*;

import org.apache.kudu.client.SessionConfiguration.FlushMode;

public class InsertRow {

    public static void main(String[] args) throws KuduException {

        // master地址

        final String masteraddr = "hadoop01,hadoop02,hadoop03";

        // 创建kudu的数据库链接

        KuduClient client = new KuduClient.KuduClientBuilder(masteraddr).build();

        // 打开表

        KuduTable table = client.openTable("PERSON");

        // 创建写session,kudu必须通过session写入

        KuduSession session = client.newSession();

        // 采取Flush方式 手动刷新

        session.setFlushMode(FlushMode.MANUAL_FLUSH);

        session.setMutationBufferSpace(3000);

        for (int i = 1; i < 10; i++) {

            Insert insert = table.newInsert();

            // 设置字段内容

            insert.getRow().addInt("CompanyId", i);

            insert.getRow().addInt("WorkId", i);

            insert.getRow().addString("Name", "lisi" + i);

            insert.getRow().addString("Gender", "male");

            insert.getRow().addString("Photo", "person" + i);

            session.flush();

            session.apply(insert);

        }

        session.close();

        client.close();

    }

}

将kudu中的表映射到impala中：

CREATE EXTERNAL TABLE kudu_PERSON

STORED AS KUDU

TBLPROPERTIES (

  'kudu.master_addresses' = 'hadoop01:7051,hadoop02:7051,hadoop03:7051',

  'kudu.table_name' = 'PERSON'

);

使用CREATE TABLE ... AS SELECT 创建新表

CREATE TABLE new_table

PRIMARY KEY (companyid)

PARTITION BY HASH(companyid) PARTITIONS 8

STORED AS KUDU

AS SELECT companyid, workid, name ,gender,photo FROM kudu_PERSON;

结果：

[angel1:21000] > CREATE TABLE new_table

               > PRIMARY KEY (companyid)

               > PARTITION BY HASH(companyid) PARTITIONS 8

               > STORED AS KUDU

               > AS SELECT companyid, workid, name ,gender,photo FROM kudu_PERSON;

Query: create TABLE new_table

PRIMARY KEY (companyid)

PARTITION BY HASH(companyid) PARTITIONS 8

STORED AS KUDU

AS SELECT companyid, workid, name ,gender,photo FROM kudu_PERSON

+-------------------+

| summary           |

+-------------------+

| Inserted 9 row(s) |

+-------------------+

Fetched 1 row(s) in 1.05s

外部表

外部表（创建者CREATE EXTERNAL TABLE）不受Impala管理，并且删除此表不会将表从其源位置（此处为Kudu）丢弃。相反，它只会去除Impala和Kudu之间的映射。这是Kudu提供的用于将现有表映射到Impala的语法。

使用java创建一个kudu表：

public class CreateTable {

    private static ColumnSchema newColumn(String name, Type type, boolean iskey) {

        ColumnSchema.ColumnSchemaBuilder column = new ColumnSchema.ColumnSchemaBuilder(name, type);

        column.key(iskey);

        return column.build();

    }

    public static void main(String[] args) throws KuduException {

        // master地址

        final String masteraddr = "hadoop01,hadoop02,hadoop03";

        // 创建kudu的数据库链接

        KuduClient client = new KuduClient.KuduClientBuilder(masteraddr).defaultSocketReadTimeoutMs(6000).build();

        // 设置表的schema

        List<ColumnSchema> columns = new LinkedList<ColumnSchema>();

        columns.add(newColumn("CompanyId", Type.INT32, true));

        columns.add(newColumn("WorkId", Type.INT32, false));

        columns.add(newColumn("Name", Type.STRING, false));

        columns.add(newColumn("Gender", Type.STRING, false));

        columns.add(newColumn("Photo", Type.STRING, false));

        Schema schema = new Schema(columns);

        //创建表时提供的所有选项

        CreateTableOptions options = new CreateTableOptions();

        // 设置表的replica备份和分区规则

        List<String> parcols = new LinkedList<String>();

        parcols.add("CompanyId");

        //设置表的备份数

        options.setNumReplicas(1);

        //设置range分区

        options.setRangePartitionColumns(parcols);

        //设置hash分区和数量

        options.addHashPartitions(parcols, 3);

        try {

            client.createTable("PERSON", schema, options);

        } catch (KuduException e) {

            e.printStackTrace();

        }

        client.close();

    }

}

使用impala创建外部表，将kudu的表映射到impala上：

CREATE EXTERNAL TABLE my_mapping_table

STORED AS KUDU

TBLPROPERTIES (

  'kudu.master_addresses' = 'hadoop01:7051,hadoop02:7051,hadoop03:7051',

  'kudu.table_name' = 'PERSON'

);

使用impala操作kudu之创建kudu表（内部表和外部表）的更多相关文章

第2节 hive基本操作：9、hive当中创建外部表的语法及外部表的操作&分区表的语法和操作
外部表: 外部表说明: 外部表因为是指定其他的hdfs路径的数据加载到表当中来,所以hive表会认为自己不完全独占这份数据,所以删除hive表的时候,数据仍然存放在hdfs当中,不会删掉管理表和外部 ...
【原创】大叔经验分享（8）创建hive表时用内部表还是外部表
内部表和外部表最主要的一个差别就是删除表或者删除分区时,底层的文件是否自动删除,内部表会自动删除,外部表不会自动删除,所以基础数据表一定要用外部表,即使误删表或分区之后,还可以很容易的恢复回来. 虽然 ...
如何利用Oracle外部表导入文本文件的数据
同事最近在忙数据一致性比对工作,需要对不同文本文件中的数据进行比对,有的文件较大,记录较多,如果用普通的文本编辑器打开的话,很显然,会很卡,甚至打不开. 基于此,可将该文本文件的数据导入到数据库中,在 ...
分区表,桶表,外部表,以及hive一些命令行小工具
hive中的表与hdfs中的文件通过metastore关联起来的.Hive的数据模型:内部表,分区表,外部表,桶表受控表(managed table):包括内部表,分区表,桶表内部表: 我们删除表的 ...
Oracle外部表详解(转载)
(外部表创建主要注意创建目录访问权限问题.目录路径格式无空格等不相关字符,即必须是当前表访问用户可以访问:关于表中行数的限制问题,如果不加限制注意添加reject limit unlimited:表中 ...
Oracle外部表详解
外部表概述外部表只能在Oracle 9i之后来使用.简单地说,外部表,是指不存在于数据库中的表.通过向Oracle提供描述外部表的元数据,我们可以把一个操作系统文件当成一个只读的数据库表,就像这些数 ...
hive表与外部表的区别
相信很多用户都用过关系型数据库,我们可以在关系型数据库里面创建表(create table),这里要讨论的表和关系型数据库中的表在概念上很类似.我们可以用下面的语句在Hive里面创建一个表: hive ...
GreenPlum 大数据平台--外部表(三)
一,外部表介绍 Greenplum 在数据加载上有一个明显的优势,就是支持数据的并发加载,gpfdisk是并发加载的工具,数据库中对应的就是外部表所谓外部表,就是在数据库中只有表定义.没有数据,数据 ...
hive内部表与外部表区别详细介绍
问题导读:1.创建内部表与外部表的区别是什么?2.external关键字的作用是什么?3.外部表与内部表的区别是什么?4.删除表的时候,内部表与外部表有什么区别?5.load data local i ...

随机推荐

设计模式--观察者模式Observer（对象行为型）
一.观察者模式观察者模式是在对象之间定义一对多的依赖,这样一来,当一个对象改变状态,依赖它的对象都会收到通知,并自动更新.观察者模式也被称之为:主题-观察者模式,发布-订阅模式,前者是一,后者是多. ...
【原创】Linux基础之chkconfig systemd
CentOS6服务用chkconfig控制,CentOS7改为systemd控制 1 systemd systemd is a suite of basic building blocks for a ...
轻松搞懂elasticsearch概念
本文主要介绍elasticsearch6.0的一些基本概念,有助于深入理解.研究elasticsearch和elk系统一图胜千言 elasticsearch与mysql参照来看添加一条数据紫 ...
数字、ip转换python实现
# 数字 ==> ip # 数字范围[0, 255^4] >>> num2ip = lambda x: '.'.join([str(x/(256**i)%256) for i ...
HTML中特殊符号的处理
一.写在前面今天在写页面时记不清大/小于符号该怎么写,于是就想着整理一下方便后面用到! 二.HTML中常用特殊符号的处理 < < 小于号或显示标记 > ...
git的学习笔记(一):git本地操作
1.Git介绍 Git是一个开源的分布式版本控制软件,用以有效.高速的处理从很小到非常大的项目版本管理. Git 最初是由Linus Torvalds设计开发的,用于管理Linux内核开发. Git ...
Confluence 6 升级你的许可证
如果你修改了你的许可证(例如为你的许可证增加了更多的用户),或者从 Cloud 中整合到你本地,你需要更新你的许可证. 希望更新你的额许可证: 进入 > 基本配置(General Config ...
vue-列表嵌套
解决在编程方式下无法访问Spark Master问题
我们可以选择使用spark-shell,spark-submit或者编写代码的方式运行Spark.在产品环境下,利用spark-submit将jar提交到spark,是较为常见的做法.但是在开发期间, ...
新建maven项目错误处理
1.如果新建maven 项目确省maven dependencies,则在存在问题工程的.classpath末尾加上 <classpathentry kind="con" ...

使用impala操作kudu之创建kudu表（内部表和外部表）

内部表

使用 CREATE TABLE ... AS SELECT 语句查询 Impala 中的任何其他表或表来创建表

外部表

使用impala操作kudu之创建kudu表（内部表和外部表）的更多相关文章

随机推荐

热门专题