impala 和 kudu 小记

1. impala（官网）

实时交互SQL大数据查询工具
它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
Impala的最大特点也是最大卖点就是它的快速。
Impala完全抛弃了Hive+MapReduce这个不太适合做SQL查询的缓慢范式
通过使用与商用并行关系数据库中类似的分布式查询引擎，可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟

2. Hive 与 impala

Impala与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面
但从客户端使用来看Impala与Hive有很多的共同之处，如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池、用户界面（Hue Beeswax）等。
Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询

可以先使用hive进行数据转换处理，之后使用Impala在Hive处理后的结果数据集上进行快速的数据分析。

官方文档

3. impala 和hive 语法和数据基本相通

1）invalidate metadata;

可以把hive元数据（数据）刷新同步过来

2）更多sql不同参考

3）impala的jdbc接口

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.PreparedStatement;

import java.sql.ResultSet;

import java.sql.SQLException;

public class UpdateMeta

{

    static String JDBC_DRIVER = "com.cloudera.impala.jdbc41.Driver";

    static String CONNECTION_URL = "jdbc:impala://192.168.0.22:21050/db_1";     ###  jdbc:impala://域名/数据库

    public static void main(String[] args)

    {

        Connection con = null;

        ResultSet rs = null;

        PreparedStatement ps = null;

        try

        {

            Class.forName(JDBC_DRIVER);

            con = DriverManager.getConnection(CONNECTION_URL);

            ps = con.prepareStatement("select max(dtime),count(dtime) from achi");

            rs = ps.executeQuery();

            while (rs.next())

            {

                System.out.println(rs.getString(1) + '\t' + rs.getLong(2));

            }

        } catch (Exception e)

        {

            e.printStackTrace();

        } finally

        {

            //关闭rs、ps和con

        }

    }

}

4 CDH

hadoop是一个开源项目，所以很多公司在这个基础进行商业化，Cloudera对hadoop做了相应的改变

Cloudera公司的发行版，我们将该版本称为CDH(Cloudera Distribution Hadoop)

5. kudu

列式存储引擎
更多详情参考

6. parquet 表

1）面向分析型业务的列式存储格式；既可以支持关系型数据，也可以支持嵌套的数据类型

2）列式存储的优点

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。
压缩编码 可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码（例如Run Length Encoding和Delta Encoding）进一步节约存储空间。
只读取需要的列，支持向量运算，能够获取更好的扫描性能。

3）parquet表的insert之前要设置 set hive.merge.mapfiles=false;
　　如果它的输入包含不止一个mapreduce，比如join/group by/distinct，要建一个RCF的中转表，然后再select into

6. hive的三种常用存储格式

Hive的三种文件格式：TEXTFILE、SEQUENCEFILE、RCFILE

TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的
RCFILE是基于行列混合的思想，先按行把数据划分成N个row group，在row group中对每个列分别进行存储。
详细查看

impala 和 kudu 小记的更多相关文章

通过java代码进行impala和kudu的对接
对于impala而言,开发人员是可以通过JDBC连接impala的,有了JDBC,开发人员可以通过impala来间接操作kudu: maven导包: <!-- https://mvnreposi ...
使用impala对kudu进行DML操作
将数据插入 Kudu 表 impala 允许使用标准 SQL 语句将数据插入 Kudu 插入单个值创建表: CREATE TABLE my_first_table ( id BIGINT, name ...
使用impala操作kudu之创建kudu表（内部表和外部表）
依次启动HDFS.mysql.hive.kudu.impala 登录impala的shell控制端: Impala-shell 1:使用该impala-shell命令启动Impala Shell .默 ...
Java实现impala操作kudu
推荐阅读: 论主数据的重要性(正确理解元数据.数据元) CDC+ETL实现数据集成方案 Java实现impala操作kudu 实战kudu集成impala 对于impala而言,开发人员是可以通过JD ...
impala和kudu使用的小细节
七堇年:我们要有最朴素的生活与最遥远的梦想 . 即使明日天寒地冻,路远马亡. 加油! 之前入门的小错误总结,建表都会出错,真的好尴尬还是要做好笔记第一个错误: error:AnalysisEx ...
通过impala更改Kudu表属性
开发人员可以通过更改表的属性来更改 Impala 与给定 Kudu 表相关的元数据.这些属性包括表名, Kudu 主地址列表,以及表是否由 Impala (内部)或外部管理. Rename an Im ...
Impala SQL 使用小记
1. impala端创建的表,DROP. hive会自动同步到. 但是通过hive DROP时,数据还会在,只是表的元数据没有了. 所以完全DROP表,需要impala端的DROP 2. impal ...
kudu集成impala
Kudu 与 Apache Impala (孵化)紧密集成,允许开发人员使用 Impala 使用 Impala 的 SQL 语法从 Kudu tablets 插入,查询,更新和删除数据: 安装impa ...
Kudu+Impala介绍
Kudu+Impala介绍概述 Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目.Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性 ...

随机推荐

java线程调度原则
线程的调度采用占先原则,优先级越高的线程越优先执行.每个JAVA线程优先级有设置在常数1-10的范围,默认值是5.但优先级高并不代表能独自占用执行时间片,而是优先级越高得到越多的执行时间片,反之,优先 ...
vi命令【方向键】变字母键的解决方法
vi命令[方向键]变字母键的解决方法最近在SSH下玩Debian发现了一个有趣的现象,就是在一些个别版本的Debian镜像下,使用vi命令时会出现键盘输出出错的现象,使用方向键时会变成C,D等字 ...
Sublime Text 3中文乱码问题解决(最新)
Sublime Text 3是我MacBook Pro最喜欢的代码编辑器,没有之一,因为她的性感高亮代码配色,更因为它的小巧,但是它默认不支持GBK的编码格式,因此打开GBK的代码文件,如果里面有中文 ...
Java NIO系列教程（五）Buffer
Java NIO中的Buffer用于和NIO通道进行交互.如你所知,数据是从通道读入缓冲区,从缓冲区写入到通道中的.交互图如下: 缓冲区本质上是一块可以写入数据,然后可以从中读取数据的内存.这块内存被 ...
学习笔记之Introduction to Data Visualization with Python | DataCamp
Introduction to Data Visualization with Python | DataCamp https://www.datacamp.com/courses/introduct ...
学习笔记之Sublime Text
Sublime Text - A sophisticated text editor for code, markup and prose https://www.sublimetext.com/ A ...
廖雪峰Java1-3流程控制-1输入输出
1.输入导入java.util.Scanner 创建Scanner对象并传入System.in 使用Scanner.nextLine()读取用户输入的字符串 Scanner.nextInt()读取用 ...
kubernetes k8s yum localinstall
localinstall 是安装在本地的rpm包顺便解决依赖关系 yum localinstall docker-common-1.12.6-68.gitec8512b.el7.centos.x86_ ...
Python首次安装后运行报错(0xc000007b)的解决方法
最近在安装完Python后运行发现居然报错了,错误代码是0xc000007b,于是通过往上查找发现是因为首次安装Python缺乏VC++库的原因,下面通过这篇文章看看如何解决这个问题吧. 错误提示 ...
PLSQL导出对象的表结构和表数据
https://jingyan.baidu.com/article/fcb5aff78e6a48edab4a7146.html