1.概述

　　在《Hadoop - 实时查询Drill》一文当中，笔者给大家介绍如何去处理实时查询这样的业务场景，也是简略的提了一下如何去实时查询HDFS，然起相关细节并未说明。今天给大家细说一下相关细节，其中包含：HDFS，Hive以及HBase等内容。

2.数据源和文件格式

　　在使用Drill去做实时查询，由于其只是一个中间件，其适配的存储介质是有限制的，目前官方支持以下存储介质：

FS
HDFS
HBase
Hive
RDBMS
MongoDB
MapR-DB
S3

　　这里笔者主要给大家介绍HDFS，Hive，HBase这三种介质。另外，Drill支持以下输入格式的数据源：

Avro
CSV
TSV
PSV
Parquet
MapR-DB*
Hadoop Sequence Files

2.1 文本类型文件（CSV，TSV，PSV）

　　下面笔者给大家介绍文本类型的相关细节，文本类型的使用，有其固定的使用方法，通用配置如下：

"formats": {

    "csv": {

      "type": "text",

      "extensions": [

        "txt"

      ],

      "delimiter": "\t"

    },

    "tsv": {

      "type": "text",

      "extensions": [

        "tsv"

      ],

      "delimiter": "\t"

    },

    "parquet": {

      "type": "parquet"

    }

  }

　　这里以CSV为例子来说明：

"csv"：表示固定的文本格式
"type"：制定文件的类型，这里指定为文本类型
"extensions"：扩展名为csv
"delimiter"：文本内容，每行的分隔符为一个tab占位符

　　上面的配置，这里我们也可以进行拓展，比如我们的HDFS上的文件格式如下图所示：

　　我们要达到以下查询结果，内容如下所示：

: jdbc:drill:zk=local> SELECT * FROM hdfs.`/tmp/csv_with_header.csv2`;

+------------------------+

|        columns         |

+------------------------+

| ["hello","","",""]  |

| ["hello","","",""]  |

| ["hello","","",""]  |

| ["hello","","",""]  |

| ["hello","","",""]  |

| ["hello","","",""]  |

| ["hello","","",""]  |

+------------------------+

　　那么，我们可以对其做以下配置，内容如下所示：

"csv": {

  "type": "text",

  "extensions": [

    "csv2"

  ],

  "skipFirstLine": true,

  "delimiter": ","

},

　　这里skipFirstLine这个属性表示忽略一行结果。

　　另外，同样用到上面的数据源，我们要实现以下查询结果，内容如下所示：

: jdbc:drill:zk=local> SELECT * FROM hdfs.`/tmp/csv_with_header.csv2`;

+-------+------+------+------+

| name  | num1 | num2 | num3 |

+-------+------+------+------+

| hello |     |     |     |

| hello |     |     |     |

| hello |     |     |     |

| hello |     |     |     |

| hello |     |     |     |

| hello |     |     |     |

| hello |     |     |     |

+-------+------+------+------+

　　这该如何去修改CSV的属性，我们添加以下内容即可：

"csv": {

  "type": "text",

  "extensions": [

    "csv2"

  ],

  "skipFirstLine": false,

  "extractHeader": true,

  "delimiter": ","

},

　　从单词的意义上可以很直接的读懂属性所要表达的意思，这里就不多做赘述了。由于篇幅问题，这里就不一一列举了。

　　其他格式文件与此类似，填写指定文件格式，文件类型，扩展名，文本分隔符即可，其他扩展属性可按需添加。

3.Plugins

3.1 HDFS

　　集成HDFS的Plugins，添加内容如下所示：

{

  "type": "file",

  "enabled": true,

  "connection": "hdfs://hdfs.company.com:9000/",

  "workspaces": {

    "root": {

      "location": "/opt/drill",

      "writable": true,

      "defaultInputFormat": null

    }

  },

  "formats": {

    "csv": {

      "type": "text",

      "extensions": [

        "txt"

      ],

      "delimiter": "\t"

    },

    "tsv": {

      "type": "text",

      "extensions": [

        "tsv"

      ],

      "delimiter": "\t"

    },

    "parquet": {

      "type": "parquet"

    }

  }

}

　　PS：连接HDFS地址注意要正确。

3.2 Hive

　　集成Hive的Plugins，添加内容如下所示：

{

  "type": "hive",

  "enabled": true,

  "configProps": {

    "hive.metastore.uris": "thrift://hdfs.company.com:9083",

    "fs.default.name": "hdfs://hdfs.company.com/",

    "hive.metastore.sasl.enabled": "false"

  }

}

　　PS：这里需要指定Hive的metastore的thrift地址，同时也需要指定hdfs的地址。另外，我们需要启动metastore的thrift服务，命令如下所示：

hive --service metastore

　　这里需要注意的是，Drill当前不支持写操作到Hive表，在将Hive表结构中的数据类型做查询映射时，支持以下类型：

支持的SQL类型	Hive类型
BIGINT	BIGINT
BOOLEAN	BOOLEAN
VARCHAR	CHAR
DATE	DATE
DECIMAL*	DECIMAL
FLOAT	FLOAT
DOUBLE	DOUBLE
INTEGER	INT,TINYINT,SMALLINT
INTERVAL	N/A
TIME	N/A
N/A	TIMESPAMP　　(unix的系统时间)
TIMESPAMP	TIMESPAMP　　(JDBC时间格式：yyyy-mm-dd hh:mm:ss)
None	STRING
VARCHAR	VARCHAR
VARBINARY	BINARY

　　另外，在Drill中，不支持以下Hive类型：

LIST
MAP
STRUCT
TIMESTAMP（Unix Epoch format）
UNION

3.3 HBase

　　集成HBase的Plugins，添加内容如下所示：

{

  "type": "hbase",

  "config": {

    "hbase.zookeeper.quorum": "hbase-zk01,hbase-zk02,hbase-zk03",

    "hbase.zookeeper.property.clientPort": ""

  },

  "size.calculator.enabled": false,

  "enabled": true

}

　　PS：在使用ZooKeeper集群连接信息时，需要注意的是，Drill在解析HBase的Plugins时，会解析其HBase集群上的ZK集群信息，如：在HBase集群中的ZK信息配置使用的时域名，这里在配置其HBase的Plugins的ZK连接信息也需使用对应的域名，若是直接填写IP，解析会失败。保证解析的一致性。

4.总结

　　另外，在使用JDBC或ODBC去操作Drill的时候，连接信息的使用是需要注意的，直接按照官方给出的连接方式硬套是有问题的，这里我们修改以下连接信息。连接分2种情况，一种指定其Drill的IP和PORT，第二种，使用ZK的连接方式，如jdbc:drill:zk=dn1,dn2,dn3:2181即可。

5.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Hadoop－Drill深度剖析的更多相关文章

hadoop(一):深度剖析hdfs原理
在配置hbase集群将 hdfs 挂接到其它镜像盘时,有不少困惑的地方,结合以前的资料再次学习; 大数据底层技术的三大基石起源于Google在2006年之前的三篇论文GFS.Map-Reduce. ...
planning深度剖析
planning深度剖析结合find命令过滤目录及文件名后缀: find /home/hadoop/nisj/automationDemand/ -type f -name '*.py'|xargs ...
深度剖析HBase负载均衡和性能指标
深度剖析HBase负载均衡和性能指标在分布式系统中,负载均衡是一个非常重要的功能,HBase通过Region的数量实现负载均衡,即通过hbase.master.loadbalancer.class实 ...
《AngularJS深度剖析与最佳实践》简介
由于年末将至,前阵子一直忙于工作的事务,不得已暂停了微信订阅号的更新,我将会在后续的时间里尽快的继续为大家推送更多的博文.毕竟一个人的力量微薄,精力有限,希望大家能理解,仍然能一如既往的关注和支持sh ...
ASP.NET Core管道深度剖析（2）：创建一个“迷你版”的管道来模拟真实管道请求处理流程
从<ASP.NET Core管道深度剖析(1):采用管道处理HTTP请求>我们知道ASP.NET Core请求处理管道由一个服务器和一组有序的中间件组成,所以从总体设计来讲是非常简单的,但 ...
Objective-C类成员变量深度剖析
目录 Non Fragile ivars 为什么Non Fragile ivars很关键如何寻址类成员变量真正的“如何寻址类成员变量” Non Fragile ivars布局调整为什么Objec ...
大众点评开源分布式监控平台 CAT 深度剖析
一.CAT介绍 CAT系统原型和理念来源于eBay的CAL的系统,CAT系统第一代设计者吴其敏在eBay工作长达十几年,对CAL系统有深刻的理解.CAT不仅增强了CAL系统核心模型,还添加了更丰富的报 ...
深度剖析WordPress主题结构(转）
利用强大的技术,可以把基于wordpress的网站做成各种各样的形式,这除了要求wordpress主题开发人员精通html,PHP,JS,CSS等技术,还需要开发者掌握WordPress主题的框架. ...
LCD深度剖析
LCD 深度剖析来源:http://blog.csdn.net/hardy_2009/article/details/6922900 http://blog.csdn.net/jaylondon/a ...

随机推荐

Libgls 1.0.1 发布，OpenGL 立体渲染
Libgls 1.0.1 只是修复了一些小问题,更新了 FindGLS.cmake 脚本. Libgls 允许 OpenGL 立体渲染,不需要硬件支持四缓冲立体.支持许多立体显示模式,从立体眼镜的3D ...
Swift 笔记
苹果官方文档 https://developer.apple.com CocoaChina帮助文档 http://www.cocoachina.com/special/swift/ 74个Swift标 ...
html5之touch事件
前言一个触屏网站到底和传统的pc端网站有什么区别呢,交互方式的改变首当其冲.例如我们常用的click事件,在触屏设备下是如此无力. 手机上的大部分交互都是通过touch来实现的,于是,对于触屏的交互 ...
DigitalOcean上使用Tornado+MongoDB+Nginx+Supervisor+DnsPod快速搭建个人博客
DigitalOcean 之前买了个便宜的VPS并且在上面搭建了我自己写的博客程序,后来VPS里运行MongoDB经常自己挂掉就索性没理了.直到现在VPS已经过期,服务器被强制关掉了.周末在家索性想着 ...
[Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)
最近在使用Python爬取网页内容时,总是遇到JS临时加载.动态获取网页信息的困难.例如爬取CSDN下载资源评论.搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题 ...
atitit.编程语言程序语言的工具性和材料性双重性 and 语言无关性本质
atitit.编程语言程序语言的工具性和材料性双重性 and 语言无关性本质 #---语言的工具和材料双重性有的人说语言是个工具,有的人说语言是个材料..实际上语言同时属于两个属性. ...
iOS开发——高级技术&签名机制
签名机制最近看了objc.io上第17期中的文章 <Inside Code Signing> 对应的中文翻译版 <代码签名探析> ,受益颇深,对iOS代码签名机制有了进一步的 ...
微信小程序笔记（二）
微信小程序环境搭建与开发工具介绍 2-1 开篇介绍及下载工具 1.开发工具下载地址: http://t.cn/RVKH0HS 2.下载安装对应版本:win32,win64,mac; 2-2 小程序 ...
解决JS传参中文乱码
function PopupFK(cNum,type){ var url = "contract!Paying.action"; url = url + "?contra ...
android: permission和uses-permission
首先,先看一下permission定义的格式: <permission android:description="string resource" android:icon= ...

Hadoop－Drill深度剖析