1.概述

　　在现实业务当中，存在这样的业务场景，需要实时去查询HDFS上的相关存储数据，普通的查询（如：Hive查询），时延较高。那么，是否存在时延较小的查询组件。在业界目前较为成熟的有Cloudera的Impala，Apache的Drill，Hortonworks的Stinger。本篇博客主要为大家介绍Drill，其他两种方式大家可以自行下去补充。

2.Drill Architecture

2.1 Cilent

　　使用Drill，可以通过以下方式进入到Drill当中，内容如下所示：

Drill shell：使用客户端命令去操作
Drill Web Console：Web UI界面去操作相关内容
ODBC/JDBC：使用驱动接口操作
C++ API：C++的API接口

2.2 Drill Query Execution

　　执行流程如下图所示：

2.3 Core Modules

　　核心模块图，如下所示：

　　至于详细的文字描述，这里就不多做赘述了。大家看图若是有疑惑的地方，可以去官方网站，查看详细的文档描述。［官方文档］

3.Drill使用

　　介绍完Drill的架构流程，下面我们可以去使用Drill去做相关查询操作。安装Drill的过程比较简单，这里就不多做详细的赘述了。首先，去Apache的官网下载Drill的安装包，这里笔者所使用的本版是drill-1.2.0。可独立部署在物理机上，不必与Hadoop集群部署在一起。这里需要注意的是，物理机的内存至少留有4G空闲给Drill去使用。不然，在执行查询操作的时候会内容溢出，查询Drill的官方文档，官方给出的解释是，操作的内容都在内容中完成，不会写磁盘，除非你强制指明去写磁盘，但是，一般考虑到响应速度因素，都会在内容中完成。笔者曾试图降低其内存配置小于4G，然并卵。所以，在使用Drill做查询时，需要保证物理机空闲内存大于等于4G。

［JDK下载地址］
［Drill下载地址］

　　目前，Drill迭代版本比较快速。大家在下载Drill版本的时候，可以多多留意下版本内容变化。

　　在解压Drill的压缩包后，在其conf文件夹下有一个drill-override.conf文件，这里我们在里面添加Web UI的访问地址，添加的内容我们可以在drill-override-example.conf模版文件中查找对应的内容。添加内容如下所示：

drill.exec: {

  cluster-id: "drillbits1",

  zk.connect: "dn1:2181,dn2:2181,dn2:2181",

  http: {

    enabled: true,

    ssl_enabled: false,

    port:

  }

}

　　这里需要注意的是，Drill需要用ZK，这里笔者就直接使用Hadoop集群的ZooKeeper集群连接信息地址。在添加完内容后，可以使用以下命令启动。

./drillbit.sh start

　　启动之后，Web UI界面如下所示：

　　目前条件有限，只有单台物理机，所以只部署了单台Drill。若是，大家条件允许，可以查看官网文档去部署Cluster。Drill插件默认是没有HDFS的，需要我们主动去创建，默认只有以下插件，如下图所示：

　　这里，笔者已经配置过HDFS的插件，故上图出现HDFS插件信息，其配置信息如下所示：

{

  "type": "file",

  "enabled": true,

  "connection": "hdfs://hadoop.company.com:9000/",

  "workspaces": {

    "root": {

      "location": "/opt/drill",

      "writable": true,

      "defaultInputFormat": null

    }

  },

  "formats": {

    "csv": {

      "type": "text",

      "extensions": [

        "csv"

      ],

      "delimiter": ","

    },

    "tsv": {

      "type": "text",

      "extensions": [

        "tsv"

      ],

      "delimiter": "\t"

    },

    "parquet": {

      "type": "parquet"

    }

  }

}

　　PS：这里要保证HDFS的地址信息正确。另外，Drill支持的存储介质较多，大家参考官方文档去添加对应的存储介质。

　　在添加HDFS插件之后，我们可以通过Web UI界面的查询界面进行文件查询，也可以使用Drill Shell命令在终端去查询。查询方式如下所示：

Web UI查询命令：

Web UI结果如下：

　　另外，其查询记录详情可以在Profiles模块下查看。如下图所示：

Drill Shell查询：

./sqlline -u jdbc:drill:zk=dn1,dn2,dn3:

Drill Shell 查询结果：

4.总结

　　这里，笔者做过一个性能测试比较，数量级分别为10W，100W，1000W的不重复数据，其响应时间依次递增。结果如下图所示：

　　通过测试结果可以看出，若是数量级在100W时，响应时间平均在秒级别，可以尝试用Drill去中OLTP业务。若是在1000W以上级别，显然这个延时做OLTP是难以接受的，这个可以去做OLAP业务。

5.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Hadoop - 实时查询Drill的更多相关文章

SQL Server2016 新功能实时查询统计信息
SQL Server2016 新功能实时查询统计信息很多时候有这样的场景,开发抱怨DBA没有调优好数据库,DBA抱怨开发写的程序代码差,因此,DBA和开发都成为了死对头,无法真正排查问题. DBA只 ...
实时查询引擎 - Facebook Presto 介绍与应用
1. Presto 是什么 Facebook presto是什么,继Facebook创建了HIVE神器后的又一以SQL语言作为接口的分布式实时查询引擎,可以对PB级的数据进行快速的交互式查询.它支 ...
Druid：一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统
转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...
一步一步跟我学习lucene（19）---lucene增量更新和NRT(near-real-time)Query近实时查询
这两天加班,不能兼顾博客的更新.请大家见谅. 有时候我们创建完索引之后,数据源可能有更新的内容.而我们又想像数据库那样能直接体如今查询中.这里就是我们所说的增量索引.对于这种需求我们怎么来实现呢?lu ...
Impala简介PB级大数据实时查询分析引擎
1.Impala简介 • Cloudera公司推出,提供对HDFS.Hbase数据的高性能.低延迟的交互式SQL查询功能. • 基于Hive使用内存计算,兼顾数据仓库.具有实时.批处理.多并发等优点 ...
java定时器和实时查询数据库
定时器: Timer timer = new Timer(); timer.schedule(new TimerTask() { ...
基于Solr的HBase实时查询方案
实时查询方案 HBase+Solr+HBase-Indexer 1.HBase提供海量数据存储 2.solr提供索引构建与查询 3.HBase indexer提供自己主动化索引构建(从HBase到So ...
PHP—— 商品物流实时查询接口（快递100API对接）
PHP后台与前端对接商品物流信息的接口运用的快递100的API接口 public function getExpress() { $user_id = input('post.user_ ...
PB级数据实时查询，滴滴Elasticsearch多集群架构实践
PB级数据实时查询,滴滴Elasticsearch多集群架构实践 mp.weixin.qq.com 点击上方"IT牧场",选择"设为星标"技术干货每日送达点 ...

随机推荐

Google Chrome: Make the Bookmarks Bar Display as Icons Only
By reducing your bookmarks to show only the icons, you can access more of them from the Bookmarks ba ...
Webpack使用教程一
过去数年间,web开发已经从包含少量JavaScript代码的应用发展到到拥有复杂JavaScript代码和代码之间依赖关系树的应用.手动维护这些复杂的代码依赖关系是很麻烦的.Webpack能分析项目 ...
开发VR游戏的基本要求
由于我对VR技术的兴趣,我特意去网上查找了一下如果要从事VR游戏的开发,程序员要掌握的一些能力和要求.可能不太详细,只供参考. 1. C++ 语言必须过关,现在大部分的3dengine都用c++,不管 ...
Wix 安装部署（二）自定义安装界面和行为
上一篇介绍了如何联合MSBuild来自动生成打包文件和对WIX的一些初步认识,http://www.cnblogs.com/stoneniqiu/p/3355086.html . 这篇会在上篇的基础上 ...
[异常] openCV安装和配置
http://blog.csdn.net/mygis2005/article/details/10472717 >_<" 这个链接亲测可行,我试了很多次,找了很多个都不行,最后怀 ...
[ACM_搜索] POJ 1096 Space Station Shielding （搜索 + 洪泛算法Flood_Fill）
Description Roger Wilco is in charge of the design of a low orbiting space station for the planet Ma ...
CheckStyle, 强制你遵循编码规范
如今代码静态检查越来越重要,已经成为构建高质量软件的不可或缺的一个验证步骤.如果你使用的是java语言,那么CheckStyle则是一个利器. CheckStyle能够帮助程序员检查代码是否符合制定的 ...
celery简单应用
写作背景介绍在celery简单入门中已经介绍了写作的背景,这篇文章主要是深入介绍celery的使用技巧.在实际的项目中我们需要明确前后台的分界线,因此我们的celery编写的时候就应该是分成前后台两 ...
ServiceStack 概念
目录 ServiceStack 概念 ServiceStack Web Service 创建与调用简单示列 ServiceStack ServiceStack是.Net和Mono的开源框架,相对WCF ...
iOS-OC内存管理
目标 1.[理解]内存管理 2.[掌握]第一个MRC程序 3.[掌握]内存管理的原则 4.[理解]野指针与僵尸对象 5.[理解]单个对象的内存管理 6.[理解]多个对象的内存管理 7.[掌握]set方 ...

Hadoop - 实时查询Drill