HiveServer连接优化

引言

数据平台目前通过Hive SQL的方式提供数据分析服务，系统使用多台HiveServer（JDBCServer）接收客户端连接请求，实际使用场景中频频出现HiveServer内存消耗过多导致机器Swap过高，需要重启HiveServer来缓解问题，但在某些任务比较集中的时间段往往会导致大量任务执行失败（我们配备了相应的任务重试机制，但也会带来一定的影响）。

在与运维同学的流通过程中，偶然提到是否可能某台HiveServer接收的连接请求过多，执行过程中负担过重引起的（暂不考虑其它可能因素），引出如下思考：

（1）目前平台内置两种HiveServer选择算法：随机选择器（通过随机数对HiveServer数目取余）、哈希选择器（通过UUID的哈希值对HiveServer数目取余），目前采用随机选择器；

（2）目前平台两个模块需要与HiveServer频繁交互：作业管理、数据查询，随着业务发展还会有其它逐步衍生其它模块；

问题：随机（哈希）选择算法仅仅考虑单个模块内连接的均衡，而且没有考虑HiveServer正在执行的语句条数（表示繁忙程度，粒度比较粗），在这样的场景下确实可能会出现某台HiveServer在特殊时段内负担相对较重。

思路

当需要与HiveServer建立连接时，应该有一个接口能够给出当前所有HiveServer各自的工作负载情况（根据当前正在执行的SQL语句条数判断），选择工作负载最低的HiveServer进行连接。

因为一次连接存在期间，可以执行多条SQL语句，而且多个模块的存在，在每个模块内置入代码是非常不方便的，因此考虑在HiveServer内部实现。

实现

要给出当前所有HiveServer各自的工作负载情况，就需要有数据源提供当前所有HiveServer各自正在执行哪些SQL语句（条数），因此HiveServer在执行语句之前、之后需要能够给出相应通知，并持久化到数据源，依据该数据源中的实时数据，即可计算工作负载。

假设数据源为MySQL，我们至少需要这样的一张表：

server	HiveServer名称，同一台机器可以开启多个HiveServer实例
hook	PRE_EXEC_HOOK、POST_EXEC_HOOK，分别表示语句执行开始之前、执行线束之后
queryId	HiveServer内部语句唯一ID
queryStr	具体执行语句，可根据语句复杂度计算工作负载
jobName	平台自己设置，我们仅仅考虑会转化为MR任务的语句，jobName即为MR JobName
preTime	语句执行之前的时间戳
postTime	语句执行之后的时间戳

问题：HiveServer如何在执行语句之前、之后发出相应的通知？

我们使用Hive Hook机制，需要实出接口ExecuteWithHookContext，核心代码如下：

　　　　　　　　　QueryPlan queryPlan = hookContext.getQueryPlan();

		HiveConf conf = hookContext.getConf();

		String queryId = queryPlan.getQueryId();

		if (StringUtils.isEmpty(queryId)) {

			LOGGER.warn("queryId is null or empty, return");

			return;

		}

		LOGGER.info("queryId: " + queryId);

		String queryStr = URLEncoder.encode(queryPlan.getQueryStr(),

				CharEncoding.UTF_8);

		if (StringUtils.isEmpty(queryStr)) {

			LOGGER.warn("queryStr is null or empty, return");

			return;

		}

		LOGGER.info("queryStr: " + queryStr);

		String jobName = conf.getVar(HiveConf.ConfVars.HADOOPJOBNAME);

		LOGGER.info("jobName: " + jobName);

		if (StringUtils.isEmpty(jobName)) {

			LOGGER.warn("jobName is null or empty, return");

			return;

		}

		String server = conf.get("hiveserver.execute.hook.server");

		if (StringUtils.isEmpty(server)) {

			LOGGER.warn("server is null or empty, return");

			return;

		}

		LOGGER.info("server: " + server);

		String rest = conf.get("hiveserver.execute.hook.rest");

		LOGGER.info("rest: " + rest);

		if (StringUtils.isEmpty(rest)) {

			LOGGER.warn("rest is null or empty, return");

			return;

		}

		Map<String, String> params = new HashMap<String, String>();

		params.put("server", server);

		params.put("hook", hookContext.getHookType().toString());

		params.put("queryId", queryId);

		params.put("queryStr", queryStr);

		params.put("jobName", jobName);

		params.put("timestamp", String.valueOf(DatetimeUtil.now()));

		try {

			HttpClientUtil.doPost(rest, params);

		} catch (Exception e) {

			LOGGER.error("do post error: "

					+ ExceptionUtils.getFullStackTrace(e));

		}

可以看出，该Hook同时可以用于PreHook与PostHook，而且为了保持代码的“轻量级”，并没有直接进行数据的持久化，而是通过Rest API交由外部模块处理。

此外需要在hive-site.xml文件中进行相应的设置，如下：

启动HiveServer时，需要指定该实例的名称与具体的Rest API地址，如下：

hive --service hiveserver --hiveconf hiveserver.execute.hook.server=localhost:10000 --hiveconf hiveserver.execute.hook.rest=http://localhost:8088/rest/hiveserver/send

总结

通过以上的机制可以获取到所有（指定）HiveServer当前（时段内）正在执行的语句条数（如果只有PreTime值，而PostTime值为Null，则表示该条语句正在执行），依此可以计算各自的工作负载，从而选取工作负载最小的HiveServer进行连接。

后期进一步优化时还可以充分利用JobName，平台每次执行查询任务时均会设置mapred.job.name属性，用以统计一次查询（可以有多条SQL语句）所处理的数据量、消耗的时间等信息，可以利用这些历史数据信息，用于估计当前正在执行的SQL语句的可能消耗时间，进行优化工作负载的计算。

HiveServer连接优化的更多相关文章

mysql优化之连接优化(open-files-limit与table_open_cache）
MySQL打开的文件描述符限制 Can't open file: '.\test\mytable.frm' (errno: 24) OS error code : Too many open file ...
mysql优化之连接优化
Posted by Money Talks on 2012/02/23 | 第一篇序章第二篇连接优化第三篇索引优化第四篇查询优化第五篇到实战中去连接优化连接优化主要指客户端连接数据库以及 ...
MySQL优化二（连接优化和缓存优化）
body { font-family: Helvetica, arial, sans-serif; font-size: 14px; line-height: 1.6; padding-top: 10 ...
百度APP移动端网络深度优化实践分享(二)：网络连接优化篇
本文由百度技术团队“蔡锐”原创发表于“百度App技术”公众号,原题为<百度App网络深度优化系列<二>连接优化>,感谢原作者的无私分享. 一.前言在<百度APP移动端网 ...
【mysql 优化 5】左连接和右连接优化
原文地址:8.2.1.8 Left Join and Right Join Optimization mysql以下列方式实现一个A left join B 连接条件: 1,表B设置为依赖于表A和A所 ...
MySQL实验内连接优化order by+limit 以及添加索引再次改进
MySQL实验内连接优化order by+limit 以及添加索引再次改进在进行子查询优化双参数limit时我萌生了测试更加符合实际生产需要的ORDER BY + LIMIT的想法,或许我们也可以 ...
网络编程Netty IoT百万长连接优化
目录 IoT推送系统 IoT是什么 IoT推送系统的设计心跳检测机制简述心跳检测心跳检测机制代码示例百万长连接优化连接优化代码示例 TCP连接四元组配置优化 IoT推送系统 IoT是什么 ...
http连接优化
http连接的性能优化并行连接(能够同一时候和多台server建立HTTP连接) 持久连接管道化连接复用的连接并行连接长处: 并行连接能够在带宽资源充足的情况下同一时候建立多个HTTP连接, ...
【mysql 优化 4】嵌套连接优化
原文地址:Nested Join Optimization 与SQL标准相比,table_factor的语法被扩展.后者仅接受table_reference,而不是一对括号内的列表.如果我们将tabl ...

随机推荐

mybatis 与 ehcache 整合[转]
1.简介 MyBatis 是支持普通SQL 查询,存储过程和高级映射的优秀持久层框架.MyBatis 消除了几乎所有的JDBC 代码和参数的手工设置以及结果集的检索. Ehcache 是现在最流行的纯 ...
MYSQL 体系结构图-log (踏雪无痕) （UC技术博客)
http://www.cnblogs.com/chenpingzhao/category/690116.html http://www.cnblogs.com/chenpingzhao/p/51074 ...
window7 远程连接拒绝访问
windows7 远程连接拒绝访问 ----------------------------- 找了很多网络文章,都没有解决问题. 然后突然: 用Administrator超级管理员修改了一下想要 ...
[转] Boost智能指针——scoped_ptr
http://www.cnblogs.com/tianfang/archive/2008/09/15/1291050.html boost::scoped_ptr和std::auto_ptr非常类似, ...
JNI之本地线程进入c层
在JNI开发中有时候会遇到在c层创建小线程的情况.从本质来讲,java线程和c线程都是请求kerner获取的,只是一段执行序列.从这个角度看,线程并没有什么不同,java线程和c线程可以通用. 然而在 ...
Linux磁盘管理：lvcreate 常用命令
查看当前LV及PV信息: [root@rusky ~]# hostnamectl Static hostname: localhost.localdomain Transient hostname: ...
php laravel mysql无法连接处理方案（linux服务器配置）
阿里云 Ubuntu 14.*上搭建laravel环境之前做项目时都是搭建在自己的服务器上,可是自己的那个服务器是很久以前一点点配置好的,也是各种百度,该忘记的都忘了, 所以前一段在客户的阿里云Ub ...
HttpClient4.0
****************************HttpClient4.0用法***************************** 1.初始化HttpParams,设置组件参数 //Ht ...
jQuery的live()方法对hover事件的处理示例
hover([over,]out) 一个模仿悬停事件(鼠标移动到一个对象上面及移出这个对象)的方法当鼠标移动到一个匹配的元素上面时,会触发指定的第一个函数. 当鼠标移出这个元素时,会触发指定的第二个 ...
“死锁” 与 python多线程之threading模块下的锁机制
一:死锁在死锁之前需要先了解的概念是“可抢占资源”与“不可抢占资源”[此处的资源可以是硬件设备也可以是一组信息],因为死锁是与不可抢占资源有关的. 可抢占资源:可以从拥有他的进程中抢占而不会发生副作 ...

HiveServer连接优化

HiveServer连接优化的更多相关文章

随机推荐

热门专题