HMS数据库设置和优化
简介:Hive Metastore (HMS) 是一种服务,用于在后端 RDBMS(例如 MySQL 或 PostgreSQL)中存储与 Apache Hive 和其他服务相关的元数据。本文主要分享HMS数据库设置和优化
设置 Metastore 数据库
如果您有本地集群,则需要知道如何为 Hive Metastore (HMS) 设置后端数据库。设置包括安装受支持的数据库、配置属性、指定 Metastore 位置。您还可以配置可选的连接参数。
您需要为 Hive Metastore (HMS) 安装支持的数据库来存储元数据。您可以通过修改hive-site.xml. 您可以使用 Cloudera Manager 安全阀功能而不是hive set key=value在命令行上。
设置后端 Hive Metastore 数据库
CDP公有云后端Hive Metastore数据库仅支持PostgreSQL,一般无需手动安装。在CDP Private Cloud Base 中,您需要安装、启动和配置后端数据库。
在此过程中,您将在与 HiveServer 不同的节点/集群上安装数据库,以便与 Hive、Impala、Spark 和其他组件共享 Hive 元存储 (HMS)。不要将 HiveServer 和数据库放在同一个节点上。您的集群中可以有一个或多个 HMS 实例,它们可以在出现问题时接管。
安装受支持的数据库。
- MariaDB/MySQL
- PostgreSQL
- Oracle
配置 Metastore 数据库属性
在CDP Private Cloud Base 中,您可以通过使用 Cloudera Manager 安全阀功能间接修改hive-site.xml来配置 Hive 和 Hive 元存储。一个循序渐进的过程向您展示了如何设置一些属性名称和值来代替hive set key=value在命令行上使用,这是不受支持的。
此任务假定数据库正在运行myhost,用户帐户是hiveuser,密码是mypassword。根据您的数据库类型替换以下连接 URL 和驱动程序名称。
- MySQL 连接URL:jdbc:mysql://myhost/metastore
MySQL 驱动程序名称:com.mysql.jdbc.Driver
- Postgres 连接URL:jdbc:postgresql://myhost/metastore
Postgres 驱动程序名称:jdbc:postgresql://myhost/metastore
- Oracle 连接 URL:jdbc:oracle:thin:@//myhost/xe
Oracle 驱动程序名称:oracle.jdbc.OracleDriver
- 以下组件正在运行:
- HiveServer
- Hive Metastore
- Metastore 的数据库,例如默认的 MySQL 服务器
- Hive 客户端
- 最低要求角色:配置者(也由集群管理员、完全管理员提供)
- 通过导航到Cloudera Manager > Hosts > Role(s)并查看角色列表以查找Hive Metastore Server的完全限定域名或 IP 地址。
2. 在Clusters > Hive Metastore > Configuration 中导航到 Metastore 主机配置,然后搜索 javax.jdo.option.ConnectionURL.
3. 在值中,使用以下语法指定数据库连接字符串: <connection protocol>://<metastore host>/<metastore database>?createDatabaseIfNotExist=true
在以 XML 格式查看中,将出现 XML 配置片段。
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://10.65.13.98/mydb?createDatabaseIfNotExist=true</value>
<description>Database connection string</description>
</property>
- 或者,在集群中的所有主机上重复前面的步骤。
- 以相同的方式,在 Metastore 主机(必需)或所有主机(可选)上指定其他必需的连接属性,如下例所示。
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>(your driver name)</value>
</property> <property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property> <property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>mypassword</value>
</property> <property>
<name>datanucleus.autoCreateSchema</name>
<value>false</value>
</property> <property>
<name>datanucleus.fixedDatastore</name>
<value>true</value>
</property> <property>
<name>datanucleus.autoStartMechanism</name>
<value>SchemaTable</value>
</property> <property>
<name>hive.metastore.schema.verification</name>
<value>true</value>
</property>
配置 Metastore 位置和 HTTP 模式
除了需要在CDP Private Cloud Base 中设置的数据库属性之外,还必须配置 Metastore URI 属性。该属性定义了一个或多个 Metastore 位置。
- 最低要求角色:配置者(也由集群管理员、完全管理员提供)
- 在Clusters > Hive Metastore > Configuration 中,搜索hive-site.xml
- 在用于更改 hive-site.xml 中的属性的 Hive Metastore 服务器高级配置安全阀中,单击 + 并hive.metastore.uris使用以下语法添加 属性:thrift://<n.n.n.n>:9083
Metastore 主机的 IP 地址或完全限定域名 (FQDN) 替换<n.n.n.n>。
只有 hive-site.xml 中的 Hive Metastore Server Default Group 应定义此属性。
设置 JDBC URL 连接覆盖
您可以配置 HMS 数据库连接的细粒度调整。您指定一个 JDBC URL 覆盖,这取决于您的数据库,用于建立到 Hive 元存储数据库的连接。
此任务仅适用于高级数据库用户。使用此覆盖时,将覆盖以下属性
- Hive Metastore 数据库名称
- Hive Metastore 数据库主机
- Hive Metastore 数据库端口
- 对 Hive Metastore 数据库启用 TLS/SSL
- 所需的默认用户角色是配置员。
- 您知道用于设置以下属性的值:
- Hive Metastore 数据库类型
- Hive Metastore 数据库用户
- Hive Metastore 数据库密码
- 根据您的集群配置设置 Hive Metastore Database JDBC URL Override 属性的值。
- MySQL
jdbc:mysql://<host>:<port>/<metastore_db>?key=value
- PostgreSQL
jdbc:postgresql://<host>:<port>/<metastore_db>?key=value
- 使用服务名称的 Oracle JDBC Thin
jdbc:oracle:thin:@//<host>:<port>/<service_name>
- 使用 SID 的 Oracle JDBC Thin
jdbc:oracle:thin:@<host>:<port>:<SID>
- 使用 TNSName 的 Oracle JDBC Thin
jdbc:oracle:thin:@<TNSName>
2. 单击保存。
3. 单击 操作>部署客户端配置。
4. 重新启动 Hive Metastore。
优化元存储
与其他调优过程类似,一般 Metastore 调优涉及调整和测试,直到您发现可以提高 Metastore 性能的更改组合。调整建议包括硬件和软件更改。
通常,您需要限制与 Hive Metastore 的并发连接。随着打开连接数量的增加,延迟也会增加。后端数据库问题、Hive 使用不当(例如极其复杂的查询、连接泄漏和其他因素)都会影响性能。
通常的Metastore 调优
尝试进行以下更改以调整 HMS 性能:
- 确保单个查询访问不超过 10,000 个表分区。如果查询连接表,计算跨所有表访问的组合分区计数。
- 调整后端(RDBMS)。HiveServer连接HMS,只有HMS连接RDBMS。后端花费的时间越长,HMS 响应相同请求所需的内存就越多。限制后端数据库中的连接数。
MySQL:例如,在 /etc/my.cnf 中:
[mysqld]
datadir=/var/lib/mysql
max_connections=8192
. . .
MariaDB:例如,在 /etc/systemd/system/mariadb.service.d/limits.conf 中:
[Service]
LimitNOFILE=24000
. . .
- 使用默认的 thrift 属性 (8K):
hive.server2.async.exec.threads 8192
hive.server2.async.exec.wait.queue.size 8192
hive.server2.thrift.max.worker.threads 8192
- datanucleus.connectionPool.maxPoolSize为您的应用程序设置。例如,如果 poolSize = 100,有 3 个 HMS 实例(一个专用于压缩),每个服务器有 4 个池,则可以容纳 1200 个连接。
原文链接
本文为阿里云原创内容,未经允许不得转载。
HMS数据库设置和优化的更多相关文章
- 数据库访问性能优化 Oracle
特别说明: 1. 本文只是面对数据库应用开发的程序员,不适合专业DBA,DBA在数据库性能优化方面需要了解更多的知识: 2. 本文许多示例及概念是基于Oracle数据库描述,对于其它关系型数据库也 ...
- 【转载】HBase 数据库检索性能优化策略
转自:http://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html 高性能 HBase 数据库 本文首先介绍了 HBase 数据库基本 ...
- 聊聊数据库~4.SQL优化篇
1.5.查询的艺术 上期回顾:https://www.cnblogs.com/dotnetcrazy/p/10399838.html 本节脚本:https://github.com/lotapp/Ba ...
- Flask之数据库设置
4 数据库 知识点 Flask-SQLALchemy安装 连接数据库 使用数据库 数据库迁移 邮件扩展 4.1 数据库的设置 Web应用中普遍使用的是关系模型的数据库,关系型数据库把所有的数据都存储在 ...
- MySQL性能调优与架构设计——第8章 MySQL数据库Query的优化
第8章 MySQL数据库Query的优化 前言: 在之前“影响 MySQL 应用系统性能的相关因素”一章中我们就已经分析过了Query语句对数据库性能的影响非常大,所以本章将专门针对 MySQL 的 ...
- Oracle学习总结(8)—— 面向程序员的数据库访问性能优化法则
特别说明: 1. 本文只是面对数据库应用开发的程序员,不适合专业DBA,DBA在数据库性能优化方面需要了解更多的知识: 2. 本文许多示例及概念是基于Oracle数据库描述,对于其它关系型数据库也 ...
- 数据库顶会VLDB论文解读:阿里数据库智能参数优化的创新与实践
前言 一年一度的数据库领域顶级会议VLDB 2019于美国当地时间8月26日-8月30日在洛杉矶召开.在本届大会上,阿里云数据库产品团队多篇论文入选Research Track和Industrial ...
- Django 数据库访问性能优化
使用标准的数据库优化技术: 在进行Django数据库访问性能优化之前,首先应该使用标准的数据库技术对其进行优化,比如给字段加索引,通过使用 django.db.models.Field.db_inde ...
- Mariadb数据库设置及操作 一主多从 备份还原(实测笔记)
环境: 系统硬件:vmware vsphere (CPU:2*4核,内存2G,双网卡) 系统版本:CentOS-7-x86_64-Minimal-1611.iso 数据库版本信息 : 10.1.20- ...
- golang github.com/go-sql-driver/mysql 遇到的数据库,设置库设计不合理的解决方法
golang github.com/go-sql-driver/mysql 遇到的数据库,设置库设计不合理的解决方法,查询中报了以下这个错 Scan error on column index 2: ...
随机推荐
- 洞元智维产品上线:江浙沪PV访问量飙升背后的深层逻辑与未来发展趋势
洞元智维产品自上线以来,凭借其卓越的智能化产品性能和出色的用户体验,迅速在市场上崭露头角,特别是在上海.江苏.浙江等经济发达地区,其PV访问量持续飙升.这不仅反映了用户对智能化产品的强烈需求,更揭示了 ...
- 记录--JS 的垃圾回收机制
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前言 垃圾回收(Garbage Collection)是一种内存管理机制,用于检测和清理不再被程序使用的内存,这些不再被使用的内存就被称为 ...
- 【IOT安全】ASA5520基本知识和配置
本文主要介绍ASA5520防火墙的基本知识和配置 环境搭建 Linux eveng 5.17.8-eve-ng-uksm-wg+ #1 SMP PREEMPT Mon May 16 10:08:59 ...
- OpenCvSharp+Yolov5Net+Onnx 完整Demo
效果 工程 代码 using Microsoft.ML.OnnxRuntime; using OpenCvSharp; using System; using System.Collections.G ...
- c# 正则提取内容例子
分类 代码/语法 说明 捕获 (exp) 匹配exp,并捕获文本到自动命名的组里 (?<name>exp) 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp) ...
- KingbaseES 配置 Hugepage
前言 大页的作用是为了提升内存管理的效率,减少内存管理资源消耗(节省pagetable的开销),特别是对于大内存的情况,同时,由于hugepage相对与4k的页面,它更不容易被交换出内存,因此,它的作 ...
- JS实现决策报表缓存最后一次查询条件
问题描述 决策报表在打开时希望参数控件的值可以默认是上一次页面关闭前最后一次查询所选择的值. 解决方案 每次点击查询后将参数值保存到浏览器缓存中(适用于控件在参数栏内),或每次控件值发生改变后将参数值 ...
- #团,构造#洛谷 3524 [POI2011]IMP-Party
题目 有一个 \(3n\) 个点的无向图,保证有一个大小为 \(2n\) 的团,输出一个大小为 \(n\) 的团 分析 每次选择两个不相连的点删掉,那么剩下的 \(n\) 个点一定是团, 因为每次至少 ...
- #线段树,矩阵乘法#洛谷 7453 [THUSCH2017] 大魔法师
题目 分析 首先考虑如果修改操作都是单点修改怎么做, 以第一种修改为例那么就是 \[\left[\begin{matrix}A\\B\\C\\1\end{matrix}\right] \times \ ...
- #笛卡尔树,dp#洛谷 7244 章节划分
题目 分析 考虑段数受到答案限制,而答案为最大值的约数,那么枚举答案, 设\(dp[i]\)表示前\(i\)个位置分完最多可以分多少段只要\(dp[n]\geq k\)即合法. 那么\(dp[i]=\ ...