先解释一下几个名词：

metadata ：hive元数据，即hive定义的表名，字段名，类型，分区，用户这些数据。一般存储关系型书库mysql中，在测试阶段也可以用hive内置Derby数据库。
metastore ：hivestore服务端。主要提供将DDL，DML等语句转换为MapReduce，提交到hdfs中。
hiveserver2：hive服务端。提供hive服务。客户端可以通过beeline，jdbc（即用java代码链接）等多种方式链接到hive。
beeline：hive客户端链接到hive的一个工具。可以理解成mysql的客户端。如：navite cat 等。

其它语言访问hive主要是通过hiveserver2服务，HiveServer2(HS2)是一种能使客户端执行Hive查询的服务。HiveServer2可以支持对 HiveServer2 的嵌入式和远程访问，支持多客户端并发和身份认证。旨在为开放API客户端（如JDBC和ODBC）提供更好的支持。

会启动一个hive服务端默认端口为：10000，可以通过beeline，jdbc，odbc的方式链接到hive。hiveserver2启动的时候会先检查有没有配置hive.metastore.uris，如果没有会先启动一个metastore服务，然后在启动hiveserver2。如果有配置hive.metastore.uris。会连接到远程的metastore服务。这种方式是最常用的。部署在图如下：

Python连接Hive

Python3访问hive需要安装的依赖有：

pip3 install thrift
pip3 install PyHive
pip3 install sasl
pip3 install thrift_sasl

这里有一个Python访问Hive的工具类：

# -*- coding:utf-8 -*-

from pyhive import hive

class HiveClient(object):

	"""docstring for HiveClient"""

	def __init__(self, host='hadoop-master',port=10000,username='hadoop',password='hadoop',database='hadoop',auth='LDAP'):

		"""

		create connection to hive server2

		"""

		self.conn = hive.Connection(host=host,

			port=port,

			username=username,

			password=password,

			database=database,

			auth=auth) 

	def query(self, sql):

		"""

		query

		"""

		with self.conn.cursor() as cursor:

			cursor.execute(sql)

			return cursor.fetchall()

	def insert(self, sql):

		"""

		insert action

		"""

		with self.conn.cursor() as cursor:

			cursor.execute(sql)

			# self.conn.commit()

			# self.conn.rollback()

	def close(self):

		"""

		close connection

		"""

		self.conn.close()

使用的时候，只需要导入，然后创建一个对象实例即可，传入sql调用query方法完成查询。

# 拿一个连接

hclient = hive.HiveClient()

# 执行查询操作

...

# 关闭连接

hclient.close()

注意：在insert插入方法中，我将self.conn.commit()和self.conn.rollback()即回滚注释了，这是传统关系型数据库才有的事务操作，Hive中是不支持的。

Java连接Hive

Java作为大数据的基础语言，连接hive自然是支持的很好的，这里介绍通过jdbc和mybatis两种方法连接hive。

1. Jdbc连接

java通过jdbc连接hiveserver，跟传统的jdbc连接mysql方法一样。

需要hive-jdbc依赖：

<dependency>

    <groupId>org.apache.hive</groupId>

    <artifactId>hive-jdbc</artifactId>

    <version>1.2.1</version>

</dependency>

代码跟连接mysql套路一样，都是使用的DriverManager.getConnection(url, username, password)：

@NoArgsConstructor

@AllArgsConstructor

@Data

@ToString

public class HiveConfigModel {

    private String url = "jdbc:hive2://localhost:10000";

    private String username = "hadoop";

    private String password = "hadoop";

}

@Test

public void test(){

    // 初始化配置

    HiveConfigModel hiveConfigModel = ConfigureContext.getInstance("hive-config.properties")

            .addClass(HiveConfigModel.class)

            .getModelProperties(HiveConfigModel.class);

    try {

        Connection conn = DriverManager.getConnection(hiveConfigModel.getUrl(),

                hiveConfigModel.getUsername(), hiveConfigModel.getPassword());

        String sql = "show tables";

        PreparedStatement preparedStatement = conn.prepareStatement(sql);

        ResultSet rs = preparedStatement.executeQuery();

        List<String> tables = new ArrayList<>();

        while (rs.next()){

            tables.add(rs.getString(1));

        }

        System.out.println(tables);

    } catch (SQLException e) {

        e.printStackTrace();

    }

}

在hive-jdbc-1.2.1.jar的META-INF下有个services目录，里面有个java.sql.Driver文件，内容是：

org.apache.hive.jdbc.HiveDriver

java.sql.DriverManager使用spi实现了服务接口与服务实现分离以达到解耦，在这里jdbc的实现org.apache.hive.jdbc.HiveDriver根据java.sql.Driver提供的统一规范实现逻辑。客户端使用jdbc时不需要去改变代码，直接引入不同的spi接口服务即可。

DriverManager.getConnection(url, username, password)

这样即可拿到连接，前提是具体实现需要遵循相应的spi规范。

2. 整合mybatis

通常都会使用mybatis来做dao层访问数据库，访问hive也是类似的。

配置文件sqlConfig.xml：

<?xml version="1.0" encoding="UTF-8" ?>

<!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN"

        "http://mybatis.org/dtd/mybatis-3-config.dtd">

<configuration>

    <environments default="production">

        <environment id="production">

            <transactionManager type="JDBC"/>

            <dataSource type="POOLED">

                <property name="driver" value="org.apache.hive.jdbc.HiveDriver"/>

                <property name="url" value="jdbc:hive2://master:10000/default"/>

                <property name="username" value="hadoop"/>

                <property name="password" value="hadoop"/>

            </dataSource>

        </environment>

    </environments>

    <mappers>

        <mapper resource="mapper/hive/test/test.xml"/>

    </mappers>

</configuration>

mapper代码省略，实现代码：

public classTestMapperImpl implements TestMapper {

    private static SqlSessionFactory sqlSessionFactory = HiveSqlSessionFactory.getInstance().getSqlSessionFactory();

    @Override

    public int getTestCount(String dateTime) {

        SqlSession sqlSession = sqlSessionFactory.openSession();

        TestMapper testMapper = sqlSession.getMapper(TestMapper.class);

        int count = testMapper.getTestCount(dateTime);

        sqlSession.close();

        return count;

    }

}

其它语言通过HiveServer2访问Hive的更多相关文章

Spark&Hive：如何使用scala开发spark访问hive作业，如何使用yarn resourcemanager。
背景: 接到任务,需要在一个一天数据量在460亿条记录的hive表中,筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度: 解析规则譬如: 需要解析host: api.m ...
Hive基础（2）---（启动HiveServer2）Hive严格模式
启动方式 1, hive 命令行模式,直接输入/hive/bin/hive的执行程序,或者输入 hive –service cli 用于linux平台命令行查询,查询语句基本跟mysql查询语句类似 ...
ODBC database driver for Go：Go语言通过ODBC 访问SQL server
Go语言通过ODBC 访问SQL server,这里需要用到go-odbc库,开源地址::https://github.com/weigj/go-odbc 一.驱动安装在cmd中打开GOPATH: ...
SparkSQL On Yarn with Hive，操作和访问Hive表
转载自:http://lxw1234.com/archives/2015/08/466.htm 本文将介绍以yarn-cluster模式运行SparkSQL应用程序,访问和操作Hive中的表,这个和在 ...
使用spark访问hive错误记录
在spark集群中执行./spark-shell时报以下错误: 18/07/23 10:02:39 WARN DataNucleus.Connection: BoneCP specified but ...
Spark访问Hive表
知识点1:Spark访问HIVE上面的数据配置注意点:. 1.拷贝mysql-connector-java-5.1.38-bin.jar等相关的jar包到你${spark_home}/lib中(sp ...
spark on yarn模式下配置spark-sql访问hive元数据
spark on yarn模式下配置spark-sql访问hive元数据目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive ...
pyinstaller打包python源程序访问hive
1.需求使用hvie server一段时间后,业务部门需要自己不定时的查询业务数据,之前这一块都是他们提需求我们来做,后来发现这样重复一样的工作放在我们这边做是在没有效率,遂提出给他们工具或者web ...
访问hive显示原数据报错
访问hive报错如下: FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.Ru ...

随机推荐

ABBYY FineReader 14新增了什么
FineReader 是一款一体化的 OCR 和PDF编辑转换器,随着版本的更新,功能的增加,FineReader 14的推出继续为用户在处理文档时提高业务生产力,该版本包含若干新特性和功能增强,包括 ...
Camtasia的标记使用方法
相信大家都想过学习或者尝试过编辑视频,可能曾经也下载使用过微课录制软件Camtasia(win),或许现在也还在使用.小编现在也经常使用Camtasia录屏编辑视频,在编辑的过程中,总是会不小心在轨道 ...
python中操作excel数据封装成一个类
本文用python中openpyxl库,封装成excel数据的读写方法 from openpyxl import load_workbook from openpyxl.worksheet.works ...
精尽MyBatis源码分析 - SQL执行过程（四）之延迟加载
该系列文档是本人在学习 Mybatis 的源码过程中总结下来的,可能对读者不太友好,请结合我的源码注释(Mybatis源码分析 GitHub 地址.Mybatis-Spring 源码分析 GitHub ...
Snap Build Your Own Block修炼之道-添加自定义类别
Snap Build Your Own Block自我修炼方法:1.所有的面向对象,其实是对面向过程的抽象过程而已: 2.面对别人的开源项目时,需要找准源头(即项目运行的起点,当然有的是没有的哈,没有 ...
LaTeX中的数学公式之多行公式
多行公式的代码及注释: 显示效果:
移动端和web端的性能指标
移动端的性能指标: 1.内存:80% 2.CPU 3.流量 4.电量 5.启动速度 6.滑动速度.界面切换速度 7.与服务器交互的网络速度 web端的性能指标: 1.CPU 2.内存 3.网络 4.I ...
spring mvc 文件上传报“由于没有提供multi-part配置，无法处理parts”
在使用springMVC进行文件上传时,报了HTTP 500的错. 才发现原来是在springmvc.xml配置文件中,multipart中的id写错了. 错误代码: <!-- 配置文件解析器- ...
Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理
利用Spark往Hive中存储parquet数据,针对一些复杂数据类型如map.array.struct的处理遇到的问题? 为了更好的说明导致问题的原因.现象以及解决方案,首先看下述示例: -- 创建 ...
Feign 自定义 ErrorDecoder (捕获 Feign 服务端异常)
问题描述 Feign 客户端捕获不到服务端抛出的异常问题解决重新 ErrorDecoder 即可,比如下面例子中在登录鉴权时想使用认证服务器抛出 OAuth2Exception 的异常,代码如下: ...