Apache Hive

Apache Hive 基本理论与安装指南

一.Hive的基本理论 Hive是在HDFS之上的架构,Hive中含有其自身的组件,解释器.编译器.执行器.优化器.解释器用于对脚本进行解释,编译器是对高级语言代码进行编译,执行器是对java代码的执行,优化器是在执行过程中进行优化.这里的代码就是Hadoop中的MapReduce,这里的MapReduce通过Hive往HDFS上执行.分析.查询数据. 上图展示hql的执行过程,一个hql脚本首先到hive的解释器,转化为MapReduce(当然例如“select * from table_na…

Apache Hive处理数据示例

继上一篇文章介绍如何使用Pig处理HDFS上的数据,本文将介绍使用Apache Hive进行数据查询和处理. Apache Hive简介首先Hive是一款数据仓库软件使用HiveQL来结构化和查询存放的数据执行环境:MapReduce, Tez, Spark 数据存放:HDFS, HBase 使用场景:数据挖掘和分析,机器学习,即席查询等 Hive使用示例还是使用passwd作为操作文件 beeline> !quit [cloudera@quickstart ~]$ hdfs dfs -…

Apache Hive 存储方式、压缩格式

简介: Apache hive 存储方式跟压缩格式! 1.Text File hive> create external table tab_textfile ( host string comment 'client ip address', local_time string comment 'client access time', api string comment 'request api', request_type string comment 'request method,…

解决kylin sync table报错：MetaException(message:java.lang.ClassNotFoundException Class org.apache.hive.hcatalog.data.JsonSerDe not found

在kylin-gui中sync表default.customer_visit时报错: -- ::, ERROR [http-bio--exec-] controller.BasicController: : java.lang.RuntimeException: cannot get HiveTableMeta at org.apache.kylin.source.hive.HiveSourceTableLoader.extractHiveTables(HiveSourceTableLoader…

Spring boot with Apache Hive

5.29.1. Maven <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-jdbc</artifactId> </dependency> <dependency> <groupId>org.springframework.data</groupId> <art…

Apache Hive 安装文档

简介: Apache hive 是基于 Hadoop 的一个开源的数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能,将 SQL 语句转换为 MapReduce 任务执行. Apache hive 数据库仓库工具管理着两类数据:MetaData ( 这里我们存储在远程 MySQL DataBase 中 ).Data 存储在 HDFS 之上! 一.MySQL # http://www.cnblogs.com/wangxiaoqiangs/p/5336048.htm…

Apache Hive （四）Hive的连接3种连接方式

转自:https://www.cnblogs.com/qingyunzong/p/8715925.html 一.CLI连接进入到 bin 目录下,直接输入命令: [hadoop@hadoop3 ~]$ hive SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/hadoop/apps/apache-hive-2.3.3-bin/lib/log4j-slf4j-i…

Apache Hive 建表操作的简单描述

客户端连接hive [root@bigdata-02 bin]# ./beeline Beeline version by Apache Hive beeline: Connecting : Enter username :: root Enter password :: ****** Connected ) Driver: Hive JDBC (version ) Transaction isolation: TRANSACTION_REPEAtable_READ : jdbc:hive2::…

Apache Hive 简介及安装

简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL 查询功能. 本质是将 SQL 转换为 MapReduce 程序. 主要用途:用来做离线数据分析,比直接用 MapReduce 开发效率更高.Hive 利用 HDFS 存储数据,利用 MapReduce 查询分析数据. 数据库和数据仓库的区别在于: 数据库是面向事务的设计,数据仓库是面向主题设计的. 数据库一般存储业务数据,数据仓库存储的一般是历史数据. 数据库设计是尽量避免冗余…

系统解析Apache Hive

Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好.延展性好.高容错等特点,多应用于离线数仓建设. 1. Hive架构存储:Hive底层存储依赖于hdfs,因此也支持hdfs所支持的数据存储格式,如text.json.parquet等.当我们将一个文件映射为Hive中一张表时,只需在建表的时告诉Hive,数据中的列名.列分隔符.行分隔符等,Hive就可以自动解析数据. 支持多种压缩格式:bzip2.g…

Ubuntu16.04安装apache hive

0.常规配置操作可参照以下网址: 0.1 Ubuntu安装hive,并配置mysql作为元数据库http://dblab.xmu.edu.cn/blog/install-hive/ ------以下为学习笔记及错误记录,与常规操作略有差异,供参考------- 1.官网下载apache-hive-2.3.7-bin.tar.gz:https://mirror.bit.edu.cn/apache/hive/ 2.移动到Ubuntu里的"下载"文件夹 3.解压到指定路径/usr/local…

【大数据系列】apache hive 官方文档翻译

GettingStarted 开始 Created by Confluence Administrator, last modified by Lefty Leverenz on Jun 15, 2017 本文档由Confluence管理员创建,2017年6月15日由Lefty Leverenz最后做的修改. Table of Contents 表格内容包含 Installation and Configuration 安装和配置 Running HiveServer2 and Beeli…

Apache Hive 执行HQL语句报错 ( 10G )

# 故障描述: hive > , ) as uuid, count(distinct(request_body["uuid"])) as count from log_bftv_api where year= and month= and day= and request_body[ group by order by uuid; # hive 执行该HQL语句时报错信息如下:( 数据量小的时候没有问题 ) # 报错信息: MapReduce Total cumulative C…

Apache Hive （七）Hive的DDL操作

转自:https://www.cnblogs.com/qingyunzong/p/8723271.html 库操作 1.创建库语法结构 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] //关于数据块的描述 [LOCATION hdfs_path] //指定数据库在HDFS上的存储位置 [WITH DBPROPERTIES (property_name=property_value…

Apache Hive （三）Hive元数据信息对应MySQL数据库表

转自:https://www.cnblogs.com/qingyunzong/p/8710356.html 概述 Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理.上一篇hive的安装也是将元数据信息存放在MySQL数据库中. Hive的元数据信息在MySQL数据中有57张表一.存储Hive版本的元数据表(VERSION) VERSION -- 查询版本信息该表比较简单,但很重要. VER_ID SCHEMA_VERSION VERSION_COM…

Apache Hive （二）Hive安装

转自:https://www.cnblogs.com/qingyunzong/p/8708057.html Hive的下载下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3 Hive的安装 1.使用MySQL做为Hive的元数据库,所以先安装MySQL. MySql安装过程http://www.cnblogs.com/qingyunzong/p/8294876.htm…

如何在 Apache Hive 中解析 Json 数组

我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Functions (UDFs).我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数:get_json_object 和 json_tuple.用过这两个函数的同学肯定知道,其职能解析最普通的 Json 字符串,如下: hive (default)> SELECT get_json_object('{"website"…

笔记：Hive的主要技术改进（Major Technical Advancements in Apache Hive）

http://web.cse.ohio-state.edu/hpcs/WWW/HTML/publications/papers/TR-14-2.pdf (辅助参考:https://cwiki.apache.org/confluence/display/Hive/Correlation+Optimizer ) Introductionhive的主要不足: 存储和查询计划执行.文中提出了三个主要的改进点新的文件格式 ORC 查询计划组件优化(关联优化器correlation optimizer…

apache hive 1.0.0发布

直接从0.14升级到1.0.0,主要变化有: 去掉hiveserver 1 定义公共的API,比如HiveMetaStoreClient 当然,也需要使用新的beeline cli客户端. 不过最值得期待的还是下一个hive版本 1.1.0,将会允许hive在spark上执行.…

Apache Hive （六）Hive SQL之数据类型和存储格式

转自:https://www.cnblogs.com/qingyunzong/p/8733924.html 一.数据类型 1.基本数据类型 Hive 支持关系型数据中大多数基本数据类型类型描述示例 boolean true/false TRUE tinyint 1字节的有符号整数 -128~127 1Y smallint 2个字节的有符号整数,-32768~32767 1S int 4个字节的带符号整数 1 bigint 8字节带符号整数 1L float 4字节单精度浮点数 1.0 do…

Apache Hive （五）DbVisualizer配置连接hive

转自:https://www.cnblogs.com/qingyunzong/p/8715250.html 一.安装DbVisualizer 下载地址http://www.dbvis.com/ 也可以从网上下载破解版程序,此处使用的版本是DbVisualizer 9.1.1 具体的安装步骤可以百度,或是修改安装目录之后默认安装就可以二.配置DbVisualizer里的hive jdbc 1.在DbVisualizer的安装目录jdbc文件夹下新建hive文件夹 D:\Program Fil…

Apache Hive （一）Hive初识

转自:https://www.cnblogs.com/qingyunzong/p/8707885.html Hive 简介什么是Hive 1.Hive 由 Facebook 实现并开源 2.是基于 Hadoop 的一个数据仓库工具 3.可以将结构化的数据映射为一张数据库表 4.并提供 HQL(Hive SQL)查询功能 5.底层数据是存储在 HDFS 上 6.Hive的本质是将 SQL 语句转换为 MapReduce 任务运行 7.使不熟悉 MapReduce 的用户很方便地利用 HQL 处理…

1.Hive简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 本质是将SQL转换为MapReduce程序. 主要用途:操作接口采用类SQL语法,提供快速开发的能力,功能扩展方便,用来做离线分析,比直接用MapReduce开发效率更高. 2.Hive架构 2.1Hive架构图 2.2Hive组件用户接口:包括CLI.JDBC/ODBC.WebGUI.其中CLI(command line interface)为shell命令行:…

Hive JDBC:java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: root is not allowed to impersonate anonymous

今天使用JDBC来操作Hive时,首先启动了hive远程服务模式:hiveserver2 &(表示后台运行),然后到eclipse中运行程序时出现错误: java.sql.SQLException: Could not open client transport with JDBC Uri: jdbc:hive2://192.168.182.11:10000/default: Failed to open new session: java.lang.RuntimeException: org.…

解决hiveserver2报错：java.io.IOException: Job status not available - Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

用户使用的sql: select count( distinct patient_id ) from argus.table_aa000612_641cd8ce_ceff_4ea0_9b27_0a3a743f0fe3; 下面做不同的测试: 1.beeline -u jdbc:hive2://0.0.0.0:10000 -e "select count( distinct patient_id ) from argus.table_aa000612_641cd8ce_ceff_4ea0_9b27_…

排查Hive报错：org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Start of Array expected

CREATE TABLE json_nested_test ( count string, usage string, pkg map<string,string>, languages array<string>, store map<string,array<map<string,string>>>) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS TE…

java.sql.SQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

执行Hive查询: Console是这样报错的 java.sql.SQLException: Error from org.apache.hadoop.hive.ql.exec.mr.MapRedTask at org.apache.hive.jdbc.HiveStatement.execute(HiveStatement.java:) at org.apache.hive.jdbc.HiveStatement.executeQuery(HiveStatement.java:) at org.a…

Apache ranger整合hive报错记录

版本信息如下: hadoop2.9.2 hive 2.x ranger 最新版2.1.0 在hive端部署完ranger 插件以后,在使用beeline连接查询数据库时报错,报错信息如下: verbose: on : jdbc:hive2://192.168.0.9:10000> show databases; Getting log thread is interrupted, since query is done! Error: Error running query: java.lang…

Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

hive运行查询语句时报错: Error: org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask at org.apache.hive.service.cli.operation.Operation.toSQLExc…

Hive执行count函数失败，Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException)

Hive执行count函数失败 1.现象: 0: jdbc:hive2://192.168.137.12:10000> select count(*) from emp; INFO : Number of reduce tasks determined at compile time: 1 INFO : In order to change the average load for a reducer (in bytes): INFO : set hive.exec.reducers.bytes…

【Apache Hive】的更多相关文章