Apache Hive】的更多相关文章

一.Hive的基本理论 Hive是在HDFS之上的架构,Hive中含有其自身的组件,解释器.编译器.执行器.优化器.解释器用于对脚本进行解释,编译器是对高级语言代码进行编译,执行器是对java代码的执行,优化器是在执行过程中进行优化.这里的代码就是Hadoop中的MapReduce,这里的MapReduce通过Hive往HDFS上执行.分析.查询数据. 上图展示hql的执行过程,一个hql脚本首先到hive的解释器,转化为MapReduce(当然例如“select * from table_na…
继上一篇文章介绍如何使用Pig处理HDFS上的数据,本文将介绍使用Apache Hive进行数据查询和处理. Apache Hive简介 首先Hive是一款数据仓库软件 使用HiveQL来结构化和查询存放的数据 执行环境:MapReduce, Tez, Spark 数据存放:HDFS, HBase 使用场景:数据挖掘和分析,机器学习,即席查询等 Hive使用示例 还是使用passwd作为操作文件 beeline> !quit [cloudera@quickstart ~]$ hdfs dfs -…
简介: Apache hive 存储方式跟压缩格式! 1.Text File hive> create external table tab_textfile ( host string comment 'client ip address', local_time string comment 'client access time', api string comment 'request api', request_type string comment 'request method,…
在kylin-gui中sync表default.customer_visit时报错: -- ::, ERROR [http-bio--exec-] controller.BasicController: : java.lang.RuntimeException: cannot get HiveTableMeta at org.apache.kylin.source.hive.HiveSourceTableLoader.extractHiveTables(HiveSourceTableLoader…
  5.29.1. Maven <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-jdbc</artifactId> </dependency> <dependency> <groupId>org.springframework.data</groupId> <art…
简介: Apache hive 是基于 Hadoop 的一个开源的数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能,将 SQL 语句转换为 MapReduce 任务执行. Apache hive 数据库仓库工具管理着两类数据:MetaData ( 这里我们存储在远程 MySQL DataBase 中 ).Data 存储在 HDFS 之上! 一.MySQL # http://www.cnblogs.com/wangxiaoqiangs/p/5336048.htm…
转自:https://www.cnblogs.com/qingyunzong/p/8715925.html 一.CLI连接 进入到 bin 目录下,直接输入命令: [hadoop@hadoop3 ~]$ hive SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/hadoop/apps/apache-hive-2.3.3-bin/lib/log4j-slf4j-i…
客户端连接hive [root@bigdata-02 bin]# ./beeline Beeline version by Apache Hive beeline: Connecting : Enter username :: root Enter password :: ****** Connected ) Driver: Hive JDBC (version ) Transaction isolation: TRANSACTION_REPEAtable_READ : jdbc:hive2::…
简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件 映射为一张数据库表,并提供类 SQL 查询功能. 本质是将 SQL 转换为 MapReduce 程序. 主要用途:用来做离线数据分析,比直接用 MapReduce 开发效率更高.Hive 利用 HDFS 存储数据,利用 MapReduce 查询分析数据. 数据库和数据仓库的区别在于: 数据库是面向事务的设计,数据仓库是面向主题设计的. 数据库一般存储业务数据,数据仓库存储的一般是历史数据. 数据库设计是尽量避免冗余…
Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好.延展性好.高容错等特点,多应用于离线数仓建设. 1. Hive架构 存储:Hive底层存储依赖于hdfs,因此也支持hdfs所支持的数据存储格式,如text.json.parquet等.当我们将一个文件映射为Hive中一张表时,只需在建表的时告诉Hive,数据中的列名.列分隔符.行分隔符等,Hive就可以自动解析数据. 支持多种压缩格式:bzip2.g…
0.常规配置操作可参照以下网址: 0.1 Ubuntu安装hive,并配置mysql作为元数据库http://dblab.xmu.edu.cn/blog/install-hive/ ------以下为学习笔记及错误记录,与常规操作略有差异,供参考------- 1.官网下载apache-hive-2.3.7-bin.tar.gz:https://mirror.bit.edu.cn/apache/hive/ 2.移动到Ubuntu里的"下载"文件夹 3.解压到指定路径/usr/local…
GettingStarted 开始 Created by Confluence Administrator, last modified by Lefty Leverenz on Jun 15, 2017 本文档由Confluence管理员创建,2017年6月15日由Lefty Leverenz最后做的修改. Table of Contents 表格内容包含 Installation and Configuration    安装和配置 Running HiveServer2 and Beeli…
# 故障描述: hive > , ) as uuid, count(distinct(request_body["uuid"])) as count from log_bftv_api where year= and month= and day= and request_body[ group by order by uuid; # hive 执行该HQL语句时报错信息如下:( 数据量小的时候没有问题 ) # 报错信息: MapReduce Total cumulative C…
转自:https://www.cnblogs.com/qingyunzong/p/8723271.html 库操作 1.创建库 语法结构 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] //关于数据块的描述 [LOCATION hdfs_path] //指定数据库在HDFS上的存储位置 [WITH DBPROPERTIES (property_name=property_value…
转自:https://www.cnblogs.com/qingyunzong/p/8710356.html 概述 Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理.上一篇hive的安装也是将元数据信息存放在MySQL数据库中. Hive的元数据信息在MySQL数据中有57张表   一.存储Hive版本的元数据表(VERSION) VERSION   -- 查询版本信息 该表比较简单,但很重要. VER_ID SCHEMA_VERSION VERSION_COM…
转自:https://www.cnblogs.com/qingyunzong/p/8708057.html Hive的下载 下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3   Hive的安装 1.使用MySQL做为Hive的元数据库,所以先安装MySQL. MySql安装过程http://www.cnblogs.com/qingyunzong/p/8294876.htm…
我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Functions (UDFs).我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数:get_json_object 和 json_tuple.用过这两个函数的同学肯定知道,其职能解析最普通的 Json 字符串,如下: hive (default)>  SELECT get_json_object('{"website"…
http://web.cse.ohio-state.edu/hpcs/WWW/HTML/publications/papers/TR-14-2.pdf  (辅助参考:https://cwiki.apache.org/confluence/display/Hive/Correlation+Optimizer ) Introductionhive的主要不足: 存储和查询计划执行.文中提出了三个主要的改进点 新的文件格式 ORC 查询计划组件优化(关联优化器correlation optimizer…
直接从0.14升级到1.0.0,主要变化有: 去掉hiveserver 1 定义公共的API,比如HiveMetaStoreClient 当然,也需要使用新的beeline cli客户端. 不过最值得期待的还是下一个hive版本 1.1.0,将会允许hive在spark上执行.…
转自:https://www.cnblogs.com/qingyunzong/p/8733924.html 一.数据类型 1.基本数据类型 Hive 支持关系型数据中大多数基本数据类型 类型 描述 示例 boolean true/false TRUE tinyint 1字节的有符号整数 -128~127 1Y smallint 2个字节的有符号整数,-32768~32767 1S int 4个字节的带符号整数 1 bigint 8字节带符号整数 1L float 4字节单精度浮点数 1.0 do…
转自:https://www.cnblogs.com/qingyunzong/p/8715250.html 一.安装DbVisualizer 下载地址http://www.dbvis.com/ 也可以从网上下载破解版程序,此处使用的版本是DbVisualizer 9.1.1 具体的安装步骤可以百度,或是修改安装目录之后默认安装就可以   二.配置DbVisualizer里的hive jdbc 1.在DbVisualizer的安装目录jdbc文件夹下新建hive文件夹 D:\Program Fil…
转自:https://www.cnblogs.com/qingyunzong/p/8707885.html Hive 简介 什么是Hive 1.Hive 由 Facebook 实现并开源 2.是基于 Hadoop 的一个数据仓库工具 3.可以将结构化的数据映射为一张数据库表 4.并提供 HQL(Hive SQL)查询功能 5.底层数据是存储在 HDFS 上 6.Hive的本质是将 SQL 语句转换为 MapReduce 任务运行 7.使不熟悉 MapReduce 的用户很方便地利用 HQL 处理…
1.Hive简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 本质是将SQL转换为MapReduce程序. 主要用途:操作接口采用类SQL语法,提供快速开发的能力,功能扩展方便,用来做离线分析,比直接用MapReduce开发效率更高. 2.Hive架构 2.1Hive架构图 2.2Hive组件 用户接口:包括CLI.JDBC/ODBC.WebGUI.其中CLI(command line interface)为shell命令行:…
今天使用JDBC来操作Hive时,首先启动了hive远程服务模式:hiveserver2 &(表示后台运行),然后到eclipse中运行程序时出现错误: java.sql.SQLException: Could not open client transport with JDBC Uri: jdbc:hive2://192.168.182.11:10000/default: Failed to open new session: java.lang.RuntimeException: org.…
用户使用的sql: select count( distinct patient_id ) from argus.table_aa000612_641cd8ce_ceff_4ea0_9b27_0a3a743f0fe3; 下面做不同的测试: 1.beeline -u jdbc:hive2://0.0.0.0:10000 -e "select count( distinct patient_id ) from argus.table_aa000612_641cd8ce_ceff_4ea0_9b27_…
CREATE TABLE json_nested_test ( count string, usage string, pkg map<string,string>, languages array<string>, store map<string,array<map<string,string>>>) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS TE…
执行Hive查询: Console是这样报错的 java.sql.SQLException: Error from org.apache.hadoop.hive.ql.exec.mr.MapRedTask at org.apache.hive.jdbc.HiveStatement.execute(HiveStatement.java:) at org.apache.hive.jdbc.HiveStatement.executeQuery(HiveStatement.java:) at org.a…
版本信息如下: hadoop2.9.2 hive 2.x ranger 最新版2.1.0 在hive端部署完ranger 插件以后,在使用beeline连接查询数据库时报错,报错信息如下: verbose: on : jdbc:hive2://192.168.0.9:10000> show databases; Getting log thread is interrupted, since query is done! Error: Error running query: java.lang…
hive运行查询语句时报错: Error: org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask at org.apache.hive.service.cli.operation.Operation.toSQLExc…
Hive执行count函数失败 1.现象: 0: jdbc:hive2://192.168.137.12:10000> select count(*) from emp; INFO : Number of reduce tasks determined at compile time: 1 INFO : In order to change the average load for a reducer (in bytes): INFO : set hive.exec.reducers.bytes…