Hive的基本知识与操作

【Hive的基本知识与操作】的更多相关文章

Hive的基本知识与操作

Hive的基本知识与操作目录 Hive的基本知识与操作 Hive的基本概念为什么使用Hive? Hive的特点: Hive的优缺点: Hive应用场景 Hive架构 Client Metastore(元数据) sql语句是如何转化成MR任务的? 数据处理 Hive的三种交互方式第一种交互方式第二种交互方式第三种交互方式 Hive元数据 Hive的基本操作创建数据库修改数据库查看数据库详细信息删除数据库 Hive的数据类型基础数据类型复杂的数据类型 Hive的文件格式 Hiv…

Hive 这些基础知识，你忘记了吗？

Hive 其实是一个客户端,类似于navcat.plsql 这种,不同的是Hive 是读取 HDFS 上的数据,作为离线查询使用,离线就意味着速度很慢,有可能跑一个任务需要几个小时甚至更长时间都有可能. 在日常开发中 Hive 用的还是挺广泛的,常做一些统计工作,就我自己工作来看其实 80% 的工作由 Hive 的基础部分就能完成了,只有很少的情况需要用到一些复杂查询或者调优工作. 本文着重挑选出一些易于被忽略基础知识,篇幅较多,建议收藏,分次阅读,后台文档中有详细的知识点说明,需要深入了解 H…

Hive常用的SQL命令操作

Hive提供了很多的函数,可以在命令行下show functions罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过describe function functionName 查看函数使用方法. hive支持的数据类型很简单就INT(4 byte integer),BIGINT(8 byte integer),FLOAT(single precision),DOUBLE(double precision),BOOLEAN,STRING等原子类型,连日期时间类型…

hive数据库的哪些函数操作是否走MR

平时我们用的HIVE 我们都知道 select * from table_name 不走MR 直接走HTTP hive 0.10.0为了执行效率考虑,简单的查询,就是只是select,不带count,sum,group by这样的,都不走map/reduce,直接读取hdfs文件进行filter过滤.这样做的好处就是不新开mr任务,执行效率要提高不少,但是不好的地方就是用户界面不友好,有时候数据量大还是要等很长时间,但是又没有任何返回. 改这个很简单,在hive-site.xml里面有个配置参数…

hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])

方案一:请参考<数据库“行专列”操作---使用row_number()over(partition by 分组字段 [order by 排序字段])>,该方案是sqlserver,oracle,mysql,hive均适用的. 在hive中的方案分为以下两种方案: 创建测试表,并插入测试数据: --hive 测试行转列 collect_set collect_list create table tommyduan_test( gridid string, height int, cell st…

hive元数据库表分析及操作

在安装Hive时,需要在hive-site.xml文件中配置元数据相关信息.与传统关系型数据库不同的是,hive表中的数据都是保存的HDFS上,也就是说hive中的数据库.表.分区等都可以在HDFS找到对应的文件.这里说到的元数据可以理解成hive中用于保存数据库.表.分区或者表字段等基本属性,以及这些属性与HDFS文件对应关系的一个映射. 这些映射关系比较常见的一个场景是保存在mysql数据库中.接下来会分析hive安装时的一些配置信息,以及元数据库中主要表的用途. 一.hive配置有关hi…

大数据【五】Hive（部署；表操作；分区）

一概述就像我们所了解的sql一样,Hive也是一种数据仓库,不同的是hive是在hadoop大数据生态圈中所用.这篇博客我主要介绍Hive的简单表运用. Hive是Hadoop 大数据生态圈中的数据仓库,其提供以表格的方式来组织与管理HDFS上的数据.以类SQL的方式来操作表格里的数据. Hive的设计目的是能够以类SQL的方式查询存放在HDFS上的大规模数据集,不必开发专门的MapReduce应用. Hive本质上相当于一个MapReduce和HDFS的翻译终端,用户提交Hive脚本后,H…

HIVE中的order by操作

hive中常见的高级查询包括:group by.Order by.join.distribute by.sort by.cluster by.Union all.今天我们来看看order by操作,Order by表示按照某些字段排序,语法如下: select col,col2... from tableName where condition order by col1,col2 [asc|desc] 注意: (1):order by后面可以有多列进行排序,默认按字典排序. (2):order…

Hive(一)基础知识

一.Hive的基本概念 (安装的是Apache hive 1.2.1) 1.hive简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供类 SQL 查询功能, hive 底层是将 SQL 语句转换为 MapReduce 任务运行(类似于插件Pig\impala\Spark Sql) 结构化:有行有列,格式整齐标准非结构化:格式不统一,不标准,有长有短半结构化:参差不齐,有规律,…

Hive命令行经常使用操作（数据库操作，表操作）

数据库操作查看全部的数据库 hive> show databases ; 使用数据库default hive> use default; 查看数据库信息 hive > describe database default; OK db_name comment location owner_name owner_type parameters default Default Hive database hdfs://hadoop1:8020/user/hive/warehouse pub…