Hive的基本知识与操作】的更多相关文章

Hive的基本知识与操作 目录 Hive的基本知识与操作 Hive的基本概念 为什么使用Hive? Hive的特点: Hive的优缺点: Hive应用场景 Hive架构 Client Metastore(元数据) sql语句是如何转化成MR任务的? 数据处理 Hive的三种交互方式 第一种交互方式 第二种交互方式 第三种交互方式 Hive元数据 Hive的基本操作 创建数据库 修改数据库 查看数据库详细信息 删除数据库 Hive的数据类型 基础数据类型 复杂的数据类型 Hive的文件格式 Hiv…
Hive 其实是一个客户端,类似于navcat.plsql 这种,不同的是Hive 是读取 HDFS 上的数据,作为离线查询使用,离线就意味着速度很慢,有可能跑一个任务需要几个小时甚至更长时间都有可能. 在日常开发中 Hive 用的还是挺广泛的,常做一些统计工作,就我自己工作来看其实 80% 的工作由 Hive 的基础部分就能完成了,只有很少的情况需要用到一些复杂查询或者调优工作. 本文着重挑选出一些易于被忽略基础知识,篇幅较多,建议收藏,分次阅读,后台文档中有详细的知识点说明,需要深入了解 H…
Hive提供了很多的函数,可以在命令行下show functions罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过describe function functionName 查看函数使用方法.   hive支持的数据类型很简单就INT(4 byte integer),BIGINT(8 byte integer),FLOAT(single precision),DOUBLE(double precision),BOOLEAN,STRING等原子类型,连日期时间类型…
平时我们用的HIVE 我们都知道 select * from table_name 不走MR 直接走HTTP hive 0.10.0为了执行效率考虑,简单的查询,就是只是select,不带count,sum,group by这样的,都不走map/reduce,直接读取hdfs文件进行filter过滤.这样做的好处就是不新开mr任务,执行效率要提高不少,但是不好的地方就是用户界面不友好,有时候数据量大还是要等很长时间,但是又没有任何返回. 改这个很简单,在hive-site.xml里面有个配置参数…
方案一:请参考<数据库“行专列”操作---使用row_number()over(partition by 分组字段 [order by 排序字段])>,该方案是sqlserver,oracle,mysql,hive均适用的. 在hive中的方案分为以下两种方案: 创建测试表,并插入测试数据: --hive 测试 行转列 collect_set collect_list create table tommyduan_test( gridid string, height int, cell st…
在安装Hive时,需要在hive-site.xml文件中配置元数据相关信息.与传统关系型数据库不同的是,hive表中的数据都是保存的HDFS上,也就是说hive中的数据库.表.分区等都可以在HDFS找到对应的文件.这里说到的元数据可以理解成hive中用于保存数据库.表.分区或者表字段等基本属性,以及这些属性与HDFS文件对应关系的一个映射. 这些映射关系比较常见的一个场景是保存在mysql数据库中.接下来会分析hive安装时的一些配置信息,以及元数据库中主要表的用途. 一.hive配置 有关hi…
一 概述 就像我们所了解的sql一样,Hive也是一种数据仓库,不同的是hive是在hadoop大数据生态圈中所用.这篇博客我主要介绍Hive的简单表运用. Hive是Hadoop 大数据生态圈中的数据仓库,其提供以表格的方式来组织与管理HDFS上的数据.以类SQL的方式来操作表格里的数据. Hive的设计目的是能够以类SQL的方式查询存放在HDFS上的大规模数据集,不必开发专门的MapReduce应用. Hive本质上相当于一个MapReduce和HDFS的翻译终端,用户提交Hive脚本后,H…
hive中常见的高级查询包括:group by.Order by.join.distribute by.sort by.cluster by.Union all.今天我们来看看order by操作,Order by表示按照某些字段排序,语法如下: select col,col2... from tableName where condition order by col1,col2 [asc|desc] 注意: (1):order by后面可以有多列进行排序,默认按字典排序. (2):order…
一.Hive的基本概念 (安装的是Apache hive 1.2.1) 1.hive简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供类 SQL 查询功能, hive 底层是将 SQL 语句转换为 MapReduce 任务运行(类似于插件Pig\impala\Spark Sql)                 结构化:有行有列,格式整齐标准 非结构化:格式不统一,不标准,有长有短               半结构化:参差不齐,有规律,…
数据库操作 查看全部的数据库 hive> show databases ; 使用数据库default hive> use default; 查看数据库信息 hive > describe database default; OK db_name comment location owner_name owner_type parameters default Default Hive database hdfs://hadoop1:8020/user/hive/warehouse pub…