Hive的基本操作

1.3HIve的表操作（接着昨天的继续学习）

1.3.2 显示表

show tables;

show tables like 'u*';

desc t_person;

desc formatted students; // 更加详细

1.3.3 加载数据

1、使用`hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'`

2、使用 load data

下列命令需要在hive shell里执行

create table IF NOT EXISTS students2

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

// 将HDFS上的/input1目录下面的数据 移动至 students表对应的HDFS目录下，注意是 **移动、移动、移动**

load data inpath '/input1/students.txt' into table students;

注意：使用hdfs导入数据至hive，使用的是剪切操作，即原hdfs路径下的文件在被导入到hive中之后，原路径下的文件就不复存在

// 清空表

truncate table students;

// 加上 local 关键字 可以将Linux本地目录下的文件 上传到 hive表对应HDFS 目录下 **原文件不会被删除,是复制，不是移动**

load data local inpath '/usr/local/soft/data/students.txt' into table students;

// overwrite 覆盖加载

load data local inpath '/usr/local/soft/data/students.txt' overwrite into table students;

3、create table xxx as SQL语句

4、insert into table xxxx SQL语句（没有as）

create table IF NOT EXISTS students3

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

// 将 students表的数据插入到students2 这是复制 不是移动 students表中的数据不会丢失

insert into table students2 select * from students;

// 覆盖插入 把into 换成 overwrite

insert overwrite table students2 select * from students;

1.3.4 修改列

查询表结构

desc students2;

添加列

alter table students2 add columns (education string);

添加列之后，查询表的数据，新增的那一列是没有具体的数据进行映射的，所以全是null
当向其中插入新的数据时，新的数据和原先的数据在HDFS中看似是分开的，但是其实就是一个表数据，
注意的是新的数据插入之后不会影响之前的数据，在HDFS中没有对应的数据，就相当于没有映射过来就是null

查询表结构

desc students2;

更新列

alter table stduents2 change education educationnew string;

1.3.5 删除表

drop table students2;

1.4 Hive内外部表

面试题：内部表和外部表的区别？如何创建外部表？工作中使用外部表

1.4.1 hive内部表

当创建好表的时候，HDFS会在当前表所属的库中创建一个文件夹

当设置表路径的时候，如果直接指向一个已有的路径,可以直接去使用文件夹中的数据

当load数据的时候，就会将数据文件存放到表对应的文件夹中

而且数据一旦被load，就不能被修改

我们查询数据也是查询文件中的文件,这些数据最终都会存放到HDFS

当我们删除表的时候，表对应的文件夹会被删除，同时数据也会被删除

默认建表的类型就是内部表

// 内部表

create table students_internal

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

LOCATION '/input2';

hive> dfs -put /usr/local/soft/data/students.txt /input2/;

1.4.1 Hive外部表

外部表说明

外部表因为是指定其他的hdfs路径的数据加载到表中来，所以hive会认为自己不完全独占这份数据

删除hive表的时候，数据仍然保存在hdfs中，不会删除。

删除外部表只会删除hive中的映射出来的数据表，以及存在MySQL中的数据的元数据信息。

// 外部表

create external table students_external

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

LOCATION '/hive_test/input3';

hive> dfs -put /usr/local/soft/data/students.txt /input3/;

删除表测试一下：

hive> drop table students_internal;

Moved: 'hdfs://master:9000/input2' to trash at: hdfs://master:9000/user/root/.Trash/Current

OK

Time taken: 0.474 seconds

hive> drop table students_external;

OK

Time taken: 0.09 seconds

hive>

一般在公司中，使用外部表多一点，因为数据可以需要被多个程序使用，避免误删，通常外部表会结合location一起使用

外部表还可以将其他数据源中的数据映射到 hive中，比如说：hbase，ElasticSearch......

设计外部表的初衷就是让表的元数据与数据解耦

操作案例: 分别创建dept，emp，salgrade。并加载数据。

创建数据文件存放的目录

hdfs dfs -mkdir -p /bigdata/hive_test1/dept

hdfs dfs -mkdir -p /bigdata/hive_test1/emp

hdfs dfs -mkdir -p /bigdata/hive_test1/salgrade

创建dept表

CREATE EXTERNAL TABLE IF NOT EXISTS dept (

  DEPTNO int,

  DNAME string,

  LOC string

) row format delimited fields terminated by ','

location '/hive_test/dept';

10,ACCOUNTING,NEW YORK

20,RESEARCH,DALLAS

30,SALES,CHICAGO

40,OPERATIONS,BOSTON

创建emp表

CREATE EXTERNAL TABLE IF NOT EXISTS emp (

   EMPNO int,

   ENAME string,

   JOB string,

   MGR int,

   HIREDATE date,

   SAL int,

   COMM int,

   DEPTNO int

 ) row format delimited fields terminated by ','

 location '/hive_test/emp';

7369,SMITH,CLERK,7902,1980-12-17,800,null,20

7499,ALLEN,SALESMAN,7698,1981-02-20,1600,300,30

7521,WARD,SALESMAN,7698,1981-02-22,1250,500,30

7566,JONES,MANAGER,7839,1981-04-02,2975,null,20

7654,MARTIN,SALESMAN,7698,1981-09-28,1250,1400,30

7698,BLAKE,MANAGER,7839,1981-05-01,2850,null,30

7782,CLARK,MANAGER,7839,1981-06-09,2450,null,10

7788,SCOTT,ANALYST,7566,1987-07-13,3000,null,20

7839,KING,PRESIDENT,null,1981-11-17,5000,null,10

7844,TURNER,SALESMAN,7698,1981-09-08,1500,0,30

7876,ADAMS,CLERK,7788,1987-07-13,1100,null,20

7900,JAMES,CLERK,7698,1981-12-03,950,null,30

7902,FORD,ANALYST,7566,1981-12-03,3000,null,20

7934,MILLER,CLERK,7782,1982-01-23,1300,null,10

创建salgrade表

CREATE EXTERNAL TABLE IF NOT EXISTS salgrade (

  GRADE int,

  LOSAL int,

  HISAL int

) row format delimited fields terminated by ','

location '/hive_test/salgrade';

1,700,1200

2,1201,1400

3,1401,2000

4,2001,3000

5,3001,9999

1.5 Hive导出数据

将表中的数据备份

将查询结果存放到本地

//创建存放数据的目录

mkdir -p /usr/local/soft/bigdata

//导出查询结果的数据(导出到Node01上)

insert overwrite local directory '/usr/local/soft/bigdata/person_data' select * from t_person;

按照指定的方式将数据输出到本地

-- 创建存放数据的目录

mkdir -p /usr/local/soft/bigdata

-- 导出查询结果的数据

insert overwrite local directory '/usr/local/soft/bigdata/hive_test1/person'

ROW FORMAT DELIMITED fields terminated by ','

collection items terminated by '-'

map keys terminated by ':'

lines terminated by '\n'

select * from t_person;

insert overwrite local directory '/usr/local/soft/bigdata/hive_test1/stu'

ROW FORMAT DELIMITED fields terminated by ','

lines terminated by '\n'

select clazz,count(1) as count from students group by clazz;

将查询结果输出到HDFS

将sql语句的查询结果输出到HDFS中时，在HDFS上是直接将该结果存放在指定的文件夹里。

-- 创建存放数据的目录

hdfs dfs -mkdir -p /bigdata/hive_test1/copy

-- 导出查询结果的数据

insert overwrite directory '/bigdata/copy2' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select * from students

直接使用HDFS命令保存表对应的文件夹

// 创建存放数据的目录

hdfs dfs -mkdir -p /bigdata/person

// 使用HDFS命令拷贝文件到其他目录

hdfs dfs -cp /hive/warehouse/t_person/*  /bigdata/person

将表结构和数据同时备份
将数据导出到HDFS

将数据导出到HDFS中时，会在指定的文件目录下产生一个该数据的元数据文件信息_metadata和一个用于存放真实数据的文件夹 data，在该文件夹下面才是数据文件

//创建存放数据的目录

hdfs dfs -mkdir -p /bigdata/copy

//导出查询结果的数据

export table t_person to '/bigdata/copy';

删除表结构

drop table t_person;

恢复表结构和数据

import from '/bigdata;

注意：时间不同步，会导致导入导出失败

数据仓库建模工具之一——Hive学习第四天的更多相关文章

大数据之路week07--day05 （一个基于Hadoop的数据仓库建模工具之一 HIve）
什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark). 2:hive可以使用类sql方言,对存储在hdfs上的数据进 ...
hive 学习系列四（用户自定义函数）
如果入参是简单的数据类型,直接继承UDF,实现一个或者多个evaluate 方法. 具体流程如下: 1,实现大写字符转换成小写字符的UDF package com.example.hive.udf; ...
Hive -- 基于Hadoop的数据仓库分析工具
Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库 ...
基于hadoop的数据仓库工具：Hive概述
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类 ...
[转帖]Hive学习之路（一）Hive初识
Hive学习之路 (一)Hive初识 https://www.cnblogs.com/qingyunzong/p/8707885.html 讨论QQ:1586558083 目录 Hive 简介什么是 ...
数仓建模—建模工具PdMan(CHINER)介绍
数据仓库系列文章(持续更新) 数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模-宽表的设计数仓建模-指标体系数据仓库之拉链表数仓-数据集成数仓-数据集市数仓-商业智能系统数仓-埋 ...
HBase学习（四）二级索引 rowkey设计
HBase学习(四) 一.HBase的读写流程画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeepe ...
hive学习
大数据的仓库Hive学习 10期-崔晓光 2016-06-20 大数据 hadoop 10原文链接我们接着之前学习的大数据来学习.之前说到了NoSql的HBase数据库以及Hadoop中 ...
Hive学习路线图(转)
Hadoophivehqlroadmap学习路线图 1 Comment Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig ...
【转】Hive学习路线图
原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/ 感谢! Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Ha ...

随机推荐

mysql-8.4.0解压版安装记录
MySQL 8.4.0解压版安装记录这几天,安装最新版mysql 8.4的时候,遇到了不少问题,网上的教程大多数都是旧版本的,也安装不成功. 参考了大量教程后,经过自己的摸索终于装好了,这里记录一下 ...
Hugging Face ZeroGPU 计划正式发布—提供价值一千万美元的免费共享 GPU
在人工智能技术领域,GPU 资源一直是推动研究和应用的关键因素.然而,GPU 的成本和可用性对于许多研究人员和开发者来说却是一个显著的障碍. 在 Hugging Face,我们希望人工智能技术可以更加 ...
【题解】A18747.眼红的同学
题目链接:眼红的同学题干信息很简单,看到数据量之后就不简单了.在数据量小的时候可以使用双层循环暴力的方法来求答案.显然对于这道题而言O(n^2)是完全过不去的. 前置知识: 使用树状数组求逆序对会 ...
拼接sql 参数化 where userId in(@userIds)的问题
这里@userIds 如果写成101,202,301翻译后的sql的where部分会是: where userId in('101,202,301'): 而不是期待的: where userId i ...
解读注意力机制原理，教你使用Python实现深度学习模型
本文分享自华为云社区<使用Python实现深度学习模型:注意力机制(Attention)>,作者:Echo_Wish. 在深度学习的世界里,注意力机制(Attention Mechanis ...
AI 画图真刺激，手把手教你如何用 ComfyUI 来画出刺激的图
目前 AI 绘画领域的产品非常多,比如 Midjourney.Dalle3.Stability AI 等等,这些产品大体上可以分为两类: 模型与产品深度融合:比如 Midjourney.Dalle3 ...
lodash已死？radash库方法介绍及源码解析 —— 随机方法 + 字符串篇
前言大家好,我是阿瓜.一个励志想成为艾弗森的前端瓜 ~ 我们已经分享了 radash 库中数组.对象等相关的方法,大家感兴趣的可以前往主页查看阅读: 或许你最近在某个地方听过或者看过 radash ...
面试必会->Redis篇
01- 你们项目中哪里用到了Redis ? 在我们的项目中很多地方都用到了Redis , Redis在我们的项目中主要有三个作用 : 使用Redis做热点数据缓存/接口数据缓存使用Redis存储一些 ...
使用 TiDB Vector 搭建 RAG 应用 - TiDB 文档问答小助手
本文首发至TiDB社区专栏:https://tidb.net/blog/7a8862d5 前言继上一次<TiDB Vector抢先体验之用TiDB实现以图搜图>后,就迫不及待的想做一些更 ...
python-使用pyecharts绘制各省份985学校数量图
1.环境代码运行环境:python3.7 相关的库:pyecharts 1.7.1 代码编辑器:visual studio code 2.目的通过使用pyecharts库,来绘制全国各省985高校 ...

数据仓库建模工具之一——Hive学习第四天

Hive的基本操作

1.3HIve的表操作（接着昨天的继续学习）

1.3.2 显示表

1.3.3 加载数据

1、使用hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'

2、使用 load data

3、create table xxx as SQL语句

4、insert into table xxxx SQL语句 （没有as）

1.3.4 修改列

1.3.5 删除表

1.4 Hive内外部表

1.4.1 hive内部表

1.4.1 Hive外部表

1.5 Hive导出数据

数据仓库建模工具之一——Hive学习第四天的更多相关文章

随机推荐

热门专题

1、使用`hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'`

4、insert into table xxxx SQL语句（没有as）