Hive的基本操作

1.3HIve的表操作（接着昨天的继续学习）

1.3.2 显示表

show tables;

show tables like 'u*';

desc t_person;

desc formatted students; // 更加详细

1.3.3 加载数据

1、使用`hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'`

2、使用 load data

下列命令需要在hive shell里执行

create table IF NOT EXISTS students2

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

// 将HDFS上的/input1目录下面的数据 移动至 students表对应的HDFS目录下，注意是 **移动、移动、移动**

load data inpath '/input1/students.txt' into table students;

注意：使用hdfs导入数据至hive，使用的是剪切操作，即原hdfs路径下的文件在被导入到hive中之后，原路径下的文件就不复存在

// 清空表

truncate table students;

// 加上 local 关键字 可以将Linux本地目录下的文件 上传到 hive表对应HDFS 目录下 **原文件不会被删除,是复制，不是移动**

load data local inpath '/usr/local/soft/data/students.txt' into table students;

// overwrite 覆盖加载

load data local inpath '/usr/local/soft/data/students.txt' overwrite into table students;

3、create table xxx as SQL语句

4、insert into table xxxx SQL语句（没有as）

create table IF NOT EXISTS students3

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

// 将 students表的数据插入到students2 这是复制 不是移动 students表中的数据不会丢失

insert into table students2 select * from students;

// 覆盖插入 把into 换成 overwrite

insert overwrite table students2 select * from students;

1.3.4 修改列

查询表结构

desc students2;

添加列

alter table students2 add columns (education string);

添加列之后，查询表的数据，新增的那一列是没有具体的数据进行映射的，所以全是null
当向其中插入新的数据时，新的数据和原先的数据在HDFS中看似是分开的，但是其实就是一个表数据，
注意的是新的数据插入之后不会影响之前的数据，在HDFS中没有对应的数据，就相当于没有映射过来就是null

查询表结构

desc students2;

更新列

alter table stduents2 change education educationnew string;

1.3.5 删除表

drop table students2;

1.4 Hive内外部表

面试题：内部表和外部表的区别？如何创建外部表？工作中使用外部表

1.4.1 hive内部表

当创建好表的时候，HDFS会在当前表所属的库中创建一个文件夹

当设置表路径的时候，如果直接指向一个已有的路径,可以直接去使用文件夹中的数据

当load数据的时候，就会将数据文件存放到表对应的文件夹中

而且数据一旦被load，就不能被修改

我们查询数据也是查询文件中的文件,这些数据最终都会存放到HDFS

当我们删除表的时候，表对应的文件夹会被删除，同时数据也会被删除

默认建表的类型就是内部表

// 内部表

create table students_internal

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

LOCATION '/input2';

hive> dfs -put /usr/local/soft/data/students.txt /input2/;

1.4.1 Hive外部表

外部表说明

外部表因为是指定其他的hdfs路径的数据加载到表中来，所以hive会认为自己不完全独占这份数据

删除hive表的时候，数据仍然保存在hdfs中，不会删除。

删除外部表只会删除hive中的映射出来的数据表，以及存在MySQL中的数据的元数据信息。

// 外部表

create external table students_external

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

LOCATION '/hive_test/input3';

hive> dfs -put /usr/local/soft/data/students.txt /input3/;

删除表测试一下：

hive> drop table students_internal;

Moved: 'hdfs://master:9000/input2' to trash at: hdfs://master:9000/user/root/.Trash/Current

OK

Time taken: 0.474 seconds

hive> drop table students_external;

OK

Time taken: 0.09 seconds

hive>

一般在公司中，使用外部表多一点，因为数据可以需要被多个程序使用，避免误删，通常外部表会结合location一起使用

外部表还可以将其他数据源中的数据映射到 hive中，比如说：hbase，ElasticSearch......

设计外部表的初衷就是让表的元数据与数据解耦

操作案例: 分别创建dept，emp，salgrade。并加载数据。

创建数据文件存放的目录

hdfs dfs -mkdir -p /bigdata/hive_test1/dept

hdfs dfs -mkdir -p /bigdata/hive_test1/emp

hdfs dfs -mkdir -p /bigdata/hive_test1/salgrade

创建dept表

CREATE EXTERNAL TABLE IF NOT EXISTS dept (

  DEPTNO int,

  DNAME string,

  LOC string

) row format delimited fields terminated by ','

location '/hive_test/dept';

10,ACCOUNTING,NEW YORK

20,RESEARCH,DALLAS

30,SALES,CHICAGO

40,OPERATIONS,BOSTON

创建emp表

CREATE EXTERNAL TABLE IF NOT EXISTS emp (

   EMPNO int,

   ENAME string,

   JOB string,

   MGR int,

   HIREDATE date,

   SAL int,

   COMM int,

   DEPTNO int

 ) row format delimited fields terminated by ','

 location '/hive_test/emp';

7369,SMITH,CLERK,7902,1980-12-17,800,null,20

7499,ALLEN,SALESMAN,7698,1981-02-20,1600,300,30

7521,WARD,SALESMAN,7698,1981-02-22,1250,500,30

7566,JONES,MANAGER,7839,1981-04-02,2975,null,20

7654,MARTIN,SALESMAN,7698,1981-09-28,1250,1400,30

7698,BLAKE,MANAGER,7839,1981-05-01,2850,null,30

7782,CLARK,MANAGER,7839,1981-06-09,2450,null,10

7788,SCOTT,ANALYST,7566,1987-07-13,3000,null,20

7839,KING,PRESIDENT,null,1981-11-17,5000,null,10

7844,TURNER,SALESMAN,7698,1981-09-08,1500,0,30

7876,ADAMS,CLERK,7788,1987-07-13,1100,null,20

7900,JAMES,CLERK,7698,1981-12-03,950,null,30

7902,FORD,ANALYST,7566,1981-12-03,3000,null,20

7934,MILLER,CLERK,7782,1982-01-23,1300,null,10

创建salgrade表

CREATE EXTERNAL TABLE IF NOT EXISTS salgrade (

  GRADE int,

  LOSAL int,

  HISAL int

) row format delimited fields terminated by ','

location '/hive_test/salgrade';

1,700,1200

2,1201,1400

3,1401,2000

4,2001,3000

5,3001,9999

1.5 Hive导出数据

将表中的数据备份

将查询结果存放到本地

//创建存放数据的目录

mkdir -p /usr/local/soft/bigdata

//导出查询结果的数据(导出到Node01上)

insert overwrite local directory '/usr/local/soft/bigdata/person_data' select * from t_person;

按照指定的方式将数据输出到本地

-- 创建存放数据的目录

mkdir -p /usr/local/soft/bigdata

-- 导出查询结果的数据

insert overwrite local directory '/usr/local/soft/bigdata/hive_test1/person'

ROW FORMAT DELIMITED fields terminated by ','

collection items terminated by '-'

map keys terminated by ':'

lines terminated by '\n'

select * from t_person;

insert overwrite local directory '/usr/local/soft/bigdata/hive_test1/stu'

ROW FORMAT DELIMITED fields terminated by ','

lines terminated by '\n'

select clazz,count(1) as count from students group by clazz;

将查询结果输出到HDFS

将sql语句的查询结果输出到HDFS中时，在HDFS上是直接将该结果存放在指定的文件夹里。

-- 创建存放数据的目录

hdfs dfs -mkdir -p /bigdata/hive_test1/copy

-- 导出查询结果的数据

insert overwrite directory '/bigdata/copy2' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select * from students

直接使用HDFS命令保存表对应的文件夹

// 创建存放数据的目录

hdfs dfs -mkdir -p /bigdata/person

// 使用HDFS命令拷贝文件到其他目录

hdfs dfs -cp /hive/warehouse/t_person/*  /bigdata/person

将表结构和数据同时备份
将数据导出到HDFS

将数据导出到HDFS中时，会在指定的文件目录下产生一个该数据的元数据文件信息_metadata和一个用于存放真实数据的文件夹 data，在该文件夹下面才是数据文件

//创建存放数据的目录

hdfs dfs -mkdir -p /bigdata/copy

//导出查询结果的数据

export table t_person to '/bigdata/copy';

删除表结构

drop table t_person;

恢复表结构和数据

import from '/bigdata;

注意：时间不同步，会导致导入导出失败

数据仓库建模工具之一——Hive学习第四天的更多相关文章

大数据之路week07--day05 （一个基于Hadoop的数据仓库建模工具之一 HIve）
什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark). 2:hive可以使用类sql方言,对存储在hdfs上的数据进 ...
hive 学习系列四（用户自定义函数）
如果入参是简单的数据类型,直接继承UDF,实现一个或者多个evaluate 方法. 具体流程如下: 1,实现大写字符转换成小写字符的UDF package com.example.hive.udf; ...
Hive -- 基于Hadoop的数据仓库分析工具
Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库 ...
基于hadoop的数据仓库工具：Hive概述
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类 ...
[转帖]Hive学习之路（一）Hive初识
Hive学习之路 (一)Hive初识 https://www.cnblogs.com/qingyunzong/p/8707885.html 讨论QQ:1586558083 目录 Hive 简介什么是 ...
数仓建模—建模工具PdMan(CHINER)介绍
数据仓库系列文章(持续更新) 数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模-宽表的设计数仓建模-指标体系数据仓库之拉链表数仓-数据集成数仓-数据集市数仓-商业智能系统数仓-埋 ...
HBase学习（四）二级索引 rowkey设计
HBase学习(四) 一.HBase的读写流程画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeepe ...
hive学习
大数据的仓库Hive学习 10期-崔晓光 2016-06-20 大数据 hadoop 10原文链接我们接着之前学习的大数据来学习.之前说到了NoSql的HBase数据库以及Hadoop中 ...
Hive学习路线图(转)
Hadoophivehqlroadmap学习路线图 1 Comment Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig ...
【转】Hive学习路线图
原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/ 感谢! Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Ha ...

随机推荐

鸿蒙HarmonyOS实战-Stage模型（卡片数据交互）
一.卡片数据交互 HarmonyOS卡片数据交互是指在基于鸿蒙操作系统的设备上,卡片界面之间进行数据的传输和交互. HarmonyOS的卡片是一种轻量级的应用界面,可以在设备的屏幕上显示信息和提供操作 ...
基于 ESP8266_RTOS_SDK 驱动 DHT11
概述 DHT11模块使用一根data线实现信号触发以及数据反馈,信号格式参考如下 https://zhuanlan.zhihu.com/p/347904660 本文使用GPIO中断的方式采集反馈数据 ...
Spring Security 初学
Spring Security 初学声明:本篇文章无源码解析,属于初学范围,本文采用SpringBoot+thymeleaf的项目. 实现 SpringSecurity 分三步走继承 WebSec ...
Android 13 - Media框架（8）- MediaExtractor
关注公众号免费阅读全文,进入音视频开发技术分享群! 上一篇我们了解了 GenericSource 需要依赖 IMediaExtractor 完成 demux 工作,这一篇我们就来学习 android ...
vue3组件通信与props
title: vue3组件通信与props date: 2024/5/31 下午9:00:57 updated: 2024/5/31 下午9:00:57 categories: 前端开发 tags: ...
uniapp 添加操作
1 分析: 2 需要动态的向数据库中插入数据,既然要进行添加操作,就会触发一个点击的事件,所以我们的第一步就是要先绑定事件 3 向服务器进行请求接口操作,请求的方法为 'POST' 4 最后就是在me ...
uniapp 页面跳转传值和接收
前端面试题库地址:https://www.yuque.com/sxd_panda/sdluga 1.首先介绍最原始的跳转方法,类似于html中的a标签,不过在uniapp中需要将a标签换成 <n ...
jquery checkbox的全选和反选
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8 ...
剑指Offer-47.求1+2+3+...+n(C++/Java)
题目: 求1+2+3+...+n,要求不能使用乘除法.for.while.if.else.switch.case等关键字及条件判断语句(A?B:C). 分析: 利用短路与来判断n是否大于0,从而实现递 ...
关于java的一些吧啦吧啦
今天凌晨在催眠时刻听了一些了java相关,顺便睡觉了学习了关于电脑中的一些知识,类似cmd之类的快捷指令,比如切换盘符,显示文件夹等等: 还有jdk的版本下载,第一个程序helloworld怎么编写 ...

数据仓库建模工具之一——Hive学习第四天

Hive的基本操作

1.3HIve的表操作（接着昨天的继续学习）

1.3.2 显示表

1.3.3 加载数据

1、使用hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'

2、使用 load data

3、create table xxx as SQL语句

4、insert into table xxxx SQL语句 （没有as）

1.3.4 修改列

1.3.5 删除表

1.4 Hive内外部表

1.4.1 hive内部表

1.4.1 Hive外部表

1.5 Hive导出数据

数据仓库建模工具之一——Hive学习第四天的更多相关文章

随机推荐

热门专题

1、使用`hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'`

4、insert into table xxxx SQL语句（没有as）