hive 学习笔记——表的入门操作和命令
1、受控表(managed table)包括内部表、分区表、桶表;
1.1、分区表
创建分区表:
create table banji(id INT,name STRING) partitioned by(grade INT) row format delimited fields terminated by '\t';
create table member(id INT,name STRING) partitioned by(year INT,month INT) row format delimited fields terminated by '\t';
为分区表加载数据
load data local inpath 'student1' into table banji partition(grade=1);
load data local inpath 'student1' into table banji partition(year=2014,month=1);
*分区字段在文件中是没有的,但是查询是显示出来的,分区字段是作为虚拟列存在的
分区不是越多越好,需要对分区数量进行限制(分区过多,会产生过多的小文件)
分区字段:查询比较频繁 ,并且不会有很多枚举值的字段适合作为分区字段
1.2、桶表(bucket table)
桶就是那个模的数字
优点:每个桶的数据量差不多,在进行表连接查询的的时候方便
缺点:按业务字段查的时候没效果
应用场景:抽样、表连接
创建桶表
create table bucket(id INT,name STRING) clustered by(id) into 3 buckets;
启用桶表
SET hive.enforce.bucketing=true;
添加数据
insert overwrite table bucket select id ,name from banji;
*不能用load方式,load方式是简单的复制进hive表,insert的时候,会通过mr处理分桶
2、非受控表指外部表
删除表的时候只删除了表定义,不会对HDFS中的数据进行删除
创建外部表
create external table ext_table(c1 STRING,c2 STRING) row format delimited fields terminated by '\t' location '/ext_data';
3、命令行工具
3.1、set命令可以设置变量也可以显示变量
3.2、设置启动初始化命令
*hive启动时会默认执行home下的.hiverc文件,该文件位于home目录下
set hive.cli.print.current.db=true ;
#打印当前数据库名
set hive.cli.print.header=true;
#打印标题行
set hive.querylog.location=logpath;
#设置hive的查询日志保存地址
3.2、在不进入hive的命令行的情况下执行hvie命令
hive -e "hive命令"
hive -e "">>aaa
#结果追加到aaa文件中
hive -S -e "">>bbb
#输出较少日志
3.3、指定hive执行日志存放地址
hive --hiveconf hive.querylog.location=logpath
3.4、执行文件中的hive脚本
hive -f file
在hive命令行时执行:
source file
hive 学习笔记——表的入门操作和命令的更多相关文章
- hive学习笔记——表的基本的操作
1.hive的数据加载方式 1.1.load data 这中方式一般用于初始化的时候 load data [local] inpath '...' [overwrite] into table t1 ...
- hive学习笔记-表操作
Hive数据类型 基本数据类型 tinyint,smallint,int,biging,float,double,decimal,char,varchar,string,binary,boolean, ...
- hive学习笔记之三:内部表和外部表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- hive学习笔记之四:分区表
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- hive学习笔记之五:分桶
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- hive学习笔记之六:HiveQL基础
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- hive学习笔记之七:内置函数
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- hive学习笔记之十:用户自定义聚合函数(UDAF)
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览 本文是<hive学习笔记>的第十 ...
- Hadoop学习笔记(1) ——菜鸟入门
Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序. ...
随机推荐
- java 简单搜索算法
--无序查找 public static int Search(int[] a,int key){ for(int i=0;i<a.length;i++){ if(key==a[i]){ ret ...
- Daject初探 - 一个开源关系型数据库对象关系映射(ORM)模型
Daject简介 Daject是用php写的一个关系型数据库抽象模型,通过该模型,可以在不写任何SQL或写很少的SQL就能执行大多数数据库查询操作.Daject具有面向对象,跨数据库的优点,通过数据库 ...
- Cocos2D创建项目
创建项目 配置好开发环境后, 用CMD切换到~\cocos2d\cocos2d-x-2.2.2\tools\project-creator目录上执行以下脚本 python create_project ...
- ubuntu下格式化内存当硬盘使的小实验
内存虚拟硬盘(ramdisk)是指通过软件技术,将物理内存进行分割,将一部分内存通过虚拟技术转变为硬盘以较大幅度提升计算机数据读取速度和保护硬盘. 在ubuntu下的dev下有ram相关的文件,这些文 ...
- Ado.Net实现简易(省、市、县)三级联动查询,还附加Access数据
小弟在博客园驻园不久,初来咋到:将最近写的小程序附上,希望各位大牛们吐槽:激发对程序员围观的童鞋们,赶紧加入IT行业,如果你在上海那简称就是SHIT,哈哈题外话,以下开始切入正题: 坐公交车是旁边偶遇 ...
- SQLServer 语句-创建索引【转】
语法:CREATE [索引类型] INDEX 索引名称ON 表名(列名)WITH FILLFACTOR = 填充因子值0~100GO /*实例*/USE 库名GOIF EXISTS (SELECT * ...
- java 连接池的简单实现
最近一个项目中需要自己写个连接池, 写了一个下午,挺辛苦的,但不知道会不会出问题, 所以,贴到博客上,欢迎各路大神指点 1. 配置信息: /** * */ package cn.mjorcen.db. ...
- IOS crash分析
此处不讨论具体的如何根据.dsym文件解析crash log的方式. 什么是崩溃: 不希望出现的中断,APP收到了系统发出的unhandle signal,来源主要由系统内核,处理器,或者应用程序本身 ...
- Linux 命令整理 —— 用户管理
Linux用户管理以读.写.执行动作为权限,以用户组为单位,限制用户行为.对于文件的的操作,可以限制读.写.执行中的哪一种,也可以限制文件所有者.组用户.组外用户相应的权限. 所以,要建立用户,最好先 ...
- window.open被IE拦截的解决办法
由于在使用window.open时,在很多情况下,弹出的窗口会被浏览器阻止,但若是使用a链接target='_blank',则不会,基于这一特点,自己封装了一个open方法: function ope ...