hive工作记录-20180513

Hive的数据导入：

　　1.从本地文件系统中导入数据到Hive表

　　　　基础语法1 ：

　　　　　　create table 表名(列名1 数据类型, 列名2 数据类型, … …) row format delimited fields terminated by '分隔符' stored as textfile

　　　　参数解释：

　　　　　　row format delimited --设置创建的表在加载数据的时候，支持的列分隔符

　　　　　　fields terminated by '分隔符' --指明具体的分隔符

　　　　　　stored as '数据类型' --设置加载数据的类型，默认textfile（纯文本）

　　　　基础语法 2：

　　　　　　load data local inpath '本地文件完整路径' into table 表名

　　　　代码示例：

　　　　　　create table hospital(hospitalid string, hcount double, hallcost double, hreimbursecost double, hcure double, hday double, hrecovery double, ocount double, 　　　　ohallcost double, ohreimbursecost double, ocure double, ohrecovery double) row format delimited fields terminated by '\t' stored as textfile;

　　　　　　load data local inpath '/home/hadoop/part-r-00000' into table hospital;

　　2.从HDFS中导入数据到Hive表

　　　　基础语法：

　　　　　　建表语句同上

　　　　　　load data inpath 'hdfs文件完整路径' into table 表名

　　　　代码示例：

　　　　　　load data inpath '/guide/hospitaloutput/part-r-00000' into table hospital;

　　3.从别的表中查询出相应的数据并导入到Hive表中

　　　　基础语法：

　　　　　　建表语句同上

　　　　　　insert into table 目标表名 select * from 源表名; //不覆盖数据

　　　　　　insert overwrite table 目标表名 select * from 源表名; //覆盖数据

　　4.在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中

　　　　基础语法:

　　　　　　create table 新表名 as select * from 旧表名

　　　　　　新建表的结构和数据都和源表一致

　　5.导入数据到带有分区的表

　　　　基础语法:

　　　　　　建表语句同上

　　　　　　alter table 表名 add partition(分区1='值1',分区2='值2',... ...); //添加具体分区（子文件夹）

　　　　　　load data local inpath '本地文件路径' into table 表名 partition(分区1='值1',分区2='值2',… …);

　　　　注意事项:

　　　　　　分区文件夹需要在使用前创建

　　　　　　分区也是列名

　　　　　　分区2是分区1的子文件夹，以此类推

　　　　　　导入数据时，并不按照具体的值筛选

　　6.导入数据到带有桶的表

　　　　注意事项: 需要设置环境变量：set hive.enforce.bucketing=true;

　　　　示例代码:

　　　　　　create table hospitalcopy5(hospitalid string, hcount double, hallcost double, hreimbursecost double, hcure double, hday double, hrecovery double, ocount double, 　　　　ohallcost double, ohreimbursecost double, ocure double, ohrecovery double) clustered by(hospitalid) into 2 buckets row format delimited fields terminated by '\t' stored 　　　　as textfile;

　　　　　　insert overwrite table hospitalcopy6 select * from hospital;

hive工作记录-20180513的更多相关文章

[工作记录] Android OpenGL ES: non-square texture - continue
previous: [工作记录] Android OpenGL ES 2.0: square texture not supported on some device recently I found ...
MySQL跨表更新字段工作记录
工作中遇到两表查询,从user表中获取用户唯一id字段写入到另外一张qiuzu表中的uid字段中; 二者可以关联起来的只有用户的手机号码tel字段; 了解需求后数据量稍多,不可能一个一个的手动修改 ...
最近的linux工作记录
最近的linux工作记录最近公司走了一些同事,部分服务器交到了我的手里,总结一些常用的操作注:大写的字符串一般是用来占位,需要替换创建账户和使用密钥对登陆 1,账户系列 useradd 选项用 ...
工作记录 - OBB的解决方案
之前关于OBB的内容: Android上使用native IO 最近工作中的问题笔记工作记录[续] android OBB 自从用了Java来mount OBB, 再也没有遇到挂载的问题. 但最近在 ...
HIVE 命令记录
HIVE 命令记录设置hive运行的队列 hive> set mapreduce.job.queuename=ven12; 打印列名 hive> set hive.cli.print.h ...
工作记录--WPF自定义控件，实现一个可设置编辑模式的TextBox
原文:工作记录--WPF自定义控件,实现一个可设置编辑模式的TextBox 1. 背景因为最近在使用wpf开发桌面端应用,在查看页面需要把TextBox和Combox等控件设置为只读的.原本是个很简 ...
图书馆管理系统程序+全套开发文档（系统计划书，系统使用说明，测试报告，UML分析与设计，工作记录）
图书馆管理系统程序+全套开发文档(系统计划书,系统使用说明,测试报告,UML分析与设计,工作记录): https://download.csdn.net/download/qq_39932172/11 ...
国产mcu理论数据评估工作记录
目录前言简要工作记录前言时间:20210315 主要记录这两天对国内各IC厂商的 MCU 了解记录. 大环境,ST 厂商 MCU 疯狂涨价,国内 MCU 也越来越完善,还便宜.同时,全球缺晶圆 ...
CDH:5.14.0 中 Hive BUG记录
CDH5.14.0使用的HIVE版本: 自建表log: +----------------------------------------------------+--+ | createtab_st ...

随机推荐

构建微软智能云：介绍新的Azure业务转型创新技术
在我和用户的交流中发现,在任何类型和规模的组织中,每当涉及到在云中实现商业价值的最大化并取得竞争优势的时候,就会明显呈现三个趋势.首先,应用程序促进着组织更快速实现价值.同时,诸如机器学习.数据预测分 ...
秒杀多线程第一篇多线程笔试面试题汇总 ZZ 【多线程】
http://blog.csdn.net/morewindows/article/details/7392749 系列前言本系列是本人参加微软亚洲研究院,腾讯研究院,迅雷面试时整理的,另外也加入一些 ...
Sqlserver 游标&存储过程&临时表混合使用实例
通过嵌套,根据表中记录的表名与列名到指定位置取值. --声明存储过程 ProPIMS if (exists (select * from sys.objects where name = 'ProPI ...
aspnetcore 认证相关类简要说明一
首先我想要简要说明是AuthenticationScheme类,每次看到Scheme这个单词我就感觉它是一个很高大上的单词,其实简单翻译过来就是认证方案的意思.既然一种方案,那我们就要知道这个方案的名 ...
Windows事件--重复事件检测
监视器--Windows事件--重复事件检测--计时器重置: 自动重置计时器:指定等待时间10分钟,则在10分钟后自动关闭该警报,更改状态为正常(绿色) 检测事件1,事件3重置计数器状态,2分钟内检 ...
Python实例---游戏人生[类的学习]
# -*- coding:utf-8 -*- # ##################### 定义实现功能的类 ##################### class Person: def __in ...
python安装 numpy&安装matplotlib& scipy
numpy安装下载地址:https://pypi.python.org/pypi/numpy(各取所需) copy安装目录.eg:鄙人的D:\python3.6.1\Scripts pip inst ...
Salesforce的多态存储和SAP C4C的元数据存储仓库
Salesforce Force.com integrates and optimizes several different data persistence technologies to del ...
使用UEFI+GPT模式安装Windows
一.硬盘分区分区还是用PE下最常用的DiskGenius,可直接使用"快速分区"功能对硬盘进行分区.分区表类型选择GUID,勾选建立ESP分区.ESP分区非常重要,用于存放系统引 ...
vue笔记2
vue项目目录 <pre> ├── build // 构建服务和webpack配置 ├── config // 项目不同环境的配置 ├── dist // 项目build目录 ├── in ...

hive工作记录-20180513

hive工作记录-20180513的更多相关文章

随机推荐

热门专题