Hive 导入 parquet 格式数据

Hive 导入 parquet 数据步骤如下：

查看 parquet 文件的格式
构造建表语句
倒入数据

一、查看 parquet 内容和结构

下载地址

命令

查看结构：

java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parquet |head -n 30
查看内容：

java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar head -n 2 activity.201711171437.0.parquet

parquet 和 hive 的 field 类型映射关系

BINARY -> STRING

BOOLEAN -> BOOLEAN

DOUBLE -> DOUBLE

FLOAT -> FLOAT

INT32 -> INT

INT64 -> BIGINT

INT96 -> TIMESTAMP

BINARY + OriginalType UTF8 -> STRING

BINARY + OriginalType DECIMAL -> DECIMAL

二、hive 命令

创建表

create table test_data(a bigint) stored as parquet;

# 创建表时可选择数据存储格式

Tips：分区 partitioned by (date string)

本地导入数据

load data local inpath '/path/data.parquet' into table test_database.test_table_name;

导入HDFS中的数据

load data inpath '/path/data.parquet' into table test_database.test_table_name;

Tips：区别是没有 local

三、pandas 数据导成 parquet 文件

先安装 pyarrow 或 fastparquet 库

import pandas as pd

>>> df = pd.DataFrame(data={'col1': [1, 2], 'col2': [3, 4]})

>>> df.to_parquet('df.parquet.gzip', compression='gzip')

>>> pd.read_parquet('df.parquet.gzip')

    col1  col2

0     1     3

1     2     4

参考

Hive 导入 parquet 格式数据的更多相关文章

Hive 导入 parquet 格式数据（未完，待续）
Hive 导入 parquet 格式数据 Parquet 格式文件,查看Schema Parquet 之mapreduce Hive 导入 parquet 格式数据
导入数据任务（id:373985）异常，错误信息：解析导入文件错误，请检查导入文件内容，仅支持导入json格式数据及excel文件
小程序导入,别人导出的数据库json文件,错误信息如下: 导入数据库失败, Error: Poll error, 导入数据任务(id:373985)异常,错误信息:解析导入文件错误,请检查导入文件内容 ...
mapreduce 读写Parquet格式数据 Demo
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs ...
Hive 导入、导出数据
<------ 导入 ------> 从本地目录文件导入Hive表语法:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABL ...
Hive导入HDFS/本地数据
#创建表人信息表 person(String name,int age) hive> create table person(name STRING,age INT)ROW FORMAT DE ...
记录一次mysql使用load into命令导入csv格式数据的过程
今天从qwiklab实验获取一组数据,大概有5万条,在qwiklab实验室使用的是pgsql数据库,但是今天想把他插入本地的mysql数据库中. 1.首先是查看一下数据内容: 数据中有的是空值,有的是 ...
mysql 导入 csv 格式数据
mysql --local-infile -uroot -proot task_ops -e "LOAD DATA LOCAL INFILE '/tmp/data_import/app8.c ...
大数据学习day25------spark08-----1. 读取数据库的形式创建DataFrame 2. Parquet格式的数据源 3. Orc格式的数据源 4.spark_sql整合hive 5.在IDEA中编写spark程序（用来操作hive） 6. SQL风格和DSL风格以及RDD的形式计算连续登陆三天的用户
1. 读取数据库的形式创建DataFrame DataFrameFromJDBC object DataFrameFromJDBC { def main(args: Array[String]): U ...
Bash中使用MySQL导入导出CSV格式数据[转]
转自: http://codingstandards.iteye.com/blog/604541 MySQL中导出CSV格式数据的SQL语句样本如下: select * from test_inf ...

随机推荐

C++ Json解析CJsonObject的详细使用
引用头文件: #include <string> #include <iostream> #include <fstream> #include <casse ...
avuex
今天做了的avuex终于发现了问题.作为前端小白,解决花了一上午,这是因为以前没有用过框架.还好终于憋出来了.具体如下,还望不要嘲笑自己查找好久原来是没有仔细看文档的原因,一定要记住,这是一个技术活 ...
centos6.5使用LVM
1.添加硬盘 centos6以前的版本用kudzu来不重启识别新硬件. [root@xen01 ~]# /etc/init.d/kudzu start -bash: /etc/init.d/kudzu ...
python3.5.2库getpass
getpass的功能是:允许隐式的输入字符串 import getpass _username='vigossr' _password='haha' username=input('username: ...
vimtutor——vim官方教程
=============================================================================== = 欢迎阅 ...
32位二进制IP地址与十进制IP地址互相转换
代码: import java.util.List; import java.util.ArrayList; import java.util.Scanner; public class Transf ...
JavaScript模板引擎Handlebars
Handlebars模板库简单介绍 Handlebars是JavaScript一个语义模板库,通过对view(模板)和data(ajax请求的数据,一般是json)的分离来快速构建Web模板.它采用& ...
1、初识Java
1.计算机发展过程 2.Java简史 lSUN公司是一家什么样的公司? 美国SUN(Stanford University Network)公司在中国大陆的正式中文名为“太阳计算机系统(中国)有限公 ...
第一次冲刺意见汇总&团队第一阶段总结
大家对我们小组的意见基本是: 1.设计界面简单 2.功能较少 3.没有实现切换歌曲的功能谢谢HT小组的走心评价接下来我们组内准备:1.先调节用户界面,插入一些图片,美化界面,给用户直观的体验上升. ...
Vue（MVVM）、React(MVVM)、Angular(MVC)对比
前言昨天阿里内推电面一面,面试官了解到项目中用过Vue,就问为什么前端框架使用Vue而不适用其他的框架,当时就懵了.因为只用过Vue,不了解其他两个框架,今天就赶紧去了解一下他们之间的区别.大家发现 ...

Hive 导入 parquet 格式数据

一、查看 parquet 内容和结构

下载地址

命令

parquet 和 hive 的 field 类型映射关系

二、hive 命令

创建表

本地导入数据

导入HDFS中的数据

三、pandas 数据导成 parquet 文件

参考

Hive 导入 parquet 格式数据的更多相关文章

随机推荐

热门专题