parquet文件格式——本质上是将多个rows作为一个chunk，同一个chunk里每一个单独的column使用列存储格式，这样获取某一row数据时候不需要跨机器获取

Parquet是Twitter贡献给开源社区的一个列数据存储格式，采用和Dremel相同的文件存储算法，支持树形结构存储和基于列的访问。Cloudera Impala也将使用Parquet作为底层的存储格式。在很多大数据的应用场景下面，比如电信行业，具有一定规则的数据，字段很多，但是每次查询仅仅针对其中少数的几个字段，这个时候列式存储是极佳的选择。
优势：
使用列式存储，一列的值都是同质的，从而带来了更高的压缩比；对于在hadoop集群上的大数据量来说，使用parquet可以节省大量空间；
可以提高IO性能；在查询的时候，只需要读取关心的列，而不需要将整条记录都读出来进行条件过滤；
由于列数据都是同类型的，从而可以对不同的列采用不同的编码方式来组织存储，提升读写效率，节省空间。
劣势：
不支持update操作（数据写成后不可删除和修改），不支持ACID等

Parquet文件将数据分为N列，M个RowGroup，每个RowGroup中按照Column进行文件存储。
每个Column中对列的数据话划分为多个Page，每个Page对数据内容进行压缩，默认推荐snappy算法。
Parquet文件写入完毕后会写入File MetaData，File MetaData包含了所有列元数据的起始位置，因此读取列数据时先从中找到感兴趣的列，然后再顺序读取。

-byte magic number "PAR1"

<Column 1 Chunk 1 + Column Metadata>

<Column 2 Chunk 1 + Column Metadata>

...

<Column N Chunk 1 + Column Metadata>

<Column 1 Chunk 2 + Column Metadata>

<Column 2 Chunk 2 + Column Metadata>

...

<Column N Chunk 2 + Column Metadata>

...

<Column  Chunk M + Column Metadata>

<Column  Chunk M + Column Metadata>

...

<Column N Chunk M + Column Metadata>

File Metadata

-byte length in bytes of file metadata

-byte magic number "PAR1"

综合来看，ORCfiel和parquet本质上都是列上存储，大同小异。parquet主要特点是支持嵌套格式，ORCfile主要特点是strips中有轻量级的index data。所以这两种数据存储格式完全是可以相互借鉴融合的。

parquet文件格式——本质上是将多个rows作为一个chunk，同一个chunk里每一个单独的column使用列存储格式，这样获取某一row数据时候不需要跨机器获取的更多相关文章

vue 父组件主动获取子组件的数据和方法子组件主动获取父组件的数据和方法
Header.vue <template> <div> <h2>我是头部组件</h2> <button @click="getParen ...
动态DNS——本质上是IP变化，将任意变换的IP地址绑定给一个固定的二级域名。不管这个线路的IP地址怎样变化，因特网用户还是可以使用这个固定的域名这样看的话，p2p可以用哇
动态域名是因应网络远程访问的需要而产生的一项应用技术.因为没有固定IP,只能运用二级域名来应对经常变化的IP,动态域名的由来因此而产生. 它当前主要应用在:路由器.网络摄像机.带网络监控的硬盘录像机. ...
使用 shell 脚本自动获取发版指标数据
问题背景大一点的公司都会建立一套规章流程来避免低级错误,例如合入代码前必需经过同行评审:上线前必需提测且通过 QA 验证:全量前必需经过 1%.5%.10%.20%.50% 的灰度过程.尤其是最后一 ...
怎样打造一个分布式数据库——rocksDB, raft, mvcc，本质上是为了解决跨数据中心的复制
摘自:http://www.infoq.com/cn/articles/how-to-build-a-distributed-database?utm_campaign=rightbar_v2& ...
java之初识服务器跨域获取数据
当一个项目膨大到无法进行整理时,而作为新负责维护的团队是非常苦恼的.对于想实现两个系统的数据访问,使用Ajax数据请求方式获取jsonp格式的数据需要有前端jquery库文件. 前端代码通过jque ...
jQuery之ajax的跨域获取数据
如果获取的数据文件存放在远程服务器上(域名不同,也就是跨域获取数据),则需要使用jsonp类型.使用这种类型的话,会创建一个查询字符串参数 callback=? ,这个参数会加在请求的URL后面.服务 ...
利用location.hash+iframe跨域获取数据详解
前言如果看懂了前文利用window.name+iframe跨域获取数据,那么此文也就很好理解了.一样都是动态插入一个iframe,然后把iframe的src指向服务端地址,而服务端同样都是输出一段j ...
XMLHTTPRequest对象不能跨域获取数据？！
写了一小段代码,是用XMLHTTPRequest对象来获取数据的,在本地服务器中,运行的很顺利,但是转向实际服务器(实质上就是转向http://gumball.wickedlysmart.com获取一 ...
[ 转 ]jquery的ajax和getJson跨域获取json数据
目前浏览器端跨域访问常用的两种方法有两种: 1.通过jQuery的ajax进行跨域,这其实是采用的jsonp的方式来实现的. jsonp是英文json with padding的缩写.它允许在服务器端 ...

随机推荐

android的网络访问URL
Thread visitBaiduThread = new Thread(new VisitWebRunnable()); visitBaiduThread.start(); try ...
在 Windows 下用 TDM-GCC（MinGW）开发 DLL 涉及到数据同步锁及 DLL 初始化终止化函数的问题
在 Windows 下用 TDM-GCC(MinGW)开发 DLL 如果要用到数据同步锁,理论上可以采用 Windows API 提供的临界区实现(需要用到的函数有 InitializeCritica ...
[bzoj1110][POI2007]砝码Odw_贪心
bzoj-1110 POI-2007 砝码Odw 参考博客:http://hzwer.com/4761.html 题目大意:在byteotian公司搬家的时候,他们发现他们的大量的精密砝码的搬运是一件 ...
T2597 团伙 codevs
http://codevs.cn/problem/2597/ 时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题目描述 Description 1920年的芝加 ...
python和linux的环境设置/PATH
一.python的环境设置 1.输出path列表: pi@raspberrypi:~$ pythonPython 3.4.0 (default, Jul 1 2014, 09:37:01) [GCC ...
升级python2至python3解决依赖关系
1.最小化安装centos7,在升级python3的时候会出现很多包未安装,为解决依赖关系: yum -y install gcc gcc-c++ zlib zlib-devel libffi-dev ...
How to Install a Language Pack
https://www.phpbb.com/kb/article/how-to-install-a-language-pack
Mysql学习记录点
order by 数字,表示按照第几列来排序,可以从1开始,不能是0,也不能超过列数.
Override和Overload差别，Overloaded的方法能否够改变返回值的类型?
Overload是重载的意思, Override是覆盖的意思,也就是重写. 重载Overload表示同一个类中能够有多个名称同样的方法,但这些方法的參数列表各不同样(即參数个数或类型不同). 重写Ov ...
[Javascript] Cancel A Promise Using AbortController
The AbortController interface enables us to cancel a one or more DOM requests. In this lesson, we wi ...

parquet文件格式——本质上是将多个rows作为一个chunk，同一个chunk里每一个单独的column使用列存储格式，这样获取某一row数据时候不需要跨机器获取

parquet文件格式——本质上是将多个rows作为一个chunk，同一个chunk里每一个单独的column使用列存储格式，这样获取某一row数据时候不需要跨机器获取的更多相关文章

随机推荐

热门专题