对数据进行压缩可以节约磁盘空间,提高系统吞吐量和性能,但是压缩和解压缩会增加CPU的开销. 1.hive的压缩编/解码器 BZip2和GZip压缩率高,但是需要消耗较多的CPU开销.LZO和Snappy与前面相反. 一般来说压缩文件是不可分割的,BZip2和LZO提供了块(block)级别的压缩,故可以在块边界对文件进行划分. GZip支持Hadoop但是不支持分割:snappy不支持分割,在Hadoop中需要安装. LZO支持分割,但是在Hadoop中需要安装:bzip2支持分割和Hadoop