Apache Hive作为处理大数据量的大数据领域数据建设核心工具,数据量往往不是影响Hive执行效率的核心因素,数据倾斜.job数分配的不合理.磁盘或网络I/O过高.MapReduce配置的不合理等等才是影响Hive性能的关键. Hive在执行任务时,通常会将Hive SQL转化为MapReduce job进行处理.因此对Hive的调优,除了对Hive语句本身的优化,也要考虑Hive配置项以及MapReduce相关的优化.从更底层思考如何优化性能,而不是仅仅局限于代码/SQL的层面.列裁剪和分…