Hive(十二)【调优】】的更多相关文章

1. null值处理,子串,拼接,类型转换 (1) 空字段赋值(null值处理) 当表中的某个字段为null时,比如奖金,当你要统计一个人的总工资时,字段为null的值就无法处理,这个时候就可以使用NVL函数 NVL:给值为NULL的数据赋值,它的格式是NVL( string1, replace_with).它的功能是如果string1为NULL,则NVL函数返回replace_with的值,否则返回string1的值,如果两个参数都为NULL ,则返回NULL. 例: 创建dept表,并导入数…
当HiveQL跑不出来时,基本上是数据倾斜了,比如出现count(distinct),groupby,join等情况,理解 MR 底层原理,同时结合实际的业务,数据的类型,分布,质量状况等来实际的考虑如何进行系统性的优化. Hive on MR 调优主要从三个层面进行,分别是基于MapReduce优化.Hive架构层优化和HiveQL层优化. MapReduce调优 如果能够根据情况对shuffle过程进行调优,对于提供MapReduce性能很有帮助.一个通用的原则是给shuffle过程分配尽可…
目录 1.Fetch抓取 2.本地模式 3.表的优化 3.1大小表join 3.2大表Join大表 3.3map join 3.4group By 3.5 count(distinct) 3.6笛卡尔积 3.7行列过滤 3.8 分区.分桶 4.合理设置map和reduce数 4.1输入数据量大增加map数 4.2小文件合并 4.3合理设置reduce数 5.并行执行 6.严格模式 7.JVM重用 8.压缩 9.执行计划(explain) 1.Fetch抓取 Fetch抓取:Hive中对某些情况的…
Hadoop压缩配置 修改Hadoop集群具有Snappy压缩方式: 查看hadoop支持的压缩方式 [kris@hadoop101 datas]$ hadoop checknative 将编译好的支持Snappy压缩的hadoop-.tar.gz包导入到hadoop101的/opt/software中 .解压hadoop-.tar.gz到当前路径 [kris@hadoop101 software]$ .tar.gz .进入到/opt/software/hadoop-/lib/native路径可…
1.limit限制调整 一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果. 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数 缺点:有可能部分数据永远不会被处理到   2.JOIN优化 1).  将大…
JVM调优工具 Jconsole,jProfile,VisualVM Jconsole : jdk自带,功能简单,但是可以在系统有一定负荷的情况下使用.对垃圾回收算法有很详细的跟踪.详细说明参考这里 JProfiler:商业软件,需要付费.功能强大.详细说明参考这里 VisualVM:JDK自带,功能强大,与JProfiler类似.推荐. 如何调优 观察内存释放情况.集合类检查.对象树 上面这些调优工具都提供了强大的功能,但是总的来说一般分为以下几类功能 堆信息查看 可查看堆空间大小分配(年轻代…
Hive的标准调优清单,我们可以对照着来做我们的查询优化!…
@ 目录 概述 Spark on Hive Hive on Spark 概述 编译Spark源码 配置 调优思路 编程方向 分组聚合优化 join优化 数据倾斜 任务并行度 小文件合并 CBO 谓词下推 矢量化查询 Yarn配置推荐 Spark配置推荐 Executor CPU核数配置 Executor CPU内存配置 Executor 个数配置 Driver配置 整体配置 概述 前面的文章都单独熟悉Hive和Spark原理和应用,本篇则来进一步研究Hive与Spark之间整合的3种模式: Hi…
欢迎和大家交流技术相关问题: 邮箱: jiangxinnju@163.com 博客园地址: http://www.cnblogs.com/jiangxinnju GitHub地址: https://github.com/jiangxincode 知乎地址: https://www.zhihu.com/people/jiangxinnju JVM调优总结(一)-- 一些概念: http://pengjiaheng.iteye.com/blog/518623 JVM调优总结(二)-一些概念: htt…
一.简介 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎. 它不但包括了全文搜索功能,还可以进行以下工作: 分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索. 实时分析的分布式搜索引擎. 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据. 使用案例: 维基百科使用Ela…