转自:https://blog.csdn.net/xinzhi8/article/details/71455883 操作: 关键词 情形 后果 Join 其中一个表较小,但是key集中 分发到某一个或几个Reduce 上的数据远高于平均值 大表与大表,但是分桶的判断字段0值或空值过多 这些空值都由一个reduce处理非常慢 group by group by 维度过小,某值的数量过多 处理某值的reduce非常耗时 Count Distinct 某特殊值过多…
卧槽草草 来源于其它博客: 貌似我只知道group by key带来的倾斜 hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案 1.join的key值发生倾斜,key值包含很多空值或是异常值 这种情况可以对异常值赋一个随机值来分散key 如: select userid,name from user_info a join( select case w…