记录hive一次数据倾斜问题的解决以及思考总结

不要给我歪！ 2024-07-11 03:38:00 原文

解决数据倾斜是大数据开发中比较重要的能力，这个现象指的是分布式集群中，由于数据分发的不当，导致某个节点要处理的错误过多，导致整个计算机任务迟迟结束不了，甚至可能节点出现OOM使得任务失败

处理数据倾斜的第一步就是定位到数据倾斜的位置以及理清数据倾斜的原因

这次数据倾斜模拟的是大key，也就是某个key下记录远超于其他key，在join或者group的时候会导致某个reduce任务特别慢(可以通过yarn的web ui查看端口号8088

）

使用环境

hadoop+hive（on mapreduce）

一、确定大key

类似做数据挖掘中的预处理阶段，通过sql查看key的分布问题

垃圾sql

select count(distinct(key))

from table

distinct走全局，也就是走一个reduce，导致数据倾斜！！！！

改良后

select key,count(1)

from(

select key

from table

group by key)

key_table

结合task的执行情况基本可以判定为大key问题
或者通过task日志来确定哪个key有问题，过程为https://blog.csdn.net/epitomizelu/article/details/117120258

二、确定哪个key后定位sql语句

这时候可以通过jobname后面的stage结合explain(有时间总结下explain用法，这个没法硬记，还得靠实践中熟悉），根据执行计划，就能判断哪里的sql语句出现了数据倾斜

三、判断造成数据倾斜的大key与业务逻辑有无关系

若没有关系，比如这次研究布局二三线城市的商业，那么占大部分数据的一线城市人口需求就不需要有，需要提前过滤掉

若有关系，则需要讨论如何进行优化，以后进行补充

记录hive一次数据倾斜问题的解决以及思考总结的更多相关文章

Hive中的数据倾斜
Hive中的数据倾斜 hive 1. 什么是数据倾斜 mapreduce中,相同key的value都给一个reduce,如果个别key的数据过多,而其他key的较少,就会出现数据倾斜.通俗的说,就是我 ...
hive单节点数据倾斜解决方法
一.现象 map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百 ...
Hive 数据倾斜原因及解决方法（转）
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平 ...
hive数据倾斜原因以及解决办法
何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈. 表现为整体任务基本完成, ...
Hive、Inceptor数据倾斜详解及解决
一.倾斜造成的原因正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量. 俗话是,一 ...
hive命令查询数据不显示表头解决办法
在hive命令行中查询数据如下: 表头未显示出来解决办法: 修改hive安装包conf/hive-site.xml配置文件: <property> <name>hive.cl ...
Hive的HQL语句及数据倾斜解决方案
[版权申明:本文系作者原创,转载请注明出处] 文章出处:http://blog.csdn.net/sdksdk0/article/details/51675005 作者: 朱培 ID ...
hive数据倾斜的解决办法
数据倾斜是进行大数据计算时常见的问题.主要分为map端倾斜和reduce端倾斜,map端倾斜主要是因为输入文件大小不均匀导致,reduce端主要是partition不均匀导致. 在hive中遇到数据倾 ...
Hive数据倾斜解决方法总结
数据倾斜是进行大数据计算时最经常遇到的问题之一.当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题.数据倾斜其实 ...
Hive数据倾斜
数据倾斜是进行大数据计算时最经常遇到的问题之一.当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题.数据倾斜其实 ...

随机推荐

java 操作excel
需要引入的包 import org.apache.poi.hssf.usermodel.*; import org.apache.poi.ss.usermodel.HorizontalAlignmen ...
java中锁的应用（synchronized）
在面试菜鸟的时候碰到的锁的编程问题,没答好,记录一下: package com.xielu.test; /** * Hello world! * */ public class App { priva ...
基于mysql纯java的智能题库（后期填写注释）
1 package controller; 2 3 import admin.entity.Admin; 4 import admin.service.AdminService; 5 import a ...
Parallels Desktop 18(Mac虚拟机)v18.0.0(53049)无限试用版+win11系统
Parallels Desktop 18 for Mac 是一款强大的虚拟机软件,让您无需重启即可在 Mac 上运行 Windows 应用程序不会减慢 Mac 的运行速度,具有速度快.操作简单且功能强 ...
java-------导出数据csv
outputStream = new FileOutoutStream(file); outputStreamWriter = new OutputStreamWriter (outputStream ...
RuntimeError: Expected object of backend CUDA but got backend CPU for argument #4 'mat1'
原因:变量没有加cuda data=data.cuda()
Java中接口相关知识
1.接口 1.1接口概述接口就是一种公共的规范标准,只要符合标准,大家都可以通用 Java中的接口更多的体现在对行为的抽象 1.2接口的特点接口用关键字interface修饰,格式:public ...
PHP如何在两个大文件中找出相同的记录?
1.引言给定a,b两个文件, 分别有x,y行数据, 其中(x, y均大于10亿), 机器内存限制100M,该如何找出其中相同的记录? 2.思路处理该问题的困难主要是无法将这海量数据一次性读进内存中 ...
Testlink for linux by Xampp
Testlink 1．环境: (1)需要的环境配置: ①Linux system. ②Mysql ③apache ④Php (2)上面的2,3,4我们使用简易的Xamppp集成的环境,下面是安装配置x ...
power shell 删除应用
public static UwpAppInfo SearchUwpAppByName(string appName) { UwpAppInfo app = null; try { string re ...