本文分享自华为云社区《DWS临时内存不可用报错: memory temporarily unavailable》,作者:漫天。

1、定位报错的DN/CN

当出现memory temporarily unavailable报错时,首先根据报错信息确认具体是哪个cn/dn报的,如果报错信息没有类似dnxxxx_xxxx这样的信息,就是cn报的,需要去每个cn的日志里排查是哪个cn。

2、DWS813以前的版本内存报错定位

通过free -g或者top命令查看操作系统内存使用情况,确认是操作系统内存耗尽导致,还是cn/dn的内存使用达到限制,导致内存可不用报错。如果没有现场,需要查看操作系统的内存监控。

如果是cn/dn的内存使用达到限制,可以按照以下步骤定位:

步骤一:分析内存视图 pv_total_memory_detail(实例级别内存视图)

select * from pv_total_memory_detail ;

判断(1)如果dynamic_peak_memory大于max_dynamic_memory,说明是cn/dn dynamic内存使用达到上限,导致内存可不用报错。PS:要求历史上dynamic_peak_memory 没有超过max_dynamic_memory,即dynamic_peak_memory 首次超过max_dynamic_memory时,该判断方式有效。

判断(2)dynamic_used_memory接近max_dynamic_memory,大概率是cn/dn dynamic内存使用达到上限,导致内存可不用报错。

判断(3)比较dynamic_used_memory、dynamic_used_shrctx、sctpcomm_used_memory大小,如果dynamic_used_shrctx非常大,说明多线程共享的动态内存太大,如果sctpcomm_used_memory非常大,说明通信库使用的内存非常大,如果dynamic_used_shrctx和sctpcomm_used_memory都很小,说明session占用的内存最多。

步骤二:分析内存视图 pv_session_memory_detail(会话级别内存视图)和活跃会话视图 pg_stat_activity

执行如下SQL-X,查看每个session占用的内存大小:

-- 查看每个session占用的内存大小
select split_part(pv_session_memory_detail.sessid,'.',2) pid,pg_size_pretty(sum(totalsize)) total_size,count(*) context_count from pv_session_memory_detail group by pid order by sum(totalsize) desc;

如果SQL-X查询结果中,某个session占用内存特别高,说明该session上执行的SQL占用内存过高,可以找到对应的SQL,杀掉该语句并进行整改:

-- 查看语句占用内存大小
select b.state, a.sessid, b.query_id, substr(b.query,1,80) as query, sum(totalsize) as totalsize, sum(freesize), sum(usedsize) from pv_session_memory_detail a, pg_stat_activity b where split_part(a.sessid,'.',2) = b.pid group by state,sessid,query_id,query order by totalsize desc limit 100;

-- 到对应的CN节点查杀对应的线程
select pg_terminate_backend(pid);

如果SQL-X查询结果中,每个session占用内存都不大,但session总量大,大概是空闲线程太多导致dynamic内存较高。

-- 查看idle线程数量
SELECT count(*) FROM pg_stat_activity WHERE state='idle';

-- 查看各个线程状态的内存使用
select b.state, sum(totalsize) as totalsize, sum(freesize) as freesize, sum(usedsize) as usedsize from pv_session_memory_detail a, pg_stat_activity b where split_part(a.sessid,'.',2) = b.pid group by b.state order by totalsize desc limit 100;

-- 查询各个应用的内存使用
select b.application_name, sum(totalsize) as totalsize, sum(freesize) as freesize, sum(usedsize) as usedsize from pv_session_memory_detail a, pg_stat_activity b where split_part(a.sessid,'.',2) = b.pid group by b.application_name order by totalsize desc limit 100;

-- 查询各个用户的内存使用
select b.usename, sum(totalsize) as totalsize from pv_session_memory_detail a, pg_stat_activity b where split_part(a.sessid,'.',2) = b.pid group by b.usename order by totalsize desc limit 30;

-- 查看各类型等待线程的数量
select wait_status,wait_event,count(*) from pg_thread_wait_status group by 1,2 order by 3 desc;

如果是空闲用户线程导致dynamic内存高,可以临时清理下空闲用户线程:

gsql -d postgres -p 25308 -c "clean connection to all for database xxx;"

如果是空闲stream线程导致dynamic内存高,可以将参数max_stream_pool改小(stream线程池的作用是缓存stream线程,stream线程是用来进行dn之间数据的传输,一般多表join的时候stream线程会较多),减小max_stream_pool的影响是短查询的性能会降低,对复杂查询几乎没影响。

3、DWS813及以后的版本内存报错定位

可以使用813以前版本的定位方式,也可以使用下面的方式。

步骤一:查看报错日志

813及以上版本会打印出debug的信息,可以通过搜关键字abnormal来找到当时使用最高的语句,找到thread id,再查找thread id 找到对应query id

步骤二:查看topsql

上一步可以找到占用内存最大的sql,如果该sql占用内存确实很大,通过topsql查找对应的query id,从而找到对应的SQL语句,并通过unique_sql_id找到同一类型的SQL,进行分析整改。

如果不是某个sql占用内存太高导致,分析方法和813以前的版本一样。

另外,813及以后的版本可以使用如下方式清理空闲用户线程:

-- 清理空闲用户线程,每次清1/4
-- 显示清理了多少,还剩多少
select * from pgxc_clean_free_conn;

点击关注,第一时间了解华为云新鲜技术~

DWS临时内存不可用报错: memory temporarily unavailable的更多相关文章

  1. myeclipse 内存不够用报错PermGen space 和 An internal error has occurred.

    最近项目中又增加了新的模块,项目的代码又多了不少.运行的时候总是报如下错误 Exception in thread "http-apr-80-exec-6" java.lang.O ...

  2. 内核不中断前提下,Gaussdb(DWS)内存报错排查方法

    摘要:本文主要讲解如何在内核保证操作不能中断采取的特殊处理,理论上用户执行的sql使用的内存(dynamic_used_memory) 是不会大范围的超过max_dynamic_memory的内存的 ...

  3. 华为云GaussDB(DWS)内存知识点,你知道吗?

    前言 在日常数据库的使用中,难免会遇到一些内存问题.此次博文主要向大家分享一些华为云数仓GaussDB(DWS)内存的基本框架以及基本视图的使用,以便遇到内存问题后可以有一个基本的判断. 注意,本篇博 ...

  4. animate is not a function(zepto 使用报错)[转]

    animate is not a function(zepto 使用报错) 1.为什么使用zepto写animate报错? 因为zepto默认构建包含: Core, Ajax, Event, Form ...

  5. [bug]WCF 内存入口检查失败 Memory gates checking failed

    bug描述 异常信息:内存入口检查失败,因为可用内存(xxx 字节)少于总内存的 xx%.因此,该服务不可用于传入的请求.若要解决此问题,请减少计算机上的负载,或调整 serviceHostingEn ...

  6. .net core中Grpc使用报错:The remote certificate is invalid according to the validation procedure.

    因为Grpc采用HTTP/2作为通信协议,默认采用LTS/SSL加密方式传输,比如使用.net core启动一个服务端(被调用方)时: public static IHostBuilder Creat ...

  7. [原创]推荐一款强大的.NET程序内存分析工具.NET Memory Profiler

    [原创]推荐一款强大的.NET程序内存分析工具.NET Memory Profiler 1 官方网站:http://memprofiler.com/2 下载地址:http://memprofiler. ...

  8. [转] - linux下使用write\send发送数据报 EAGAIN : Resource temporarily unavailable 错

    linux下使用write\send发送数据报 EAGAIN : Resource temporarily unavailable 错 首先是我把套接字设置为异步的了,然后在使用write发送数据时采 ...

  9. dubbo 使用zookeeper 出现 Dubbo客户端调用报错NullPointerException

    现在将网上的方法总结一下 方法一:.https://blog.csdn.net/u011294519/article/details/81810631 dubbo-provider.xml:提供者先扫 ...

  10. 内存分析工具-MAT(Memory Analyzer Tool)

    内存分析工具-MAT(Memory Analyzer Tool) 首先查看如下代码,main函数中有一个成员变量map,map里被循环放入对象Hanson,hanson持有姓名和age还有friend ...

随机推荐

  1. 18. 从零开始编写一个类nginx工具, 主动式健康检查源码实现

    wmproxy wmproxy将用Rust实现http/https代理, socks5代理, 反向代理, 静态文件服务器,后续将实现websocket代理, 内外网穿透等, 会将实现过程分享出来, 感 ...

  2. [C++]P3379 LCA 最近公共祖先

    最近公共祖先 LCA 倍增写法 LCA的倍增主要由三个重要的过程组成 预处理lg数组 DFS求fa depth 倍增节点 观看以下内容前建议先把完整代码大致纵览一遍,有利于理解各个函数的意义 倍增思想 ...

  3. reverse_re3

    main函数 点击重要函数 对if里面的数字按r键,使其从ASCII码转为字符 发现wasd四个关键的移动方向键,判断为迷宫问题 判断应该是要次数为2,即次数++3(从0开始计数)次才会有flag 点 ...

  4. 不懂乐理,也能扒谱,基于openvpi将mp3转换为midi乐谱(Python3.10)

    所谓"扒谱"是指通过听歌或观看演奏视频等方式,逐步分析和还原音乐作品的曲谱或乐谱的过程.它是音乐学习和演奏的一种常见方法,通常由音乐爱好者.乐手或学生使用. 在扒谱的过程中,人们会 ...

  5. Educational Codeforces Round 104 (Rated for Div. 2) A~E题解

    写在前边 链接:Educational Codeforces Round 104 (Rated for Div. 2) A. Arena 链接:A题链接 题目大意: 给定一个长度为\(n\)的数组,表 ...

  6. 查看API官方文档

    盛年不重来,一日难再晨.及时宜自勉,岁月不待人.   学习一门语言, 了解其开发文档必不可少.开发文档就是我们在编程开发.维护.升级过程中的参考最全面.最权威的资料.我认为就是开发者为后人方便理解留下 ...

  7. Kepware楼宇自控BACnet/IP驱动

    BACnet/IP驱动是楼宇自动化设备驱动的集合,为用户提供一种方便快捷的楼宇自动化设备数采解决方案.只需要通过简单的配置就可以将常见的BACnet/IP协议设备无缝连接到 HMI/SCADA.MES ...

  8. Llinux登录后出现-bash-4.2#,解决办法以及造成这样的原因

    版权声明:原创作品,谢绝转载!否则将追究法律责任. ----- 作者:kirin 1.原因是root在/root下面的几个配置文件丢失,丢失文件如下: 1..bash_profile 2..bashr ...

  9. Codeforces Round 909 (Div3)(本菜鸟只补到了E)

    Codeforces Round 909 (Div.3) A. Game with Integers 水题,就是可以被3整除的输出"Second",不能被3整除的输出"F ...

  10. vue + node 前后端分离项目解决跨域问题

    vue + node 前后端分离项目解决跨域问题 由于前端 和 后端 项目运行于不同端口,无法直接传递数据 后端 app.js 添加如下代码 var cors = require('cors') ap ...