k8s DCGM GPU采集指标项说明
dcgm-exporter 采集指标项
https://help.aliyun.com/document_detail/433222.html#section-oin-6mf-6j0
| 指标 | 解释 |
|---|---|
| dcgm_fan_speed_percent | GPU风扇转速占比(%) |
| dcgm_sm_clock | GPU sm 时钟(MHz) |
| dcgm_memory_clock | GPU 内存时钟(MHz) |
| dcgm_gpu_temp | GPU 运行的温度(℃) |
| dcgm_power_usage | GPU 的功率(w) |
| dcgm_pcie_tx_throughput | GPU PCIeTX 传输的字节总数 (kb) |
| dcgm_pcie_rx_throughput | GPU PCIeRX 接收的字节总数 (kb) |
| dcgm_pcie_replay_counter | GPU PCIe重试的总数 |
| dcgm_gpu_utilization | GPU 利用率(%) |
| dcgm_mem_copy_utilization | GPU 内存利用率(%) |
| dcgm_enc_utilization | GPU 编码器利用率(%) |
| dcgm_dec_utilization | GPU 解码器利用率(%) |
| dcgm_xid_errors | GPU 上一个xid错误的值 |
| dcgm_power_violation | GPU 功率限制导致的节流持续时间(us) |
| dcgm_thermal_violation | GPU 热约束节流持续时间(us) |
| dcgm_sync_boost_violation | GPU 同步增强限制,限制持续时间(us) |
| dcgm_fb_free | GPUfb(帧缓存)的剩余(MiB) |
| dcgm_fb_used | GPUfb(帧缓存)的使用(MiB) |
k8s DCGM GPU采集指标项说明的更多相关文章
- hbase 监控指标项
名词解释 JMX:Java Management Extensions,用于用于Java程序扩展监控和管理项 GC:Garbage Collection,垃圾收集,垃圾回收机制 指标项来源 主机名 u ...
- Hbase监控指标项
名词解释 JMX:Java Management Extensions,用于用于Java程序扩展监控和管理项 GC:Garbage Collection,垃圾收集,垃圾回收机制 指标项来源 主机名 u ...
- k8s 调度 GPU
最近公司有项目想在 k8s 集群中运行 GPU 任务,于是研究了一下.下面是部署的步骤. 1. 首先得有一个可以运行的 k8s 集群. 集群部署参考 kubeadm安装k8s 2. 准备 GPU 节点 ...
- 【Graphite】使用dropwizard.metrics向Graphite中写入指标项数据
graphite 定时向Graphite中写入指标项数据,指标项模拟个数3000个 使用的类库 官方文档 dropwizard的github地址 Metric官方文档 metrics.dropwi ...
- SOAPUI 压力测试的指标项说明
soapUI Pro指标项说明: Test Step Sets the startup delay for each thread (in milliseconds), setting to ...
- Flume监控指标项
配置监控 1.修改flume-env.sh export JAVA_OPTS="-Dcom.sun.management.jmxremote -Dcom.sun.management.jmx ...
- Spark指标项监控
监控配置 spark的监控主要分为Master.Worker.driver.executor监控.Master和Worker的监控在spark集群运行时即可监控,Driver和Excutor的监控需要 ...
- kafka监控指标项
监控配置 kafka基本分为broker.producer.consumer三个子项,每一项的启动都需要用到 $KAFKA_HOME/bin/kafka-run-class.sh 脚本,在该脚本中 ...
- Hadoop监控指标项
配置 修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh # 在配置namenode和datanode时都会有用到JMX_OPTS的代码,是为了减少重复提取出的公共代码 e ...
- oratop 各个指标项说明
Section 1- oratop and database/instance specifics spid :oratop's server SPID connected to inst ...
随机推荐
- 在openEuler RISC-V上无痛部署Solidity
近几年区块链很火,随着各国政府对加密技术的监管政策不断变化和BTC的暴涨,越来越多人对这项去中心化的技术充满着期待.这次我用openEuler 24.09 RISC-V的远程机器尝试编译了Solidi ...
- Qt/C++原创推流工具/支持多种流媒体服务/ZLMediaKit/srs/mediamtx等
一.前言 1.1 功能特点 支持各种本地视频文件和网络视频文件. 支持各种网络视频流,网络摄像头,协议包括rtsp.rtmp.http. 支持将本地摄像头设备推流,可指定分辨率和帧率等. 支持将本地桌 ...
- Qt编写可视化大屏电子看板系统25-模块3设备监控
一.前言 设备监控主要用来实时监测制造零件等使用的设备的工作运行状态,每个设备都有对应的需要.分组名称.分组编号.设备名称.文字1.文字2.工作状态(1-开机 2-待机 3-维护 4-空),不同的工作 ...
- 如何在众多Ubuntu版本中挑选出最适配自身需求的系统版本?用德承工控机GM-1100来深度剖析其中的门道
Ubuntu是一款基于Debian GNU/Linux,支持x86.amd64(x64)和ppc架构,以桌面应用为主的Linux操作系统.其名称来自非洲南部的语言"ubuntu"( ...
- 张正友的相机标定论文Flexible camera calibration by viewing a plane from unknown orientations的翻译
张正友的相机标定论文Flexible camera calibration by viewing a plane from unknown orientations的翻译: 翻译的pdf版本为:htt ...
- Web网页端IM产品RainbowChat-Web的v7.2版已发布
一.关于RainbowChat-Web RainbowChat-Web是一套Web网页端IM系统,是RainbowChat的姊妹系统(RainbowChat是一套基于开源IM聊天框架 MobileIM ...
- Final Review - 返回天空的雨滴
目录 Motivations Tricks Conclusions Algorithms And - \[\text{Each moment, now night.} \newcommand{\vct ...
- Solution Set -「DS 专题」兔年的兔子写 DS 会有小常数吗?
目录 Day 1 「Ynoi 2009」「洛谷 P6109」rprmq1 ^ 「Ynoi Easy Round 2021」「洛谷 P8512」TEST_152 「Ynoi 2005」「洛谷 P7907 ...
- 谈谈flutter的线程
本文同步发布于公众号:移动开发那些事谈谈flutter的线程 刚接触flutter的同学肯定会对fluter所谓的单线程架构很蒙逼,因为这与我们学开发时,各种语言里的多线程的介绍有点出入,而且手机的C ...
- biancheng-Spring Cloud Alibaba Seata
随着业务的不断发展,单体架构已经无法满足我们的需求,分布式微服务架构逐渐成为大型互联网平台的首选,但所有使用分布式微服务架构的应用都必须面临一个十分棘手的问题,那就是"分布式事务" ...