Basic CPU / Mem / Disk Info 1. CPU Cores 物理 CPU 的核数 cat /proc/cpuinfo| grep "cpu cores"| uniq type:SinglestatUnit: shortmetrics: count(count(node_cpu_seconds_total{instance=~\"$node:$port\",job=~\"$job\"}) by (cpu)) 2. Total…
1. CPU Busy :收集所有 cpu 内核 busy 状态占比 type: SinglestatUnit: perent(0-100)(所有 cpu使用情况 - 5分钟内 cpu 空闲的平均值) / 所有 cpu使用情况metrics: (((count(count(node_cpu_seconds_total{instance=~\"$node:$port\",job=~\"$job\"}) by (cpu))) - avg(sum by (mode)(ir…
1. CPU Basic cpu 的基本信息 /proc/stat type: GraphUnit: shortBusy System: cpu 处于核心态的占比 metrics: sum by (instance)(rate(node_cpu_seconds_total{mode="system",instance=~"$node:$port",job=~"$job"}[5m])) * 100 Busy User: cpu 处于用户态的占比 m…
linux中表示系统信息的 内容都在 /proc 要查看系统的任何信息, 如cpu mem 磁盘等等, 都在 /proc下, 如: cpuinfo ,meminfo diskstatus 等等…
Basic CPU / Mem / Disk Info https://www.cnblogs.com/qianyuliang/p/10479515.html Basic CPU / Mem / Disk Gauge   https://www.cnblogs.com/qianyuliang/p/10479553.html Basic CPU / Mem Graph    https://www.cnblogs.com/qianyuliang/p/10479585.html Basic Net…
1.安装grafana #####gafana过期安装包安装报错 Error unpacking rpm package grafana-5.1.4-1.x86_64error: unpacking of archive failed on file /usr/sbin/grafana-cli;5e250e9c: cpio: read Verifying : grafana-5.1.4-1.x86_64 原因安装包损坏不是最新的######下载官网最新的包:####grafana install…
Prometheus简介 什么是 Prometheus Prometheus是一个开源监控报警系统和时序列数据库 主要功能 多维数据模型(时序由 metric 名字和 k/v 的 labels 构成) 灵活的查询语句(PromQL) 无依赖存储,支持 local 和 remote 不同模型 采用 http 协议,使用 pull 模式,拉取数据,简单易懂 监控目标,可以采用服务发现或静态配置的方式 支持多种DashBoard,图形化友好 核心组件 Prometheus Server, 主要用于抓取…
Golang 基于Prometheus Node_Exporter 开发自定义脚本监控 公司是今年决定将一些传统应用从虚拟机上迁移到Kubernetes上的,项目多而乱,所以迁移工作进展缓慢,为了建立统一的监控平台,我们使用的是在Kubernetes集群内部署Prometheus-operator,不得不说Prometheus-operator对k8s的监控支持的非常好,helm安装后会把Prometheus.Alertmanger.Grafana.以及NodeExporter都给安装完成,打开…
Prometheus Promtheus是一个时间序列数据库,其采集的数据会以文件的形式存储在本地中,因此项目目录下需要一个data目录,需要我们自己创建,下面会讲到 下载 下载好的.tar.gz包放到自己想要安装的目录下 方式一:官网下载最新版,使用Xftp放到Linux系统自己想要安装的目录下即可  方法二:Linux使用wget下载 wget https://github.com/prometheus/prometheus/releases/download/v2.29.1/prometh…
1. Network Traffic Basic 每个接口的基本网络信息 type: GraphUnit: bytesrecv {{device}} 各个网络接口的下载量 recv lo: 本地环回接口recv eth0: 以太网接口recv docker0: docker0 网络接口metrics: rate(node_network_receive_bytes_total{instance=~"$node:$port",job=~"$job"}[5m]) tra…
1. CPU type: GraphUnit: shortmax: "100"min: "0"Label: PercentageSystem - cpu 在内核模式下执行的进程占比 metrics: sum by (mode)(irate(node_cpu_seconds_total{mode="system",instance=~"$node:$port",job=~"$job"}[5m])) * 100…
Disk Datail /proc/diskstats 1. Disk IOps Completed type: GraphUnit: I/O ops/sec(iops)Label: IO read(-)/write(+){{device}} - Reads completed: 每个磁盘分区每秒读完成次数 metrics: irate(node_disk_reads_completed_total{instance=~"$node:$port",job=~"$job&quo…
import psutil def cpu_information(): #scputimes(user=26.9, nice=0.1, system=50.27, idle=8551.89, iowait=1.97, irq=0.0, softirq=1.86, steal=0.0, guest=0.0, guest_nice=0.0) cpu_schemas=[ ("%usertime","%Nice", "%system","%i…
Node Exporter node_exporter 主要用于 *NIX 系统监控, 用 Golang 编写. 功能对照表 默认开启的功能 名称 说明 系统 arp 从 /proc/net/arp 中收集 ARP 统计信息 Linux conntrack 从 /proc/sys/net/netfilter/ 中收集 conntrack 统计信息 Linux cpu 收集 cpu 统计信息 Darwin, Dragonfly, FreeBSD, Linux diskstats 从 /proc/d…
环境搭建: 被测linux机器上部署了Grafana,Prometheus,node_exporter,并成功启动了它们. Grafana中已经创建了Prometheus数据源,并测试通过,并且导入了监控面板,将对被测机器的CPU,内存,网络和磁盘进行监控. 问题: 使用windows机器登录Grafana监控被测的Linux机器,右上角时间调整为最近的12个小时,无数据显示,显示为NA,如下图: 分析原因: Prometheus这个时序数据库对时间要求很严格,Linux服务器与Windows监…
System Detail 1. Context Switches / Interrupts type: GraphUnit: shortLabel: CounterContext switches - CPU 的 context switch 平均次数(5分钟内) metrics: irate(node_context_switches_total{instance=~"$node:$port",job=~"$job"}[5m]) Interrupts - 服务的…
查看 linux 版本 及 Kernel 版本 指令: cat /etc/*-release http://benit.pixnet.net/blog/post/19390916-%E5%A6%82%E4%BD%95%E6%9F%A5%E7%9C%8B-linux-%E7%89%88%E6%9C%AC-%E5%8F%8A-kernel-%E7%89%88%E6%9C%AC - CPU cat /proc/cpuinfo - Memory cat /proc/meminfo https://blo…
1.环境 centos7 prometheus-2.10.0.linux-amd64.tar.gz node_exporter-0.18.1.linux-amd64.tar.gz 2.安装 创建systemd服务 vim /etc/systemd/system/node_exporter.service [Unit]Description=node_exporterAfter=network.target [Service]Type=simpleUser=rootExecStart=/data/…
本身是名Java开发,在做了一段大数据的工作后,猛然间想对Java做个总结. 从未写过技术博客,一时不知如何开始,思虑后,暂且以自己喜爱的方式来开篇. 工作中遇到过CPU或内存过高的问题,解决步骤: 通过top命令查看,得到pid. 通过ps -mp <pid> -o THREAD,tid,time,pid 命令,拿到tid. 使用jdk自动的工具,jstack -l 15605 > stack.txt,得到此时的线程状态.(Stack文件描述了当时每个线程的状态,这是一个很强大的知识点…
Node Exporter 1. Node Exporter Scrape Time type: GraphUnit: secondsLabel: Seconds{{collector}} - 各个收集器持续时间 metrics: node_scrape_collector_duration_seconds{instance=~"$node:$port",job=~"$job"} 2. Node Exporter Scrape Success type: Graph…
Network Netstat ICMP /proc/net/snmp 1. ICMP Errors 1 type: GraphUnit: shortLabel: Messages out (-) / in (+)InErrors - 接收的 ICMP 错误的报文(例如ICMP校验和错误.长度错误等) metrics: irate(node_netstat_Icmp_InErrors{instance=~"$node:$port",job=~"$job"}[5m])…
Network Netstat UDP /proc/net/snmp 1. UDP In / Out type: GraphUnit: shortLabel: Datagrams out (-) / in (+)InDatagrams - 平均接收的 UDP 数据包(5分钟内) metrics: irate(node_netstat_Udp_InDatagrams{instance=~"$node:$port",job=~"$job"}[5m]) OutDatagr…
Network Netstat TCP Linux MIPs1. TCP Aborts / Tiemouts type: GraphUnit: shortLabel: ConnectionsTCPAbortOnClose - 由于用户关闭中止的连接数 metrics: irate(node_netstat_TcpExt_TCPAbortOnClose{instance=~"$node:$port",job=~"$job"}[5m]) TCPAbortOnData -…
Network Netstat TCP /proc/net/snmp 1. TCP Segments type: GraphUnit: shortLabel: Segments out (-) / in (+)InCsumErrors - 接收的带有校验和错误的报文数(5分钟内) metrics: irate(node_netstat_Tcp_InCsumErrors{instance=~"$node:$port",job=~"$job"}[5m]) InErrs…
Network Netstat /proc/net/netstat 1. Netstat IP In / Out type: GraphUnit: shortLabel: Datagrams out (-) / in (+)InReceives - 接收到的 ip 数据报 metrics: irate(node_netstat_Ip_InReceives{instance=~"$node:$port",job=~"$job"}[5m]) DefaultTTL - 接…
Network Sockstat proc/net/sockstat 1. Sockstat TCP type: GraphUnit: shortLabel: SocketsTCP_alloc - 已分配(已建立.已申请到sk_buff)的TCP套接字数量 metrics: node_sockstat_TCP_alloc{instance=~"$node:$port",job=~"$job"} TCP_inuse - 正在使用(正在侦听)的TCP套接字数量 metr…
Network Traffic Detail /proc/net/dev 1. Network Traffic by Packets type: GraphUnit: packets/secLabel: Packets out (-) / in (+){{device}} - Receive 各个接口每秒接收的数据包总数 metrics: irate(node_network_receive_packets_total{instance=~"$node:$port",job=~&quo…
FileSystem Detail /proc/filesystems 1. Filesystem space available type: GraphUnit: bytesLabel: Bytes{{mountpoint}} - 挂载的文件系统可用空间 metrics: node_filesystem_avail_bytes{instance=~"$node:$port",job=~"$job",device!~'rootfs'} {{mountpoint}}…
Memory Detail Vmstat Counters 1. Memory Page Active type: GraphUnit: shortLabel: PagesActive_anon - pages最近被使用过的匿名虚拟内存页 /proc/vmstat nr_active_anon metrics: node_vmstat_nr_active_anon{instance=~"$node:$port",job=~"$job"} Active_file -…
Memory Detail Vmstat 查看/proc/vmstat 文件的内容 1. Memory Pages In / Out type: GraphUnit: shortLabel: PagesPagesin - 从启动到现在读入的内存页数的速率(5分钟内) /proc/vmstat pgpgin metrics: irate(node_vmstat_pgpgin{instance=~"$node:$port",job=~"$job"}[5m]) Pages…