一、为什么需要自动重启?

在生产环境中,服务可能因内存溢出、资源竞争、外部依赖中断等问题意外崩溃。手动恢复效率低下,而 systemd 的自动重启机制可在秒级内恢复服务,显著提升系统可用性。


⚙️ 二、systemd 自动重启的核心配置

1. 服务文件关键参数

/etc/systemd/system/your-service.service 中定义以下参数:

[Service]
Restart=on-failure # 服务异常退出时重启(推荐)
RestartSec=10s # 重启前等待时间(避免频繁重启)
StartLimitIntervalSec=300 # 300秒内最多重启次数
StartLimitBurst=5 # 最多尝试5次重启

2. 重启策略详解

策略 适用场景
Restart=on-failure 服务因错误(非零退出码)终止时重启,适合需手动干预的场景(如调试)
Restart=always 无条件重启(包括正常退出),适用于数据库、Web服务器等关键服务

3. 防崩溃保护机制

StartLimitIntervalSec=60
StartLimitBurst=3

若服务在 60秒内崩溃超过3次,systemd 将停止重启并标记为失败状态,防止资源耗尽。


️ 三、实战配置示例(以Spring Boot应用为例)

[Unit]
Description=Spring Boot Application
After=network.target postgresql.service # 依赖网络和数据库 [Service]
User=appuser
ExecStart=/usr/bin/java -jar /opt/app.jar
Restart=on-failure
RestartSec=30s
Environment="DB_URL=jdbc:postgresql://localhost/db"
StartLimitIntervalSec=300
StartLimitBurst=5 # 日志重定向(可选)
StandardOutput=file:/var/log/myapp.log
StandardError=file:/var/log/myapp-error.log [Install]
WantedBy=multi-user.target

操作命令

sudo systemctl daemon-reload              # 重载配置
sudo systemctl enable your-service # 开机自启
sudo systemctl start your-service # 立即启动

四、故障排查技巧

  1. 查看实时状态

    systemctl status your-service  # 检查运行状态和最近错误
  2. 追踪日志

    journalctl -u your-service -f  # 实时日志
  3. 测试自动重启

    sudo kill -9 $(pgrep -f "app.jar")  # 模拟崩溃
    systemctl status your-service # 确认是否在30秒后重启

️ 五、避坑指南

  1. 权限问题:若服务以非 root 用户运行,需确保该用户对文件路径有读写权限。
  2. 环境变量缺失:通过 Environment 显式声明变量(如 JAVA_HOME)。
  3. 资源泄漏:频繁重启可能加剧资源消耗,建议结合 cgroups 限制内存/CPU:
    MemoryLimit=1G   # 限制内存为1GB
    CPUQuota=80% # 限制CPU使用率

六、进阶技巧

  • 多实例服务:使用模板创建多个实例(如 app@1.serviceapp@2.service)。
  • 安全隔离:启用沙盒模式增强安全性:
    PrivateTmp=true         # 独立临时目录
    ProtectSystem=strict # 禁止写入系统文件
  • 看门狗机制:配合 WatchdogSec=30 实现应用级心跳检测。

总结

> systemd 的自动重启不是简单的“重启开关”,而是融合了熔断机制、依赖管理、资源隔离的企业级运维方案。

通过合理配置 Restart 策略与资源限制,可将服务停机时间缩短至秒级,同时避免崩溃循环引发的雪崩效应。其日志集成(journalctl)和状态监控(systemctl status)能力,进一步降低了运维复杂度。

行动建议

下次部署服务时,别再用 nohup!花 5 分钟写一个 systemd 单元文件,让系统自动守护你的进程。

使用systemd 监控服务并实现故障自动重启的更多相关文章

  1. zabbix通过curl命令判断web服务是否正常并自动重启服务

    zabbix通过curl命令判断web服务是否正常并自动重启服务 主要思路: 通过curl命令获取服务器响应码,如果正常返回200,不正常返回000 具体命令: curl -I -s -w " ...

  2. linux上监控tomcat down掉后自动重启tomcat

    p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 } p. ...

  3. 用monit监控mongodb,崩溃后自动重启mongdb

    什么是monit Monit是一个跨平台的用来监控Unix/linux系统(比如Linux.BSD.OSX.Solaris)的工具.Monit特别易于安装,而且非常轻量级(只有500KB大小),并且不 ...

  4. <记录> PHP监控进程状态,完成掉线自动重启

    1. 利用Shell脚本实现 #!/bin/bash PORT= while [ true ];do read -p "please enter the port that you want ...

  5. windows service自动重启服务

    服务一般都能正常的运行,但有时候也会有一些假死现象,比如公司有一考勤服务就因为依赖于硬件厂家的api, 但厂家api运行一段时间后会默名的假死,引起整个服务假死,因为这一假死现象具有不确定性,所以不太 ...

  6. 监控windows服务,当服务停止后自动重启服务

    近期花时间研究了一下windows和linux下某服务停了后自动重启的功能,在网上收集了些资料,并经过测试,在此整理一下.这里介绍的是windows服务的监控,是通过批处理来实现的.本例是监控wind ...

  7. systemd实践: 依据情况自动重启服务【转】

    1.最简单的自动重启范例 [Unit] Description=mytest [Service] Type=simple ExecStart=/root/mytest.sh Restart=alway ...

  8. systemd实践: 依据情况自动重启服务

    systemd服务异常自动重启很好用,但有的时候希望某些服务只在特定情况下进行重启,其他时候不要自动重启(比如OOM,需要人工介入). 本文抛砖引玉,旨在能够让读者对systemd的重启机制有一定了解 ...

  9. Linux之systemd服务配置及自动重启

    layout: post title: Linux之systemd服务配置及自动重启 date: 2019-09-09 tags: linux --- Linux之systemd服务配置及自动重启 0 ...

  10. zabbix监控服务部署

    目录 zabbix监控服务部署 1. zabbix介绍 1.1 zabbix的组件 1.2 zabbix的进程 1.3 zabbix常用术语 2. zabbix工作原理 3. zabbix监控架构 4 ...

随机推荐

  1. 【C语言】Linux 飞翔的小鸟

    [C语言]Linux 飞翔的小鸟 零.环境部署 安装Ncurses库 sudo apt-get install libncurses5-dev 壹.编写代码 代码如下: bird.c #include ...

  2. 实现Android键盘自适应

    实现Android键盘自适应 unit Unit13; interface uses System.SysUtils, System.Types, System.UITypes, System.Cla ...

  3. Hyperledger Fabric - 链码部署

    前提条件 启动测试网络 ./network-myself.sh up 创建通道 ./network-myself.sh createChannel 智能合约(链码) pom.xml文件 配置远程仓库 ...

  4. 全网最详细的CM311-1A魔百和刷Armbian教程

    CM311-1A魔百和搭载了晶晨S905L3A芯片(实质上是S905X2的定制版本,两者在性能上并无显著差异).然而,遗憾的是,关于这款设备的网络教程相对较少,导致我在自学过程中遇到了不少挑战和障碍. ...

  5. spring cloud alibaba的小坑:Caused by: com.alibaba.nacos.api.exception.NacosException: endpoint is blank报错问题,

    一.是因为加添spring cloud alibaba配置中心依赖和bootstrap.xml又不使用的问题

  6. DPDI(Dispatch PDI)kettle调度管理平台之介入前后的对比剖析

    DPDI(Dispatch PDI)kettle调度管理平台 --介入前后的对比剖析 引言 在数据处理领域,Kettle(Pentaho Data Integration)作为一款广受欢迎的开源ETL ...

  7. 如何构造一款类似One API的大模型集成平台

    作为AI领域的开发者,我们经常需要调用多个不同的大语言模型,但面对各家不同的API规范和接入方式,集成工作变得繁琐.构建一个统一的大模型集成平台,能够极大地简化这一过程. 本文将探讨如何实现一个兼容O ...

  8. Sentinel——系统规则(系统自适应保护)

    目录 系统自适应保护 系统规则 系统自适应保护 Sentinel 系统自适应保护从整体维度对应用入口流量进行控制,结合应用的 Load.总体平均 RT.入口 QPS 和线程数等几个维度的监控指标,让系 ...

  9. 【记录】MATLAB|Python NumPy|两种语言的数组/矩阵中元素修改方式的总结和对比

    文章目录 二维矩阵 操作 1. 将数组大于0的数全部加1 2. 删除元素 ①删除单个元素 ②删除一列元素 3. 添加一行或多行 ①添加一行 ②添加多行 4. 获取行/列数 5. 格式化输出数组 结构数 ...

  10. IT道道网,深度分享IT行业经营智慧的网站

    IT道道网简介 IT道道网(itddw.com)是为IT人提供行业门道技巧.方案案例的学习分享平台,汇集前辈智慧,分享IT行业市场开拓.经营运营.项目管理.产品规划设计.前沿技术应用各方面经验案例. ...