一个执着于技术的公众号

我发现Linux系统在启动过程中会出现一些故障,导致系统无法正常启动,我在这里写了几个应对单用户模式、GRUB命令操作、Linux救援模式的故障修复案例帮助大家了解此类问题的解决方法。

(一)单用户模式

Linux系统提供了单用户模式(类似Windows安全模式),可以在最小环境中进行系统维护。在单用户模式(运行级别1)中,Linux引导进入根shell,网络被禁用,只有少数进程运行。单用户模式可以用来修复损坏的文件系统、还原配置文件、移动用户数据等。

以下列举了几个单用户模式修复系统故障的典型案例:

案例一:root密码忘记

在单用户模式中,Linux不需要root密码(Red Hat系统不需要root密码,但SuSe则需要,不同Linux系统稍有差别,本文以Fedora Core 6为例讲解),这使更改root密码非常容易。步骤如下:

1、 在系统启动过程中,会出现开始界面,按任意键,进入GRUB菜单选项。(若希望以后无此提示,直接进入GRUB菜单选项,删除配置文件grub.conf中“hiddenmenu”项即可。)

2、 按“e”键编辑GRUB引导菜单选项,按“e”键后的GRUB屏幕。通过箭头键下移到kernel行,并按“e”键,

3、在尾行光标处添加single,按回车键返回前一个屏幕,按“b”键进行引导,则系统自动进入单用户模式,如果要改变root密码,则执行命令:# passwd root

更改成功后,执行命令exit退出重启即可。

大家可以在单用户模式中去纠正阻止系统正常启动的很多问题,比如:

1、 禁用可能中止系统运行的服务如禁用Samba服务,则执行:# chkconfig smb off,下次系统引导就不会启动Samba服务了。

2、 更改系统缺省运行级别,如果X Window无法启动或者出现故障,可以编辑/etc/inittab文件,采用文本方式登录,更改initdefault引导级别为3:id:3:initdefault:

案例二:硬盘扇区错乱

在启动过程中最容易遇到的问题就是硬盘可能有坏道或扇区错乱(数据损坏)的情况,这种情况多由于异常断电、不正常关机导致。

此种问题发生,在系统启动的时候,屏幕会显示:

Press root password or ctrl+D:

此时输入root密码后系统自动进入单用户模式,输入:

fsck -y /dev/hda6

(fsck为文件系统检测修复命令,“-y”设定检测到错误自动修复,/dev/hda6为发生错误的硬盘分区,请依据具体情况更改此参数)

系统修复完成后,“reboot”重新启动即可。

  

案例三、GRUB选项设置错误

“Error 15”显示系统无法找到grub.conf中指定的内核。

GRUB引导错误信息,比如因为打字错误,内核文件的“vmlinuz”打成了“vmlinux”,所以系统无法找到内核的可执行文件。

我们可以按任意键回到GRUB编辑界面,修改此错误,回车保存后按“b”键即可正常引导;当然不要忘记进入系统后修改grub.conf文件中此处错误。

这是很多初学Linux的用户在修改GRUB设置时很容易犯的错误,出现此黑屏提示时注意观察报错信息,即可针对性修复。

(二)GRUB引导故障排除

我发现有时Linux启动后会直接进入GRUB命令行界面(只有“grub>”提示符),此时很多用户就选择了重新安装GRUB甚至重新安装系统。

其实一般而言此故障的原因最常见的有两个:

一是GRUB配置文件中选项设置错误;

二是GRUB配置文件丢失(还有少数原因,如内核文件或镜像文件损坏、丢失,/boot目录误删除等)

如果是第一种情况,可以首先通过GRUB命令引导系统后修复;若是第二种情况,则要使用Linux救援模式修复了(本文后续有描述)。

  

首先,我们需要了解GRUB启动系统的引导过程,grub.conf文件中主要的配置选项如下:

(注意,GRUB配置文件为/boot/grub/grub.conf, /etc/grub.conf只是此文件的软链接)

title Fedora Core (2.6.18-1.2798.fc6)

root (hd0,0)

kernel /boot/vmlinuz-2.6.18-1.2798.fc6 ro root=LABEL=/ rhgb quiet initrd /boot/initrd-2.6.18-1.2798.fc6.img

  

其中:

“title”段指定了GRUB引导的系统:

“root”段指定了/boot分区所在的位置:

“kernel”段指定了内核文件所在位置,内核加载时权限属性为只读(“ro”)以及指定根分区所在位置(root=LABEL=/);

“initrd”指定了镜像文件所在位置。

所以GRUB在引导时顺序为 首先加载/boot分区,然后依次载入内核与镜像文件。

案例

“title Fedora Core (2.6.18-1.2798.fc6)”段被误删除

此时,系统启动后会自动进入 “GRUB>” 命令行,为排除故障我们可以依次做如下操作:

  

1、查找/boot/grub/grub.conf文件所在分区

GRUB> find /boot/grub/grub.conf(hd0,0)

  

2、查看grub.conf文件错误

GRUB>cat (hd0,0)/boot/grub/grub.conf

建议安装系统后,将grub.conf文件备份,如果有备份文件如grub.conf.bak,则此时可以查看备份文件,与当前文件比较,发现错误:

GRUB>cat (hd0,0)/boot/grub/grub.conf.bak

  

3、确认错误后,先通过命令行方式完成GRUB引导,进入系统后再行修复grub.conf文件错误:

1)指定/boot分区root (hd0,0)

2)指定内核加载kernel /boot/vmlinuz-2.6.18-1.2798.fc6 ro root=LABEL=/ rhgb quiet

3)指定镜像文件所在位置initrd /boot/initrd-2.6.18-1.2798.fc6.img

提示:GRUB支持tab键命令补全功能

  

4、从/boot分区启动boot (hd0,0)

命令行模式可以在GRUB菜单模式中通过按“c”键调用,也可以用于测试新编译的内核(设置kernel、initrd引导新内核及镜像文件)。

总结:增加对GRUB引导流程的理解以及对Linux系统启动流程了解将对此类故障排查大有帮助。

(三)Linux救援模式应用

当系统连单用户模式都无法进入时或出现GRUB命令行也不能解决的问题时,我们就需要使用Linux救援模式来进行故障排除了。

步骤如下:

1、将Linux安装光盘(如果使用CD光盘,则放入第一张引导光盘)放入光驱,设置固件CMOS/BIOS为光盘引导,当Linux安装画面出现后,在“boot:”提示符后输入“linux rescue”回车进入救援模式。(想了解救援模式详细信息,还可以按F5键查看)

  

2、系统会检测硬件,引导光盘上的Linux环境,依次提示你选择救援模式下使用的语言(建议选择默认的英文即可,根据笔者测试,部分Linux系统选择中文会出现乱码);键盘设置用默认的“us”就好;网络设置可以根据需要,大部分故障修复不需要网络连接,可不进行此项设置,选择“No”。

  

3、接下来系统将试图查找根分区,出现挂载提示,设置默认在救援模式,硬盘的根分区将挂载到光盘Linux环境的/mnt/sysimage目录下,默认选项“continue”表示挂载权限为读写:“Read-only”为只读,如果出现检测失败可以选择“skip”跳过。此处,因为要对系统进行修复,所以需要有读写权限,一般选择默认选项“continue”。

  

进入下一步后,系统提示执行“chroot /mnt/sysimage”命令,可以将根目录挂载到我们硬盘系统的根目录中去。

   

案例一:双系统启动修复

当我们安装双系统环境,先安装Linux再安装Windows;或者已经安装好双系统环境的Windows损坏,在重新安装Windows后,保存 GRUB的MBR(Master Boot Record,主引导记录)会被Windows系统的自检程序NTLDR所覆盖,造成Linux系统无法引导。

  

1、如果要恢复双系统引导,首先用上述方法进入救援模式,执行chroot命令如下:sh-3.1# chroot /mnt/sysimage

  

2、将根目录切换到硬盘系统的根目录中,然后执行grub-install命令重新安装GRUB:sh-3.1# grub-install /dev/hda

“/dev/hda”为硬盘名称,如使用SCSI硬盘或Linux安装在第二块IDE硬盘,此项设置要做相应调整。

  

3、然后依次执行exit命令,退出chroot模式及救援模式(执行两次exit命令):sh-3.1# exit

系统重启后,将恢复GRUB引导的双系统启动。 

案例二:系统配置文件丢失修复

系统在引导期间,很重要的一个过程就是init进程读取其配置文件/etc/inittab,启动[系统基本服务程序]及[默认运行级别的服务程序]完成系统引导。但如果/etc/inittab误删除或修改错误,Linux将无法正常启动。此时,只有通过救援模式才可以解决此类问题。

/etc/inittab文件丢失引导错误示例

  

1、有备份文件的恢复办法

进入救援模式,执行chroot命令后,如果有此文件的备份(强烈建议系统重要数据目录,如/etc、/boot等要进行备份),直接将备份文件拷贝回去,退出重启即可。

如果是配置文件修改错误,如比较典型的/boot/grub/grub.conf及/etc/passwd的文件修改错误,也可以直接修正恢复。

假设有备份文件/etc/inittab.bak,则在救援模式下执行:

sh-3.1# chroot /mnt/sysimagesh-3.1# cp /etc/inittab.bak /etc/inittab

2、没有备份文件的恢复办法

如果一些配置文件丢失或软件误删除,且无备份,可以通过重新安装软件包来恢复。

首先查找到/etc/inittab属于哪一个RPM包(即便文件丢失,因为存在RPM数据库,一样可以查找到结果):

sh-3.1# chroot /mnt/sysimage sh-3.1# rpm -qf /etc/inittab initscripts-8.45.3-1sh-3.1# exit- //查到所属rpm包后,退出chroot模式

   

挂载存放RPM包的安装光盘(在救援模式下,光盘通常挂载在/mnt/source目录下):

sh-3.1# mount /dev/hdc /mnt/source

  

Fedora系统的RPM包存放在光盘Fedora/RPMS目录下,其他Linux存放位置大同小异,我在这里不一一列举;

另外,因为要修复的硬盘系统的根目录在/mnt/sysimage下,需要使用--root选项指定其位置。

覆盖安装/etc/inittab文件所在的RPM包:

sh-3.1# rpm -ivh --replacepkgs --root /mnt/sysimage /mnt/source/Fedora/RPMS/ initscripts-8.45.3-1.i386.rpm

其中的rpm命令选项“--replacepkgs”表示覆盖安装,执行完成后,即可恢复误删除的文件。

  

如果只提取RPM包中的/etc/inittab文件进行恢复,可以在进入救援模式后,执行命令:

sh-3.1# rpm2cpio /mnt/source/Fedora/RPMS/initscripts-8.45.3-1.i386.rpm | cpio -idv ./etc/inittab sh-3.1# cp etc/inittab /mnt/sysimage/etc

 

注意此命令执行时不能将文件直接恢复至/etc目录,只能提取到当前目录下,且[恢复的文件名称]所在路径要写[完整的绝对路径]。提取文件成功后,将其复制到根分区所在的/mnt/sysimage目录下相应位置即可。

  

救援模式是维护Linux的有力武器,本文以上述两个例子讲解了它的应用方法,希望能够给读者一点启示。解决Linux系统启动的故障,必须充分理解Linux的引导过程,才能够对故障进行有效的判断和处理。

作者:csghjnbj
链接:https://dwz.cn/djrFGVES

往期精彩

◆  手把手教你搭建一套OpenStack云平台

◆  利用expect批量修改Linux服务器密码

◆  Linux运维工程师面试问答录

◆  干货 | Linux平台搭建网关服务器

◆  干货 | 理解正向代理与反向代理的区别

◆  硬核科普服务器硬盘组成与基本原理

◆  一文带你速懂虚拟化KVM和XEN

◆  实战 | Hadoo大数据集群搭建

◆  运维工程师心法:6大技能让你告别背锅

如有收获,点个在看,诚挚感谢

Linux启动故障排查和修复技巧的更多相关文章

  1. Linux 系统故障排查和修复技巧

    Linux 系统故障排查和修复技巧 我发现Linux系统在启动过程中会出现一些故障,导致系统无法正常启动,我在这里写了几个应用单用户模式.GRUB命令操作.Linux救援模式的故障修复案例帮助大家了解 ...

  2. Linux系统故障排查和修复技巧

    本文转自:http://os.51cto.com/art/201304/388384.htm 我发现Linux系统在启动过程中会出现一些故障,导致系统无法正常启动,我在这里写了几个应用单用户模式.GR ...

  3. Linux 网络故障排查

    1.第一步是要确认网卡本身是否工作正常?利用ping工具可以确认这点.输入ping 127.0.0.1 ,然后看是否正常ping 通? 这里的127.0.0.1 被称作主机的回环接口,是TCP/IP协 ...

  4. Linux网络故障排查

    1.先排查网络配置信息 IP地址->子网掩码->网关->DNS 2.查看到达的网关是否连通 ping IP地址. 3.查看DNS解析是否正常.

  5. [转] Linux运维常见故障排查和处理的技巧汇总

    作为linux运维,多多少少会碰见这样那样的问题或故障,从中总结经验,查找问题,汇总并分析故障的原因,这是一个Linux运维工程师良好的习惯.每一次技术的突破,都经历着苦闷,伴随着快乐,可我们还是执着 ...

  6. Linux运维常见故障排查和处理的33个技巧汇总

    作为linux运维,多多少少会碰见这样那样的问题或故障,从中总结经验,查找问题,汇总并分析故障的原因,这是一个Linux运维工程师良好的习惯.每一次技术的突破,都经历着苦闷,伴随着快乐,可我们还是执着 ...

  7. Linux系统运维故障排查

    一.思路 1.处理问题要求 2.一般思路 二.具体问题 1.网络问题 (1)网络不通 (2)网络很慢 2.硬件问题 3.操作系统问题 (1)系统无法正常启动 (2)系统运行慢或死机 4.服务或程序问题 ...

  8. [linux]df 磁盘100%Used告警,du显示目录状态良好的故障排查

    1.回顾: 某在线主机深夜连续接到告警系统的disk Used 超限告警. 登陆主机查看却遇到了困惑:在检查磁盘使用量 df –h 出来的磁盘使用量确实和告警信息一样,已经被100%占用,但是查看目录 ...

  9. Linux 系统故障修复和修复技巧

    我发现Linux系统在启动过程中会出现一些故障,导致系统无法正常启动,我在这里写了几个应用单用户模式.GRUB命令操作.Linux救援模式的故障修复案例帮助大家了解此类问题的解决. 一.单用户模式 L ...

随机推荐

  1. keybd_event 在F按键系列不起作用的解决办法

    最近给公司做自动化测试工具,主要用到的功能是模拟鼠标键盘录制回放.一切都很完美了,但在客户大机系统上使用的时候,发现F1-F24系列按键无法正确使用,查了很多资料,主要有2个方面的原因: 1.一些游戏 ...

  2. Vue部署到云服务器时,访问Nginx代理出现We're sorry but books doesn't work properly without JavaScript enabled. Please enable it to continue.

    出现这个的原因,我这边的是Nginx的问题,因为没有匹配到静态文件的原因 第一个location是始终将访问的url请求定向到 index.html这个主页面 第二个location块是将index. ...

  3. 什么是通知Advice?

    特定 JoinPoint 处的 Aspect 所采取的动作称为 Advice.Spring AOP 使用一个 Advice 作为拦截器,在 JoinPoint "周围"维护一系列的 ...

  4. php安装扩展的两种方法

    方法一:使用yum命令安装 1.yum install libevent-devel 2.pecl install channel://pecl.php.net/libevent-0.1.0 3.ec ...

  5. nRF Connect SDK(NCS)/Zephyr固件升级详解 – 重点讲述MCUboot和蓝牙空中升级

    如何在nRF Connect SDK(NCS)中实现蓝牙空中升级?MCUboot和B0两个Bootloader有什么区别?MCUboot升级使用的image格式是怎么样的?什么是SMP协议?CBOR编 ...

  6. 第 4 章 ROS运行管理

    第 4 章 ROS运行管理 ROS是多进程(节点)的分布式框架,一个完整的ROS系统实现: 可能包含多台主机:每台主机上又有多个工作空间(workspace):每个的工作空间中又包含多个功能包(pac ...

  7. 浏览器视图层级中的“根”:<html>和<body>的属性研究

    做前端开发的同学都会知道,每一个UI系统(比如IOS或Android)中都会有一个view hierarchy(视图层级)的概念,即所有的可视元素(大到一个页面,小到一个button)都在一个树形结构 ...

  8. java中什么叫多重捕获MultiCatch,它的用法是怎样的?

    2.多重捕获MultiCatch 马克-to-win:什么叫多重捕获MultiCatch?一段代码可能引起多个异常,这时可以定义两个或更多的catch子句来处理这种情况,每个子句捕获一种类型的异常.马 ...

  9. java中操作符的用法

    5.操作符    public class Test{   public static void main(String[] args){     int i, k;     i = 10; /*下面 ...

  10. uView的DatetimePicker详解

    uView UI号称: 是全面兼容nvue的uni-app生态框架,全面的组件和便捷的工具会让您信手拈来,如鱼得水 亲身感受,用起来真的坑太多, 官方文档太简洁, 很多配置都没说明也没代码, 上百度查 ...