df空间满,du找不到文件的问题
最近看了一下问题:
df -h
Filesystem Size Used Avail Use% Mounted on
rootfs 271G 267G 2.2G 100% /
根分区满了,du 找不到占用这么大的文件。lsof查看delete文件,发现了罪魁祸首,
lsof |grep -i delete |grep -i zxagent
sleep 4500 root 2w REG 8,2 1459 7399418 /tmp/.zxagent.command.output.-218666128 (deleted)
sleep 6081 root 2w REG 8,2 202907880341 7399434 /tmp/.zxagent.command.output.-218666128 (deleted)
chk_usr_m 23846 root 2w REG 8,2 202907880341 7399434 /tmp/.zxagent.command.output.-218666128 (deleted)
netif_inf 23871 root 2w REG 8,2 202907880341 7399434 /tmp/.zxagent.command.output.-218666128 (deleted)
sleep 25497 root 2w REG 8,2 202907880341 7399434 /tmp/.zxagent.command.output.-218666128 (deleted)----200G
sh 30440 root 2w REG 8,2 1459 7399418 /tmp/.zxagent.command.output.-218666128 (deleted)
uss_jbodm 31946 root 2w REG 8,2 1459 7399418 /tmp/.zxagent.command.output.-218666128 (deleted)
这个200G,不一定多落盘了,但根据周期性落盘来推算,这个占空间大肯定是没跑了,查看对应的fd,
ls -alrt /proc/23846/fd/*
lrwx------ 1 root root 64 Apr 30 19:20 /proc/23846/fd/4 -> socket:[451533622]
lr-x------ 1 root root 64 Apr 30 19:20 /proc/23846/fd/255 -> /home/zxcdn/ottcache/bin/chk_usr_mem.sh
l-wx------ 1 root root 64 Apr 30 19:20 /proc/23846/fd/2 -> /tmp/.zxagent.command.output.-218666128 (deleted)
l-wx------ 1 root root 64 Apr 30 19:20 /proc/23846/fd/1 -> /dev/null
lr-x------ 1 root root 64 Apr 30 19:20 /proc/23846/fd/0 -> /dev/null
对应的fd是2,查看一下里面什么内容:
more /proc/23846/fd/2
chmod 777 start.sh
./start.sh
dos2unix: converting file /home/iTool/UPDATE_20190415164111/2/update/start_ott.sh to UNIX format ...
dos2unix: converting file /home/iTool/UPDATE_20190415164111/2/update/start.sh to UNIX format ...
dos2unix: converting file /home/iTool/UPDATE_20190415164111/2/update/start_zmss.sh to UNIX format ...
###start /home/zxcdn/ottcache/superinit.sh &#################
Add execute right to script...
看起来是一些错误日志。
tail -f /proc/23846/fd/2
2019-05-05 18:06:54 Watching proccess[/ZMSS/ZMSSComAgent]<3622> was abnormal exited, restart it.
2019-05-05 18:06:54 Proccess [/ZMSS/ZMSSComAgent]<3623> normal exiting, exit code[1]
2019-05-05 18:06:54 Watching proccess[/ZMSS/ZMSSComAgent]<3623> was abnormal exited, restart it.
2019-05-05 18Could not read configuration file [/ZMSS/etc/ZMSSComAgent/etc_memlog/log4cxx.conf].
Ignoring configuration file [/ZMSS/etc/ZMSSComAgent/etc_memlog/log4cxx.conf].
Use uss_badchunkget.
Use uss_tiermode_query.
Use DFS File System Interface.
log4cxx_SetThreshold <3><ERROR>
Cannot change owner of /var/ZMSS to root:root, err<-1>!
从时间点看,案发当时还在打印错误日志。
如果只是这么看,那么就不记录这个问题了。问题是,我脑抽地想通过内核模块查看这个文件,会报错。
如果使用vmtouch去查看这个文件占用内存的大小,会发现报错,报文件不存在,所以写了一个内核模块去查看它的缓存页数:
21081455 /tmp/.zxagent.command.output.-218666128
结果显示,这个文件有21081455 个页缓存在内存中,这个大概是84个G,文件本身大小为200G,所以是部分缓存了,
那如果不通过fd查看,怎么查看这个文件的内容呢,要查看这个内容,内核中通过如下方式来读取和写文件:
打开文件 struct file *filp_open(const char *filename, int flags, int mode) 读文件 ssize_t vfs_read(struct file *file, char __user *buf, size_t count, loff_t *pos) 写文件 ssize_t vfs_write(struct file *file, const char __user *buf, size_t count, loff_t *pos) 关闭文件 int filp_close(struct file *filp, fl_owner_t id)
但要注意的是,需要
file_caq = filp_open("/tmp/.zxagent.command.output.1246", O_RDWR | O_CREAT | O_TRUNC, 0644);
if ( !file )
{
printk("file open(%s) failed!\n", "/tmp/.zxagent.command.output.1246");
filp_close(file, NULL);
return -1;
}
else
{
printk("open /tmp/.zxagent.command.output.1246 success\r\n");
}
ret = file_caq->f_op->read(file, (char *)buf, 512, &pos);
printk("read /tmp/.zxagent.command.output.1246 ret=%d,read=%p\r\n",ret,file_caq->f_op->aio_read);
打印如下:
[12833325.784972] pages_total = 21081455(82349M),HZ=250
[12833325.785019] open /tmp/.zxagent.command.output.1246 success
[12833325.785022] read /tmp/.zxagent.command.output.1246 ret=-14,read=ffffffff810fd420
看来是read失败了,这个主要是因为权限检查,然后修改为如下:
old_fs = get_fs();
set_fs(KERNEL_DS);
ret = vfs_read(file_caq, (char *)buf_caq, 511, &pos);
set_fs(old_fs);
发现不再报错,但是读取的数据为空,也就是read返回0。
然后再手工ls一下这个文件,发现确实创建了一个新的文件,为空,文件名是 /tmp/.zxagent.command.output.1246,当然inode号和之前delete 的文件名不一样。
那就把 对应文件的打开的时候的O_CREAT给去掉,干脆全部改成O_READONLY
file_caq = filp_open("/tmp/.zxagent.command.output.1246", O_RDWR | O_CREAT | O_TRUNC, 0644);
这行修改为
file_caq = filp_open("/tmp/.zxagent.command.output.1246", O_RDONLY, 0644);
结果crash了,打印的crash提示为:
BUG: unable to handle kernel NULL pointer dereference at 0000000000000026
经过反汇编查看,发现因为file_caq虽然不为NULL,但是返回的是-2,所以导致 :
if ( !file )这个判断失效了,导致打印了open success。
ret = file_caq->f_op->read(file, (char *)buf, 512, &pos);
这行出现crash了,因为 file_caq的值为-2,加上f_op是偏移,一开始为了这个26的偏移还看了一会,后来才想通是因为-2 + 0x28 才等于0x26。
所以把NULL的判断改为 if (IS_ERR(file_caq)),再进行测试,发现文件打开失败,返回的错误是-2.
那么返回-2就是说,文件不存在,因为我去掉了create标志,自然报错了。所以标记为delete的文件,如果使用file_open去打开也是不行的,会报文件不存在的。
那么要获取这个文件,只能在内核态从inode入手,找到对应的address_space,然后再把radix_tree中的page 拷贝出来了,此为后话。
绕了半圈,费了劲,没什么收获。不过顺便确定了下lsof看到的deleted,并不是lsof实现的,而是内核在打印
2 ffff882b9020ad00 ffff882cd153f680 ffff882f79b0f5f0 CHR /dev/pts/26
3 ffff8859f47ac700 ffff885f79a69380 ffff882dee933d48 REG /home/caq/caq.txt-----------这个是测试用的deleted的文件
crash> dentry.d_hash ffff885f79a69380
d_hash = {
next = 0x0,
pprev = 0x0
}
crash> dentry.d_hash ffff882cd153f680
d_hash = {
next = 0x0,
pprev = 0xffffc9000ff81f60
}
判断方式:
static inline int hlist_bl_unhashed(const struct hlist_bl_node *h)
{
return !h->pprev;
} static inline int d_unhashed(struct dentry *dentry)
{
return hlist_bl_unhashed(&dentry->d_hash);
} static int path_with_deleted(const struct path *path,
const struct path *root,
char **buf, int *buflen)
{
prepend(buf, buflen, "\0", 1);
if (d_unlinked(path->dentry)) {------判断是否增加deleted
int error = prepend(buf, buflen, " (deleted)", 10);
if (error)
return error;
}
df空间满,du找不到文件的问题的更多相关文章
- du 命令,对文件和目录磁盘使用的空间的查看
Linux du命令也是查看使用空间的,但是与df命令不同的是Linux du命令是对文件和目录磁盘使用的空间的查看,还是和df命令有一些区别的. 1.命令格式: du [选项][文件] 2.命令功能 ...
- 诡异的磁盘空间100%报警分析得出df -h与du -sh的根本性差别
前言:早晨磁盘报警刚清空完tomcat和nginx日志,使用的命令是类似echo "" > show_web-error.log或者> show_web-debug.l ...
- ORA-03113 通信通道的文件结尾(ORA-19804 ORA-16038-归档空间满的处理方法)
1.数据库启动报错SQL> startupORACLE 例程已经启动. Total System Global Area 1887350784 bytesFixed Size 2176848 b ...
- No space left on device 解决Linux系统磁盘空间满的办法
最近Linux电脑在执行mvn时候总是报错: No space left on device 原因是磁盘空间满了,我马上加了20G的硬盘容量,但是还是报错,上网查了一下,发现了解决方法,我用了其中 ...
- linux磁盘空间满的处理
Java中运行SQL插入数据时报错: linux磁盘空间满处理: 1.df -h 查看磁盘空间占用,实际上是查看磁盘块占用的文件(block) 2.分别查看输入以下命令 (面对磁盘满了,通过下列命令 ...
- 云服务器 ECS Linux 磁盘空间满(含 innode 满)问题排查方法
问题描述 在云服务器 ECS Linux 系统内创建文件时,出现类似如下空间不足提示: No space left on device … 问题原因 导致该问题的可能原因包括: 磁盘分区空间使用率达到 ...
- df命令,du命令,磁盘分区
df 命令 功能:用来检查linux的文件系统的磁盘空间占用情况 1. df -h 2. 以innode节点数量显示磁盘空间占用情况 df -ih 3. 列出文件系统类型 df -Th du 命令 功 ...
- 呵呵哒,LNMP下通过fread方式下载文件时,中文名称文件找不到文件
哎,整整折腾一个下午. 本来好好的,thinkphp 自动的uniq方式保存的文件名,非要使用原文件名,真心蛋疼~~ 然后就只好写个脚本 把原来的所有文件都重新命名一下 - - 然后把数据库对应字段也 ...
- linux磁盘空间满?
磁盘空间满啦 找到项目的logs文件夹 进入logs文件夹,会看到很多access.log*文件. 在Xshell里,输入命令cd 到项目节点的logs文件夹 可能还需要清空下回收站.
随机推荐
- vue-cli2.x配置build命令构建测试包&正式包
项目开发中常分为开发环境.测试环境.正式环境 通过vue-cli或者@vue/cli脚手架搭建的项目默认提供了开发环境和正式环境的配置.可通过js获取当前域名或其他信息来判断当前为测试环境还是正式环境 ...
- VBA驱动SAP GUI实现办公自动化(一)
小爬之前写过一系列Python驱动SAP GUI实现办公自动化的文章,其实如果我们的实际业务不是太复杂,且我们对VBA语法比较熟悉的话,我们完全可以借助Excel VBA来驱动SAP GUI做很多自动 ...
- Java集合框架(一)-ArrayList
大佬理解->Java集合之ArrayList 1.ArrayList的特点 存放的元素有序 元素不唯一(可以重复) 随机访问快 插入删除元素慢 非线程安全 2.底层实现 底层初始化,使用一个Ob ...
- 当JAVA注解、AOP、SpEL相遇,更多可能变为了现实
常规情况下,我们可以通过业务定制化的注解,借助AOP机制来实现某些通用的处理策略.比如定义个@Permission注解,可以用于标识在具体的方法上,然后用来指定某个方法必须要指定角色的人才能够访问调用 ...
- 自定义监控lvs
1. 修改zabbix_agent配置文件添加以下内容,重启agent Include=/etc/zabbix/zabbix_agentd.d/ 2. 在zabbix安装目录下的scripts目录下添 ...
- 入行数字IC验证后会做些什么?
半年前,公众号写了第一篇推文<入行数字IC验证的一些建议>,介绍了IC小白可以如何一步一步地摸索入门数字IC验证,同时也在知乎发了这篇入门贴,并且衍生出很多额外基础的内容,收获了不少的浏览 ...
- 揭开Vue异步组件的神秘面纱
简介 在大型应用里,有些组件可能一开始并不显示,只有在特定条件下才会渲染,那么这种情况下该组件的资源其实不需要一开始就加载,完全可以在需要的时候再去请求,这也可以减少页面首次加载的资源体积,要在Vue ...
- 使用Runnable和Callable接口实现多线程的区别
使用Runnable和Callable接口实现多线程的区别 先看两种实现方式的步骤: 1.实现Runnable接口 public class ThreadDemo{ public static voi ...
- 一文聊透 Netty IO 事件的编排利器 pipeline | 详解所有 IO 事件的触发时机以及传播路径
欢迎关注公众号:bin的技术小屋,本文图片加载不出来的话可查看公众号原文 本系列Netty源码解析文章基于 4.1.56.Final版本 1. 前文回顾 在前边的系列文章中,笔者为大家详细剖析了 Re ...
- 2022-7-15 java 数据结构入门
@ 目录 数据结构 1.二分查找 动图演示: 2.冒泡排序 1.冒泡排序原理 2.冒泡排序基础版 3.冒泡排序代码优化版 4.冒泡排序代码升级版 3.选择排序 1. 算法步骤 2.插入排序图解: 3. ...