使用 ftrace 跟踪内核丢包问题定位的实践
本文分享自天翼云开发者社区《使用 ftrace 跟踪内核丢包问题定位的实践》,作者:f****n
数据包的丢失可能会导致性能下降或服务中断。为了诊断内核中是否有丢包问题,我们可以使用 ftrace 工具进行内核级别的跟踪,定位导致数据包丢失的原因。下面通过一个实际的例子,来展示如何使用 ftrace 来跟踪网络丢包的问题。
一、背景
在一个高流量的网络环境中,可能会发生数据包丢失。这种丢包可能是由于内核中的调度延迟、网络驱动问题或资源争用等原因导致的。通过分析内核的网络栈,可以帮助我们定位丢包的具体原因。
二、启用 ftrace 并开始跟踪
首先,确保你的系统已经启用了 ftrace。你可以通过以下命令检查系统是否支持 ftrace:ls /sys/kernel/debug/tracing如果返回了相关的文件和目录,说明系统支持 ftrace。
接下来,我们将使用 ftrace 跟踪内核中与网络相关的函数调用,查看是否有异常的情况发生。
三、跟踪 tcp 发送和接收
丢包通常与 TCP 发送和接收有关,因此我们首先从 tcp_sendmsg 和 tcp_recvmsg 函数入手。可以通过以下步骤开启 ftrace 跟踪:
选择跟踪点:
我们将跟踪 tcp_sendmsg 和 tcp_recvmsg
这两个函数,它们分别处理数据包的发送和接收。
打开
ftrace 调试接口:echo function >
/sys/kernel/debug/tracing/current_tracer
启用 tcp_sendmsg 和 tcp_recvmsg 跟踪:
在 ftrace 中,我们可以选择对特定的内核函数进行跟踪。我们将追踪 TCP 发送和接收相关的函数:
echo
tcp_sendmsg > /sys/kernel/debug/tracing/set_ftrace_filter
echo tcp_recvmsg > /sys/kernel/debug/tracing/set_ftrace_filter
开始跟踪:
启动 ftrace 来记录内核函数的调用。
echo 1
> /sys/kernel/debug/tracing/tracing_on
查看跟踪结果:
通过查看 /sys/kernel/debug/tracing/trace 文件,我们可以看到 tcp_sendmsg 和 tcp_recvmsg 函数的调用情况。
cat
/sys/kernel/debug/tracing/trace
这时,ftrace 会输出类似如下的内容:
<...>-1234
[000] .... 10938.567892: tcp_sendmsg: skb=0x1234, len=1500,
dest=192.168.1.10
<...>-1234 [000] .... 10938.567895: tcp_sendmsg: skb=0x1235,
len=1500, dest=192.168.1.10
<...>-1234 [000] .... 10938.568002: tcp_recvmsg: skb=0x1236,
len=1500, src=192.168.1.10
每一条记录都包含了发送和接收数据包的具体信息,例如数据包的长度、源/目标ip等。
四、分析丢包现象
假设在跟踪结果中,我们注意到 tcp_sendmsg 和 tcp_recvmsg 的日志显示有发送的数据包,但接收端并没有相应的接收记录。通过分析这些日志,我们可以判断出以下几种可能性:
网络层丢包:
如果发送的数据包数量大于接收的数据包数量,可能是由于网络层的丢包。此时,可以查看其他网络设备的日志,如交换机、路由器等,确认是否存在网络丢包。
内核队列拥塞:
如果发送的数据包都显示成功发送,但由于内核网络栈中存在队列拥塞,接收端可能无法及时接收数据包。在 ftrace
中,我们还可以查看 tcp_retransmit_skb 函数的调用情况。如果这个函数被频繁调用,说明存在数据包重传,可能是由于网络拥塞或内核的调度延迟导致的。
可以通过以下命令启用 tcp_retransmit_skb 跟踪:
echo
tcp_retransmit_skb > /sys/kernel/debug/tracing/set_ftrace_filter
查看跟踪结果时,如果出现大量的重传记录,这就说明丢包发生的原因可能是网络拥塞或系统资源不足。
硬件问题:
如果数据包在网络接口上确实被成功发送,但没有到达接收端,可能是由于硬件问题(如网卡驱动故障或硬件故障)。此时可以通过查看 netif_receive_skb 和网卡驱动的 net_device 函数来分析是否存在硬件故障或驱动问题。
echo
netif_receive_skb > /sys/kernel/debug/tracing/set_ftrace_filter
五、禁用跟踪和清理
完成分析后,记得停止跟踪并清理 ftrace 配置,以较少对系统性能产生影响。
停止跟踪:echo
0 > /sys/kernel/debug/tracing/tracing_on
清理过滤器:echo >
/sys/kernel/debug/tracing/set_ftrace_filter
六、总结
通过使用
ftrace 工具跟踪内核中的网络函数调用,我们可以非常方便地分析网络丢包的问题。在本例中,我们通过跟踪
tcp_sendmsg 和 tcp_recvmsg 函数,结合
tcp_retransmit_skb 和 netif_receive_skb 等内核函数的日志,能够帮助我们快速定位丢包的原因。无论是网络拥塞、内核调度问题,还是硬件故障,ftrace 提供了一个非常强大的工具来诊断内核中的各类问题。
使用 ftrace 跟踪内核丢包问题定位的实践的更多相关文章
- 利用ftrace跟踪内核static tracepoint——实例writeback event
摘要:和很多linux内核子系统一样,static tracepoint有很多层次,其中某个层次都展示给不同层次的开发者来满足他们的不同需求.关于linux tracepoint的详细信息,我们可以在 ...
- 利用ftrace跟踪内核static tracepoint
摘要:和很多linux内核子系统一样,static tracepoint有很多层次,其中某个层次都展示给不同层次的开发者来满足他们的不同需求.关于linux tracepoint的详细信息,我们可以在 ...
- linux 从softnet_stat查看内核丢包信息
1.从系统整体来考虑,通过netstat 查看: [root@localhost net]# netstat -s |grep drop 3168 outgoing packets dropped 1 ...
- ECS实例中的应用偶尔出现丢包现象并且内核日志(dmesg)存在“kernel: nf_conntrack: table full, dropping packet”的报错信息
问题描述 连接ECS实例中的应用时偶尔出现丢包现象.经排查,ECS实例的外围网络正常,但内核日志(dmesg)中存在"kernel: nf_conntrack: table full, dr ...
- 七种可能 | Linux丢包故障的定位与解决
出处[云英公众号]:https://mp.weixin.qq.com/s?__biz=MzI1NzM3NTYxMw==&mid=2247483685&idx=1&sn=95c8 ...
- [转]nf_conntrack: table full, dropping packet 连接跟踪表已满,开始丢包 的解决办法
nf_conntrack: table full, dropping packet 连接跟踪表已满,开始丢包 的解决办法 中午业务说机器不能登录,我通过USM管理界面登录单板的时候发现机器没有僵 ...
- libpcap丢包原理分析及Fedora 9 内核2.6.25.14下安装PF-RING的详细过程
看到网上有人讲解fedora 9下安装PF-RING的过程,都是几年前的了,比较老了,我安装PF-RING就是为了使用libpcap库,libpcap的原理是通过socket 将数据包从网卡 捕获数据 ...
- linux fedora 14(内核2.6.35.6) PF_RING+libpcap 极速捕获千兆网数据包,不丢包
前面讲到了libpcap 捕获数据包,尤其在千兆网的条件下,大量的丢包,网上搜索好久,大概都是PF_PACKET +MMAP,NAPI,PF_RING之类的方法,我对PF_RING+libpcap进行 ...
- 定位公网丢包的工具 mtr
1.使用mtr工具,可以显示从本机到目的ip之间的沿途路由器,从而可以确定丢包的位置. 2.windows 系统,可以使用winmtr工具.
- openStack 云平台管理节点管理网口流量非常大 出现丢包严重 终端总是时常中断问题调试及当前测试较有效方案
tuning for Data Transfer hosts connected at speeds of 1Gbps or higher <一.本次OpenStack系统调试简单过程简单记录& ...
随机推荐
- vim中文乱码 vim字符集设置
vim中文乱码 vim字符集设置 vim的设置一般放在/etc/vimrc文件中,不过,建议不要修改它.可以修改~/.vimrc文件(默认不存在,可以自己新建一个),写入所希望的设置. set fil ...
- centos安装JDK11
(一)建立目录 mkdir /home/jdk11 (二) 上传JDK的离线liunx包 cd /home/jdk11 示例:jdk-11.0.19_linux-x64_bin.tar.gz (三) ...
- C# 13 中的新增功能实操
前言 今天大姚带领大家一起来看看 C# 13 中的新增几大功能,并了解其功能特性和实际应用场景. 前提准备 要体验 C# 13 新增的功能可以使用最新的 Visual Studio 2022 版本或 ...
- study Rust-2【环境与配置,随机数】
Rust教程资料很多.但是,这是教程学习资料感觉挺好!推荐给你https://doc.rust-lang.org/stable/book/ (简体中文译本)在线阅读 学习rust开始有点感觉了.美好的 ...
- 探秘Transformer系列之(22)--- LoRA
探秘Transformer系列之(22)--- LoRA 目录 探秘Transformer系列之(22)--- LoRA 0x00 概述 0x01 背景知识 1.1 微调 1.2 PEFT 1.3 秩 ...
- lombok用法
加入 maven 依赖 <dependency> <groupId>org.projectlombok</groupId> <artifactId>lo ...
- nginx中的路径匹配规则详解(location规则)
Nginx的路径匹配规则 Nginx的匹配规则用location指令来实现,Nginx 的location指令用于匹配请求的 URI(请求路径),并根据匹配结果执行特定的处理指令.location是实 ...
- 康谋分享 | aiSim5仿真场景重建感知置信度评估(三)
aiSim5重建高精度的真实交通场景,用于测试和训练ADAS/AD系统.内置场景包括赛道.车库.高速公路和城市环境.通过全局行动日志,aiSim能将驾驶数据转化为场景重建.车道线检测算法在仿真与现实世 ...
- pytorch 实战教程之 SPP(SPPNet---Spatial Pyramid Pooling)空间金字塔池化网络代码实现 和 SPPF (Spatial Pyramid Pooling Fast)详解
原文作者:aircraft 原文链接:pytorch 实战教程之 SPP(SPPNet---Spatial Pyramid Pooling)空间金字塔池化网络代码实现 和 SPPF (Spatial ...
- Mysql数据库常用操作和Mysql大数据高效迁移方案
1.数据迁移: 1.数据量较少时可使用mysqldump和mysql命令导出和导入 # 导出指定数据库系统 mysqldump -u _username -p _dbname > _sqlfil ...