一个crontab脚本,下载一个文件并把内容入mysql数据库。具体流程如下:

1, wget一个文件。

2,处理文件生成一个中间文件。

3,将中间文件load入库。

05 10 * * * /home/work/local/php5.4/bin/php /home/work/www/new_products1/web/index_cli.php actionads/index

  

bug现象:

在线上,5次运行中,有2次会出错,就是入库的数据会缺失30%以上。

在线上手动运行脚本,没有一次出错。但配置成crontab,5次运行中,就会出错2次。

难点:

这种不可复现的bug,实在是难找原因。我们只能保存当时的现场,但脚本每天只运行一次,一次解决不了bug,可能需要等好几天才能复现这个bug。

解决流程:

1,怀疑是load文件时,丢失了部分数据。

于是解析mysql的binlog日志,找到了load的那一部分,将日志中获取到的文件字节数相加 (mysql load过程中,每下载一部分文件,会记录一下获取到了多少字节),发现文件没有丢失。同时,找到了mysql load时保存的临时文件,也是没有丢失数据的。

2,生成中间文件时,出错。

虽然开始确认了中间文件出错,但找不到为什么出错。。。

文件的开始有约30%的内容是ascii=0代表的字节。于是怀疑是不是磁盘坏道了。。。

一个程序读一个文件,处理后,写另外一个文件,在线下运行一直没有问题,程序里面也没有使用随机数之类的。。。所以我确认这段程序肯定是没有问题的。

3,假设磁盘坏道了,找证据。

我想坏道的话,把系统调用记录下来,应该可以看到原因。于是我把crontab改成:

  * * * strace -f /home/work/local/php5./bin/php /home/work/www/new_products1/web/index_cli.php actionads/index 2>>temp.log

发现read write系统调用没有出错的情况。

但同时也发现了一个现象,read源文件时,读到了大量的ascii=0代表的字节。如图:

同时,写中间文件时,也写入了大量的ascii=0所代表的字节:

这就解释了为什么中间文件会有这么多0,原因就是读到的源文件就有这么多0.

4,为什么源文件出错?

还是百思不得其解,下载的文件字节数也没有问题,说明数据没有丢失。为什么到线上就有问题呢?

眼睛盯着屏幕,好像突然发现了问题

*/ * * * * /home/work/local/php5./bin/php /home/work/www/new_products1/web/index_cli.php appcall/index
*/ * * * * /home/work/local/php5./bin/php /home/work/www/new_products1/web/index_cli.php actionads/index

原来有两个crontab,另外一个crontab也是下载一个文件,并且这两个crontab下载到的文件的名字是一样的。

会不会是它们两个冲突了呢?写一个脚本来验证。

wget ftp://xxxx:yyyy@ftp.daas.baidu.com/wenyisheng_tab23/20150904 -O 888  2>/dev/null &
sleep
wget ftp://xxxx1:yyyy1@ftp.daas.baidu.com/app_diaoqi/20150904 -O 888 2>/dev/null &

第一个wget下载到的文件有20M,第二个只有1M。为了故意生成冲突,我就让中间sleep 1秒种。

发现最后文件888,字节数跟第一个wget获取到的文件一样,但内容不一样,内容中间夹杂了第二个wget的文件。

后记

其实这个bug应该是可以很早就发现的,检查一下下载到的文件内容就可以发现。

我把它想复杂了,一看文件字节数没有问题,就确认这个文件也是没有问题的,所以就把这个线索中断了,被引入了歧途。

其实遇到疑难bug,不要急于下手,可以回顾一下流程,列一下可能出错的地方,一个一个排除,我想应该很快搞定它。

PS:

在追踪bug的时候,发现php yii框架在记录日志的时候,会把日志锁上,如下:

open("/home/work/www/logs/app.log", O_WRONLY|O_APPEND|O_CREAT, ) =
fstat(, {st_mode=S_IFREG|, st_size=, ...}) =
lseek(, , SEEK_CUR) =
lseek(, , SEEK_CUR) =
flock(, LOCK_EX)
stat("/home/work/www/logs/app.log", {st_mode=S_IFREG|, st_size=, ...}) =
write(, "2015-09-04 09:25:01 [-][-][-][in"..., ) =

为什么要加锁呢?这就验证了我以前一篇博客中的结论《日志会被写乱吗?》

因为Yii写日志的时候,会把日志记录在内存中,在一次请求处理完以后,统一写到磁盘,这时候日志会比较大,

一次write调用写不完,为了防止其它请求把日志写乱,就把日志文件加锁了。

我想这样会影响并发性能。

一个疑难bug的解决过程的更多相关文章

  1. 记录一个前端bug的解决过程

    人在江湖飘,哪能不挨刀. 我挨了重重一bug.严格来讲这可能是我职业生涯以来的首个悲惨经历,因为凭我的知识储备和经验,基本上任何可重现的bug都是可解的.然而这个bug却困扰了我三个月之久,它具有以下 ...

  2. android一个下拉放大库bug的解决过程及思考

    android一个下拉放大库bug的解决过程及思考 起因 项目中要做一个下拉缩放图片的效果,搜索了下github上面,找到了两个方案. https://github.com/Frank-Zhu/Pul ...

  3. JSON金额解析BUG的解决过程

    [原创申明:文章为原创,欢迎非盈利性转载,但转载必须注明来源] 这是在我们开发的一个支付系统中暴露的一个BUG,问题本身比较简单,有意思的是解决问题的过程.将过程分享出来,希望能够对大家有所帮助. 一 ...

  4. Win10 UWP系列:关于错误 0x80073CF9及一个小bug的解决

    最近一直在开发XX的uwp版本,也是边摸索边做,最近遇到几个比较奇怪的问题,记录于此. 1.项目可用部署到PC,但无法部署到手机,提示以下错误: 错误 : DEP0001 : 意外错误: Instal ...

  5. 使用 $(function(){}) 时遇到的一个小bug及解决方法

    在 $(function(){}) 中声明函数,在 $(function(){}) 外调函数,会报错 原因: 页面加载后,会先执行 $(function(){}) 外面的语句,再执行 $(functi ...

  6. 如何从头到脚彻底解决一个MySQL Bug

    摘要:为了保障华为云GaussDB产品的可靠性,每一款产品发布前都要通过多轮严苛的测试用例. 说明:本文中的MySQL,如果不做特殊说明,指的是开源社区版MySQL. 华为云数据库新版本在发布之前,会 ...

  7. 这几天帮一个朋友解决了一点小问题(RF的有些小问题及解决过程)

    最近涉猎自动化太少了,以至于都不经常更新了.最近一个朋友在做移动端自动化的时候遇到了一些小问题来找我解决.本人也不是很精通,只是接触的时间长了一点了.下面就是一些问题和解决过程: 1.她刚过来的时候, ...

  8. 终于解决了贴吧手机版的一个重大BUG

    终于解决了贴吧手机版的一个重大BUG 别诧异虽然同一个域名,但是,PC 和手机打开完全不一样的体验 http://tieba.yunxunmi.com/ 吃点夜校准备做梦去!! 发现 我云贴吧 一个  ...

  9. springboot中json转换LocalDateTime失败的bug解决过程

    环境:jdk1.8.maven.springboot 问题:前端通过json传了一个日期:date:2019-03-01(我限制不了前端开发给到后端的日期为固定格式,有些人就是这么不配合),      ...

随机推荐

  1. CSS随手记

    html5模板 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <t ...

  2. bzoj 1314: River过河 优先队列

    1314: River过河 Time Limit: 10 Sec  Memory Limit: 162 MBSubmit: 26  Solved: 10[Submit][Status][Discuss ...

  3. BZOJ 3992 [SDOI 2015] 序列统计 解题报告

    这个题最暴力的搞法就是这样的: 设 $Dp[i][j]$ 为前 $i$ 个数乘积为 $j$ 的方案数. 转移的话就不多说了哈... 当前复杂度 $O(nm^2)$ 注意到,$M$ 是个质数,就说明 $ ...

  4. 将cocos2dx项目从VS移植到Eclipse

    本文转自:http://www.cnblogs.com/Z-XML/p/3349518.html 引言:我们使用cocos2d-x引擎制作了一款飞行射击游戏,其中创新性地融入了手势识别功能.但是我们在 ...

  5. php smarty 缓存和配置文件的基本使用方法

    smarty高级部分包括缓存机制和配置文件的调用 下面是代码实现: 文件一,配置文件: #全局变量 title="网站主页" content="一个网站的主体部分&quo ...

  6. Codeforces Round #232 (Div. 1)

    这次运气比较好,做出两题.本来是冲着第3题可以cdq分治做的,却没想出来,明天再想好了. A. On Number of Decompositions into Multipliers 题意:n个数a ...

  7. TC Asia Competition

    250PT不说了.很水得一题. 500PT 给定n(<=1e18),求最大的因子,且这个因子为完全平方,假设这个因子为x那么满足x*x*y = n, 一直枚举因子到n^(1/3)就可以了. 最后 ...

  8. SPRING IN ACTION 第4版笔记-第四章ASPECT-ORIENTED SPRING-005-定义切面使用@Aspect、@EnableAspectJAutoProxy、<aop:aspectj-autoproxy>

    一. 假设有如下情况,有一个演凑者和一批观众,要实现在演凑者的演凑方法前织入观众的"坐下"."关手机方法",在演凑结束后,如果成功,则织入观众"鼓掌& ...

  9. VMware与宿敌Amazon一笑泯恩仇:重新定义混合云?(私有云节节败退)

    摘要: 私有云巨头VMware看来是真的要输给一个“书贩子” 了!这意味着私有云将败给公有云? [阅读原文] 三年前,虚拟化巨头VMware曾对亚马逊Amazon云服务AWS竖过中指:我们怎么可能打不 ...

  10. JS 中Promise 模式

    异步模式在web编程中变得越来越重要,对于web主流语言Javscript来说,这种模式实现起来不是很利索,为此,许多Javascript库(比如 jQuery和Dojo)添加了一种称为promise ...