pyspider的一个诡异问题】的更多相关文章

其Start_url两次抓取处理失败以后,其之后的所有抓取行为就不正常,似乎根本没有HTTP访问,我把该爬虫的taskdb清空,该爬虫爬取行为恢复正常.这个问题已提交pyspider官方,静待回答.…
这一周线上碰到一个诡异的BUG. 线上有个定时任务,这个任务需要查询一个表几天范围内的一些数据做一些处理,每隔十分钟执行一次,直至成功. 通过日志发现,从凌晨5:26分开始到5:56任务执行了三次,三次都因为SQL查询超时而执行失败,而诡异的是,任务到凌晨6:00多就执行成功了. 每天都是凌晨五点多失败,凌晨六点执行成功. 点开异常日志一看是这样的: 总结来说就是MySQL查询超时. 像这种稳定复现的BUG,我原以为只需三分钟能定位,没有想到却耗费了我半天的时间. 排查之路 Explain 看到…
关于"番外特别篇" 所谓"番外特别篇",就是系列文章更新期间内,随机插入的一篇文章.目前我正在更新的系列文章是 实现iOS图片等资源文件的热更新化.但是,这两天,被一个自己App中诡异的相册读取的Bug困扰,暂时延缓了文章的更新进度.这个BUG,诡异而又有趣,既然花了10个小时才理清,不妨再投入1个小时,晒出来供大家鉴赏,品玩. Bug 的详细描述 诡异的画风 此Bug仅在操作多张高像素图片时才会触发,所谓高像素就是图片本身并不算大,但是图片宽高非常大的图片.这次触…
一.前言 最近同事问到一个问题,一个前端页面在IOS端真机测试下出现一个比较诡异的问题,如果没有遇到过估计也是一筹莫展.今天特此记录一下,或许能帮到后面遇到这个问题的朋友少绕一些弯路.这是关于JQuery 中的 delegate 和 on 给动态元素绑定事件触发不了的问题.文章以下只用 delegate 举例. 二.JQuery 的 delegate 作用. 首先我们来了解一下 Delegate 的作用.一句话带过:"给动态添加的元素绑定事件" 看图: 下面九个测试按钮是通过点击上面的…
今天下午,发现本地的测试环境突然跑不动了,thinkphp直接跑到异常页面,按照正常的排错思路,直接看thinkphp的log 有一条 [ error ] [2]setcookie() expects parameter 3 to be integer, float given[\vendor\thinkphp\library\think\Cookie.php:97] 这个错误我直接忽略处理,因为自动接手这个项目后就一直是这样,看样子是给cookie的有效期传了一个浮点数的值,导致函数报错了.…
公司的一款项目,在迭代开发阶段,突然发现运行速度越来越慢,界面切换卡顿时间在2秒以上.经过和某个不卡版本的对比,惊奇的发现程序二进制都一模一样,就几个图片资源和脚本不一样.经过差不多一天的排查,发现是新加的splash程序影响了主程序的速度-.- 因为主程序设计的原因,启动大概需要10秒左右,为了不在黑的X界面等太久,为了界面的友好,我们独立做了个splash程序,用于在主程序启动之前显示友好提示界面,splash程序的生命周期是20秒,之后将自己退出.然而奇怪的是就是这个splash程序,即时…
最近使用loadrunner压测一个项目的时候,发现TPS波动巨大.且平均值较低.使用jmeter压测则没有这个问题.经过多方排查发现一个让人极度费解的原因: 原脚本: //脚本其他代码...... web_submit_data("aaa", "Action=http://demo.ddd.com/aaa?a=xr23498isfgljfsfd&b=adfasdfoi4308askdfjkla", //此处为密文链接 "Method=POST&q…
最近部署环境时遇到一个古怪问题. 背景环境: tomcat服务器 :  192.168.13.78 简称t 依赖服务器 :  192.168.12.159 简称s 二者关系 :t服务器的tomcat应用启动的时候需要调用s服务器的2181端口 问题现象: connect Unable to connect to  192.168.12.159:2181 server within timeout: 12000 解决过程: 1. ping  发现是可以通的 ping 192.168.12.159…
<!DOCTYPE html> <html lang="zh"> <head> <meta charset="UTF-8"> <meta http-equiv="x-ua-compatible" content="ie=edge"> <title>Title</title> <meta name="viewport"…
其实昨天开发pds,就碰到了core,我还以为是内存不够的问题,或者其他问题. 今天把所有代码挪到了as这里,没想到又出core了. 根据直觉,我就觉得可能是std::sort这边的问题. 上网一搜,果然很多提到了这个问题. 原来 std::sort调用的方法,在相同元素这里,不能够返回true. 因为 std::sort()的排序分2种,当元素个数>16(_S_threshold)时选择快速排序,<=16个则选择插入排序(对象少时快排性能不理想).按照快排原理,每次都是遍历所有值和一个中间值…
今天同事说他下了一个老版本的AS项目死活编不过,我心想不就是一个项目么,编不过要么就是代码有问题,要么就是依赖库不完整这能有什么问题,于是自己在自己电脑试了下,结果自己也中招了: 乍一看这个错误,说是清单文件有问题,还说是第5行第5列,于是我兴致勃勃的打开了清单文件,并找到了第5行第5列: 这 ??? 第5行也就罢了,第5列是什么东西,而且就这寥寥几行代码,哪错了? 于是个人耐着性子把整个清单文件从头到尾看了一遍,结果还是没找到问题,我开始以为是哪个起始标签或者是结束标签有问题,毕竟它提示的是:…
如上图所示:开始的时候进到下单页面,价格是0,当选中了商品产生价格的时候,生成的价格如 ¥150,这个时候会只露出¥1以及一小半的5,后面的都被遮挡住了. wxml里是这样的写的 <view wx:if="{{selectedDate}}" class="price totalPrice">{{totalPrice}}</view> //选中了日期以后才会计算总价 <view wx:else class="price tota…
家里路由器不在自己卧室,用树莓派考虑用wifi,之前用Raspberry官方系统,按照教程写的wpa.conf可以连接wifi,后来重新刷ubuntu mate 16.04就不好用了 各种找原因,后来原因找到了,wpa.conf的配置文件中的引号要用双引号的 所以下面这样是不行的 network={ ssid='TP-LINK_4A24E6' key_mgmt=WPA-PSK psk="12345678" } 要像下面这样 network={ ssid="TP-LINK_4A…
问题描述 我的环境:Unity3D 5.3.7 出问题机型:安卓模拟器.部分低配安卓机型(比如:红米2A) 以下代码是设置某个节点的父节点,在PC.Editor.大部分手机上都是正常的,但问题机型上,设置后节点会消失. 注:在xlua的环境下出现的问题 RectTransform rectTransform = null; rectTransform.SetParent(rectTransform); 解决办法 使用transform的方法,并且给SetParent添加参数,最后把它设置为Act…
sqoop job运行完成之后,发现为tinyint类型的一类始终没有值,经检查发现上游mysql有值,再查看hdfs文件,发现这列被抓换为了boolean类型 搜索一下发现有人碰到过了,以下原文来自https://blog.csdn.net/Fenggms/article/details/84527824 首先,来一段官网原文: 27.2.5. MySQL: Import of TINYINT(1) from MySQL behaves strangelyProblem: Sqoop is t…
卿学姐与诡异村庄 Time Limit: 4500/1500MS (Java/Others)     Memory Limit: 65535/65535KB (Java/Others) Submit Status 日复一日,年复一年,春去秋来. 卿学姐终于从天行廖那里毕业啦.出山的卿学姐首先来到了一个诡异的村庄. 在这个村庄中,只有两种人,一种是好人,一种是坏人. 好人只说真话,坏人只说假话. 村庄虚伪的平静由于卿学姐的到来,终于被打破了. 人们开始互相指控,每个人都会说另外一个人是否是好人.…
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器. 用pyspider的demo页面创建了一个爬虫,写一个正则表达式抓取多牛网站上特定的URL,很容易就得到想要的结果了,可以非常方便分析抓取页面里面的内容binux/pyspider · GitH…
开发环境 FluentData3.0.VS.NET2010.Mysql5.0 问题描述 使用FluentData对一个表(记录数28)进行分页时,突然发现一个诡异的问题,第一页返回10条数据正常,第二页返回18条数据,第三页返回8条数据 在排除了代码问题后,逐页获取生成的分页SQL语句 第一页:select * from orders order by orderid limit 0,10 第二页:select * from orders order by orderid limit 10,20…
MySQL的诡异同步问题 近期遇到一个诡异的MySQL同步问题,经过多方分析和定位后发现居然是由于备份引发的,非常的奇葩,特此记录一下整个问题的分析和定位过程. 现象 同事扩容的一台slave死活追不上同步,具体的现象是SBM=0,但是Exec_Master_Log_Pos执行的位置和Read_Master_Log_Pos完全对不上,且服务器本身CPU和IO都消耗的非常厉害. ——total-cpu-usage---- -dsk/total- -net/total- ---paging-- --…
(从已经死了一次又一次终于挂掉的百度空间人工抢救出来的,发表日期2014-03-27) 今天在写代码的时候发现了一个诡异的问题,我的HTML页面代码当中明明没有多余的行,标签书写规范,没有加任何样式(如margin.padding),也清除了所有元素的默认样式(*{margin:0px;padding:0px;}),但是当页面预览的时候却总是莫名其妙出现一个或几个空行,使用审查元素察看发现均是空白文本,如下图: 这幽灵般的空白行让我百思不得其解,把能去掉的空白字符都去掉了仍旧无法解决,可以肯定这…
公司目前项目使用nginx反向代理+多个tomcat进行负载均衡,之前使用ip_hash策略进行session控制.近期有考虑不再使用ip_hash策略,所以需要进行session共享. 根据项目实际情况,拟考虑使用开发配置比较简单,应用比较广泛的tomcat-redis-session-manager方式进行session共享,具体设置请参考 http://www.cnblogs.com/interdrp/p/4056525.html 公司原来项目使用spring security框架进行安全…
http://blog.csdn.net/renfufei/article/details/41648061 问题描述 昨天,以及今天(2014-11-29),使用 TortoiseGit 时碰到了一个诡异的问题. 卸载,清理注册表,重装,重启,各种折腾以后,还是不能解决. 但是23.45分一过,突然灵光一闪,解决了. 问题是这样的. 使用命令行的 git push, git fetch, git pull 什么的都没问题. 但是使用 TortoiseGit 执行拉取(pull ...) 命令时…
之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持python3,所以… 直接上代码,后面注解: #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-04-17 16:54:22 # Project: tongcheng from pyspider.libs.base_hand…
问题描述 昨天,以及今天(2014-11-29),使用 TortoiseGit 时碰到了一个诡异的问题. 卸载,清理注册表,重装,重启,各种折腾以后,还是不能解决. 但是23.45分一过,突然灵光一闪,解决了. 问题是这样的. 使用命令行的 git push, git fetch, git pull 什么的都没问题. 但是使用 TortoiseGit 执行拉取(pull ...) 命令时, 就给报错, 报错信息如下: git.exe pull -v --no-rebase --progress …
我的本地环境 windows + apche + php5.2 今天,碰到一个诡异的问题,以前认为  php 脚本中调用 heade()函数之前不能有任何的如 echo,print ,print_r,var_dump等输出,否则的话就会报错. 但是, <?php header( 'Expires: Mon, 26 Jul 1998 05:00:00 GMT' ); echo "Expires: Mon, 26 Jul 1998 05:00:00 ;"; header( 'Expi…
PySpider 简介 PySpider是一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器.任务监视器,项目管理器以及结果查看器. PySpider 来源于以前做的一个垂直搜索引擎使用的爬虫后端.我们需要从200个站点(由于站点失效,不是都同时啦,同时有100+在跑吧)采集数据,并要求在5分钟内将对方网站的更新更新到库中.所以,灵活的抓取控制是必须的. 同时,由于100个站点,每天都可能会有站点失效或…
标签: python爬虫pyspider 2015-09-05 10:57 9752人阅读 评论(0) 收藏 举报  分类: Python(8)  版权声明:本文为博主原创文章,未经博主允许不得转载.   目录(?)[+]   之前接触scrapy本来是想也许scrapy能够让我的爬虫更快,但是也许是我没有掌握scrapy的要领,所以爬虫运行起来并没有我想象的那么快,看这篇文章就是之前使用scrapy的写得爬虫.然后昨天我又看到了pyspider,说实话本来只是想看看,但是没想到一看就让我喜欢上…
首先phantomjs是作为pyspider的一个外部依赖组件部署的. apt安装完出现问题: QXcbConnection: Could not connect to display PhantomJS has crashed. Please read the bug reporting guide at <http://phantomjs.org/bug-reporting.html> and file a bug report. Aborted 在/usr/bin/phantomjs的合…
  pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等. 本篇文章只是对这个框架使用的大体介绍,更多详细信息可见官方文档. 安装 首先是环境的搭建,网上推荐的各种安装命令,如: pip install pyspider 但是因为各种权限的问题,博主安装报错了,于是采用了更为简单粗暴的方式,直接把源码下下来run. pyspider的源码地址,直接…
此问题,请不要使用 rebase, 下载最新的 TortoiseGit 即可: TortoiseGit-2.3中文版与Git安装包_手册: http://download.csdn.net/detail/renfufei/9738152 问题描述 昨天,以及今天(2014-11-29),使用 TortoiseGit 时碰到了一个诡异的问题. 卸载,清理注册表,重装,重启,各种折腾以后,还是不能解决. 但是23.45分一过,突然灵光一闪,解决了. 问题是这样的. 使用命令行的 git push, …