Scrapy爬虫错误日志汇总

1、数组越界问题(list index out of range)

原因：第1种可能情况：list[index]index超出范围,也就是常说的数组越界。

　　　第2种可能情况：list是一个空的，没有一个元素，进行list[0]就会出现该错误，这在爬虫问题中很常见，比如有个列表爬下来为空，统一处理就会报错。

解决办法：从你的网页内容解析提取的代码块中找找看啦（人家比较习惯xpath + 正则），加油 ~

---------------------------------------------------华丽的分隔符------------------------------------------------------------

2、http状态代码没有被处理或不允许(http status code is not handled or not allowed)

原因：第1种情况：就是你的http状态码没有被识别，需要在settings.py中添加这个状态码信息，相当于C语言中的＃define预处理宏定义命令吧

第2种情况：403是网页状态码，表示访问拒绝或者禁止访问。应该是你触发到网站的反爬虫机制了。

解决办法：如果是第1种情况，在你的setting.py中，添这么一句短小精悍的话就OK了，紧接着就等着高潮吧您呐：HTTPERROR_ALLOWED_CODES = [403]

　　如果是第2种情况，a.伪造报文头部user-agent（网上有详细教程不用多说）

b.使用可用代理ip，如果你的代理不可用也会访问不了

c.是否需要帐户登录，使用cookielib模块登录帐户操作
如果以上方法还是不行，那么你的ip已被拉入黑名单静止访问了。等一段时间再操作。如果等等了还是不行的话：
d.使用phatomjs或者selenium模块试试。
还不行使用别的scrapy爬虫框架看看。
以上都不行，说明这网站反爬机制做的很好，爬不了了，没法了，不过我觉得很少有这种做得很好的网站

---------------------------------------------------华丽的分隔符------------------------------------------------------------

此篇文章持续更新，未完待续....

欢迎大家留下自己的问题，互相讨论，互相学习，互相总结，，，，

Scrapy爬虫错误日志汇总的更多相关文章

Python2.7集成scrapy爬虫错误解决
运行报错: NotSupported: Unsupported URL scheme 'https':.... 解决方法:降低对应package的版本主要是scrapy和pyOpenSSL的版本具 ...
Scrapy爬虫框架示意图汇总
scrapy爬虫，cmd中执行日志中显示了爬取的内容，但是运行时隐藏日志后（运行命令后添加--nolog），就没有输出结果了
cmd下执行scrapy爬虫程序,不报错也没有输出,解决方案想要执行parse能够在cmd看到parse函数的执行结果: 解决方法: settings.py 中设置 ROBOTSTXT_OBEY ...
scrapy爬虫框架setting模块解析
平时写爬虫的时候并不需要设置setting里所有的参数,今天心血来潮,花了点时间查了一下setting模块创建后自动写入的所有参数的含义,记录一下. 模块相关说明信息 # -*- coding: ut ...
scrapy框架的日志等级和请求传参, 优化效率
目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级请求传参如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级在使 ...
liunx系统下crontab定时启动Scrapy爬虫程序
定时启动爬虫 # 查看命令得绝对路径 # which scrapy # cd到爬虫得项目目录下 + scrapy命令得绝对路径 + 启动命令 */5 * * * * cd /opt/mafengwo/ ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
基于scrapy爬虫的天气数据采集(python)
基于scrapy爬虫的天气数据采集(python) 一.实验介绍 1.1. 知识点本节实验中将学习和实践以下知识点: Python基本语法 Scrapy框架爬虫的概念二.实验效果三.项目实战 ...

随机推荐

go语言基础之字符串遍历
Go的字符串遍历,有两种方式: utf-8遍历 unicode遍历 package main import "fmt" func main() { str := "Hel ...
[LeetCode] Longest Mountain in Array 数组中最长的山
Let's call any (contiguous) subarray B (of A) a mountain if the following properties hold: B.length ...
【原创】XAF常用属性字段设置
1.IP地址IPV4 [XafDisplayName()] [ModelDefault("EditMaskType", "RegEx")] [ModelDefa ...
cadence PCB板级设计
总结PCB板框设计,定位孔的放置,以及布线区域和元件放置区域的放置,最重要的是层叠结构的设计.
删除API
Delete API 删除API允许根据ID从指定索引中删除一个类型化的JSON文档. DELETE /twitter/_doc/1 返回结果如下: { "_index": &qu ...
swust oj 987
输出用先序遍历创建的二叉树是否为完全二叉树的判定结果 1000(ms) 10000(kb) 2553 / 5268 利用先序递归遍历算法创建二叉树并判断该二叉树是否为完全二叉树.完全二叉树只能是同深度 ...
error: can't copy 'docx\templates\default-docx-template': doesn't exist or not a regular file --------------- Failed building wheel for python-docx； python-docx的安装使用；python操作word
本人第一安装python-docx很不幸就出现了,如下的错误:(如果你也遇到同样的错误,不要慌可以参考下面解决方案,由于第一次处理这种错误,如有不对欢迎大家多多批评指正) 问题所在是因为我们的setu ...
SSIS - 8.FTP 任务
FTP全称为 File Transfer Protocol(文件传输协议),是通过TCP网络将文件从一个服务器传输到另一个服务器.在SSIS包中,FTP任务是用来实现FTP功能的. 一.创建FTP连接 ...
DCOS实践分享(3)：基于Mesos 和 Docker企业级移动应用实践分享
2016年1月24日 8:00—19:00 北京万豪酒店(东城区建国门南大街7号) @Container大会是由国内容器社区DockOne组织的专为一线开发者和运维工程师设计的顶级容器技术会议,会议强 ...
【安富莱专题教程第2期】uC/Probe简易使用说明，含MDK和IAR，支持F103，F407和F429开发板
说明:1. 在uCOS工程调试时,这个软件还是非常给力的,方便查看各种信息,可以认为是MDK或者IAR调试功能的图形化版本,使用JLINK连接可以随时连接查看,无需目标端代码.2. 当前教程中,我们使 ...

Scrapy爬虫错误日志汇总

Scrapy爬虫错误日志汇总的更多相关文章

随机推荐

热门专题