scrapy之spiders

官方文档：https://docs.scrapy.org/en/latest/topics/spiders.html#

一句话总结：spider是定义爬取的动作（是否跟进新的链接）及分析网页结构（提取数据，返回item）的地方。

一 scrapy.Spider

　　1 name

　　2 allowed_domins <-----------------------> offsitemiddleware

　　3 start_urls <-----------------------> start_requests()

　　4 custom_settings <------------------------->Built-in settings reference

　　It must be defined as a class attribute since the settings are updated before instantiation.

class BaiduSpider(scrapy.Spider):

    name = 'baidu'

    allowed_domains = ['https://www.baidu.com']

    start_urls = ['http://https://www.baidu.com/']

    custom_settings = {

            'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',

    }

    def parse(self, response):

        pass

　　5 crawler <----------> from_crawler()

　　6 settings

　　7 logger

　　8 from_crawler(crawler,*args,**kwargs)

　　This is the class method used by Scrapy to create your spiders.

　　9 start_request()

　　It is called by Scrapy when the spider is opened for scraping.

　　核心代码：

for url in self.start_urls:

                yield Request(url, dont_filter=True)

　　　关于Request的说明。以下是Requet的源码。

class Request(object_ref):

    def __init__(self, url, callback=None, method='GET', headers=None, body=None,

                 cookies=None, meta=None, encoding='utf-8', priority=,

                 dont_filter=False, errback=None, flags=None):

　　源码中可以看到，Request默认是get请求，如果是发post请求，需要在重写此方法。这里涉及到了 Request类

class MySpider(scrapy.Spider):

    name = 'myspider'

    def start_requests(self):

        return [scrapy.FormRequest("http://www.example.com/login",

                                   formdata={'user': 'john', 'pass': 'secret'},

                                   callback=self.logged_in)]

    def logged_in(self, response):

        # here you would extract links to follow and return Requests for

        # each of them, with another callback

        pass

　　10 parse(response)

　　This method, as well as any other Request callback, must return an iterable of Requestand/or dicts or Item objects.

　　11 log(message[ , level,component])

　　12 closed(reason)

二 Spider arguments

　　-a

三 Generic Spiders

　　1 CrawlSpider

scrapy之spiders的更多相关文章

爬虫（十二）：scrapy中spiders的用法
Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以初始的URL初始化Request,并设 ...
在scrapy的spiders文件中设置请求时间间隔
设置某个spider单独使用的设置项等等. 在spiders文件中写如下: custom_settings = { 'DOWNLOAD_DELAY': 0.2, 'CONCURRENT_REQUEST ...
Scrapy学习篇（五）之Spiders
Spiders Spider类定义了如何爬取某个网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item).简而言之,Spider就是你定义爬取的动作及分析某个网 ...
Scrapy框架——介绍、安装、命令行创建，启动、项目目录结构介绍、Spiders文件夹详解（包括去重规则）、Selectors解析页面、Items、pipelines（自定义pipeline）、下载中间件（Downloader Middleware）、爬虫中间件、信号
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
Scrapy爬取自己的博客内容
python中常用的写爬虫的库有urllib2.requests,对于大多数比较简单的场景或者以学习为目的,可以用这两个库实现.这里有一篇我之前写过的用urllib2+BeautifulSoup做的一 ...
进阶——scrapy登录豆瓣解决cookie传递问题并爬取用户参加过的同城活动©seven_clear
最近在用scrapy重写以前的爬虫,由于豆瓣的某些信息要登录后才有权限查看,故要实现登录功能.豆瓣登录偶尔需要输入验证码,这个在以前写的爬虫里解决了验证码的问题,所以只要搞清楚scrapy怎么提交表单 ...
scrapy系统学习(1)--概要
本文操作环境:ubuntu14.04 一.安装Scrapy/Mysql/MySQLdb 参照官网教程安装Scrapy #sudo apt-key adv --keyserver hkp://keyse ...
scrapy2_初窥Scrapy
递归知识:oop,xpath,jsp,items,pipline等专业网络知识,初级水平并不是很scrapy,可以从简单模块自己写. 初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数 ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...

随机推荐

python基础一 day15 内置函数
'\r' 回车,回到当前行的行首,而不会换到下一行,如果接着输出的话,本行以前的内容会被逐一覆盖: '\n' 换行,换到当前位置的下一行,而不会回到行首: # print()# input()# le ...
HTML5<section>元素
HTML5<section>元素用来定义页面文档中的逻辑区域或内容的整合(section,区域),比如章节.页眉.页脚或文档中的其他部分. 根据W3C HTML5文档中:section里面 ...
UI Testing in Xcode 7
参考文章: UI Testing in Xcode - WWDC 2015https://developer.apple.com/videos/play/wwdc2015-406/ Document ...
iOS--UIScrollView基本用法和代理方法
主要是为了记录下UIScrollView的代理方法吧在帮信息学院的学长做东西的时候需要大量用到分块浏览,所以就涉及到很多的关于scrollview,所以也就有了这篇文章 - (void)view ...
【转】 VC中TCP实现异步套接字编程的原理+代码
所谓的异步套接字编程就是调用了如下函数 WSAAsyncSelect 设置了套接字的状态为异步,有关函数我会在下面详细介绍... 异步套接字解决了套接字编程过程中的堵塞问题 .... ...
好久没写了，总结一下lnux常用的命令（基础）
Linux 1.init 0 关机 2.init 6 重启 3.ls 列出当前目录下的文件 4.cd 切换目录 cd - 切换最近使用的两次目录 5.pwd 查看当前所在的路径 (“-”为用户 ...
Springboot @Autowired 无法注入问题
特别提醒:一定要注意文件结构 WebappApplication 一定要在包的最外层,否则Spring无法对所有的类进行托管,会造成@Autowired 无法注入. 1. 添加工具类获取在 Sprin ...
hdu 5984
PockyTime Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submissio ...
Http协议——基本概念
一.浏览网页的过程用户输入一个url,浏览器根据url给web服务器发送一个Request,web服务器接收到Request后进行处理,并返回浏览器一个Response,可以响应一个静态页面或者图片 ...
Hadoop4.2HDFS测试报告之五
第二组:文件存储读过程记录 NameNode:1 DataNode:1 本地存储 scp romotepath localpath 500 2 1 23.05 NameNode:1 DataNode: ...

scrapy之spiders

scrapy之spiders的更多相关文章

随机推荐

热门专题