Scrapy框架-爬虫程序相关属性和方法汇总

一.爬虫项目类相关属性

name:爬虫任务的名称
allowed_domains:允许访问的网站
start_urls: 如果没有指定url，就从该列表中读取url来生成第一个请求
custom_settings:值为一个字典，定义一些配置信息，在运行爬虫程序时，这些配置会覆盖项目级别的配置

所以custom_settings必须被定义成一个类属性，由于settings会在类实例化前被加载
settings:通过self.settings['配置项的名字']可以访问settings.py中的配置，如果自己定义了custom_settings还是以自己的为准
logger:日志名默认为spider的名字
crawler:该属性必须被定义到类方法from_crawler中,crawler可以直接crawler.settings.get('setting文件中的名称')

二.爬虫项目类相关方法

from_crawler(crawler, *args, **kwargs):这个就是优先于__init__执行函数举例代码可以如下

#一般配置数据库的属性时候稍微用影响

#简单些下

@classmethod

def from_crawler(cls,crawler):

    HOST = crawler.settings.get('HOST') #这里面的属性都是在settings中设置的名称

    PORT = crawler.settings.get('PORT')

    USER = crawler.settings.get('USER')

    PWD = crawler.settings.get('PWD')

    DB = crawler.settings.get('DB')

    TABLE = crawler.settings.get('TABLE')

    return cls(HOST,PORT,USER,PWD,DB,TABLE)

def __init__(self,HOST,PORT,USER,PWD,DB,TABLE):

    self.HOST = HOST

    self.PORT = PORT

    self.USER = USER

    self.PWD = PWD

    self.DB = DB

    self.TABLE = TABLE

#看一眼就知道了吧

start_requests(self):该方法用来发起第一个Requests请求，且必须返回一个可迭代的对象。它在爬虫程序打开时就被Scrapy调用，Scrapy只调用它一次。

默认从start_urls里取出每个url来生成Request(url, dont_filter=True)

举例

如果不写start_requests方法:他会把start_urls的两个网址都发送过去

import scrapy

class BaiduSpider(scrapy.Spider):

    name = 'test'

    allowed_domains = ['http://httpbin.org/get']

    start_urls = ['http://httpbin.org/get','http://httpbin.org/get']

    def parse(self, response):

        print('接受一次')

如果写start_requests方法:他会把我们指定的Request对象发送出去,发送必须以迭代器的形式输出

parse(self,response):这是默认的回调函数
log(self, message, level=logging.DEBUG, **kw): 定义日志级别
close(self,reason):关闭爬虫程序执行

Scrapy框架-爬虫程序相关属性和方法汇总的更多相关文章

Scrapy框架-----爬虫
说明:文章是本人读了崔庆才的Python3---网络爬虫开发实战,做的简单整理,希望能帮助正在学习的小伙伴~~ 1. 准备工作: 安装Scrapy框架.MongoDB和PyMongo库,如果没有安装, ...
第三百三十二节，web爬虫讲解2—Scrapy框架爬虫—Scrapy使用
第三百三十二节,web爬虫讲解2—Scrapy框架爬虫—Scrapy使用 xpath表达式 //x 表示向下查找n层指定标签,如://div 表示查找所有div标签 /x 表示向下查找一层指定的标签 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令 Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --u ...
vue第六单元(vue的实例和组件-vue实例的相关属性和方法-解释vue的原理-创建vue的组件)
第六单元(vue的实例和组件-vue实例的相关属性和方法-解释vue的原理-创建vue的组件) #课程目标掌握vue实例的相关属性和方法的含义和使用了解vue的数据响应原理熟悉创建组件,了解全局 ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...
PyQt（Python+Qt）学习随笔：QTreeWidget中标题相关属性访问方法headerItem、setHeaderLabels
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址树型部件窗口可以有一个标题头,其中包含部件中每个列的节(即标题).QTreeWidget的标题属性包 ...
Python 爬虫的代理 IP 设置方法汇总
本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用 ...

随机推荐

Yii2中indexBy()的使用
在项目开发中经常会使用到一些特殊的值作为数组的索引,一般可以先查询出数据后数组循环拼接成所需的格式.不过YII2框架提供了一种更简单的方法indexBy(). 参考Yii文档:https://www. ...
求连通块的面积 - BFS、DFS实现
本文以Leetcode中695.岛屿的最大面积题目为基础进行展开(题目
Appium 使用笔记
零.背景公司最近有个爬虫的项目,先拿小红书下手,但是小红书很多内容 web 端没有,只能用 app 爬,于是了解到 Appium 这个强大的框架,即可以做自动化测试,也可以用来当自动化爬虫. 本文的 ...
VMware Workstation15激活码
VG5HH-D6E04-0889Y-QXZET-QGUC8 亲测可用
C# 网络编程之简易聊天示例
还记得刚刚开始接触编程开发时,傻傻的将网站开发和网络编程混为一谈,常常因分不清楚而引为笑柄.后来勉强分清楚,又因为各种各样的协议端口之类的名词而倍感神秘,所以为了揭开网络编程的神秘面纱,本文尝试以一个 ...
HeadFirst设计模式<2>
HeadFirst设计模式<2> 1 装饰者模式星巴克咖啡饮料总结如果说策略模式是通过组合实现弹性,那么装饰者模式就是通过继承来实现,在实现的同时,客户基本感觉不到使用了装饰者模式 ...
百度大脑UNIT3.0详解之语音语义一体化方案
在电话客服场景里,用户和机器人交流的过程中,经常会出现沉默.打断机器人.噪声等情况,机器人在应对这些异常情况的时候,需要语音和语义理解技术进行处理,才能实现用户和机器人的流畅交谈.而这些能力的获取与应 ...
Netfilter，获取http明文用户名和密码
目录 Netfilter简介实验-target端内核模块的操作初始化netfilter 解析http包,获取用户名和密码实验-hack端遇到的问题 @ Netfilter简介 Netfilt ...
docker升级步骤及注意事项
centos系统默认安装的docker版本是1.13版本,在安装部分镜像时可能出现兼容问题,本文通过实际操作总结Docker升级最新版本步骤及可能出现的问题,供各位参考. 环境:CentOS Linu ...
Mybatis XML映射文件
mybatis为聚焦于SQL而构建,SQL映射文件常用的顶级元素如 resultMap,是最复杂也是最强大的元素,用来描述如何从数据库结果集中来加载对象. insert,映射插入语句 update, ...

Scrapy框架-爬虫程序相关属性和方法汇总

一.爬虫项目类相关属性

二.爬虫项目类相关方法

Scrapy框架-爬虫程序相关属性和方法汇总的更多相关文章

随机推荐

热门专题