spider 爬虫文件基本参数(3)

一代码

# -*- coding: utf-8 -*-

import scrapy

class ZhihuSpider(scrapy.Spider):

    # 爬虫名字,名字唯一,允许自定义

    name = 'zhihu'

    # 允许爬取的域名,scrapy每次发起的url爬取数据,先回进行域名检测,检测通过就爬取

    allowed_domains = ['zhihu.com']

    #发起的起始url地址,scrapy项目启动自动调用start_request()方法,把start_urls

    # url的作为请求url发起请求,把获取到的response交给回调函数,回调函数传递给parse

    # 解析数据

    start_urls = ['http://zhihu.com/']

    custom_settings = {

        # 请求头

        'user-agent': None,

        # 请求来源

        # 'referer': 'https://www.zhihu.com/',

    }

    def start_requests(self):

        '重写start_requests方法'

        for url in self.start_urls:

            #自定义解析方法

            yield scrapy.Request(url=url,method='Get',callback=self.define_parse)

    def parse(self, response):

        pass

    def define_parse(self,response):

        print(response)

        #输出状态码

        self.logger.info(response.status)

二参数详解

custom_settings

1 settings 文件中默认请求头 DEFAULT_REQUEST_HEADERS
2 spider文件中请求头参数 custom_settings
- 　　必须以类变量形式存在
- 优先级别高与全局

访问知乎不携带请求参数,返回400

两种请求头的书写方式如下(左:spisder, 右:settings.py)

allowed_domains

　　允许爬取的域名,scrapy每次发起的url爬取数据,先回进行域名检测,检测通过就爬取

start_urls

　　发起的起始url地址,scrapy项目启动自动调用start_request()方法,把start_urlsurl的作为请求url发起请求,把获取到的response交给回调函数,回调函数传递给parse解析数据

settings

　　全局的配置文件

logger

　　日志信息,使用=python自带的log模块

start_requests（）

class MySpider(scrapy.Spider):

    name = 'myspider'

    def start_requests(self):

        #使用FormRequest提交数据

        return [scrapy.FormRequest("http://www.example.com/login",

                                   formdata={'user': 'john', 'pass': 'secret'},

                                   callback=self.logged_in)]

    def logged_in(self, response):

        pass

post 请求

parse(response)

　　参数：response（Response） - 对解析的响应

指定解析函数,可以扩展多个函数,多层次的解析方法.

spider 启动参数配置

import scrapy

class MySpider(scrapy.Spider):

    name = 'myspider'

    def __init__(self, category=None, *args, **kwargs):

        super(MySpider, self).__init__(*args, **kwargs)

        self.start_urls = ['http://www.example.com/categories/%s' % category]

命令行中调用

scrapy crawl myspider -a category=electronics

spider 爬虫文件基本参数(3)的更多相关文章

Scrapy 框架，爬虫文件相关
Spiders 介绍由一系列定义了一个网址或一组网址类如何被爬取的类组成具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. 简单来说就是帮助你爬取数据的地方内部行为 #1.生成初始的Re ...
第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器编写spiders爬虫文件循环 ...
二十 Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
编写spiders爬虫文件循环抓取内容 Request()方法,将指定的url地址添加到下载器下载页面,两个必须参数, 参数: url='url' callback=页面处理函数使用时需要yield ...
第三百四十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制用命令创建自动爬虫文件创建爬虫文件是根据scrap ...
二十三 Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
用命令创建自动爬虫文件创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l 查看scrapy创建爬虫文件可用的母版 Available templates: ...
SWFUpload多图上传、C#后端跨域传文件带参数
前几天工作中用到了SWFUpload上传图片,涉及到跨域,因为前端无法实现跨域,所以只能把文件传到后端进行跨域请求,整理分享下. 效果图前端 html部分 <!DOCTYPE html> ...
C# 如何执行bat文件传参数
C# 如何执行bat文件传参数分类: C# basic 2011-04-25 18:55 3972人阅读评论(0) 收藏举报 c#stringpathoutput Process p = ne ...
Django之用户上传文件的参数配置
Django之用户上传文件的参数配置 models.py文件 class Xxoo(models.Model): title = models.CharField(max_length=128) # ...
由于想要实现下载的文件可以进行选择，而不是通过<a>标签写死下载文件的参数，所以一直想要使用JFinal结合ajax实现文件下载，但是ajax实现的文件下载并不能触发浏览器的下载文件弹出框，这里通过模拟表单提交实现同样的效果。
由于想要实现下载的文件可以进行选择,而不是通过<a>标签写死下载文件的参数,所以一直想要使用JFinal结合ajax实现文件下载(这样的话ajax可以传递不同的参数),但是ajax实现的文 ...

随机推荐

restTemplate设置访问超时
(一)RestTemplate 客户端 1.RestTemplate 是Spring的封装,需要spring的包 spring-web-3.0.7.RELEASE.jar 2.客户端代码: /** * ...
Eclipse从数据库逆向生成Hibernate实体类和映射文件（Eclipse插件系列之HibernateTools）
♣下载安装Eclipse插件(HibernateTools) ♣Eclipse连接数据库(Mysql5.7) ♣新建hibernate.properties和hibernate.cfg.xml文件 ♣ ...
RPC详解
RPC(Remote Procedure Call),即远程过程调用,是一个分布式系统间通信的必备技术,本文体系性地介绍了 RPC 包含的核心概念和技术,希望读者读完文章,一提到 RPC,脑中不是零碎 ...
使用单进程、strace、gdb调试PHP错误
使用单进程.strace.gdb调试PHP错误 PHP一般是在FPM的呵护下运行的,但是某些情况下进程异常崩溃会导致502.下面是解决思想: 1. 单进程运行: php -d display_erro ...
Git协作流程
Git 作为一个源码管理系统,不可避免涉及到多人协作. 协作必须有一个规范的流程,让大家有效地合作,使得项目井井有条地发展下去."协作流程"在英语里,叫做"workflo ...
干货 | Java中获取类名的3种方法！
获取类名的方法 Java 中获取类名的方式主要有以下三种. getName() 返回的是虚拟机里面的class的类名表现形式. getCanonicalName() 返回的是更容易理解的类名表示. g ...
Class path & Path
Class path: 配置类文件 (配置完之后,在任何盘符下都可以访问该配置路径下的文件); Path: 配置可执行文件; Class path 配置时路径后面加分号与不加分号的区别 (当前路径与配 ...
C++类中静态变量和普通变量的区别
静态变量: 1.静态变量会被编到程序的exe里面,从程序启动到结束,它一直存在: 2.静态变量的初始化值为0: 3.全局变量默认是静态变量: 4.在类中的函数变量前面加了static的也是静态变量,只 ...
【bzoj 1095】[ZJOI2007]Hide 捉迷藏
题目链接: TP 题解: 样例好良心,调样例3h一A…… 细节好多……诸如没完没了的pop和push……搞得头都大了. 同情zzh……调了整一天了. 动态点分治裸题……果然每个“裸题”打起来都跟shi ...
bzoj 2186 [Sdoi2008]沙拉公主的困惑欧拉函数
n>=m,所以就变成了求 ϕ(m!)∗n!/m! 而 ϕ(m!)=m!∗(p−1)/p...... p为m!的素因子,即为m内的所有素数,问题就转化为了求 n!∗(p−1)/p...... 只需 ...

spider 爬虫文件基本参数(3)

一 代码

二 参数详解

custom_settings

spider 爬虫文件基本参数(3)的更多相关文章

随机推荐

热门专题

一代码

二参数详解