Scrapy中的反反爬、logging设置、Request参数及POST请求

温良Miner 2024-11-03 11:05:46 原文

常用的反反爬策略

通常防止爬虫被反主要有以下几策略:

动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息。）
禁用cookies（也就是不启用cookies middleware，不向server发送cookies，有些网站通过cookies的使用发现爬虫，可以通过COOKIES_ENABLED控制cookies middleware的开启和关闭）
设置延迟下载（防止访问过于频繁，设置为2s甚至更高）
Google Cache和Baidu Cache:如果可能的话，使用谷歌或百度等搜索引擎服务器页面缓存的页面数据。
使用IP池：VPN和IP代理。

scrapy的logging设置

scrapy中Log Levels分为五个级别：

CRITICAL:----严重错误

ERROR:------一般错误

WARNNING---警告信息

INFO------------一般信息

DEBUG--------调试信息

通过setting.py文件，可以进行一下设置，用来配置logging：

LOG_ENABLED:默认为True，启用logging

LOG_ENCODING:默认为utf-8，logging使用编码

LOG_FILE:默认为None,在当前目录下创建logging输出文件的文件名

LOG_LEVEL:默认为DEBUG，log的最低级别

LOG_STDOUT：默认为False，如果为True时，进程所有标准输出（及错误）都将被重定向到log中，例如，执行print("hello")，将会在scrapy的log中显示。

一般情况下，实际设置以下内容就足够：

LOG_FILE=“文件名.log”

LOG_LEVEL="INFO"

Request/Response的重要参数

Request中的主要参数：

url: 就是需要请求，并进行下一步处理的url

callback: 指定该请求返回的Response，由哪个函数处理

method: 请求一般不需要指定，默认为GET方法，可以设置为“GET”，“POST”,"PUT"等，且保证字符串大写。

headers:请求时，包含的头文件。一般不需要。

meta: 比较常用。在不同请求之间传递数据时使用，字典dict类型。

encoding: 使用默认的utf-8就行。

dont_filter: 表明该请求不由调度齐齐过滤。这是当你想使用多次执行相同请求时，忽略重复的过滤。默认为False.

Response中的重要参数：

status: 响应码

_set_body(body): 响应体

_set_url(url):响应url

Scrapy发送POST请求

scrapy中一般使用如下方法发送POST请求：

yield scrapy.FormRequest(url, formdata, callback)

　如果希望程序执行一开始就发送POST请求，可以重写Spider类的start_requests(self)方法，并且再调用start_url中的url

使用FormRequest.from_response()方法，模拟用户登录。

通常网站通过实现对某些表单字段（如数据或登录界面中的认证令牌等）的预填充。使用scrapy抓取网页时，如果需要预填充或重写用户名、用户密码等表单字段时，

可以使用FormRequest.from_response()方法实现。

Scrapy中的反反爬、logging设置、Request参数及POST请求的更多相关文章

scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL
一.先在MySQL中创建test数据库,和相应的site数据表二.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三.进入 ...
Scrapy中集成selenium
面对众多动态网站比如说淘宝等,一般情况下用selenium最好那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...
爬取豆瓣电影储存到数据库MONGDB中以及反反爬虫
1.代码如下: doubanmoive.py # -*- coding: utf-8 -*- import scrapy from douban.items import DoubanItem cla ...
scrapy反反爬虫
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...
scrapy反反爬虫策略和settings配置解析
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...
python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬，附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题一丶爬虫概述通过编写程序'模拟浏览器'上网,然后通 ...
python反反爬，爬取猫眼评分
python反反爬,爬取猫眼评分.解决网站爬取时,内容类似:$#x12E0;样式,且每次字体文件变化.下载FontCreator . 用FontCreator打开base.woff.查看对应字体关系 ...

随机推荐

致Java星球程序员兄弟们的一封信
致Java星球程序员兄弟们的一封信亲爱的Java星球的程序员兄弟们: 你们好!我是来自地球的一名Java程序员,首先我代表地球人对贵星球的高司令来到地球传授Java语言,造福了全人类,造福了整个地球 ...
并发中如何保证缓存DB双写一致性（JAVA栗子）
并发场景中大部分处理的是先更新DB,再(删缓.更新)缓存的处理方式,但是在实际场景中有可能DB更新成功了,但是缓存设置失败了,就造成了缓存与DB数据不一致的问题,下面就以实际情况说下怎么解决此类问题. ...
Vue 实现前进刷新，后退不刷新的效果玩转vue-router里的meta
Vue 实现前进刷新,后退不刷新的效果玩转vue-router里的meta. 需求一: 在一个列表页中,第一次进入的时候,请求获取数据. 点击某个列表项,跳到详情页,再从详情页后退回到列表页时,不刷 ...
pymysql 防止sql注入案例
from pymysql import connect def main(): """sql演示""" # 1.输入一个语句,根据id展示相 ...
spark java api数据分析实战
1 spark关键包  <dependency> <groupId>fakepath</groupId> <artifac ...
使用promise封装ajax
直接上代码: function Ajax(method, headers, url, data, progress = null) { return new Promise(function (res ...
Security整合spring boot
Security整合spring boot 1.基础概念 Spring Security是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架.它提供了一组可以在Spri ...
Java抽象类、接口、内部类
抽象类的概念: 1.Java中可以定义没有方法体的方法,还方法的具体实现由子类完成,该方法称为抽象方法,包含抽象方法的类就是抽象类: 2.如,shape类计算周长和面积的方法无法确定,那么就可以将这样 ...
Feign设置assessToken
import org.slf4j.Logger; import org.slf4j.LoggerFactory; import org.springframework.beans.factory.an ...
Python 命令行之旅：深入 click 之参数篇
作者:HelloGitHub-Prodesire HelloGitHub 的<讲解开源项目>系列,项目地址:https://github.com/HelloGitHub-Team/Arti ...