Scrapy中的反反爬、logging设置、Request参数及POST请求
常用的反反爬策略
通常防止爬虫被反主要有以下几策略:
- 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息。)
- 禁用cookies(也就是不启用cookies middleware,不向server发送cookies,有些网站通过cookies的使用发现爬虫,可以通过COOKIES_ENABLED控制cookies middleware的开启和关闭)
- 设置延迟下载(防止访问过于频繁,设置为2s甚至更高)
- Google Cache和Baidu Cache:如果可能的话,使用谷歌或百度等搜索引擎服务器页面缓存的页面数据。
- 使用IP池:VPN和IP代理。
scrapy的logging设置
scrapy中Log Levels分为五个级别:
CRITICAL:----严重错误
ERROR:------一般错误
WARNNING---警告信息
INFO------------一般信息
DEBUG--------调试信息
通过setting.py文件,可以进行一下设置,用来配置logging:
LOG_ENABLED:默认为True,启用logging
LOG_ENCODING:默认为utf-8,logging使用编码
LOG_FILE:默认为None,在当前目录下创建logging输出文件的文件名
LOG_LEVEL:默认为DEBUG,log的最低级别
LOG_STDOUT:默认为False,如果为True时,进程所有标准输出(及错误)都将被重定向到log中,例如,执行print("hello"),将会在scrapy的log中显示。
一般情况下,实际设置以下内容就足够:
LOG_FILE=“文件名.log”
LOG_LEVEL="INFO"
Request/Response的重要参数
Request中的主要参数:
url: 就是需要请求,并进行下一步处理的url
callback: 指定该请求返回的Response,由哪个函数处理
method: 请求一般不需要指定,默认为GET方法,可以设置为“GET”,“POST”,"PUT"等,且保证字符串大写。
headers:请求时,包含的头文件。一般不需要。
meta: 比较常用。在不同请求之间传递数据时使用,字典dict类型。
encoding: 使用默认的utf-8就行。
dont_filter: 表明该请求不由调度齐齐过滤。这是当你想使用多次执行相同请求时,忽略重复的过滤。默认为False.
Response中的重要参数:
status: 响应码
_set_body(body): 响应体
_set_url(url):响应url
Scrapy发送POST请求
scrapy中一般使用如下方法发送POST请求:
yield scrapy.FormRequest(url, formdata, callback)
如果希望程序执行一开始就发送POST请求,可以重写Spider类的start_requests(self)方法,并且再调用start_url中的url
使用FormRequest.from_response()方法,模拟用户登录。
通常网站通过实现对某些表单字段(如数据或登录界面中的认证令牌等)的预填充。使用scrapy抓取网页时,如果需要预填充或重写用户名、用户密码等表单字段时,
可以使用FormRequest.from_response()方法实现。
Scrapy中的反反爬、logging设置、Request参数及POST请求的更多相关文章
- scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
- python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL
一.先在MySQL中创建test数据库,和相应的site数据表 二.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三.进入 ...
- Scrapy中集成selenium
面对众多动态网站比如说淘宝等,一般情况下用selenium最好 那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...
- 爬取豆瓣电影储存到数据库MONGDB中以及反反爬虫
1.代码如下: doubanmoive.py # -*- coding: utf-8 -*- import scrapy from douban.items import DoubanItem cla ...
- scrapy反反爬虫
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...
- scrapy反反爬虫策略和settings配置解析
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...
- python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬,附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉 是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...
- python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题 一丶爬虫概述 通过编写程序'模拟浏览器'上网,然后通 ...
- python反反爬,爬取猫眼评分
python反反爬,爬取猫眼评分.解决网站爬取时,内容类似:$#x12E0;样式,且每次字体文件变化.下载FontCreator . 用FontCreator打开base.woff.查看对应字体关系 ...
随机推荐
- Redis(十三)Python客户端redis-py
一.安装redis-py的方法 使用pip install安装redis-py C:\Users\BigJun>pip3 install redis Collecting redis Downl ...
- .Net Core实现健康检查
ASP.NET Core 提供运行状况检查中间件和库,以用于报告应用基础结构组件的运行状况. 运行状况检查由应用程序作为 HTTP 终结点公开. 可以为各种实时监视方案配置运行状况检查终结点: 运行状 ...
- LNMP下zabbix_server安装部署二
上一篇中搭建完成了zabbix的web端,但是虚拟机有点问题,所以转到笔记本上来写笔记本环境 server:192.168.112.9 agent:192.168.112.8 上一篇中完成了web ...
- CSS汇总之CSS选择器
要使用css对HTML页面中的元素实现一对一,一对多或者多对一的控制,这就需要用到CSS选择器. 一.通配符选择器 语法:*{ } 说明:通配符选择器可以选择页面上所有的html标签(包括body,h ...
- Css3动画-@keyframes与animation
一.@keyframe 定义和用法 @keyframes是用来创建帧动画的,我们通过这个属性可以用纯css来实现一些动画效果. 一般格式是: @keyframes 动画名称{ 0%{ 动画开始时的样式 ...
- NOIP 模拟22
这次考试真的是像教练说的真的挺难的,但是人家rank1还是100+, 但是咕咕蛊!
- [转载]2.6 UiPath循环嵌套的介绍和使用
一.循环嵌套的介绍 一个循环体内又包含另一个完整的循环结构,就称之为循环嵌套.内嵌的循环中还可以嵌套循环,这就是多层循环,也叫做多重循环. 二.在UiPath中结合使用循环嵌套生成99乘法表 1.打开 ...
- Hibernate的多对多关系
1.表的关系: 分别有三个表:课程表.学生表.分数表.课程和学生的关系是多对多的,因为一个学生对应多个课程,而一个课程被多个学生选修.如果用一对多.多对一的观点来看待课程和学生的关系显然是不对的,因为 ...
- Maven系列第6篇:生命周期和插件详解,此篇看过之后在maven的理解上可以超越同级别90%的人!
maven系列目标:从入门开始开始掌握一个高级开发所需要的maven技能. 这是maven系列第6篇. 整个maven系列的内容前后是有依赖的,如果之前没有接触过maven,建议从第一篇看起,本文尾部 ...
- nyoj 991 Registration system (map)
Registration system 时间限制:1000 ms | 内存限制:65535 KB 难度:2 描述 A new e-mail service "Berlandesk&q ...