反反爬虫相关机制

Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may sometimes require special infrastructure. Please consider contacting commercial support if in doubt.

(有些些网站使用特定的不同程度的复杂性规则防止爬虫访问，绕过这些规则是困难和复杂的，有时可能需要特殊的基础设施，如果有疑问，请联系商业支持。)

来自于Scrapy官方文档描述：http://doc.scrapy.org/en/master/topics/practices.html#avoiding-getting-banned

通常防止爬虫被反主要有以下几个策略：

动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）
禁用Cookies（也就是不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）
- 可以通过COOKIES_ENABLED 控制 CookiesMiddleware 开启或关闭
设置延迟下载（防止访问过于频繁，设置为 2秒或更高）
Google Cache 和 Baidu Cache：如果可能的话，使用谷歌/百度等搜索引擎服务器页面缓存获取页面数据。
使用IP地址池：VPN和代理IP，现在大部分网站都是根据IP来ban的。

使用 Crawlera（专用于爬虫的代理组件），正确配置和设置下载中间件后，项目所有的request都是通过crawlera发出。

  DOWNLOADER_MIDDLEWARES = {

      'scrapy_crawlera.CrawleraMiddleware':

  }

  CRAWLERA_ENABLED = True

  CRAWLERA_USER = '注册/购买的UserKey'

  CRAWLERA_PASS = '注册/购买的Password'

设置下载中间件（Downloader Middlewares）

下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件，可以有多个下载中间件被加载运行。

当引擎传递请求给下载器的过程中，下载中间件可以对请求进行处理（例如增加http header信息，增加proxy信息等）；
在下载器完成http请求，传递响应给引擎的过程中，下载中间件可以对响应进行处理（例如进行gzip的解压等）

要激活下载器中间件组件，将其加入到 DOWNLOADER_MIDDLEWARES 设置中。该设置是一个字典(dict)，键为中间件类的路径，值为其中间件的顺序(order)。

这里是一个例子:

DOWNLOADER_MIDDLEWARES = {

    'mySpider.middlewares.MyDownloaderMiddleware': ,

}

编写下载器中间件十分简单。每个中间件组件是一个定义了以下一个或多个方法的Python类:

class scrapy.contrib.downloadermiddleware.DownloaderMiddleware

process_request(self, request, spider)

当每个request通过下载中间件时，该方法被调用。
process_request() 必须返回以下其中之一：一个 None 、一个 Response 对象、一个 Request 对象或 raise IgnoreRequest:
- 如果其返回 None ，Scrapy将继续处理该request，执行其他的中间件的相应方法，直到合适的下载器处理函数(download handler)被调用，该request被执行(其response被下载)。
- 如果其返回 Response 对象，Scrapy将不会调用任何其他的 process_request() 或 process_exception() 方法，或相应地下载函数；其将返回该response。已安装的中间件的 process_response() 方法则会在每个response返回时被调用。
- 如果其返回 Request 对象，Scrapy则停止调用 process_request方法并重新调度返回的request。当新返回的request被执行后，相应地中间件链将会根据下载的response被调用。
- 如果其raise一个 IgnoreRequest 异常，则安装的下载中间件的 process_exception() 方法会被调用。如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。
参数:
- request (Request 对象) – 处理的request
- spider (Spider 对象) – 该request对应的spider

process_response(self, request, response, spider)

当下载器完成http请求，传递响应给引擎的时候调用

process_request() 必须返回以下其中之一: 返回一个 Response 对象、返回一个 Request 对象或raise一个 IgnoreRequest 异常。
- 如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。
- 如果其返回一个 Request 对象，则中间件链停止，返回的request会被重新调度下载。处理类似于 process_request() 返回request所做的那样。
- 如果其抛出一个 IgnoreRequest 异常，则调用request的errback(Request.errback)。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。
参数:
- request (Request 对象) – response所对应的request
- response (Response 对象) – 被处理的response
- spider (Spider 对象) – response所对应的spider

使用案例：

1. 创建`middlewares.py`文件。

Scrapy代理IP、Uesr-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制，我们在settings.py同级目录下创建middlewares.py文件，包装所有请求。

middlewares.py

# -*- coding: utf- -*-

import random

import base64

from scrapy.conf import settings

USER_AGENTS=settings['USER_AGENTS']

PROXIES=settings['PROXIES']

# 随机的User-Agent

class RandomUserAgent(object):

    def process_request(self, request, spider):

        useragent = random.choice(USER_AGENTS)

        #print useragent

        request.headers.setdefault("User-Agent", useragent)

class RandomProxy(object):

    def process_request(self, request, spider):

        proxy = random.choice(PROXIES)

        if proxy['user_passwd'] is None:

            # 没有代理账户验证的代理使用方式

            request.meta['proxy'] = "http://" + proxy['ip_port']

        else:

            # 对账户密码进行base64编码转换

            # base64.b64encode(bytes(text, 'utf-8'), )

            base64_userpasswd = base64.b64encode(bytes(proxy['user_passwd'],'utf-8'))

            # 对应到代理服务器的信令格式里

            request.headers['Proxy-Authorization'] = 'Basic ' + str(base64_userpasswd)

            request.meta['proxy'] = "http://" + proxy['ip_port']

为什么HTTP代理要使用base64编码：

HTTP代理的原理很简单，就是通过HTTP协议与代理服务器建立连接，协议信令中包含要连接到的远程主机的IP和端口号，如果有需要身份验证的话还需要加上授权信息，服务器收到信令后首先进行身份验证，通过后便与远程主机建立连接，连接成功之后会返回给客户端200，表示验证通过，就这么简单，下面是具体的信令格式：

CONNECT 59.64.128.198:21 HTTP/1.1

Host: 59.64.128.198:21

Proxy-Authorization: Basic bGV2I1TU5OTIz

User-Agent: OpenFetion

其中Proxy-Authorization是身份验证信息，Basic后面的字符串是用户名和密码组合后进行base64编码的结果，也就是对username:password进行base64编码。

HTTP/1.0 200 Connection established

OK，客户端收到收面的信令后表示成功建立连接，接下来要发送给远程主机的数据就可以发送给代理服务器了，代理服务器建立连接后会在根据IP地址和端口号对应的连接放入缓存，收到信令后再根据IP地址和端口号从缓存中找到对应的连接，将数据通过该连接转发出去。

2. 修改settings.py配置USER_AGENTS和PROXIES

添加USER_AGENTS：

USER_AGENTS=[

    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)',

    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)',

    'Opera/9.27 (Windows NT 5.2; U; zh-cn)',

    'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',

    'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',

    'Mozilla/5.0 (Linux; U; Android 4.0.3; zh-cn; M032 Build/IML74K) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30',

    'Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13'

]

添加代理IP设置PROXIES：

免费代理IP可以网上搜索，或者付费购买一批可用的私密代理IP：

PROXIES=[

        {"ip_port" :"121.42.140.113:16816", "user_passwd" : "mr_mao_hacker:sffqry9r"},

        #{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

        #{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

        #{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

]

除非特殊需要，禁用cookies，防止某些网站根据Cookie来封锁爬虫。

COOKIES_ENABLED = False

设置下载延迟

DOWNLOAD_DELAY = 3

最后设置setting.py里的DOWNLOADER_MIDDLEWARES，添加自己编写的下载中间件类。

#MONGODB主机名
MONGODB_HOST="127.0.0.1"

#MONGODB端口号
MONGODB_PORT=27017

#数据库名称
MONGODB_DBNAME="Douban"

#存放数据库的表名称
MONGODB_SHEETNAME="doubanmovies"

DOWNLOADER_MIDDLEWARES = {

   'douban.middlewares.RandomUserAgent': ,

   'douban.middlewares.RandomProxy':

}

pipelines.py

# -*- coding: utf- -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymongo

from scrapy.conf import settings

class DoubanPipeline(object):

    def __init__(self):

        host = settings["MONGODB_HOST"]

        port = settings["MONGODB_PORT"]

        dbname = settings["MONGODB_DBNAME"]

        sheetname= settings["MONGODB_SHEETNAME"]

        # 创建MONGODB数据库链接

        client = pymongo.MongoClient(host = host, port = port)

        # 指定数据库

        mydb = client[dbname]

        # 存放数据的数据库表名

        self.sheet=mydb[sheetname]

    def process_item(self, item, spider):

        data=dict(item)

        self.sheet.insert(data)

        return item

items.py

# -*- coding: utf- -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class DoubanItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    #标题

    title=scrapy.Field()

    #信息

    bd=scrapy.Field()

    #评分

    star=scrapy.Field()

    #简介

    quote=scrapy.Field()

doubanmovie.py

# -*- coding: utf- -*-

import scrapy

from douban.items import DoubanItem

class DoubanmovieSpider(scrapy.Spider):

    name = 'doubanmovie'

    allowed_domains = ['movie.douban.com']

    offset =

    url = "https://movie.douban.com/top250?start="

    start_urls = (

        url + str(offset),

    )

    def parse(self, response):

        item = DoubanItem()

        movies = response.xpath("//div[@class='info']")

        for each in movies:

            # 标题

            item['title'] = each.xpath(".//span[@class='title'][1]/text()").extract()[]

            # 信息

            item['bd'] = each.xpath(".//div[@class='bd']/p/text()").extract()[]

            # 评分

            item['star'] = each.xpath(".//div[@class='star']/span[@class='rating_num']/text()").extract()[]

            # 简介

            quote = each.xpath(".//p[@class='quote']/span/text()").extract()

            if len(quote) != :

                item['quote'] = quote[]

            yield item

        if self.offset < :

            self.offset +=

            yield scrapy.Request(self.url + str(self.offset), callback=self.parse)

Settings

Scrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core)，插件(extension)，pipeline及spider组件。比如设置Json Pipeliine、LOG_LEVEL等。

参考文档：http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

内置设置参考手册

BOT_NAME
- 默认: 'scrapybot'
- 当您使用 startproject 命令创建项目时其也被自动赋值。
CONCURRENT_ITEMS
- 默认: 100
- Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值。
CONCURRENT_REQUESTS
- 默认: 16
- Scrapy downloader 并发请求(concurrent requests)的最大值。

`DEFAULT_REQUEST_HEADERS`

默认: 如下

{

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',

}

Scrapy HTTP Request使用的默认header。

DEPTH_LIMIT
- 默认: 0
- 爬取网站最大允许的深度(depth)值。如果为0，则没有限制。
DOWNLOAD_DELAY
- 默认: 0
- 下载器在下载同一个网站下一个页面前需要等待的时间。该选项可以用来限制爬取速度，减轻服务器压力。同时也支持小数:
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
- 默认情况下，Scrapy在两个请求间不等待一个固定的值，而是使用0.5到1.5之间的一个随机值 * DOWNLOAD_DELAY 的结果作为等待间隔。
DOWNLOAD_TIMEOUT
- 默认: 180
- 下载器超时时间(单位: 秒)。
ITEM_PIPELINES
- 默认: {}
- 保存项目中启用的pipeline及其顺序的字典。该字典默认为空，值(value)任意，不过值(value)习惯设置在0-1000范围内，值越小优先级越高。
```
ITEM_PIPELINES = {

'mySpider.pipelines.SomethingPipeline': 300,

'mySpider.pipelines.ItcastJsonPipeline': 800,

}
```
LOG_ENABLED
- 默认: True
- 是否启用logging。
LOG_ENCODING
- 默认: 'utf-8'
- logging使用的编码。
LOG_LEVEL
- 默认: 'DEBUG'
- log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
USER_AGENT
- 默认: "Scrapy/VERSION (+http://scrapy.org)"
- 爬取的默认User-Agent，除非被覆盖。

`PROXIES`：代理设置

示例：

PROXIES = [

  {'ip_port': '111.11.228.75:80', 'password': ''},

  {'ip_port': '120.198.243.22:80', 'password': ''},

  {'ip_port': '111.8.60.9:8123', 'password': ''},

  {'ip_port': '101.71.27.120:80', 'password': ''},

  {'ip_port': '122.96.59.104:80', 'password': ''},

  {'ip_port': '122.224.249.122:8088', 'password':''},

]

COOKIES_ENABLED = False
- 禁用Cookies

12.Scrapy与mongodb交互和设置中间键的更多相关文章

scrapy使用MongoDB简单示例
1.下载安装MongoDBhttps://www.mongodb.com/download-center#community找到合适的版本下载,安装.安装好之后,找到安装目录下D:\Program F ...
MongoDB安装并设置为windows服务以使其开机自启
在MongoDB的官方下载windows平台的压缩zip文件,地址:https://www.mongodb.org/dr/fastdl.mongodb.org/win32/mongodb-win32- ...
koa项目用mongoose与mongodb交互，始终报错FormModel is not defined
koa项目用mongoose与mongodb交互,始终报错FormModel is not defined,就是自己定义的model实例始终不能找到,但是明明定义了,这时候就要看大小写了,当创建一个m ...
Koa2学习（九）与mongoDB交互
Koa2学习(九)与mongoDB交互数据库下载与安装 windows下载地址:http://dl.mongodb.org/dl/win32/x86_64 linux下载地址:https://www ...
7月新的开始 - Axure学习01 - 元件库、元件交互样式设置
解释: Axure 属于原型制作里的霸道总裁 1.原型:原型模拟真实产品的功能与设计.用于在初期阶段测试产品的可行性与效果.来节省开发成本与周期. 2.线框图:在初期实现对产品的了解.实现产品的基本结 ...
MySql数据库在表中添加新字段，设置主键，设置外键，字段移动位置，以及修改数据库后如何进行部署和维护的总结
1,为当前已有的表添加新的字段 alter table student add studentName varchar(20) not null; 2,为当前已有的表中的字段设置为主键自增 alter ...
关于mysql设置外键，实现参照性完整性约束，以及workbench上的一个bug（？）
一.本次数据库中有student,course,sc表,其设置情况 -- 创建course表 CREATE TABLE `course` ( `cno` ) NOT NULL, `cname` ) D ...
Oracle设置主键自增长
第一步:为表设置主键第二步:新建序列 CREATE SEQUENCE SQ.SEQ_INCREASE START WITH 12 MAXVALUE 999 MINVALUE 0 INCREME ...
图解｜12张图告诉你MySQL的主键查询为什么这么快
这是图解MySQL的第3篇文章,这篇文章会让大家清楚地明白: 什么是InnoDB行格式?InnoDB页是什么? InnoDB页和InnoDB行格式都有哪些字段信息? 为什么推荐使用自增ID作为主键,而 ...

随机推荐

macOS X Mount NFS Share / Set an NFS Client
last updated November 3, 2018 in CategoriesLinux, Mac OS X, UNIX How do I access my enterprise NAS s ...
Python之路(第十四篇)os模块
一.os模块 1.os.getcwd() 获取当前工作目录(当前工作目录默认都是当前文件所在的文件夹) import os print(os.getcwd()) 2.os.chdir(path) 改变 ...
含有选择器的 bootstrap菜单
var menu = new BootstrapMenu('#jsmind_container jmnode:not(.root)', { actions: [{ name: '展开节点', onCl ...
Git/Github的使用并与Eclipse整合（zz）
Git/Github的使用并与Eclipse整合您的评价: 收藏该经验 Git简介 Git是一个免费的.分布式的版本控制工具,或是一个强调了速度快的源代码管理工具.每一 ...
各种 on事件触发js代码
[转]各种 on事件触发js代码 1.onmouseenter:当鼠标进入选区执行代码 <div style="background-color:red" onmouseen ...
查看Android应用所需权限(uses-permission)
http://www.tuicool.com/articles/zq2meq MainActivity如下: package cc.testusespermission; import android ...
821. Shortest Distance to a Character
class Solution { public: vector<int> shortestToChar(string S, char C) { int len=S.length(); ve ...
693. Binary Number with Alternating Bits
static int wing=[]() { std::ios::sync_with_stdio(false); cin.tie(NULL); ; }(); class Solution { publ ...
react父转子
父组件使用子组件,子组件绑定父组件数据 ,子组件用props使用父组件数据 import React, { Component } from 'react'; import logo from './ ...
C中的volatile用法[转载]
volatile 影响编译器编译的结果,指出,volatile 变量是随时可能发生变化的,与volatile变量有关的运算,不要进行编译优化,以免出错,(VC++ 在产生release版可执行码时会进 ...

12.Scrapy与mongodb交互和设置中间键

反反爬虫相关机制

Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may sometimes require special infrastructure. Please consider contacting commercial support if in doubt.

(有些些网站使用特定的不同程度的复杂性规则防止爬虫访问，绕过这些规则是困难和复杂的，有时可能需要特殊的基础设施，如果有疑问，请联系商业支持。)

通常防止爬虫被反主要有以下几个策略：

设置下载中间件（Downloader Middlewares）

process_request(self, request, spider)

process_response(self, request, response, spider)

使用案例：

1. 创建`middlewares.py`文件。

2. 修改settings.py配置USER_AGENTS和PROXIES

Settings

内置设置参考手册

`CONCURRENT_REQUESTS`

`DEFAULT_REQUEST_HEADERS`

`DOWNLOAD_DELAY`

`ITEM_PIPELINES`

`USER_AGENT`

`PROXIES`：代理设置

`COOKIES_ENABLED = False`

12.Scrapy与mongodb交互和设置中间键的更多相关文章

随机推荐

热门专题

12.Scrapy与mongodb交互和设置中间键

反反爬虫相关机制

Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may sometimes require special infrastructure. Please consider contacting commercial support if in doubt.

(有些些网站使用特定的不同程度的复杂性规则防止爬虫访问，绕过这些规则是困难和复杂的，有时可能需要特殊的基础设施，如果有疑问，请联系商业支持。)

通常防止爬虫被反主要有以下几个策略：

设置下载中间件（Downloader Middlewares）

process_request(self, request, spider)

process_response(self, request, response, spider)

使用案例：

1. 创建middlewares.py文件。

2. 修改settings.py配置USER_AGENTS和PROXIES

Settings

内置设置参考手册

CONCURRENT_REQUESTS

DEFAULT_REQUEST_HEADERS

DOWNLOAD_DELAY

ITEM_PIPELINES

USER_AGENT

PROXIES： 代理设置

COOKIES_ENABLED = False

12.Scrapy与mongodb交互和设置中间键的更多相关文章

随机推荐

热门专题

1. 创建`middlewares.py`文件。

`CONCURRENT_REQUESTS`

`DEFAULT_REQUEST_HEADERS`

`DOWNLOAD_DELAY`

`ITEM_PIPELINES`

`USER_AGENT`

`PROXIES`：代理设置

`COOKIES_ENABLED = False`