Scrapy之Cookie和代理

cookie

cookie: 获取百度翻译某个词条的结果

一定要对start_requests方法进行重写。

两种解决方案：

1. Request（）方法中给method属性赋值成post
2. FormRequest（）进行post请求的发送

爬虫相关操作

# -*- coding: utf-8 -*-

import scrapy

# 需求：将百度翻译中指定词条对应的翻译结果进行获取

class PostdemoSpider(scrapy.Spider):

    name = 'postDemo'

    # allowed_domains = ['www.baidu.com']

    start_urls = ['https://fanyi.baidu.com/sug']

    # 该方法（默认是发送get请求）其实是父类中的一个方法：该方法可以对start_urls列表中的元素进行get请求的发送

    # 发起post:

    # 1.将Request方法中method参数赋值成post（不建议）

    # 2.FormRequest()可以发起post请求（推荐）

    def start_requests(self):

        print('start_requests()')

        # post请求的参数

        data = {

            'kw': 'dog',

        }

        for url in self.start_urls:

            # formdata：请求参数对应的字典

            yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)

    def parse(self, response):

        print(response.text)

配置

BOT_NAME = 'postPro'

SPIDER_MODULES = ['postPro.spiders']

NEWSPIDER_MODULE = 'postPro.spiders'

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

代理：

下载中间件作用：拦截请求，可以将请求的ip进行更换。

流程：

1. 下载中间件类的自制定

object

重写process_request(self,request,spider)的方法

2. 配置文件中进行下载中间价的开启。

代码实现

爬虫相关操作

# -*- coding: utf-8 -*-

import scrapy

class ProxySpider(scrapy.Spider):

    name = 'proxy'

    # allowed_domains = ['www.baidu.com']

    start_urls = ['http://www.baidu.com/s?wd=ip']

    def parse(self, response):

        fp = open('proxy.html', 'w', encoding='utf-8')

        fp.write(response.text)

中间件

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals

# 自定义一个下载中间件的类，在类中实现process_request（处理中间件拦截到的请求）方法

class Myproxy(object):

    def process_request(self, request, spider):

        # 请求ip的更换

        request.meta['proxy'] = 'http://60.217.137.218:8060'

# 默认的用不到，可以删除

配置（开启中间件）

BOT_NAME = 'proxyDemo'

SPIDER_MODULES = ['proxyDemo.spiders']

NEWSPIDER_MODULE = 'proxyDemo.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent

# USER_AGENT = 'proxyDemo (+http://www.yourdomain.com)'

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

DOWNLOADER_MIDDLEWARES = {

    'proxyDemo.middlewares.Myproxy': 543,

}

Scrapy之Cookie和代理的更多相关文章

python scrapy 把cookie并转化为字典的形式
在用scrapy设置cookie的时候,需要从网页上对应的页面把cookie字段复制下来,并转化为字典的形式,下面代码是对cookie的转化过程 # -*- coding: utf-8 -*- cla ...
Scrapy框架--cookie的获取/传递/本地保存
环境:Python3.6 + Scrapy1.4 我要实现的东西:1. 完成模拟登陆 2. 登陆成功后提取出cookie,然后保存到本地cookie.txt文件中 3. ...
Scrapy用Cookie实现模拟登录
模拟登录是爬取某些站点内容的一个关键,有些网站(特别是论坛类),不登录的话,一个数据也拿不到. 模拟登录有这样几个关键: 弄清楚登录的url一些网站打开出现登录的页面,地址栏大多数不是登录提交表单的u ...
scrapy框架中间件配置代理
scrapy框架中间件配置代理import random#代理池PROXY_http = [ '106.240.254.138:80', '211.24.102.168:80',]PROXY_http ...
scrapy中使用 IP 代理
在 scrapy 中使用 ip 代理需要借助中间件的功能首先在settings 中设置好中间件,中间件优先级数字越小越先被执行 , } 然后编写中间件,拦截请求设置代理 class ProxyMid ...
Python网络爬虫Scrapy框架研究以及代理设置
地址:https://github.com/yidao620c/core-scrapy 例子:https://github.com/geekan/scrapy-examples 中文翻译文档: htt ...
requests模块的cookie和代理操作
一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不 ...
scrapy有用的（代理，user-agent，随机延迟等）
代理方法一(待测试) 见scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware import os # 设置相应的代理用户名密码,主机和 ...
scrapy 设置cookie池
代码已经很详细了,可以直接拿来使用了. 包含了: 从网页获取cookie 存入mongodb 定期删除cookie scrapy中间件对cookie池的取用 #!/usr/bin/python #co ...

随机推荐

64位MATLAB和C混合编程以及联合调试
[环境说明] 电脑操作系统:win 7 旗舰版,64位 MATLAB版本:R2013b VS版本:Microsoft Visual Studio 2010 [操作说明] 1.在原来工程的基础上添加下列 ...
java面试题之----mysql表优化方案
本文转载自segmentfault,原文链接:https://segmentfault.com/a/1190000006158186. 当MySQL单表记录数过大时,增删改查性能都会急剧下降,可以参考 ...
winform中让程序自己重启
private void button1_Click(object sender, EventArgs e) { Application.ExitThread(); ...
awk使用实例一则
$META_DB -N -e "use web_boss_rainbow; select iDsId, sDbname, sHost, sPort, sNameServiceKey,sDri ...
Service Broker完成实例之间的会话详细解读
首先了解service broker是什么东西: Service Broker 是数据库引擎的组成部分,因此管理这些应用程序就成为数据库日常管理的一部分. Service Broker 为 SQL S ...
通过调用Word模板(Doc、dot)直接打印 z
通过替换模板中的指定书签来进行内容的替换.整合,然后直接发送到打印打印,也可以导出.即把打印出的语句换成保存函数. public static class myPrintByOffice ...
C# 调用 c++ 非托管dll时wchar类型参数的乱码处理
[DllImport("user32.dll", CallingConvention = CallingConvention.WinApi)] public static exte ...
扫描FTP，保存文件
1.需求:某公司ftp服务器中一个文件夹中有30个文件(文件名字是不同的),每五分钟产生一个新的文件,同时删除这三十个文件中最早产生的文件,该文件夹中始终保持30个文件. 现在需要采集一周的数据做研究 ...
数据结构学习-数组A[m+n]中依次存放两个线性表(a1,a2···am),(b1,b2···bn),将两个顺序表位置互换
将数组中的两个顺序表位置互换,即将(b1,b2···bn)放到(a1,a2···am)前边. 解法一: 将数组中的全部元素(a1,a2,···am,b1,b2,···bn)原地逆置为(bn,bn-1, ...
命令式编程 vs 声明式编程
实际上我们绝大多数程序员都是在用命令式风格在编程, 这是和我们的冯诺依曼计算机机构密切相关的. (码农翻身注: 参见文章<冯诺依曼计算机的诞生>) 在一个冯诺依曼计算机中, 最核心的就是C ...

Scrapy之Cookie和代理

cookie

爬虫相关操作

配置

代理：

代码实现

爬虫相关操作

中间件

配置（开启中间件）

Scrapy之Cookie和代理的更多相关文章

随机推荐

热门专题