Scrapy之Cookie和代理

cookie

cookie: 获取百度翻译某个词条的结果

一定要对start_requests方法进行重写。

两种解决方案：

1. Request（）方法中给method属性赋值成post
2. FormRequest（）进行post请求的发送

爬虫相关操作

# -*- coding: utf-8 -*-

import scrapy

# 需求：将百度翻译中指定词条对应的翻译结果进行获取

class PostdemoSpider(scrapy.Spider):

    name = 'postDemo'

    # allowed_domains = ['www.baidu.com']

    start_urls = ['https://fanyi.baidu.com/sug']

    # 该方法（默认是发送get请求）其实是父类中的一个方法：该方法可以对start_urls列表中的元素进行get请求的发送

    # 发起post:

    # 1.将Request方法中method参数赋值成post（不建议）

    # 2.FormRequest()可以发起post请求（推荐）

    def start_requests(self):

        print('start_requests()')

        # post请求的参数

        data = {

            'kw': 'dog',

        }

        for url in self.start_urls:

            # formdata：请求参数对应的字典

            yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)

    def parse(self, response):

        print(response.text)

配置

BOT_NAME = 'postPro'

SPIDER_MODULES = ['postPro.spiders']

NEWSPIDER_MODULE = 'postPro.spiders'

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

代理：

下载中间件作用：拦截请求，可以将请求的ip进行更换。

流程：

1. 下载中间件类的自制定

object

重写process_request(self,request,spider)的方法

2. 配置文件中进行下载中间价的开启。

代码实现

爬虫相关操作

# -*- coding: utf-8 -*-

import scrapy

class ProxySpider(scrapy.Spider):

    name = 'proxy'

    # allowed_domains = ['www.baidu.com']

    start_urls = ['http://www.baidu.com/s?wd=ip']

    def parse(self, response):

        fp = open('proxy.html', 'w', encoding='utf-8')

        fp.write(response.text)

中间件

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals

# 自定义一个下载中间件的类，在类中实现process_request（处理中间件拦截到的请求）方法

class Myproxy(object):

    def process_request(self, request, spider):

        # 请求ip的更换

        request.meta['proxy'] = 'http://60.217.137.218:8060'

# 默认的用不到，可以删除

配置（开启中间件）

BOT_NAME = 'proxyDemo'

SPIDER_MODULES = ['proxyDemo.spiders']

NEWSPIDER_MODULE = 'proxyDemo.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent

# USER_AGENT = 'proxyDemo (+http://www.yourdomain.com)'

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

DOWNLOADER_MIDDLEWARES = {

    'proxyDemo.middlewares.Myproxy': 543,

}

Scrapy之Cookie和代理的更多相关文章

python scrapy 把cookie并转化为字典的形式
在用scrapy设置cookie的时候,需要从网页上对应的页面把cookie字段复制下来,并转化为字典的形式,下面代码是对cookie的转化过程 # -*- coding: utf-8 -*- cla ...
Scrapy框架--cookie的获取/传递/本地保存
环境:Python3.6 + Scrapy1.4 我要实现的东西:1. 完成模拟登陆 2. 登陆成功后提取出cookie,然后保存到本地cookie.txt文件中 3. ...
Scrapy用Cookie实现模拟登录
模拟登录是爬取某些站点内容的一个关键,有些网站(特别是论坛类),不登录的话,一个数据也拿不到. 模拟登录有这样几个关键: 弄清楚登录的url一些网站打开出现登录的页面,地址栏大多数不是登录提交表单的u ...
scrapy框架中间件配置代理
scrapy框架中间件配置代理import random#代理池PROXY_http = [ '106.240.254.138:80', '211.24.102.168:80',]PROXY_http ...
scrapy中使用 IP 代理
在 scrapy 中使用 ip 代理需要借助中间件的功能首先在settings 中设置好中间件,中间件优先级数字越小越先被执行 , } 然后编写中间件,拦截请求设置代理 class ProxyMid ...
Python网络爬虫Scrapy框架研究以及代理设置
地址:https://github.com/yidao620c/core-scrapy 例子:https://github.com/geekan/scrapy-examples 中文翻译文档: htt ...
requests模块的cookie和代理操作
一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不 ...
scrapy有用的（代理，user-agent，随机延迟等）
代理方法一(待测试) 见scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware import os # 设置相应的代理用户名密码,主机和 ...
scrapy 设置cookie池
代码已经很详细了,可以直接拿来使用了. 包含了: 从网页获取cookie 存入mongodb 定期删除cookie scrapy中间件对cookie池的取用 #!/usr/bin/python #co ...

随机推荐

应用——dubbo的基本使用
一.背景 dubbo是个什么? 首先要说的是,网上有很多高大上的回答,可自行百度,这里只说一些非常狭隘的东西: dubbo是一个分布式服务框架,我们一般用它进行远程方法调用.(分布式.远程方法调用下面 ...
功能强大的系统配置工具-- Siebel Tools
Siebel Tools 是Siebel 为其CRM产品开发人员专门提供的系统配置工具,系统的客户化修改以及系统升级控制等都是通过该工具进行配置(Configuration) .该工具直接修改Sieb ...
【NLP_Stanford课堂】词形规范化
一.为什么要规范化在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了. 所以需要对所有内容 ...
spring配置连接池和dao使用jdbcTemplate
1 spring配置c3p0连接池第一步导入jar包第二步创建spring配置文件,配置连接池 (1)把代码中的实现在配置文件中实现 2 dao使用jdbcTemplate (1) 创建ser ...
FileHelpers 用法 z
用FileHelplers导出csv数据: [DelimitedRecord(",")] [IgnoreEmptyLines()] [ConditionalRecord(Recor ...
win7 64位安装java jdk1.8 ，修改配置环境变量
下载jdk1.8,下载地址:http://www.wmzhe.com/soft-30118.html 安装时有两个程序,都安装在同一个目录下. win7 64位安装java jdk1.8 ,修改配置 ...
不同系统里同一Customizing activity的显示差异分析
比如SAP HANA Live Reporting这个Customizing Activity,在System AG3里不可见,但是在另一个系统QHD里却能使用.比较下列两张图的差异. 一种可能的原因 ...
OC category(分类)
// ()代表着是一个分类 // ()中的Test代表着分类的名称 @interface Student (Test) // 分类只能扩展方法,不能增加成员变量 - (void)test2; @end
[转]Ubuntu桌面入门指南
Ubuntu桌面入门指南 http://wiki.ubuntu.org.cn/Ubuntu%E6%A1%8C%E9%9D%A2%E5%85%A5%E9%97%A8%E6%8C%87%E5%8D%97
hdu-1754 I Hate It---线段树模板题
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=1754 题目大意: 求区间最大值+单点修改解题思路: 直接套用模板即可 #include<bi ...

Scrapy之Cookie和代理

cookie

爬虫相关操作

配置

代理：

代码实现

爬虫相关操作

中间件

配置（开启中间件）

Scrapy之Cookie和代理的更多相关文章

随机推荐

热门专题