cookie操作

爬取豆瓣个人主页

# -*- coding: utf-8 -*-

import scrapy

class DoubanSpider(scrapy.Spider):

    name = 'douban'

    #allowed_domains = ['www.douban.com']

    start_urls = ['https://www.douban.com/accounts/login']

    #重写start_requests方法

    def start_requests(self):

        #将请求参数封装到字典

        data = {

            'source': 'index_nav',

            'form_email': '',

            'form_password': 'bobo@15027900535'

        }

        for url in self.start_urls:

            yield scrapy.FormRequest(url=url,formdata=data,callback=self.parse)

    #针对个人主页页面数据进行解析操作

    def parseBySecondPage(self,response):

        fp = open('second.html', 'w', encoding='utf-8')

        fp.write(response.text)

        #可以对当前用户的个人主页页面数据进行指定解析操作

    def parse(self, response):

        #登录成功后的页面数据进行存储

        fp = open('main.html','w',encoding='utf-8')

        fp.write(response.text)

        #获取当前用户的个人主页

        url = 'https://www.douban.com/people/185687620/'

        yield scrapy.Request(url=url,callback=self.parseBySecondPage)

　　因为要进行登录操作，所以一定要使用post请求进行表单提交，那么就必须重写start_requests（）方法；观察代码就可以发现，当登录成功之后再次请求个人主页，不再需要

刻意地处理cookie，那是因为scrapy已经帮我们省去了这样的操作：第一次请求返回的cookie会在第二请求发送的时候被携带。

代理

import scrapy

class ProxydemoSpider(scrapy.Spider):

    name = 'proxyDemo'

    #allowed_domains = ['www.baidu.com/s?wd=ip']

    start_urls = ['https://www.baidu.com/s?wd=ip']

    def parse(self, response):

        fp = open('proxy.html','w',encoding='utf-8')

        fp.write(response.text)

配置好配置文件，然后再执行，在proxy.html文件中就会看到本机ip的浏览器页面，ip就是真实的本机ip。

那如何更改ip呢？就用到了代理，在scrapy中使用代理操作需要对下载中间件下手。

那么什么是下载中间件呢？

下载中间件的作用就是拦截请求，将请求的ip进行更换。

流程：

　　 1. 下载中间件类的自制定

　　　　a) 继承object

　　　　b) 重写process_request(self,request,spider)的方法

　　 2. 配置文件中进行下载中间价的开启。

middlewares.py 就是下载中间件的定义文件

from scrapy import signals

#自定义一个下载中间件的类，在类中实现process_request（处理中间价拦截到的请求）方法

class MyProxy(object):

    def process_request(self,request,spider):

        #请求ip的更换

        request.meta['proxy'] = "https://178.128.90.1:8080" # 这里需要一个有效的代理ip

开启下载中间件

# Enable or disable downloader middlewares

# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html

DOWNLOADER_MIDDLEWARES = {

    'proxyPro.middlewares.MyProxy': 543, # 数字大小代表优先级

}

再次执行，打开页面发现ip就被更改了！

cookie操作和代理的更多相关文章

爬虫--requests模块高级(代理和cookie操作)
代理和cookie操作一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests ...
Python脚本控制的WebDriver 常用操作 <二十八> 超时设置和cookie操作
超时设置测试用例场景 webdriver中可以设置很多的超时时间 implicit_wait.识别对象时的超时时间.过了这个时间如果对象还没找到的话就会抛出异常 Python脚本 ff = webd ...
cookie操作大全
JavaScript中的另一个机制:cookie,则可以达到真正全局变量的要求. cookie是浏览器提供的一种机制,它将document 对象的cookie属性提供给JavaScript.可以由J ...
js 判断js函数、变量是否存在 JS保存和删除cookie操作,判断cookie是否存在的方法
//是否存在指定函数 function isExitsFunction(funcName) { try { if (typeof(eval(funcName)) == " ...
JS封装cookie操作函数实例(设置、读取、删除)
本文实例讲述了JS封装cookie操作函数.分享给大家供大家参考,具体如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 ...
网上收集的WebBrowser的Cookie操作
原文:网上收集的WebBrowser的Cookie操作 1.WebBrowser设置Cookie Code highlighting produced by Actipro CodeHighlight ...
学习笔记： JavaScript/JQuery 的cookie操作
转自:http://blog.csdn.net/barryhappy/archive/2011/04/27/6367994.aspx cookie是网页存储到用户硬盘上的一小段信息.最常见的作用是判断 ...
js实用方法记录-简单cookie操作
js实用方法记录-简单cookie操作设置cookie:setCookie(名称,值,保存时间,保存域); 获取cookie:setCookie(名称); 移除cookie:setCookie(名称 ...
前端cookie操作用到的一些小总结
前后端完全分离的是目前web开发的大趋势,包括现下流行的前端框架的应用vue,angular,在不同页面跳转时,前端需要对用户登录状态进行判断,拿到用户的id,除了Ajax从服务器端获取数据外,对co ...

随机推荐

零基础逆向工程39_Win32_13_进程创建_句柄表_挂起方式创建进程
1 进程的创建过程打开系统 --> 双击要运行的程序 --> EXE开始执行步骤一: 当系统启动后,创建一个进程:Explorer.exe(也就是桌面进程) 步骤二: 当用户双击某一个 ...
Python开发环境Wing IDE之Search in Files工具详解
Search in Files工具是Wing IDE中最强大的搜索选项.它支持磁盘.项目,打开编辑器,或其它文件集的多文件批量搜索.它还可以使用通配符搜索,并可以做基于正则表达式的搜索/替换. 建议用 ...
解决javascript四舍五入不准确
function roundFixed(num, fixed) { var pos = num.toString().indexOf('.'), decimal_places = num.toStri ...
WEB渗透测试之三大漏扫神器
通过踩点和查点,已经能确定渗透的目标网站.接下来可以选择使用漏扫工具进行初步的检测,可以极大的提高工作的效率. 功欲善其事必先利其器,下面介绍三款适用于企业级漏洞扫描的软件 1.AWVS AWVS ( ...
JavaScript 获取数组的最大值和最小值
js获取数组最大值和最小值使用apply方法: var a = [1,2,3,5]; console.log(Math.max.apply(null, a));//最大值 console.log(M ...
java研发常见问题总结2
1. String.StringBuffer与StringBuilder之间区别关于这三个类在字符串处理中的位置不言而喻,那么他们到底有什么优缺点,到底什么时候该用谁呢?下面我们从以下几点说明一下 ...
VR社交软件测试-AltspaceVR
该VR社交软件中的主界面主要分为,Events:事件:Activities:多人游戏:Words:别人创建的虚拟世界.进入游戏后可以进入场景与世界各地的人进行交谈,以虚拟3D人物的方式显示用户,具有较 ...
IOS tableView的基本使用
tableView Style:Plain(头部标题向上移不会消失) tableView Style:Grouped(头部标题向上移会消失) #import "ViewCont ...
NutDao配置多数据源
首先,我必须声明,这是一个非常简单的方法,很多小菜没做出来,是因为把nutz想得太复杂数据源(或者是数据库连接池),在Nutz.Ioc看来,是一个普通的Bean,没任何特别之处. 再强调一点,除了$ ...
Breaking Biscuits（模板题-求凸边形的宽）
Breaking Biscuits 时间限制: 1 Sec 内存限制: 128 MB Special Judge提交: 70 解决: 26[提交] [状态] [讨论版] [命题人:admin] ...

cookie操作和代理

cookie操作

代理

cookie操作和代理的更多相关文章

随机推荐

热门专题