Scrapy框架: 登录网站

一、使用cookies登录网站

import scrapy

class LoginSpider(scrapy.Spider):

    name = 'login'

    allowed_domains = ['xxx.com']

    start_urls = ['https://www.xxx.com/xx/']

    cookies = ""

    def start_requests(self):

        for url in self.start_urls:

            yield scrapy.Request(url, cookies=self.cookies, callback=self.parse)

    def parse(self, response):

        with open("01login.html", "wb") as f:

            f.write(response.body)

二、发送post请求登录, 要手动解析网页获取登录参数

import scrapy

class LoginSpider(scrapy.Spider):

    name='login_code'

    allowed_domains = ['xxx.com']

    #1. 登录页面

    start_urls = ['https://www.xxx.com/login/']

    def parse(self, response):

        #2. 代码登录

        login_url='https://www.xxx.com/login'

        formdata={

            "username":"xxx",

            "pwd":"xxx",

            "formhash":response.xpath("//input[@id='formhash']/@value").extract_first(),

            "backurl":response.xpath("//input[@id='backurl']/@value").extract_first()

        }

        #3. 发送登录请求post

        yield scrapy.FormRequest(login_url, formdata=formdata, callback=self.parse_login)

    def parse_login(self, response):

        #4.访问目标页面

        member_url="https://www.xxx.com/member"

        yield scrapy.Request(member_url, callback=self.parse_member)

    def parse_member(self, response):

        with open("02login.html",'wb') as f:

            f.write(response.body)

三、发送post请求登录, 自动解析网页获取登录参数

import scrapy

class LoginSpider(scrapy.Spider):

    name='login_code2'

    allowed_domains = ['xxx.com']

    #1. 登录页面

    start_urls = ['https://www.xxx.com/login/']

    def parse(self, response):

        #2. 代码登录

        login_url='https://www.xxx.com/login'

        formdata={

            "username":"xxx",

            "pwd":"xxx"

        }

        #3. 发送登录请求post

        yield scrapy.FormRequest.from_response(

            response,

            formxpath="//*[@id='login_pc']",

            formdata=formdata,

            method="POST", #覆盖之前的get请求

            callback=self.parse_login

        )

    def parse_login(self, response):

        #4.访问目标页面

        member_url="https://www.xxx.com/member"

        yield scrapy.Request(member_url, callback=self.parse_member)

    def parse_member(self, response):

        with open("03login.html",'wb') as f:

            f.write(response.body)

Scrapy框架: 登录网站的更多相关文章

python网络爬虫之使用scrapy自动登录网站
前面曾经介绍过requests实现自动登录的方法.这里介绍下使用scrapy如何实现自动登录.还是以csdn网站为例. Scrapy使用FormRequest来登录并递交数据给服务器.只是带有额外的f ...
第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
十二 web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...
Scrapy框架——CrawlSpider爬取某招聘信息网站
CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而Craw ...
使用scrapy框架模拟登录
scrapy模拟登录注意:模拟登陆时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态 COOKIES_ENABLED = True 或# CO ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...

随机推荐

python开发必备pycharm专业版破解方法
修改hosts文件添加下面一行到hosts文件,目的是屏蔽掉Pycharm对激活码的验证 0.0.0.0 account.jetbrains.com 注:hosts文件路径,Windows在C:\W ...
【题解】A Horrible Poem
题目大意给出一个由小写英文字母组成的字符串 S,再给出 q 个询问,要求回答 S 某个子串的最短循环节. 如果字符串 B 是字符串 A 的循环节,那么 A 可以由 B 重复若干次得到. 输入格式第 ...
python面试题之简要描述Python的垃圾回收机制（garbage collection）
这里能说的很多.你应该提到下面几个主要的点: Python在内存中存储了每个对象的引用计数(reference count).如果计数值变成0,那么相应的对象就会小时,分配给该对象的内存就会释放出来用 ...
【转】 linux下配置squid 服务器，最简单使用方式
linux下配置squid 1.什么是squid Squid cache(简称为Squid)是一个流行的自由软件(GNU通用公共许可证)的代理服务器和Web缓存服务器.Squid有广泛的用途,从作为网 ...
WordPress 页面点击显不同颜色爱心
在主题的页脚添加以下js即可实现 <script type="text/javascript"> /* * https://www.xianjieo.cn */ !fu ...
opensns建站
opensns建站标签(空格分隔):软件工程贪玩蓝月购买云服务器首选阿里云,一个月9.9元,还能直接安全宝塔Linux界面后台初始化输入ip地址:8888访问宝塔后台,第一次进入后台会让你 ...
四、Redis通配符介绍、命令缩写介绍和后面内容介绍讲解。
1.通配符介绍 ? 匹配一个字符 * 匹配任意个(包括 0 个)字符 [] 匹配括号间任一字符,可以使用 "-" 符号表示一个范围,如 a[b-d]匹配 "ab" ...
zoj 2112 单点修改的主席树（树状数组套主席树）
题目大意: 区间第k大问题+单点修改基本思路: 这个题有用整体二分,cdq分治,还有主席树+平衡树的,还有就是主席树+树状数组. 我采用的是b站电子科大大佬的主席树写法,尤其喜欢他的离散化方法,所以 ...
fiddler 抓取手机http/https包
测试需求: 安装有 fiddler 的电脑台博主fiddler 4: 手机系统不限制智能手机就行,能连接wifi即可: 首先在fiddler这边配置一下(请不要问我为什么没有汉化毕竟free) ...
POJ 2955 Brackets （区间dp入门）
Description We give the following inductive definition of a “regular brackets” sequence: the empty s ...

Scrapy框架: 登录网站

Scrapy框架: 登录网站的更多相关文章

随机推荐

热门专题