Scrapy框架: 登录网站

一、使用cookies登录网站

import scrapy

class LoginSpider(scrapy.Spider):

    name = 'login'

    allowed_domains = ['xxx.com']

    start_urls = ['https://www.xxx.com/xx/']

    cookies = ""

    def start_requests(self):

        for url in self.start_urls:

            yield scrapy.Request(url, cookies=self.cookies, callback=self.parse)

    def parse(self, response):

        with open("01login.html", "wb") as f:

            f.write(response.body)

二、发送post请求登录, 要手动解析网页获取登录参数

import scrapy

class LoginSpider(scrapy.Spider):

    name='login_code'

    allowed_domains = ['xxx.com']

    #1. 登录页面

    start_urls = ['https://www.xxx.com/login/']

    def parse(self, response):

        #2. 代码登录

        login_url='https://www.xxx.com/login'

        formdata={

            "username":"xxx",

            "pwd":"xxx",

            "formhash":response.xpath("//input[@id='formhash']/@value").extract_first(),

            "backurl":response.xpath("//input[@id='backurl']/@value").extract_first()

        }

        #3. 发送登录请求post

        yield scrapy.FormRequest(login_url, formdata=formdata, callback=self.parse_login)

    def parse_login(self, response):

        #4.访问目标页面

        member_url="https://www.xxx.com/member"

        yield scrapy.Request(member_url, callback=self.parse_member)

    def parse_member(self, response):

        with open("02login.html",'wb') as f:

            f.write(response.body)

三、发送post请求登录, 自动解析网页获取登录参数

import scrapy

class LoginSpider(scrapy.Spider):

    name='login_code2'

    allowed_domains = ['xxx.com']

    #1. 登录页面

    start_urls = ['https://www.xxx.com/login/']

    def parse(self, response):

        #2. 代码登录

        login_url='https://www.xxx.com/login'

        formdata={

            "username":"xxx",

            "pwd":"xxx"

        }

        #3. 发送登录请求post

        yield scrapy.FormRequest.from_response(

            response,

            formxpath="//*[@id='login_pc']",

            formdata=formdata,

            method="POST", #覆盖之前的get请求

            callback=self.parse_login

        )

    def parse_login(self, response):

        #4.访问目标页面

        member_url="https://www.xxx.com/member"

        yield scrapy.Request(member_url, callback=self.parse_member)

    def parse_member(self, response):

        with open("03login.html",'wb') as f:

            f.write(response.body)

Scrapy框架: 登录网站的更多相关文章

python网络爬虫之使用scrapy自动登录网站
前面曾经介绍过requests实现自动登录的方法.这里介绍下使用scrapy如何实现自动登录.还是以csdn网站为例. Scrapy使用FormRequest来登录并递交数据给服务器.只是带有额外的f ...
第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
十二 web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...
Scrapy框架——CrawlSpider爬取某招聘信息网站
CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而Craw ...
使用scrapy框架模拟登录
scrapy模拟登录注意:模拟登陆时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态 COOKIES_ENABLED = True 或# CO ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...

随机推荐

Java导入
导入(import)声明用于将任何类型导入编译单元.导入(import)声明出现在包声明之后,第一个类型声明之前. 有两种类型的导入声明: 单类型导入声明按需导入声明单类型导入声明单类型导入声明 ...
Qt 在相同的线程中可以在信号中传递未注册的元对象，在非相同线程中则不能传递未测试的对象，为什么呢？
有兄台知道可以在留言告诉我,万分感谢!!! 需求:需要在多线程中传递未注册的非元对象数据,时间紧急,无法及时更改该传递的数据为元对象,非继承 QObject 这里采用指针方式传递,同时把传递的局部变量 ...
fieldset与legend，label
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
C# goto学习
如下代码: ; goto b;//goto语句用来控制程序跳转到某个标签的位置 a++; b: Console.WriteLine(a); Console.ReadKey(); 输出结果为:5,执行g ...
redis 主从复制+读写分离+哨兵
1.redis读写分离应用场景当数据量变得庞大的时候,读写分离还是很有必要的.同时避免一个redis服务宕机,导致应用宕机的情况,我们启用sentinel(哨兵)服务,实现主从切换的功能.redis ...
JAVA金额格式字符串转数值
项目中有时会遇到对金额格式的数值如“1,234.34567”进行计算,直接使用Double.parseDouble(“1,234.34567”)会抛出NumberFormatException异常, ...
力扣—Reorder List（重排链表）python实现
题目描述: 中文: 给定一个单链表 L:L0→L1→…→Ln-1→Ln ,将其重新排列后变为: L0→Ln→L1→Ln-1→L2→Ln-2→… 你不能只是单纯的改变节点内部的值,而是需要实际的进行节点 ...
mongodb C#连接报错 Invalid credentials for database 'admin'
这2天学习mongodb3.2.9,用户设置好了,结果用C#查询的时候报错了,看字面意思是用户验证没通过,但是我用shell是完全没有问题的,后来网上搜了下,发现原来是我用的是旧驱动,旧驱动用的是旧的 ...
reduce 好东西
reduce()方法可以搞定的东西,for循环,或者forEach方法有时候也可以搞定,那为啥要用reduce()?这个问题,之前我也想过,要说原因还真找不到,唯一能找到的是:通往成功的道路有很多,但 ...
15.stop引发的数据不一致
/** * 数据不一致问题 * stop */ public class StopDemo { public static Student student = new Student(); publi ...

Scrapy框架: 登录网站

Scrapy框架: 登录网站的更多相关文章

随机推荐

热门专题