scrapy模拟用户登录

scrapy框架编写模拟用户登录的三种方式：

方式一：携带cookie登录，携带cookie一般请求的url为登录后的页面，获取cookie信息应在登录后的页面获取，cookie参数应转成字典形式

# -*- coding: utf- -*-

import re

import scrapy

class RenrenSpider(scrapy.Spider):

    name = 'renren'

    allowed_domains = ['renren.com']

    start_urls = ['http://www.renren.com/966403607/profile']

    #要对star_urls进行请求，则要重写start_requests

    def start_requests(self):

        cookies = 'anonymid=joz9buh7-q7cfyi; depovince=GUZ; _r01_=1; _de=A10BB6D966D15FBA1F90E79AB0D2FDF8; ln_uact=18520877258; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; jebe_key=b605eb90-21b9-4072-9d48-b75b233c1cea%7Cb156ee0bfd56183e1b8eb9e5994eb5ef%7C1543293909743%7C1%7C1543293910671; jebecookies=9700aefc-77a1-49a7-8d74-882aa173e271|||||; JSESSIONID=abcxtZqTI1hOu4WzN0tDw; ick_login=21361cc0-986f-49bc-95f9-de3a9ed54a69; p=29e3cce85947859ee0e1d6264160539f7; first_login_flag=1; t=b6e6ac604c66019acf93cb471550349e7; societyguester=b6e6ac604c66019acf93cb471550349e7; id=966403607; xnsid=ac2d6a1a; loginfrom=syshome; wp_fold=0'

        # 将cookies分割成字典形式

        cookies = {

            i.split("=")[]:i.split("=")[] for i in cookies.split("; ")

        }

        # 回调中携带cookies的值

        yield scrapy.Request(

            self.start_urls[],

            cookies=cookies,

            callback=self.parse,

        )

    def parse(self, response):

        item = {}

        name = re.findall("尚学堂",response.body.decode())

        item["name"] = name

        yield item

为了可以知道cookie确实是在不同的解析函数中传递在setting中设置一个参数如下
# 该设置可以知道cookie确实是在不同的解析函数中传递
COOKIES_DEBUG=True

方式二：表单dataform的post请求，

# -*- coding: utf- -*-

import re

import scrapy

class GithubSpider(scrapy.Spider):

    name = 'github'

    allowed_domains = ['github.com']

    start_urls = ['https://github.com/login']

    def parse(self, response):

        authenticity_token = response.xpath('//input[@name="authenticity_token"]/@value').extract_first()

        # form表单提交post

        formdata = {

                    "commit": "Sign in",

                    "utf8": "✓",

                    "authenticity_token": authenticity_token,

                    "login": "sxtpython",

                    "password": "sxt123456"

        }

        yield scrapy.FormRequest(

            # 回调提交表单跳转后的url地址

            'https://github.com/session',

            formdata=formdata,

            callback=self.parse_item,

        )

    def parse_item(self,response):

        item = {}

        item["name"] = re.findall('sxtpython',response.body.decode())

        yield item

方式三：自动从f响应中找到form表单进行登录

# -*- coding: utf- -*-

import re

import scrapy

# 方式三

class Github2Spider(scrapy.Spider):

    name = 'github2'

    allowed_domains = ['github.com']

    start_urls = ['https://github.com/login']

    def parse(self, response):

        yield scrapy.FormRequest.from_response(

            response,#自动从该响应中获取form表单

            formdata={

                'login':'sxtpython',

                'password':'sxt123456'

            },

            callback=self.parse_item,

        )

    def parse_item(self,response):

        item = {}

        item["name"] = re.findall('sxtpython',response.body.decode())

        yield item

scrapy模拟用户登录的更多相关文章

python用scrapy模拟用户登录
scrapy模拟登录关注公众号"轻松学编程"了解更多. 注意:模拟登陆时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态 ...
第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
运用String类实现一个模拟用户登录程序
package Test; import java.util.Scanner; // 模拟用户登录程序 // 思路: // 1.用两个String类分别接收用户名和密码 // 2.判断输入的用户名和密 ...
java.net.URL 模拟用户登录网页并维持session
java.net.URL 模拟用户登录网页并维持session 半成品,并非完全有用 import java.io.BufferedReader; import java.io.InputStream ...
python 初学习模拟用户登录
#!/usr/bin/env python#coding:utf-8''' 2017年8月19日模拟用户登录,userfile 文件保存字典用户名,和密码 sorryname 文件保存字典登录过 ...
python3.0 模拟用户登录，三次错误锁定
# -*- coding:utf-8 -*- #需求模拟用户登录,超过三次错误锁定不允许登陆 count = 0 #realname passwd Real_Username = &quo ...
xpath技术解析xml以及案例模拟用户登录效果
问题:当使用dom4j查询比较深的层次结构的节点(标签,属性,文本),比较麻烦!!! xpath就在此情况下产生了--主要是用于快速获取所需的[节点对象]. 在dom4j中如何使用xPath技术 1) ...
jdbc封装模拟用户登录
dao层接口 package com.qu.dao; public interface ILoginDAO { /** * 模拟用户登录 * 验证用户名密码是否正确 * select * from ...
java.net.URL 模拟用户登录网页并维持session【转】
java.net.URL 模拟用户登录网页并维持session 半成品,并非完全有用 import java.io.BufferedReader; import java.io.InputStream ...

随机推荐

登录rabbitmq报错User can only log in via localhost
在访问管理界面使用guest用户登录时出现login failed错误. 到服务器上查询日志显示出现错误的原因是:HTTP access denied: user ‘guest’ - User can ...
java ssl 使用不同的加密套件，对性能影响很大
一直以来都是使用java默认的[加密套件]来处理ssl请求,突然有一天我尝试显式的设置了一组加密套件后,发现图片显示的速度明显快了一倍左右. 经过使用几组不同的加密套件测试后,发现使用 TLS_ECD ...
软件在 win7 上运行时显示乱码
一个用户反应后,我当时就蒙圈了,因为之前从未遇到过: 百度一下后,发现用户的这种情况比较特殊,从表面上看,[控制面板]和[注册表]相关项设置都正常,为什么还显示乱码呢? 到最后一步如果已经是(简体,中 ...
C++基础知识--DAY4
今天主要讲的是类中除了构造器析构器以外的拷贝构造器,运算符重载等问题首先是拷贝构造器 1. copy constructor(拷贝构造) 其也是构造器,其地位和constructor的地位是一样的 ...
AVL平衡二叉树
AVL树 1.若它的左子树不为空,则左子树上所有的节点值都小于它的根节点值. 2.若它的右子树不为空,则右子树上所有的节点值均大于它的根节点值. 3.它的左右子树也分别可以充当为二叉查找树. 例如: ...
Java抽象类、接口整理
抽象类 5.1抽象类产生(上标为A) 编写一个类时,会给该类定义一些方法,这些方法是用来描述功能和具体实现的方式,这些方法都有方法体例如:一个图形类应该有周长的方法,但是不同的图形求周长方法不一样. ...
【JS】JS格式化文件大小单位：Bytes、KB、MB、GB
输入一个表示文件大小的数字,自适应转换到KB,MB,GB 方法一:bytes自适应转换到KB,MB,GB /// <summary> /// 格式化文件大小的JS方法 /// </s ...
Kafka技术内幕读书笔记之（一） Kafka入门
在0.10版本之前, Kafka仅仅作为一个消息系统,主要用来解决应用解耦. 异步消息 . 流量削峰等问题. 在0.10版本之后, Kafka提供了连接器与流处理的能力,它也从分布式的消息系统逐渐成为 ...
[转]Red Hat Linux相关产品iso镜像下载【百度云】
超强汇总!献上大佬链接:http://www.linuxfly.org/post/659/ 还有一些可用链接: 下面的直接复制到迅雷下载,链接是打不开的. RHEL 5.4 ISO下载http://r ...
关于Ant脚本
在开发中,一个项目要经历单元测试l,集成测试,系统测试,测试过程中可能要不断修改代码,Ant脚本,通过一个xml文件,封装一系列繁琐又常用的操作,通过Ant指令执行xml脚本来批处理创建删除任务,编译 ...

scrapy模拟用户登录

scrapy模拟用户登录的更多相关文章

随机推荐

热门专题