scrapy 模拟登陆

import scrapy

import urllib.request

from scrapy.http import Request,FormRequest

class LoginspdSpider(scrapy.Spider):

    name = "loginspd"

    allowed_domains = ["douban.com"]

    start_urls = ['http://douban.com/']

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36 QIHU 360EE'}

    def start_requests(self):

        return [Request('https://www.douban.com/accounts/login',meta={'cookiejar':1},callback=self.parse)]

    def parse(self, response):

        # 获取验证码地址

        captcha = response.xpath('//img[@id="captcha_image"]/@src').extract()

        if len(captcha)>0:

            print('有验证码')

            localpath = 'D:/Captcha.png'

            urllib.request.urlretrieve(captcha[0],filename=localpath)

            print('请查看本地验证码并输入:')

            captcha_value = input()

            data = {

                'form_email':'83*****81@qq.com',

                'form_password':'*****1',

                'captcha-solution':captcha_value,

                'redir':'https://www.douban.com/people/161282530/',

            }

        else:

            print('没有验证码')

            data = {

                'form_email': '834****81@qq.com',

                'form_password': '*****',

                'redir': 'https://www.douban.com/people/161282530/',

            }

        print('登录中。。。。')

        return [FormRequest.from_response(response,

                                          # meta = {'cookiejar':response.meta['cookiejar']}

                                          headers =self.headers,

                                          formdata=data,

                                          callback = self.next,)]

    def next(self,response):

        print('此时已经登录完成并爬取个人中心数据')

        title = response.xpath('/html/head/title/text()').extract()

        print(title)

scrapy 模拟登陆的更多相关文章

第三百四十三节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别第一步.首先下载,大神者也的倒立文字验证码识别程序下载地址:https://gith ...
Scrapy模拟登陆
1. 为什么需要模拟登陆? #获取cookie,能够爬取登陆后的页面 2. 回顾: requests是如何模拟登陆的? #1.直接携带cookies请求页面 #2.找接口发送post请求存储cooki ...
Scrapy 模拟登陆知乎--抓取热点话题
工具准备在开始之前,请确保 scrpay 正确安装,手头有一款简洁而强大的浏览器, 若是你有使用 postman 那就更好了. Python 1 scrapy genspid ...
爬虫入门之scrapy模拟登陆(十四)
注意:模拟登陆时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或# COOKIES_ENABLE ...
python之scrapy模拟登陆人人网
1.settings.py主要配置信息,包括USER_AGENT等 # -*- coding: utf-8 -*- # Scrapy settings for renren project # # F ...
Scrapy模拟登陆豆瓣抓取数据
scrapy startproject douban 其中douban是我们的项目名称 2创建爬虫文件进入到douban 然后创建爬虫文件 scrapy genspider dou douban. ...
15.scrapy模拟登陆案例
1.案例一 a.创建项目 scrapy startproject renren_login 进入项目路径 scrapy genspider renren "renren.com" ...
二十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第一步.首先下载,大神者也的倒立文字验证码识别程序下载地址:https://github.com/muchrooms/zheye 注意:此程序依赖以下模块包 Keras==2.0.1 Pillow= ...
识别图片验证码的三种方式(scrapy模拟登陆豆瓣网)
1.通过肉眼识别,然后输入到input里面 from PIL import image Image request.urlretrieve(url,'image') #下载验证码图片 image = ...

随机推荐

.NET微服务容器化.NET应用架构指南（支持.NET Core2）
介绍企业通过使用容器,日益实现成本节约.解决部署问题并改进 DevOps 和生产操作. 通过创建 Azure 容器服务.Azure Service Fabric 等产品,同时与 Docker.Mes ...
PHP/JAVA 杂谈一（php 槽点）
[本文为个人意见,不喜就喷吧!] 最近,同事问到我,『那时候为什么从PHP转成Java?』,我想了很久,且撇开主观上的原因,当初业务重构使用java确实有很多可以说道的地方. 槽点1:哪有最好的语言, ...
SpringMVC中的适配器（适配者模式）
此处采用了适配器模式, 由于Controller的类型不同,有多重实现方式,那么调用方式就不是确定的,如果需要直接调用Controller方法,需要在代码中写成如下形式: if(mappedHandl ...
关于del命令
del命令用于删除具体的文件,但是删除文件的时候如果不指定文件的扩展名就会显示找不到文件还有如果所要删除文件的文件名中含有空格的话该命令会自动识别为几个文件,就从空格处把文件分成几份,然后就会显示 ...
软件质量与测试--第二周作业 WordCount
github地址: https://github.com/wzfhuster/software_test_tasks psp表格: PSP2.1 PSP 阶段预估耗时 (分钟) 实际耗时 (分钟) ...
Spring源码学习：第0步--环境准备
Spring源码现在已托管于GitHub,相比于以前直接从官网下载一个压缩包的方式来说,确实方便了不少. GitHub地址:https://github.com/spring-projects/spr ...
Ubuntu上将终端安装到右键上
Ubuntu上将终端安装到右键上 author:headsen chen 2017-10-12 10:26:12 个人原创,允许转载,请注明作者和出处,否则依法追究法律责任 chen@chen ...
Linux编辑器篇-分享10个最好的Markdown编辑器
在这篇文章中,兄弟连Linux培训会分享一些可以在 Linux 上安装使用的最好的 Markdown 编辑器.虽然你在 Linux 平台上能找到非常多的的 Markdown 编辑器,但是在这里我们将 ...
Mecanim之IK动画
序言:IK动画全名是Inverse Kinematics 意思是逆向动力学,就是子骨骼节点带动父骨骼节点运动. 比如体操运动员,只靠手来带动身体各个部位的移动.手就是子骨骼,身体就是它的父骨骼,这时运 ...
const 相关知识 const和指针、const和引用
以前老是对const概念不清不楚,今天算是好好做个笔记总结一下.以下内容包括1)常量指针(指针本身是常量),2)指针常量(指针指向的是常量对象),3)常量引用,4)const成员函数. 常量指针,指针 ...

scrapy 模拟登陆

scrapy 模拟登陆的更多相关文章

随机推荐

热门专题