scrapy 模拟登陆

import scrapy

import urllib.request

from scrapy.http import Request,FormRequest

class LoginspdSpider(scrapy.Spider):

    name = "loginspd"

    allowed_domains = ["douban.com"]

    start_urls = ['http://douban.com/']

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36 QIHU 360EE'}

    def start_requests(self):

        return [Request('https://www.douban.com/accounts/login',meta={'cookiejar':1},callback=self.parse)]

    def parse(self, response):

        # 获取验证码地址

        captcha = response.xpath('//img[@id="captcha_image"]/@src').extract()

        if len(captcha)>0:

            print('有验证码')

            localpath = 'D:/Captcha.png'

            urllib.request.urlretrieve(captcha[0],filename=localpath)

            print('请查看本地验证码并输入:')

            captcha_value = input()

            data = {

                'form_email':'83*****81@qq.com',

                'form_password':'*****1',

                'captcha-solution':captcha_value,

                'redir':'https://www.douban.com/people/161282530/',

            }

        else:

            print('没有验证码')

            data = {

                'form_email': '834****81@qq.com',

                'form_password': '*****',

                'redir': 'https://www.douban.com/people/161282530/',

            }

        print('登录中。。。。')

        return [FormRequest.from_response(response,

                                          # meta = {'cookiejar':response.meta['cookiejar']}

                                          headers =self.headers,

                                          formdata=data,

                                          callback = self.next,)]

    def next(self,response):

        print('此时已经登录完成并爬取个人中心数据')

        title = response.xpath('/html/head/title/text()').extract()

        print(title)

scrapy 模拟登陆的更多相关文章

第三百四十三节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别第一步.首先下载,大神者也的倒立文字验证码识别程序下载地址:https://gith ...
Scrapy模拟登陆
1. 为什么需要模拟登陆? #获取cookie,能够爬取登陆后的页面 2. 回顾: requests是如何模拟登陆的? #1.直接携带cookies请求页面 #2.找接口发送post请求存储cooki ...
Scrapy 模拟登陆知乎--抓取热点话题
工具准备在开始之前,请确保 scrpay 正确安装,手头有一款简洁而强大的浏览器, 若是你有使用 postman 那就更好了. Python 1 scrapy genspid ...
爬虫入门之scrapy模拟登陆(十四)
注意:模拟登陆时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或# COOKIES_ENABLE ...
python之scrapy模拟登陆人人网
1.settings.py主要配置信息,包括USER_AGENT等 # -*- coding: utf-8 -*- # Scrapy settings for renren project # # F ...
Scrapy模拟登陆豆瓣抓取数据
scrapy startproject douban 其中douban是我们的项目名称 2创建爬虫文件进入到douban 然后创建爬虫文件 scrapy genspider dou douban. ...
15.scrapy模拟登陆案例
1.案例一 a.创建项目 scrapy startproject renren_login 进入项目路径 scrapy genspider renren "renren.com" ...
二十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第一步.首先下载,大神者也的倒立文字验证码识别程序下载地址:https://github.com/muchrooms/zheye 注意:此程序依赖以下模块包 Keras==2.0.1 Pillow= ...
识别图片验证码的三种方式(scrapy模拟登陆豆瓣网)
1.通过肉眼识别,然后输入到input里面 from PIL import image Image request.urlretrieve(url,'image') #下载验证码图片 image = ...

随机推荐

使用Spring-hadoop小结
SpringHadoop是通过Spring框架来调用hdfs,跟直接调用hdfs的最大的不同区别是Spring通过依赖注入的方式生成操作hdfs所需要的configuration和filesystem ...
【BZOJ3998】弦论（后缀自动机）
[BZOJ3998]弦论(后缀自动机) 题面 BZOJ 题解这题应该很简单构建出\(SAM\)后求出每个点往后还能构建出几个串按照拓扑序\(dp\)一些就好了然后就是第\(k\)大,随便搞一 ...
[BZOJ4872][六省联考2017]分手是祝愿
BZOJ Luogu sol 首先发现肯定有解,又因为每个位置至多操作一次,所以最优解一定是在\([0,n]\)之间有一种可以在\(O(\sum_{i=1}^{n}\lfloor\frac{n}{i ...
Bzoj2337：[HNOI2011]XOR和路径
题面 bzoj Sol 设\(f[i]\)表示\(i到n\)的路径权值某一位为\(1\)的期望枚举每一位,高斯消元即可不要问我为什么是\(i\ - \ n\)而不可以是\(1\ - \ i\) # ...
[USACO07NOV]Cow Relays
map+floyed+矩阵乘法(倍增floyed) # include <stdio.h> # include <stdlib.h> # include <iostrea ...
Vue-自定义事件之—— 子组件修改父组件的值
如何利用自定义的事件,在子组件中修改父组件里边的值? 关键点记住:三个事件名字步骤如下: 这里,相对本案例,父组件定义为Second-module,对应的子组件是Three-module 第一步:你 ...
ubuntu14.04上面安装ia32-libs
sudo -i cd /etc/apt/sources.list.d echo "deb http://old-releases.ubuntu.com/ubuntu/ raring main ...
【Webpack的使用指南 01】Webpack入门
使用Webpack有一段时间了,但是感觉之前学的用的都比较零散,所以在这里整理一下Webpack的使用知识,从入门到进阶. 创建项目首先创建最简单的一个项目 npm init 得到以下项目结构: 安 ...
Web前端有价值的博客文章汇总
一.HTML 二.CSS 1.深入理解position和z-index属性 :https://www.cnblogs.com/zhuzhenwei918/p/6112034.html 2.BFC(清除 ...
Android Services (后台服务)
一.简介服务是可以在后台执行长时间运行的应用程序组件,它不提供用户界面. 另一个应用程序组件可以启动一个服务,并且即使用户切换到另一个应用程序,它仍然在后台运行. 另外,组件可以绑定到一个服务来与它 ...

scrapy 模拟登陆

scrapy 模拟登陆的更多相关文章

随机推荐

热门专题