模拟登陆大体思路见此博文，本篇文章只是将登陆在scrapy中实现而已

之前介绍过通过requests的session 会话模拟登陆；必须是session,涉及到验证码和xsrf的
写入cookie验证的问题；在scrapy中不需担心此问题，因为Request会保证这是一个会话，并且自动传递cookies
原理想通，因为验证码识别的问题，这里先使用cookie模拟登陆

 # -*- coding: utf-8 -*- 

 import scrapy

 import json

 import re

 class ZhihuSpider(scrapy.Spider):

     name = "zhihu"

     allowed_domains = ["zhihu.com"]

     start_urls = ['http://www.zhihu.com/']

     #头部

     headers = {

     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36",

     "Host":"www.zhihu.com",

     "Referer":"https://www.zhihu.com/",

 }

     #从已经登陆的浏览在中copy下来的

     cookies = {

     "d_c0":"",

     "l_cap_id":"",

     "r_cap_id":"",

     "cap_id":"",

     "_zap":"",

     "__utmc":"",

     "__utmb":"",

     "__utmv":"",

     "__utma":"",

     "__utmz":"",

     "q_c1":"",

     }

     #最开始请求的reqeust函数，自动调用,将首次获取的response返回给登陆函数（里面有xsrf）

     def start_requests(self):

         #必须带上cookie；return返回，不用生成器，只需爬取登陆页面一次，而且必须返回一个可迭代对象,所以是列表

         return [scrapy.Request(url="https://www.zhihu.com/#signin",cookies=self.cookies,headers=self.headers,callback=self.login)]

     #知乎登录

     def login(self,response):

         #正则匹配出xsrf

         response_text = response.text

         match_obj = re.match('.*name="_xsrf" value="(.*?)"', response_text, re.DOTALL)

         if match_obj:

             xsrf = (match_obj.group(1))

         url = "https://www.zhihu.com/login/phone_num"

         data={

             "_xsrf":xsrf,

             'remember_me': 'true',

             "password":"",

             "phone_num":""

         }

         #将获取到的xsrf加载到cookie中

         self.cookies["_xsrf"] = xsrf

         #通过FormRequest提交表单,这里的request对象和之前的session一样,还是处于刚刚的对话中；回调给检查登陆的函数

         return [scrapy.FormRequest(url=url,headers=self.headers,formdata=data,callback=self.check_login)]

     #查看登录状态；登陆成功则默认回调parse函数进行解析网页

     def check_login(self,response):

         text_json = json.load(response.text)

         if "msg" in text_json and text_json["msg"]=="\u767b\u5f55\u6210\u529f":

             for urls in self.start_urls:

                yield scrapy.Request(url=urls,dont_filter=True,headers=self.headers)

     def parse(self, response):

         pass

Scrapy基础(十四)————Scrapy实现知乎模拟登陆的更多相关文章

Scrapy基础(十四)————知乎模拟登陆
#-*-coding:utf-8 -*-__author__ = "ruoniao"__date__ = "2017/5/31 20:59" 之前我们通过爬取伯 ...
Bootstrap<基础十四> 按钮下拉菜单
使用 Bootstrap class 向按钮添加下拉菜单.如需向按钮添加下拉菜单,只需要简单地在在一个 .btn-group 中放置按钮和下拉菜单即可.也可以使用 <span class=&qu ...
scrapy基础知识之 Scrapy 和 scrapy-redis的区别：
Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础 ...
scrapy基础知识之 scrapy 三种模拟登录策略：
注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或 # COOKIES_ENA ...
scrapy的一些容易忽视的点（模拟登陆，传递item等）
scrapy爬虫注意事项一.item数据只有最后一条这种情况一般存在于对标签进行遍历时,将item对象放置在了for循环的外部.解决方式:将item放置在for循环里面. 二.item字段传递 ...
Scrapy基础(十二)————异步导出Item数据到Mysql中
异步导出数据到Mysql中上次说过从Item中同步写入数据库,因为网络的下载速度和数据库的I/O速度是不一样的所以有可能会发生下载快,但是写入数据库速度慢,造成线程的堵塞:关于堵塞和非堵塞,同步和异 ...
Scrapy基础(十)———同步机制将Item中的数据写在Mysql
前面讲解到将Item中的所有字段都已经填写完成,那么接下来就是将他们存储到mysql数据库中,那就用到了pipeline项目管道了: 对项目管道的理解:做一个比喻,爬取好比是开采石油,Item装 ...
scrapy基础知识之使用FormRequest.from_response()方法模拟用户登录：
通常网站通过实现对某些表单字段(如数据或是登录界面中的认证令牌等)的预填充使用Scrapy抓取网页时,如果想要预填充或重写像用户名.用户密码这些表单字段, 可以使用 FormRequest.fro ...
scrapy基础知识之scrapy自动下载图片pipelines
需要在settings.py配置: ITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline': 1, }import os IMAGES_ ...

随机推荐

Python并发编程之同步\异步and阻塞\非阻塞
一.什么是进程进程: 正在进行的一个过程或者说一个任务.而负责执行任务则是cpu. 进程和程序的区别: 程序仅仅只是一堆代码而已,而进程指的是程序的运行过程. 需要强调的是:同一个程序执行两次,那也 ...
<一>企业级开源仓库nexus实战应用–nexus的安装
1,Nexus 介绍. Nexus是什么? Nexus 是一个强大的maven仓库管理器,它极大地简化了本地内部仓库的维护和外部仓库的访问. 不仅如此,他还可以用来创建yum.pypi.npm.doc ...
Decision tree(决策树)算法初探
0. 算法概述决策树(decision tree)是一种基本的分类与回归方法.决策树模型呈树形结构(二分类思想的算法模型往往都是树形结构) 0x1:决策树模型的不同角度理解在分类问题中,表示基于特 ...
【C#】判断字符串中是否包含指定字符串,contains与indexof方法效率问题
#方法一:使用string.Contains方法 string.Contains是大小写敏感的,如果要用该方法来判断一个string是否包含某个关键字keyword,需要把这个string和这个key ...
Docker下安装rabbitmq
拉取镜像 docker pull rabbitmq:-management 启动镜像(默认用户名密码),默认guest 用户,密码也是 guest docker run -d --: -p : rab ...
DUMP2 企业级电商项目
正常设计数据库表,按照数据流向. ~~闭环核心业务 [1用户]登录 =>浏览[2分类]+浏览[3商品]=>加入[4购物车]=>结算[5订单]+[6收货地址]=>[7支付] [购 ...
PWD的编译及调试
实现mypwd 1 学习pwd命令 2 研究pwd实现需要的系统调用(man -k; grep),写出伪代码 3 实现mypwd 4 测试mypwd Linux命令学习:pwd命令该命令用来显示目前 ...
MySQL学习5 - 数据类型二.md
一字符类型二枚举类型和集合类型一字符类型 #官网:https://dev.mysql.com/doc/refman/5.7/en/char.html #注意:char和varchar括号内的 ...
ES7 and ES8 特性
ES7 特性:1.Array.prototype.includes let arr = ['react', 'angular', 'vue'] // Correct if (arr.includes( ...
day 14 - 1 生成器
生成器生成器生成器的本质就是迭代器生成器的表现形式生成器函数生成器函数 —— 本质上就是我们自己写得函数生成器表达式生成器函数: 含有 yield 关键字的函数就是生成器函数特点: 调用函 ...

Scrapy基础(十四)————Scrapy实现知乎模拟登陆

模拟登陆大体思路见此博文，本篇文章只是将登陆在scrapy中实现而已

Scrapy基础(十四)————Scrapy实现知乎模拟登陆的更多相关文章

随机推荐

热门专题