requests_cookie登陆古诗文网。session的使用

通过登录失败，快速找到登录接口

获取hidden隐藏域中的id的value值

# 通过登陆  然后进入到主页面

# 通过找登陆接口我们发现 登陆的时候需要的参数很多

# _VIEWSTATE: /m1O5dxmOo7f1qlmvtnyNyhhaUrWNVTs3TMKIsm1lvpIgs0WWWUCQHl5iMrvLlwnsqLUN6Wh1aNpitc4WnOt0So3k6UYdFyqCPI6jWSvC8yBA1Q39I7uuR4NjGo=

# __VIEWSTATEGENERATOR: C93BE1AE

# from: http://so.gushiwen.cn/user/collect.aspx

# email: *******@qq.com

# pwd: ******

# code: PId7

# denglu: 登录

# 我们观察到_VIEWSTATE   __VIEWSTATEGENERATOR  code是一个可以变化的量

# 难点:(1)_VIEWSTATE   __VIEWSTATEGENERATOR  一般情况看不到的数据 都是在页面的源码中

#     我们观察到这两个数据在页面的源码中 所以我们需要获取页面的源码 然后进行解析就可以获取了

#     (2)验证码

import requests

# 这是登陆页面的url地址

url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'

# 请求头

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'

}

# 发出get请求

response = requests.get(url = url,headers = headers)

# 获取页面的源码

content = response.text

# 解析页面源码  然后获取_VIEWSTATE   __VIEWSTATEGENERATOR

from bs4 import BeautifulSoup

# 服务器响应的数据解析，对象

soup = BeautifulSoup(content,'lxml')

# 获取_VIEWSTATE (获取对应id选择器的列表，再获取元素的属性值)

viewstate = soup.select('#__VIEWSTATE')[0].attrs.get('value')

# 获取__VIEWSTATEGENERATOR

viewstategenerator = soup.select('#__VIEWSTATEGENERATOR')[0].attrs.get('value')

# 获取验证码图片

code = soup.select('#imgCode')[0].attrs.get('src')

code_url = 'https://so.gushiwen.cn' + code

# 注意，此时发出请求。与后面的request.post不是一个请求。导致验证码不正确

# import urllib.request

# 保存验证码到本地

# urllib.request.urlretrieve(url=code_url,filename='code.jpg')

# requests里面有一个方法 session（）

# 通过session的返回值 就能使用请求变成同一个对象

session = requests.session()

# 验证码的url的内容=sesion访问

response_code = session.get(code_url)

# 注意此时要使用content二进制数据内容  因为我们要使用的是图片的下载

content_code = response_code.content

# wb的模式就是将二进制数据写入到文件

with open('code.jpg','wb')as fp:

    fp.write(content_code)

# 获取了验证码的图片之后 下载到本地 然后观察验证码  观察之后 然后在控制台输入这个验证码 就可以将这个值给

# code的参数 就可以登陆

# 查看本地存储验证码，输入

code_name = input('请输入你的验证码')

# 点击登陆

url_post = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'

#请求参数

data_post = {

    '__VIEWSTATE': viewstate,

    '__VIEWSTATEGENERATOR': viewstategenerator,

    'from': 'http://so.gushiwen.cn/user/collect.aspx',

    'email': '*******@**.com',

    'pwd': 'action',

    'code': code_name,

    'denglu': '登录',

}

# response_post = request.post(url = url, headers = headers, data = data_post)

# session访问与上面sesion访问同一个。保证获取验证码请求 与 登录输入验证码请求是同一个

response_post = session.post(url = url, headers = headers, data = data_post)


# 获取网页源码

content_post = response_post.text


#保存到本地

with open('gushiwen.html','w',encoding= ' utf-8')as fp:

    fp.write(content_post)

# 难点

# （1） 隐藏域

# （2） 验证码

requests_cookie登陆古诗文网。session的使用的更多相关文章

爬虫_古诗文网(队列，多线程，锁，正则，xpath)
import requests from queue import Queue import threading from lxml import etree import re import c ...
初识python 之爬虫：使用正则表达式爬取“古诗文”网页数据
通过requests.re(正则表达式) 爬取"古诗文"网页数据. 详细代码如下: #!/user/bin env python # author:Simple-Sir # tim ...
登陆与注册以及Session
Session 保存状态是在登陆窗口检查用户密码的动作上执行 .Models namespace 注册与登陆以及Session.Models { public class UserBF { p ...
后台登陆功能的实现 SESSION
控制器 <?php // 本类由系统自动生成,仅供测试用途 class IndexAction extends Action { public function index(){ $this-& ...
利用Python与selenium自动化模拟登陆12306官网！
近年来,12306的反爬越来越来严重,从一年前的获取tk参数后到现在增加了 JS.CSS等加密方式! 目前大部分人利用的登陆方式都是利用selenium ,此文也不例外. 环境: Wi ...
如何实现免登陆功能（cookie session？）
Cookie的机制 Cookie是浏览器(User Agent)访问一些网站后,这些网站存放在客户端的一组数据,用于使网站等跟踪用户,实现用户自定义功能. Cookie的Domain和Path属性标识 ...
rstful登陆认证并检查session是否过期
一:restful用户视图 #!/usr/bin/env python # -*- coding:UTF-8 -*- # Author:Leslie-x from users import model ...
Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化
代码如下: # coding:utf-8 from selenium import webdriver import requests import sys import time from lxml ...
xshell配置通过堡垒机直接登陆到内网机器
在xshell中文件-->新建菜单,打开新建会话属性,填写堡垒机的IP端口和账号密码后,进入登录脚本 : 勾选"执行以下的期望和发送组合对(X) " (1)添加: 期望: 发 ...

随机推荐

基于预计算的全局光照（Global Illumination Based On Precomputation）
目录基于图像的光照(Image Based Lighting,IBL) The Split Sum Approximation 过滤环境贴图预计算BRDF积分预计算辐射度传输(Precomput ...
做毕设的tricks
CNKI上无法下载博硕士学位论文的PDF版本,只有CAJ版本,挺恶心的.直接下载安装Chrome extension就可以解决了. 链接:https://share.weiyun.com/5HGFF2 ...
Hutool-Convert类型转换常见使用
Convert 主要针对于java中常见的类型转化 java常见类型的转化转化为字符串 public class HConvert { public static void main(String[ ...
redis 5.0.12 install
redis 5.0.12 install ## check directory ls -l /XXXXXXX ##create dir mkdir -p /XXXXXXX/dataredis mkdi ...
数值分析：幂迭代和PageRank算法
1. 幂迭代算法(简称幂法) (1) 占优特征值和占优特征向量已知方阵$\bm{A} \in \R^{n \times n}$, $\bm{A}$的占优特征值是量级比$\bm{A}$所有 ...
干货分享之Spring框架源码解析01-(xml配置解析)
记录并分享一下本人学习spring源码的过程,有什么问题或者补充会持续更新.欢迎大家指正! 环境: spring5.X + idea Spring 是一个工厂,是一个负责对象的创建和维护的工厂.它给我 ...
repartition导致的广播失败，关于错误Failed to get broadcast_544_piece0 of broadcast_544
今天一个生产环境任务出现了性能问题,,经过仔细检查发现是在一个join操作时,原设定广播右表数据广播失败,导致后续步骤进行缓慢,,报错信息 java.io.IOException: org.apach ...
springboot 事务执行全流程分析
springboot 事务执行全流程分析目录 springboot 事务执行全流程分析 1. 事务方法执行前的准备工作 2. 业务代码的调用 3. 事务方法执行后处理 4. 业务代码在事务和非事务中 ...
Bubble和BubbleButton气泡框
from kivy.app import App from kivy.uix.boxlayout import BoxLayout from kivy.lang.builder import Buil ...
【二食堂】Alpha - Scrum Meeting 9
Scrum Meeting 9 例会时间:4.19 13:00~13:20 进度情况组员昨日进度今日任务李健 1. "文本区域"栏目完成,可实现实体和关系的添加issue ...

requests_cookie登陆古诗文网。session的使用

requests_cookie登陆古诗文网。session的使用的更多相关文章

随机推荐

热门专题