python requests 模拟登陆网站，抓取数据

抓取页面数据的时候，有时候我们需要登陆才可以获取页面资源，那么我们需要登陆以后才可以跳转到对应的资源页面，那么我们需要通过模拟登陆，登陆成功以后再次去抓取对应的数据。

首先我们需要通过手动方式来登陆一下，查看一下如何请求登陆

通过下图我们看到真正处理请求的页面是login.php,登陆成功以后跳转到index.php页面，下面我们来模拟一下。

代码实现

LOGIN_URL = 'http://yingxiao.chewumi.com/login.php'  #请求的URL地址

DATA = {"username":'accountID',"passwd":'passwd'}   #登录系统的账号密码,也是我们请求数据

HEADERS = {

            'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' #模拟登陆的浏览器

           }

RES = requests.post(LOGIN_URL,data=DATA,headers=HEADERS)  #模拟登陆操作

print (RES.text) #打印返回的文本信息

下来我们请求其他的页面看一下效果

RES1 = requests.get("http://yingxiao.chewumi.com/show.php?id=64621190")

print(RES1.text)

此时我们登陆成功再次请求其他的页面的时候，发现无法请求到对应的页面，意味到刚才的模拟登陆只对当前的操作起作用，那么如何使用下面的请求继续有效。实际过程中我们知道session过期，我们需要重新登陆，那么我们第一次登陆成功session，只对当前有效，所以我们再次登录就登陆失败，那么我们需要在session有效期内，把session保存，然后再次去请求其他的页面。

def Get_Session(URL,DATA,HEADERS):

    '''保存登录参数'''

    ROOM_SESSION  = requests.Session()

    ROOM_SESSION.post(URL,data=DATA,headers=HEADERS)

    return ROOM_SESSION

SESSION =Get_Session(LOGIN_URL,DATA,HEADERS)

# 保存session后再次请求对应的地址

RES2 = SESSION.get("http://yingxiao.chewumi.com/show.php?id=64621190")

print(RES2.text)

此时我们看到已经可以请求到对应的页面了。

python requests 模拟登陆网站，抓取数据的更多相关文章

Scrapy模拟登陆豆瓣抓取数据
scrapy startproject douban 其中douban是我们的项目名称 2创建爬虫文件进入到douban 然后创建爬虫文件 scrapy genspider dou douban. ...
Java模拟登陆新浪微博抓取数据【转载】
package com.shiyimm.crawler.weibo; import java.io.FileNotFoundException; import java.io.FileReader; ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
【小白学爬虫连载（10）】–如何用Python实现模拟登陆网站
Python如何实现模拟登陆爬取Python实现模拟登陆的方式简单来说有三种:一.采用post请求提交表单的方式实现.二.利用浏览器登陆网站记录登陆成功后的cookies,采用get的请求方式,传入c ...
PHP Curl模拟登录并抓取数据
使用PHP的Curl扩展库可以模拟实现登录,并抓取一些需要用户账号登录以后才能查看的数据.具体实现的流程如下(个人总结): 1. 首先需要对相应的登录页面的html源代码进行分析,获得一些必要的信息: ...
PHP获取cookie、Token、模拟登录、抓取数据、解析生成json
本文介绍使用PHP获取cookie,获取Token.以及模拟登录.然后抓取数据.最后解析生成json的的过程. 0. 设置Cookie路径 set_time_limit(0); //使用的cookie ...
利用python脚本（xpath）抓取数据
有人会问re和xpath是什么关系?如果你了解js与jquery,那么这个就很好理解了. 上一篇:利用python脚本(re)抓取美空mm图片 # -*- coding:utf-8 -*- from ...
python+requests模拟登陆学校选课系统
最近学校让我们选课,每天都有不同的课需要选....然后突发奇想试试用python爬学校选课系统的课程信息先把自己的浏览器缓存清空,然后在登陆界面按f12 如图: 可以看到登陆时候是需要验证码的,验证 ...
Python爬虫之使用正则表达式抓取数据
目录匹配标签匹配title标签 a标签 table标签匹配标签里面的属性匹配a标签里面的URL 匹配img标签里的 src 相关文章:Linux中的正则表达式 Python中的正则表达式实例 ...

随机推荐

Web前端面试指导(十四)：如何居中一个元素（正常、绝对定位、浮动元素）?
题目点评这道题目的提问比较多,连续问了三个问题,正常元素.绝对定位元素.互动元素如何居中,而且居中没有说清楚是垂直居中还是水平居中,要回答清楚这个问题,必须得有深厚的功底,而且要分类的来回答,条理要 ...
MaterialDrawer开源侧滑菜单的使用手册
官方有详细说明,但是我首次查找的时候并没有第一眼就能使用全部功能,而网上也查找了一下,几乎所有的博客都是简简单单的几句代码...连句说明都没有,可能是我这小菜鸡理解能力不行,或者大神们认为coding ...
非负矩阵分解（1）：准则函数及KL散度
作者:桂. 时间:2017-04-06 12:29:26 链接:http://www.cnblogs.com/xingshansi/p/6672908.html 声明:欢迎被转载,不过记得注明出处哦 ...
ServerSuperIO 3.5版本的体系结构，以及未来规划的几点思考
一.特点 1.轻型高性能通信框架,适用于多种应用场,轮询模式.自控模式.并发模式和单例模式. 2.不仅是通讯框架,是设备驱动.IO通道.控制模式场景的协调机制. 3.支持协议驱动器,可以按规范写标准协 ...
DataTable 转实体
因为Linq的查询功能很强大,所以从数据库中拿到的数据为了处理方便,我都会转换成实体集合List<T>. 开始用的是硬编码的方式,好理解,但通用性极低,下面是控件台中的代码: using ...
跟着刚哥梳理java知识点——泛型（十三）
一. 泛型概念的提出(为什么需要泛型)? 首先,我们看下下面这段简短的代码: public class GenericTest { public static void main(String[] a ...
谱聚类（Spectral clustering）（2）:NCut
作者:桂. 时间:2017-04-13 21:19:41 链接:http://www.cnblogs.com/xingshansi/p/6706400.html 声明:欢迎被转载,不过记得注明出处哦 ...
loopj.com android-async-http
loopj.com android-async-http Android异步Http客户端用于Android的基于回调的Http客户端库下载版本1.4.9(最新) 或者在github上fork ...
C# 弱引用WeakReferance
在应用程序代码内实例化一个类或结构时,只要有代码引用它,就会形成强引用.例如,如果有一个类MyClass(),并创建一个变量MyClassVariable来引用该类的对象,那么只要在 MyClassV ...
POJ 3261 出现至少K次的可重叠最长子串
题意就是给一列数字,求最长的一个子串,并且满足子串在原数串中出现至少K次,子串可以重叠. 解法是将问题转为判定性问题,二分子串的长度,判定是否满足重复至少K次.判定方法是经典的根据子串长度将Heigh ...

python requests 模拟登陆网站，抓取数据

python requests 模拟登陆网站，抓取数据的更多相关文章

随机推荐

热门专题