【小白学爬虫连载（10）】–如何用Python实现模拟登陆网站

Python如何实现模拟登陆爬取Python实现模拟登陆的方式简单来说有三种：一、采用post请求提交表单的方式实现。二、利用浏览器登陆网站记录登陆成功后的cookies，采用get的请求方式，传入cookies值来实现登陆。三、采用模拟浏览器的方式登陆。三种方式各有利弊，采用第一种方式每次运行程序都是重新登陆，容易造成封账号的情况出现，同时不能用在验证码是JS加载生成的和查看不到提交表单格式这两种情况。我认为第二种方式优于第一种和第三种，大多数情况下推荐使用第二种。对于较大规模的采集，一般的做法是利用大量小号采用第一或第三种方式定期生成大量的cookies，保存起来形成一个自己的cookie池，并维护其有效性，在采集时调用cookie池中的cookies完成爬取。

本次分享以登陆豆瓣为例讲解前两种登陆方式。

第一种提交post请求的方式首先讲解第一种方式，其重点有两个：一是找到网站的登陆网址；二是找到post请求提交的表单格式。以豆瓣为例豆瓣的登陆网址为：https://accounts.douban.com/login 这里要注意通讯协议是https而不是http 。接下来解决如何查看网站登陆提交的表单格式。这里使用的是chrome浏览器。

在浏览器中打开网址：https://www.douban.com/，出现如下图所示页面

点击快捷键F12打开开发者工具，选中Network，并勾选Preserve log，输入假的账号或密码，不输入验证，如下图所示。

点击登陆豆瓣按钮，选中login页面，点击headers，翻到最后面，可以看到formdata，如下图所示：

如图所示豆瓣登陆需要提交的以下关键字：

source:index_nav
form_email:你的账号
form_password:密码
captcha-solution:验证码
captcha-id:HzglLIfrAxX6maSpZSJPsDAW:en（验证码所对应的id）

知道表单格式后下面开始编写爬虫代码。

模拟登陆使用requests库和re库，豆瓣前几次登陆是不需要输入验证码的，只输入账号密码就可以，但登陆几次后由于其反爬虫机制的作用，就需要输入验证码了，所以程序中需要判断本次登陆是否需要输入验证码，本程序处理验证码的方式比较简单粗暴，就是自己看验证然后手动输入，完成登陆。

部分代码如图所示：

想要查看完整代码请关注公众号并回复：db

第二种利用登陆cookies的方式第二种方式操作起来相对比较简单，首先打开浏览器，打开豆瓣首页，完成登陆。在登陆完成的页面点击快捷键F12打开开发者工具，选中Network，并勾选Preserve log，更新当前页面。选中www.douban.com页面，点击headers，在Request Headers中，可以看到Cookie，把它复制粘贴下来。

完成以上操作后，可以完成利用cookie传入的方式实现模拟登陆了。在完成登陆后在程序中尝试了获取标题、摘要、和图片链接如下图所示，获取到数据后存储到MongoDB数据库中。

部分代码如下图所示：

【小白学爬虫连载（10）】–如何用Python实现模拟登陆网站的更多相关文章

python requests 模拟登陆网站，抓取数据
抓取页面数据的时候,有时候我们需要登陆才可以获取页面资源,那么我们需要登陆以后才可以跳转到对应的资源页面,那么我们需要通过模拟登陆,登陆成功以后再次去抓取对应的数据. 首先我们需要通过手动方式来登陆一 ...
第十四章 web前端开发小白学爬虫
老猿从事IT开发快三十年了,接触互联网也很久了,但自己没有做过web前端开发,只知道与前端开发相关的一些基本概念,如B/S架构.html标签.js脚本.css样式.xml解析.cookies.http ...
第三百四十三节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别第一步.首先下载,大神者也的倒立文字验证码识别程序下载地址:https://gith ...
Python实现模拟登陆
大家经常会用Python进行数据挖掘的说,但是有些网站是需要登陆才能看到内容的,那怎么用Python实现模拟登陆呢?其实网路上关于这方面的描述很多,不过前些日子遇到了一个需要cookie才能登陆的网站 ...
第14章 web前端开发小白学爬虫结束语
老猿学爬虫应该是2019年7月初开始的,到现在2个多月了,有段时间了,这部分一直是老猿期待能给大家带来收获的,因为老猿爬虫实战应用的场景与网上老猿已知的场景基本都不一样,是从复用网站登录会话信息来开发 ...
Python爬虫(二十二)_selenium案例：模拟登陆豆瓣
本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考:Python学习指南 #-*- coding:utf-8 -*- from sel ...
python+requests模拟登陆学校选课系统
最近学校让我们选课,每天都有不同的课需要选....然后突发奇想试试用python爬学校选课系统的课程信息先把自己的浏览器缓存清空,然后在登陆界面按f12 如图: 可以看到登陆时候是需要验证码的,验证 ...
python selenium模拟登陆163邮箱。
selenium是可以模拟浏览器操作. 有些爬虫是异步加载的,通过爬取网页源码是得不到需要的内容.所以可以模拟浏览器去登陆该网站进行爬取操作. 需要安装selenium通过pip install xx ...
Python脚本模拟登陆DVWA
目录 requests模拟登陆 Selenium自动化测试登陆环境:python3.7 windows requests模拟登陆我们登陆DVWA的时候,看似只有一步:访问网站,输入用户名和密码,登 ...

随机推荐

处理springMvc中responsebody返回中文乱码
法一: @RequestMapping(value="/getUsersByPage",produces = public String getUsers 法二:在sprin ...
IOS开发之记录用户登陆状态，ios开发用户登陆
IOS开发之记录用户登陆状态,ios开发用户登陆上一篇博客中提到了用CoreData来进行数据的持久化,CoreData的配置和使用步骤还是挺复杂的.但熟悉CoreData的使用流程后,CoreDa ...
Linux目录结构及作用
/:根目录 /bin:存放基础系统所需的最基础的命令(程序) binary 比如:ls.cp.mkdir等功能和/usr/bin类似,这个目录中的文件都是可执行的,普通用户都可以使用的命令 /b ...
Android查缺补漏（IPC篇）-- 进程间通讯基础知识热身
本文作者:CodingBlock 文章链接:http://www.cnblogs.com/codingblock/p/8479282.html 在Android中进程间通信是比较难的一部分,同时又非常 ...
JMeter之Http协议接口性能测试
一.不同角色眼中的接口 1.1,开发人员眼中的接口 1.2,测试人员眼中的接口二.Http协议基本介绍 2.1,常见的接口协议 1.:2. :3. :4.:5.: 6. 2.2,Http协议栈 ...
Linux常用命令详解(二) -- 查找常用命令
locate: 作用:在后台数据库中按文件名搜索,搜索速度更快命令格式:locate 文件名选项或参数: -l num(要显示的行数) ...
Shell脚本报错：-bash: ./switch.sh: /bin/bash^M: bad interpreter: No such file or directory
在学习shell中测试case参数命令代码如下 #!/bin/bash #switch测试 case $1 in start) echo 'start' ;; ...
老男孩Python全栈开发（92天全）视频教程自学笔记19
day19 课程内容: 第19天的课程就是复习一些正则表达式,以及说一下计算器的思路,我就把我做的计算器代码当这一天的内容吧. 计算器作业:不eval函数,计算能计算:'1-2*((60-30-8*( ...
Docker容器技术
Docker介绍什么是容器 Linux容器是与系统其他部分隔离开的一系列进程,从另一个系统镜像运行,并由该镜像提供支持进程所需的全部文件. 容器镜像包含了应用的所有依赖项,因而在从开发到测试再到生产 ...
CodeForces-748D 贪心
这题的思维难度不是很大,属于编程实现细节处理较多的题. 暂且把每个字符串的"beauty"称为魅力值,用一个优先队列数组将同一个字符串的所有魅力值保存,通过map将不同字符串编号, ...

【小白学爬虫连载（10）】–如何用Python实现模拟登陆网站

【小白学爬虫连载（10）】–如何用Python实现模拟登陆网站的更多相关文章

随机推荐

热门专题