scrapy爬取验证码登录网页

scrapy 验证码登录程序，

https://accounts.douban.com/login

 # -*- coding: utf-8 -*-

 import scrapy

 import urllib

 class MydoubanSpider(scrapy.Spider):

     name = "mydouban_"

     def __init__(self, ):

         super(MydoubanSpider, self).__init__()

         self.start_urls = ['https://accounts.douban.com/login']

         self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"}

     def parse(self, response):

         return [scrapy.Request("https://accounts.douban.com/login",callback=self.Login,meta={"cookiejar":1})]

     def Login(self,response):

         captcha = response.xpath("//img[@id='captcha_image']/@src").extract()

         if len(captcha) > 0:

             #人工输入验证码  下载验证码的图片

             urllib.urlretrieve(captcha[0],filename="./captcha.jpg")

             captcha_value=raw_input('查看captcha.png,有验证码请输入:')

             data={

             "form_email": "user",

             "form_password": "psaaword",

             "captcha-solution": captcha_value,

             #"redir": "https://www.douban.com/people/151968962/",      #设置需要转向的网址

             }

             return [ scrapy.FormRequest.from_response(response,headers=self.headers, meta={"cookiejar":response.meta["cookiejar"]},

               # headers=self.header,

               formdata=data, callback=self.get_content, )]

             pass

     def get_content(self,response):

         print("完成登录.........")

         test = response.xpath('//*[@id="db-global-nav"]/div/div[1]/ul/li[2]/a/span[1]//text()').extract()

         print ''.join(test)

豆瓣的登录程序

github完整代码链接地址： https://github.com/sea1234/myyangzhengma

scrapy爬取验证码登录网页的更多相关文章

Jsoup爬取带登录验证码的网站
今天学完爬虫之后想的爬一下我们学校的教务系统,可是发现登录的时候有验证码.因此研究了Jsoup爬取带验证码的网站: 大体的思路是:(需要注意的是__VIEWSTATE一直变化,所以我们每个页面都需要重 ...
python网络爬虫之使用scrapy自动爬取多个网页
前面介绍的scrapy爬虫只能爬取单个网页.如果我们想爬取多个网页.比如网上的小说该如何如何操作呢.比如下面的这样的结构.是小说的第一篇.可以点击返回目录还是下一页对应的网页代码: 我们再看进入后面 ...
Scrapy爬取Ajax（异步加载）网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
scrapy模拟浏览器爬取验证码页面
使用selenium模块爬取验证码页面,selenium模块需要另外安装这里不讲环境的配置,我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码 # -*- coding: ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...
网络爬虫之scrapy爬取某招聘网手机APP发布信息
1 引言过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧.目前主流的招聘网站包括前程无忧.智联.BOSS直聘.拉勾等等.有段时间时间没爬取手机APP了,这次写一个爬虫爬取前程无忧手机APP岗位 ...

随机推荐

pg_ctl -- 启动、停止、重启 PostgreSQL
pg_ctl 名称 pg_ctl -- 启动.停止.重启 PostgreSQL 语法 pg_ctl start [-w] [-s] [-D datadir] [-l filename] [-o opt ...
关于java.lang.Exception:No tests found matching的一系列解决方法
问题描述: java.lang.Exception: No tests found matching [{ExactMatcher:fDisplayName=yahaa], {ExactMatcher ...
在线前端开发平台 Plunker
Plunker 网站 : http://plnkr.co/ Plunker 是一个用来创建.协作和分享 Web 开发思路的在线社区.编辑界面如下图所示: 特点: 基于 Node.js 环境运行实时的 ...
ubuntu14.04安装hadoop2.6.0（伪分布模式）
版本:虚拟机下安装的ubuntu14.04(64位),hadoop-2.6.0 下面是hadoop2.6.0的官方英文教程: http://hadoop.apache.org/docs/r2.6.0/ ...
QuerySetAPI笔记
学习Django时做的笔记MarkDown文件点这里 # 模型.objects:这个对象是`django.db.models.manager.Manager`的对象,这个类是一个空壳类,他上面的所有方 ...
BZOJ2259 [Oibh]新型计算机
话说hzwer你在坑爹?... 我按照你的建图交了上去,发现WA. 开始检查= =...过了好久,突然觉得画风不对...hzwer您建图错了啊!!! 后来看了看zky的终于知道了怎么回事>_&l ...
Poj 2955 brackets（区间dp）
Brackets Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 7795 Accepted: 4136 Descript ...
Idea_03_常用快捷键
一.前言这一节我们来看下Idea的一些常用快捷键二.常用快捷键 Alt + Enter 有错误.警告时的提示 Ctrl+Shift+R 全局打开资源 ctrl + F 在当前文件查找或替换 Ct ...
EasyUI Combobox 组合框
默认选择第一项,加请选择,取值问题 <input class="easyui-combobox" id="ddlWHS" name="ddlWH ...
eureka-7-多网卡下的ip选择
目前没有需求,后面需要的话,再补充只是简单使用的话,只需要指定ip即可 eureka.instance.ip-address:127.0.0.1

scrapy爬取验证码登录网页

scrapy爬取验证码登录网页的更多相关文章

随机推荐

热门专题