豆瓣网post 爬取带验证码

# -*- coding: utf- -*-

import scrapy

import requests

from ..bao.jiema import get_number

fromdata = {

"source": "movie",

"redir": "https://movie.douban.com/",

"form_email": "账号",

"form_password": "密码",

"login": "登录"

}

class BanSpider(scrapy.Spider):

    name = 'ban'

    # allowed_domains = ['ban']

    start_urls= ['https://www.douban.com/accounts/login?source=movie']

    def parse(self, response):

        print(response.url)

        images = response.xpath('//*[@id="captcha_image"]/@src').extract_first()

        all_id = response.xpath('//*[@id="lzform"]/div[5]/div/div/input[2]/@value').extract_first()

        if images:

            with open('a.jpg', 'wb+')as f:

                response1 = requests.get(url=images)

                f.write(response1.content)

            fromdata['captcha-id'] = all_id

            fromdata["captcha-solution"] = get_number()

        print(fromdata)

        urls = response.url

        yield scrapy.FormRequest(urls, formdata=fromdata, callback=self.after_login)

    def after_login(self,response):

        all_title = response.xpath('//*[@id="db-global-nav"]/div/div[1]/ul/li[2]/a/span[1]/text()').extract()

        print(all_title)

豆瓣网post 爬取带验证码的更多相关文章

Python scrapy爬取带验证码的列表数据
首先所需要的环境:(我用的是Python2的,可以选择python3,具体遇到的问题自行解决,目前我这边几百万的数据量爬取) 环境: Python 2.7.10 Scrapy Scrapy 1.5.0 ...
Jsoup爬取带登录验证码的网站
今天学完爬虫之后想的爬一下我们学校的教务系统,可是发现登录的时候有验证码.因此研究了Jsoup爬取带验证码的网站: 大体的思路是:(需要注意的是__VIEWSTATE一直变化,所以我们每个页面都需要重 ...
Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页
Python3.x:Selenium+PhantomJS爬取带Ajax.Js的网页前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但 ...
豆瓣电影信息爬取(json)
豆瓣电影信息爬取(json) # a = "hello world" # 字符串数据类型# b = {"name":"python"} # ...
艺恩网内地总票房排名Top100信息及其豆瓣评分详情爬取
前两天用python2写的一个小爬虫主要实现了从http://www.cbooo.cn/Alltimedomestic这么个网页中爬取每一部电影的票房信息等,以及在豆瓣上该电影的评分信息代码如下 ...
初识scrapy，美空网图片爬取实战
这俩天研究了下scrapy爬虫框架,遂准备写个爬虫练练手.平时做的较多的事情是浏览图片,对,没错,就是那种艺术照,我骄傲的认为,多看美照一定能提高审美,并且成为一个优雅的程序员.O(∩_∩ ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫入门教程 3-100 美空网数据爬取
美空网数据----简介从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...
python的N个小功能(找到要爬取的验证码链接，并大量下载验证码样本)
# -*- coding: utf-8 -*- """ Created on Mon Mar 21 11:04:54 2017 @author: sl "&qu ...

随机推荐

图解Python 【第二篇】：Python基础2
本节内容一览图一.数据类型 1.数字 2 是一个整数的例子.长整数不过是大一些的整数.3.23和52.3E-4是浮点数的例子.E标记表示10的幂.在这里,52.3E-4表示52.3 * 10-4. ...
jeecg中的datagrid显示一条记录为橙色表示完结
效果如图: 1.操作小结后面的已完结js $(document).ready(function(){ $('.datagrid-toolbar').children("span") ...
linux下编译安装ACE-6.4.2（adpative communication environment）
1.环境 CentOS-6.5-x86_64-bin-DVD1.iso VMware_workstation_full_12.5.2 (2).exe ACE-6.4.2.tar.gz 下载链接:htt ...
深度学习之加载VGG19模型获取特征图
1.加载VGG19获取图片特征图 # coding = utf-8 import tensorflow as tf import numpy as np import matplotlib.pyplo ...
Linux下四款常见远程工具比较
摘要:Linux远程可不像Windows下那么方便,主要是连接的速度.显示的画质不能令人满意(延迟.撕裂).本文只是说一下我用过的四款远程工具.Anydesk官网:https://anydesk.co ...
[Kerberos] Kerberos教程（二）
4 Kerberos操作最后,在获得前面段落中描述的概念后,可以讨论Kerberos如何运作.我们将通过列出和描述在身份验证期间在客户端和KDC之间以及客户端和应用程序服务器之间的每个数据包来执行此 ...
C# 程序的关闭讲究解释
程序的关闭是很讲究的,处理的不好的话,将软件连续开启和关闭,当数次后在启动软件后程序会崩溃.或者程序退出很慢.细节决定成败,一款好的软件应该从各方面都要做严格地反复地推敲,力争做到无可挑剔. 有 ...
006-数据结构-树形结构-二叉树、二叉查找树、平衡二叉查找树-AVL树
一.概述树其实就是不包含回路的连通无向图.树其实是范畴更广的图的特例. 树是一种数据结构,它是由n(n>=1)个有限节点组成一个具有层次关系的集合. 1.1.树的特性: 每个结点有零个或多个子 ...
mkvirtualenv管理python版本
centos7安装pip 安装pip yum -y install epel-release yum -y install python2-pip 安装virtualenvwrapper pip in ...
20190905 - Uncaught SyntaxError: Unexpected token < 的解决
问题:Uncaught SyntaxError: Unexpected token < index:1 原因:js 路径不对

豆瓣网post 爬取带验证码

豆瓣网post 爬取带验证码的更多相关文章

随机推荐

热门专题