潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记）

# -*- coding: utf-8 -*-

# 斌彬电脑

# @Time : 2018/9/15 0015 4:52

#cookie 是服务器发给浏览器的特殊信息

# 可以理解为一个临时通行证

# 以 json 形式存放

# name:   cookie 的名称

# value:  coikie 的值

# domain:  可以使用此 cookie 的域名

# path:  可以使用此 cookie 的页面路径

# expires/Max-Age : cookie 的超时时间  默认是 session ，当浏览器关闭时失效

# secure :  设置是否只能通过 https 来传递此条 cookie

#  豆瓣登录

# 抓包 按F12，在输入账号，密码框中输入相应值后，点登录，

#  找到 302 页面跳转，这时所需要的数据就在这里 login

import requests

from urllib import request

from lxml import etree

from PIL import  Image

class DoubanSpider():

    def __init__(self,us,ps):

        self.session = requests.session()

        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36'}

        self.login_url = 'https://accounts.douban.com/login'

        self.us = us

        self.ps = ps

    def start_res(self):

        # 第一步先不登录，先 get 看看有没有验证码出现，

        re = self.session.get(self.login_url).content.decode()

        ht = etree.HTML(re)

        self.pass_login(ht)

    def pass_login(self,ht):

        captcha_id = ht.xpath('//input[@name="captcha-id"]/@value')

        # print(captcha_id)

        # 验证码下载地址

        captcha_solution = ht.xpath('//img[@id="captcha_image"]/@src')

        # print(captcha_solution)

        # 如果没有验证码

        if captcha_solution == []:

            print('没有发现验证码')

            data = {

                'source': 'movie',

                'redir': 'https://movie.douban.com/top250',

                'form_email': self.us,

                'form_password':self.ps,

                'login': '登录'

            }

        else:

            im_path = '1.png'           # 验证码存放路径

            #  文件下载方法，      下载地址，     路径文件名

            request.urlretrieve(captcha_solution[0], im_path)

            img = Image.open(im_path).show()

            data = {

                'source': 'movie',

                'redir': 'https://movie.douban.com/top250',

                'form_email': self.us,

                'form_password':self.ps,

                'captcha-solution': input('请输入验证码--->>'),       #  验证码

                 'captcha-id': captcha_id[0],

                'login': '登录'

        }

        res = self.session.post(self.login_url, data=data, headers = self.headers).content.decode()

        self.login_res(res)

    # 登录成功后获取页面内容

    def login_res(self,res):

        html = etree.HTML(res)

        # 如果登录成功，r 列表中有值，否则为空列表

        r = html.xpath( '//*[@id="db-global-nav"]/div/div[1]/ul/li[2]/a/span[1]/text()' )

        if r ==[]:

            print('登录失败')

        else:print('登录成功,当前账号为：%s' %r[0])

if __name__ == '__main__':

    lo = DoubanSpider('账号', '密码')

    lo.start_res()

  data = {
        'source': 'movie',
        'redir': 'https://movie.douban.com/top250',
        'form_email': self.us,
        'form_password':self.ps,
        'captcha-solution': input('请输入验证码--->>'),       #  验证码
         'captcha-id': captcha_id[0],
        'login': '登录'
}

当要输入验证码时，要提交的值为data2，

其中 captcha - solution 的值为验证码

captcha - id 在页面源码中 ctrl + f 搜索

用 xpath 找到节点，可取其值

潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记）的更多相关文章

潭州课堂25班：Ph201805201 爬虫基础第八课 selenium (课堂笔记）
Selenium笔记(1)安装和简单使用简介 Selenium是一个用于Web应用程序测试的工具. Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, ...
潭州课堂25班：Ph201805201 爬虫基础第三课 urllib (课堂笔记)
Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了url ...
潭州课堂25班：Ph201805201 爬虫基础第六课选择器 (课堂笔记)
HTML解析库BeautifulSoup4 BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间 ...
潭州课堂25班：Ph201805201 爬虫基础第四课 Requests (课堂笔记)
优雅到骨子里的Requests 1528811134432 简介上一篇文章介绍了Python的网络请求库urllib和urllib3的使用方法,那么,作为同样是网络请求库的Request ...
潭州课堂25班：Ph201805201 爬虫基础第十一课点触验证码 (课堂笔记）
打开网易盾 http://dun.163.com/trial/picture-click ——在线体验——图中点选打码平台 ——超级鹰 http://www.chaojiying.com/ ...
潭州课堂25班：Ph201805201 爬虫基础第十课图像处理- 极验验证码 (课堂笔记）
用 python 的 selenium 访问 https://www.huxiu.com/ 自动通过验证码 # -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 20 ...
潭州课堂25班：Ph201805201 爬虫基础第七课 Python与常见加密方式 (课堂笔记)
打开图形界面 18版 Python与常见加密方式前言我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes. 所以当我们在Python中进行加密操作的时 ...
潭州课堂25班：Ph201805201 爬虫基础第五课（案例）豆瓣分析 (课堂笔记)
动态讲求 , 翻页参数: # -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 2018/9/1 0001 3:44 import requests,json class ...
潭州课堂25班：Ph201805201 爬虫高级第十三课代理池爬虫检测部分 (课堂笔记)
1,通过爬虫获取代理 ip ,要从多个网站获取,每个网站的前几页2,获取到代理后,开进程,一个继续解析,一个检测代理是否有用 ,引入队列数据共享3,Queue 中存放的是所有的代理,我们要分离出可用的 ...

随机推荐

Linux内存管理1---内存寻址
1.前言本文所述关于内存管理的系列文章主要是对陈莉君老师所讲述的内存管理知识讲座的整理. 本讲座主要分三个主题展开对内存管理进行讲解:内存管理的硬件基础.虚拟地址空间的管理.物理地址空间的管理. 本 ...
vim常用命令总结（转)【转】
转自:https://www.cnblogs.com/yangjig/p/6014198.html 在命令状态下对当前行用== (连按=两次), 或对多行用n==(n是自然数)表示自动缩进从当前行起的 ...
Win10 + Visual Studio 2017 下 OpenCV无法显示图像的问题
测试代码如下: #include "stdafx.h" #include<opencv2\opencv.hpp> #include<opencv2\highgui ...
git 的入门使用到团队协作
1.git 的安装.下载---安装,esay. 下载地址:https://git-for-windows.github.io/ 2.创建一个自己的身份 git config --global user ...
在jsp页面，将小数转换为百分比
<fmt:formatNumber type="number" value="${temp.illegalCount*100/temp.unitCount}&quo ...
python在windows下安装
打开python官方网站:https://www.python.org/downloads/ 点击下载翻到底下的file目录下选择对应的32,64位系统进行安装一般来说选择Windows x86 ...
css系列之box-sizing
转载自:http://zh.learnlayout.com/box-sizing.html 人们慢慢的意识到传统的盒子模型不直接,所以他们新增了一个叫做 box-sizing 的CSS属性.当你设置一 ...
passive 的事件监听器(转载)
passive 的事件监听器很久以前,addEventListener() 的参数约定是这样的: addEventListener(type, listener, useCapture) 后来,最后 ...
[工具/PC]计算机中丢失libiconv-2.dll,丢失libintl-8.dll,无法定位程序输入点libiconv于动态链接库libiconv-2.dll上问题解决方法
CodeBlocks 1. 背景,为了学习C语言,在win系统上下载了codeBlock,先简单介绍下:Code::Blocks 是一个开放源码的全功能的跨平台C/C++集成开发环境. Code::B ...
Redis五大数据类型以及操作
目录: 一.redis的两种链接方式二.redis的字符串操作(string) 三.redis的列表操作(list) 四.redis的散列表操作(类似于字典里面嵌套字典) 五.redis的集合操作( ...

潭州课堂25班：Ph201805201 爬虫基础 第十三课 cookie (课堂笔记）

潭州课堂25班：Ph201805201 爬虫基础 第十三课 cookie (课堂笔记）的更多相关文章

随机推荐

热门专题

潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记）

潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记）的更多相关文章