Cookie的Python爬虫应用

Cookie是什么

Cookie，有时也用其复数形式 Cookies，英文是饼干的意思。指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据（通常经过加密）。定义于 RFC2109 和 2965 中的都已废弃，最新取代的规范是 RFC6265 。

Cookie就是由服务器发给客户端的特殊信息，而这些信息以文本文件的方式存放在客户端，然后客户端每次向服务器发送请求的时候都会带上这些特殊的信息。服务器在接收到Cookie以后，会验证Cookie的信息，以此来辨别用户的身份。

Cookie可以理解为一个临时通行证。

Cookie有什么用

由于我们的HTTP协议是无状态的，所以我们要在网站上实现登陆之类的保持状态的功能的话就需要借助于Cookie。

每一次HTTP请求在数据交换完毕之后就会关闭连接，所以下一次HTTP请求就无法让服务端得知你和上一次请求的关系。而使用了Cookie之后，你在第一次登陆之类的请求成功之后，服务器会在Response的头信息中给你返回Cookie信息，你下一次访问的时候带上这个Cookie信息，则服务器就能识别你为上一次成功登陆的用户。

Cookie的内容

Cookie一般保存的格式为json格式，由一些属性组成。

name：Cookie的名称
value：Cookie的值
domain：可以使用此Cookie的域名
path：可以使用此Cookie的页面路径
expires/Max-Age：此Cookie的超时时间
secure：设置是否只能通过https来传递此条Cookie

domain属性

域名一般来说分为顶级域名，二级域名，三级域名等等。

例如baidu.com是一个顶级域名，而www.baidu.com和map.baidu.com就是二级域名，依次类推。

而在我们的Cookie来说，都有一个domain属性，这个属性限制了访问哪些域名时可以使用这一条Cookie。因为每个网站基本上都会分发Cookie，所以domain属性就可以让我们在访问新浪时不会带上百度分发给我们的Cookie。

而在同一系的域名中，顶级域名是无法使用其二级域名的Cookie的，也就是说访问baidu.com的时候是不会带上map.baidu.com分发的Cookie的，二级域名之间的Cookie也不可以共享。但访问二级域名时是可以使用顶级域名的Cookie的。

path属性

path属性为可以访问此cookie的页面路径。比如domain是abc.com，path是/test，那么只有/test路径下的页面可以读取此cookie。

expires/Max-Age属性

字段为此cookie超时时间。若设置其值为一个时间，那么当到达此时间后，此cookie失效。不设置的话默认值是Session，意思是cookie会和session一起失效。当浏览器关闭(不是浏览器标签页，而是整个浏览器) 后，此cookie失效。

Cookie的爬虫应用

以任何方式，如浏览器、selenium、封包等等，获取对应的Cookie
将Cookie保存，可以保存到内存、文件、数据库中
在想要使用Cookie的项目中，从保存的地方取出Cookie进行应用

PS

我们所说的使用Cookie进行实现登陆，都是需要服务端支持的，也就是说服务器给我们的Cookie有一个时间段的生命周期，这样我们保存下来的cookie才能在下次继续使用。

而有一些安全要求较高的网站，例如银行网站。是不支持cookie登陆的。

python爬虫基础16-cookie在爬虫中的应用的更多相关文章

Python爬虫基础之Cookie
一.Cookie会话简单地说,cookie就是存储在用户浏览器中的一小段文本文件.Cookies是纯文本形式,它们不包含任何可执行代码.一个Web页面或服务器告之浏览器来将这些信息存储并且基于一系列 ...
Python 入门基础16 -- ATM + 购物车
ATM + 购物车 1.需求分析 2.设计程序以及程序的架构设计程序的好处: - 扩展性强 - 逻辑清晰 3.分任务开发 4.测试黑盒: 白盒: 对程序性能的测试 5.上线运行 # Tank -- ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
Python爬虫入门：Cookie的使用
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在 ...
python 3.x 爬虫基础---Urllib详解
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解前言爬虫也了解了一段时间了希望在半个月的时间内 ...
python 3.x 爬虫基础---常用第三方库（requests，BeautifulSoup4，selenium，lxml ）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...
网络爬虫基础知识（Python实现）
浏览器的请求 url=请求协议(http/https)+网站域名+资源路径+参数 http:超文本传输协议(以明文的形式进行传输),传输效率高,但不安全. https:由http+ssl(安全套接子层 ...

随机推荐

Codeforces Round #529 -C- Powers Of Two（二进制拆分）
A positive integer xx is called a power of two if it can be represented as x=2yx=2y, where yy is a n ...
Codeforces Round #432 (Div. 2, based on IndiaHacks Final Round 2017) B
Arpa is taking a geometry exam. Here is the last problem of the exam. You are given three points a, ...
HTML标签的三种类型
HTML标签的类型分为三种:行内元素,行内块元素,块级元素而标签的属性是可以转换的 display:inline: 转换为行内元素 display:linline-block 转换为行内块元素 di ...
Linux之shell命令实现-批量去掉文件名中空格，以及批量修改文件名为数字序号文件名
1 shell下批量出去文件名中的空格执行看现象: 上面的是执行for循环以后看到的: 然而源目录下的文件如下: 这样的话想要cat某个具体文件是拿不到的,所以需要去空格处理: 处理方式有很多:如 ...
小G搭积木
A小 G 搭积木文件名输入文件输出文件时间限制空间限制box.cpp box.in box.out 2s 128MB题目描述小 G 喜欢搭积木.小 G 一共有 n 块积木,并且积木只能竖着一块 ...
c#基础 path 类的各种套路
string str = @"C:\3000soft\Red Spider\Data\Message\老赵.wav"; //获得文件名 Console.WriteLine(Path ...
MySQL 查看表大小
当遇到数据库占用空间很大的情况下,可以用以下语句查找大数据量的表 SELECT TABLE_NAME ,),) 'DATA_SIZE(M)' ,),) 'INDEX_SIZE(M)' ,AVG_ROW ...
IOC的使用
1.概要: 在spring中,都是使用反射机制创建对象,将创建对象的权利交给spring容器,就是控制反转(ioc) 对象创建方式有参构造无参构造工厂模式(静态,非静态) 2.创建IDEA控制台 ...
Runner启动器
Runner启动器的两种创建方式: 实现ApplicationRunner接口,复写run()方法实现CommandLineRunner接口,复写run()方法 Runner启动器的执行顺序如果一 ...
I Have a Dream（我有一个梦想）
I Have a Dream by Martin Luther King, Jr. I am happy to join with you today in what will go down in ...

python爬虫基础16-cookie在爬虫中的应用