Python爬虫一些操作headers与cookies的便捷工具

本篇文章主要是爬虫中常用的便捷处理方法整理，转载请注明出处

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Date    : 2018-08-14 13:07:06

# @Author  : Sheldon (thisisscret@qq.com)

# @blogs   : 谢耳朵的派森笔记

# @Link    : https://www.cnblogs.com/shld/

请求头headers转换为字典及优雅的字符串

hd_str_fmt方法完全可以用hd_str2dct结合pprint代替，不过其用了sub模板替换的方法，有借鉴意义就保留下来

import re

def hd_str_fmt(s:str):

    '''把抓包工具的字符串请求头换成字典格式的字符串

    param s: 需要转换的请求头字符串

    return 格式化的字典字符串

    '''

    pattern = re.compile(r'^([^^\s]+?)(:)(?:\u0020+|)(\B$|\S[^$]*?$)',flags=re.M)

    return '{'+pattern.sub(r"'\1'\2 '\3',", s).strip()+'\n}'

def hd_str2dct(s:str):

    '''把抓包工具的字符串请求头换成字典

    param s: 需要转换的请求头字符串

    return 请求头字典

    '''

    pattern = re.compile(r'^([^^\s]+?):(?:\u0020+|)(\B$|\S[^$]*?$)',flags=re.M)

    return dict(pattern.findall(s))

cookies增加带有domain等参数的cookie

import requests


'''生成可定制其他参数的cookie
可以用response.cookies的set_cookie或update方法装载'''


cookie = requests.cookies.create_cookie(name, value, **kwargs)

cookies与字典相互转换

import requests

from functools import reduce

from http.cookiejar import Cookie as Ck

def cookies2dct(cookies):

        """RequestsCookieJar转换成dict"""

        cookie_list = []

        for cookie in iter(cookies):

            kw = cookie.__dict__

            if '_rest' in kw:

                kw['rest'] = kw.pop('_rest')

            cookie_list.append(kw)

        return {'Cookies': cookie_list}

def dct2cookies(dct):

    """将上述函数生成的dict转换成RequestsCookieJar"""

    cookies = requests.cookies.RequestsCookieJar()

    reduce(cookies.set,map(lambda kw: Ck(**kw),dct['Cookies']))

    return cookies

Python爬虫一些操作headers与cookies的便捷工具的更多相关文章

Python爬虫入门教程 50-100 Python3爬虫爬取VIP视频-Python爬虫6操作
爬虫背景原计划继续写一下关于手机APP的爬虫,结果发现夜神模拟器总是卡死,比较懒,不想找原因了,哈哈,所以接着写后面的博客了,从50篇开始要写几篇python爬虫的骚操作,也就是用Python3通过 ...
Python爬虫【四】Scrapy+Cookies池抓取新浪微博
1.设置ROBOTSTXT_OBEY,由true变为false 2.设置DEFAULT_REQUEST_HEADERS,将其改为request headers 3.根据请求链接,发出第一个请求,设置一 ...
Python爬虫入门教程 51-100 Python3爬虫通过m3u8文件下载ts视频-Python爬虫6操作
什么是m3u8文件 M3U8文件是指UTF-8编码格式的M3U文件. M3U文件是记录了一个索引纯文本文件, 打开它时播放软件并不是播放它,而是根据它的索引找到对应的音视频文件的网络地址进行在线播放. ...
python 3.x 爬虫基础---http headers详解
前言上一篇文章 python 爬虫入门案例----爬取某站上海租房图片中有对headers的讲解,可能是对爬虫了解的不够深刻,所以老觉得这是一项特别简单的技术,也可能是简单所以网上对爬虫系统的文档 ...
小白学 Python 爬虫（10）：Session 和 Cookies
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（18）：Requests 进阶操作
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
[Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...

随机推荐

Confluence JIRA快速入门
Confluence JIRA快速入门 http://www.confluence.cn/pages/viewpage.action?pageId=2916470
14. Spring Boot定时任务的使用【从零开始学Spring Boot】
com.kfit.base.scheduling.SchedulingConfig: package com.kfit.base.scheduling; import org.springframew ...
uboot下netconsole的原理及用法
近期发现uboot下一个非常有意思也非常有用的功能:netconsole,uboot下的netconsole相似于kernel下的telnet等网络终端功能,将网络作为输入输出的终端,这样就便于我们在 ...
Micro:Bit手柄试用之一MagicPad (解决蓝牙与gamePad包共存)
前言原创文章,转载引用务必注明链接.由于本人初次接触Micro:Bit,水平有限,如有疏漏,欢迎指正. Micro:Bit真好玩! DFRobot的论坛相关资料算是国内比较丰富的了,个人感觉MB比A ...
Linux系统编程_1_文件夹读取(实现简单ls命令)
闲来无事.随便写写,实现简单的ls命令: | 1 #include <stdio.h> | 2 #include <stdlib.h> | 3 #include <dir ...
JS函数库Underscore.js
http://underscorejs.org/ http://www.css88.com/doc/underscore/ http://www.bootcss.com/p/underscore/
Leetcode Array 15 3sum
思考的方向不对,即使用了多于别人几倍的时间,也不一定能够达到终点. 我的错误的想法(可以跳过):在leetcode上面做的第四道题,走路一个很大的弯路,收到之前做过的 Container With ...
聊聊高并发（三十九）解析java.util.concurrent各个组件（十五）理解ExecutorService接口的设计
上一篇讲了Executor接口的设计,目的是将任务的运行和任务的提交解耦.能够隐藏任务的运行策略.这篇说说ExecutorService接口.它扩展了Executor接口,对Executor的生命周期 ...
14:质数因子PrimeNum
14:题目描述功能:输入一个正整数,按照从小到大的顺序输出它的所有质数的因子(如180的质数因子为2 2 3 3 5 ) 详细描述: 函数接口说明: public String getResult( ...
Android网络编程Socket【实例解析】
Socket 事实上和JavaWeb 里面的Socket一模一样建立客服端,server端,server开一个port供客服端訪问第一步创建server端:(这里把为了便于解说.把server端, ...

Python爬虫一些操作headers与cookies的便捷工具

Python爬虫一些操作headers与cookies的便捷工具的更多相关文章

随机推荐

热门专题