第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头

一、引言

在《第14.3节使用google浏览器获取网站访问的http信息》和《第14.4节使用IE浏览器获取网站访问的http信息》中介绍了使用Google浏览器和IE浏览器怎么获取网站访问的http相关报文信息，本节介绍利用获取的信息怎么在Python应用中构建http访问报文头。本节介绍的获取信息以Google浏览器获取的http信息为准，相当于应用访问网站是模拟谷歌浏览器进行访问，IE的原理一样，大家可以自行处理。

二、从浏览器中获取到http请求报文的报文头信息

利用《第14.3节使用google浏览器获取网站访问的http信息》介绍的方法复制访问网站的http请求头信息，以访问https://blog.csdn.net/LaoYuanPython为例获取的请求报文头内容如下（其中cookies信息只取了部分，以省略号替代）：

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3

Accept-Encoding: gzip, deflate, br

Accept-Language: zh-CN,zh;q=0.9

Cache-Control: max-age=0

Connection: keep-alive

Cookie: uuid_tt_dd=10_35489889920-1563497330616-876822; .......

Host: blog.csdn.net

Referer: https://i.csdn.net/

Sec-Fetch-Mode: navigate

Sec-Fetch-Site: none

Sec-Fetch-User: ?1

Upgrade-Insecure-Requests: 1

User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36

对于上述信息，如果是模拟浏览器访问，User-Agent是必须的，其他的都是可选的，老猿推荐除了User-Agent，在应用中建议还设置Accept、Accept-Language、Connection这三个参数，这样更像浏览器的访问，cookie是使用用户已登录会话进行访问必须的，如果匿名访问不需要，Accept-Encoding如果爬虫应用支持解压处理时使用，否则不要使用，使用后会导致由于服务端报文进行了压缩处理应用无法识别。总而言之，报文头的信息设置与应用的功能实现要求相关。

三、将获取信息转变成Python应用能识别的字典数据

对相关信息进行处理，处理后将其放到一个字典中。处理方法非常简单，将上述信息中只留下我们需要设置的行，在每行行首、行尾以及冒号后的空格去掉、每行数据冒号分隔的两部分都加上引号，每行之间加上逗号，最后将相关数据放到一个列表中，为了后续调用方便，我们定义一个函数mkhead来返回报文头，如下:

def mkhead():

    header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',

    'Accept-Language':'zh-CN,zh;q=0.9',

    'Connection':'keep-alive',

    'Cookie':'uuid_tt_dd=10_35489889920-1563497330616-876822; ...... ', #匿名访问无需设置，非匿名访问需设置

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

    return header

注意Cookie在上面是只取了部分数据，大家需要以自己的数据为准，当然如果应用准备匿名方式访问不需要也不能设置cookie，具体http报文头数据需要使用哪些由你自己的应用来决定。

另外注意： Accept-Encoding一般情况下也不需要，使用有可能导致后续网页内容解码无法解码。

本节老猿介绍了利用浏览器获取的http请求头信息构造Python模拟浏览器访问请求头的过程，非常简单，有了该请求头Python发起的网站访问就会被认为是正常的浏览器访问。

老猿Python，跟老猿学Python!

博客地址：https://blog.csdn.net/LaoYuanPython

老猿Python博客文章目录：https://blog.csdn.net/LaoYuanPython/article/details/98245036

请大家多多支持，点赞、评论和加关注！谢谢！

第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头的更多相关文章

第14.7节 Python模拟浏览器访问实现http报文体压缩传输
一. 引言在<第14.6节 Python模拟浏览器访问网页的实现代码>介绍了使用urllib包的request模块访问网页的方法.但上节特别说明http报文头Accept-Encodin ...
第14.6节使用Python urllib.request模拟浏览器访问网页的实现代码
Python要访问一个网页并读取网页内容非常简单,在利用<第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头>的方法构建了请求http报文的请求头情况下,使 ...
第14.16节爬虫实战2：赠人玫瑰，手留余香！ request+BeautifulSoup实现csdn博文自动点赞
写在前面:本文仅供参考学习,请勿用作它途,禁止转载! 在<第14.14节爬虫实战准备:csdn博文点赞过程http请求和响应信息分析>老猿分析了csdn博文点赞处理的http请求和响应报 ...
C# 利用Powershell获取网络相关信息
利用Get-NetAdapter获取信息 Get-NetAdapter 参考链接:https://docs.microsoft.com/en-us/powershell/module/netadapt ...
[扩展推荐] Laravel 中利用 GeoIP 获取用户地理位置信息
我最近需要一个用户地域检测来设置用户的默认区域和货币.由 Daniel Stainback 创建的 torann/geoip 很好地满足为Laravel 5 项目提供 GeoIP 服务的要求. 这个 ...
利用ajax获取网页表单数据，并存储到数据库之一（使用JDBC）
所谓JDBC就是利用java与数据库相连接的技术,从数据库获取既有的信息或者把网页上的信息存储到数据库. 这里简单的介绍公司的一个小项目中的一部分,由于代码较多,所以用图片形式进行展示.源码请查看源码 ...
0057 Spring MVC如何获取HTTP请求头信息--URL中的动态参数--@RequestHeader--@CookieValue--@PathVariable
获取HTTP请求头信息一个HTTP请求除了有参数和实体内容外还有HTTP请求头信息,Spring MVC也可以获取这部分信息 @RequestHeader解可以将请求头信息映射到处理方法的形参上 @ ...
python flask获取微信用户信息流程
需要了解的几个url 用户第一次访问时的url,包含以下几个参数 https://open.weixin.qq.com/connect/oauth2/authorize?appid=APPID& ...
第14.4节使用IE浏览器获取网站访问的http信息
上节<第14.3节使用google浏览器获取网站访问的http信息>中介绍了使用Google浏览器怎么获取网站访问的http相关报文信息,本节介绍IE浏览器中怎么获取相关信息.以上节为基 ...

随机推荐

yum针对软件包操作的常用命令
yum针对软件包操作的常用命令: 1.使用YUM查找软件包命令:yum search php 2.列出所有可安装的软件包命令:yum list php 3.列出所有可更新的软件包命令:yum l ...
Spider_基础总结3_BeautifulSoup对象+find()+find_all()
# 本节内容: # 解析复杂的 HTML网页: # 1--bs.find() bs.find_all() tag.get_text() # find_all(tag/tag_list,attribut ...
javascript链式运动框架案例
javascript链式运动框架任务描述: 当鼠标移入红色矩形时,该矩形宽度逐渐增加至400px,之后高度逐渐增加至400px; 当鼠标移出红色矩形时,该矩形高度逐渐减小至200px,之后宽度逐渐减 ...
Java 内功修炼之数据结构与算法（二）
一.二叉树补充.多叉树 1.二叉树(非递归实现遍历) (1)前提前面一篇介绍了二叉树.顺序二叉树.线索二叉树.哈夫曼树等树结构. 可参考:https://www.cnblogs.com/l-y-h ...
python之《set》
set 是python里面的集合的概念 list_1 = [1,2,3,4,5,6,] list_2 = set(list_1) print(list_1,type(list_1)) print(li ...
JWT鉴权
一.HTTP基本认证 Basic Authentication--当浏览器访问使用基本认证的网站的时候, 浏览器会提示你输入用户名和密码. http auth的过程: 客户端发送http请求服务器发 ...
微信公众号平台Url Token EncodingAESKey 注意点
最近公司让我开发微信公众号平台扫码登录,同步用户信息于PC端,所做的过程当中遇到了一些坑,做完了就总结一下需要注意的点,如若大家开发过程中遇到同样的问题,可以借鉴! 第一:配置域名作用:配置域名为了 ...
【网鼎杯2020朱雀组】Web WriteUp
nmap nmap语法,很简单. 127.0.0.1' -iL /flag -oN vege.txt ' phpweb 打开,抓包,发现可以传递函数和其参数试了一下很多函数都被过滤了,不能执行系统命 ...
NO.A.0004——Git私有服务器部署/makefile方式/本地与Git服务器代码交换
一.在linux服务器上搭建私有Git服务程序:make编译方式远程仓库实际上和本地仓库没啥不同,纯粹为了7x24小时开机并交换大家的修改.GitHub就是一个免费托管开源代码的远程仓库.但是对于某 ...
轻松将CAD文件转为加密的PDF文件
对于从事设计相关工作的朋友来说,CAD肯定再熟悉不过了.一些有特殊要求的CAD文件,需要将其转换成为PDF文件以方便保存.传输.打印,同时还得保证设计图稿的安全性,所以将CAD文件直接转为加密的PDF ...

第14.5节 利用浏览器获取的http信息构造Python网页访问的http请求头

第14.5节 利用浏览器获取的http信息构造Python网页访问的http请求头的更多相关文章

随机推荐

热门专题

第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头

第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头的更多相关文章