1.修改请求头

　　这里要用到python的requests的模块，首相介绍一下http请求头，它就是你每次在访问网页时，向服务器传输的一组属性和配置信息。下面有七个字段被大多数浏览器用来初始化网络请求。

属性	内容
Host	https://www.google.com/
Connection	keep-alive
Accept	text/html，application/xhtml+xml，application/xml;q=0.9，image/webp，/;q=0.8
User-Agent	Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36
Referrer	https://www.google.com/
Accept-Encoding	gzip，deflate，sdch
Accept-Language	en-US,en;q=0.8

这是用户在访问网页时所发出的host请求（图为书中作者的请求，打开F12可查看自己的host请求）。一下为不加请求头时python爬虫发出的请求。

Accept-Encoding	identity
User-Agent	Python- urllib/3.4

用requests模块可以对请求头自定义。我们用下面的程序来采集这个网站的信息，验证我们浏览器的cookie 设置：　　

 import requests

 from bs4 import BeautifulSoup

 session = requests.Session()  # 创建一个session对象

 headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5)

 　　　　　　AppleWebKit 537.36 (KHTML, like Gecko) Chrome",

 　　　　　　"Accept":"text/html,application/xhtml+xml,application/xml;

 　　　　　　q=0.9,image/webp,*/*;q=0.8"}

 url = "https://www.whatismybrowser.com/developers/what-http-headers-is-my-browser-sending"  #这个网站可以把请求头显示在页面上方便我们验证

 req = session.get(url, headers=headers)  #发起get请求

 bsObj = BeautifulSoup(req.text)

 print(bsObj.find("table",{"class":"table-striped"}).get_text)

输出结果中的请求头应该和程序中设置的headers 是一样的。这样就完成了模拟用户访问的第一步模拟请求头。

Python爬虫笔记【一】模拟用户访问之设置请求头（1）的更多相关文章

Python爬虫笔记【一】模拟用户访问之设置处理cookie（2）
学习的课本为<python网络数据采集>,大部分代码来此此书. 做完请求头的处理,cookie的值也是区分用户和机器的一个方式.所以也要处理一下cookie,需要用requests模块,废 ...
python爬虫笔记之用cookie访问需要登录的网站
目标:用cookie访问一个需要登录的网站如图,直接访问会跳转到登录页面,提示登录. 运行结果: 直接在浏览器上输入该url,网站立马跳转到登录页面. 方法: 1.先手动登录,通过抓包获取coo ...
python爬虫笔记Day01
python爬虫笔记第一天 Requests库的安装先在cmd中pip install requests 再打开Python IDM写入import requests 完成requests在.py文 ...
[Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...
Python爬虫笔记一（来自MOOC） Requests库入门
Python爬虫笔记一(来自MOOC) 提示:本文是我在中国大学MOOC里面自学以及敲的一部分代码,纯一个记录文,如果刚好有人也是看的这个课,方便搬运在自己电脑上运行. 课程为:北京理工大学-嵩天-P ...
Python之路,Day22 - 网站用户访问质量分析监测分析项目开发
Python之路,Day22 - 网站用户访问质量分析监测分析项目开发做此项目前请先阅读 http://3060674.blog.51cto.com/3050674/1439129 项目实战之 ...
jquery中beforeSend和complete的使用 --- 提高用户体验&&设置请求头
beforeSend方法的用户主要有下面几个: 第一:用于在发送ajax请求之前设置请求头即作为前端,如果我们希望在发送数据之前设置请求头,就可以像下面这么做: beforeSend: functi ...
Python爬虫笔记（一）
个人笔记,仅适合个人使用(大部分摘抄自python修行路) 1.爬虫Response的内容便是所要获取的页面内容,类型可能是HTML,Json(json数据处理链接)字符串,二进制数据(图片或者视频 ...
PYTHON 爬虫笔记三:Requests库的基本使用
知识点一:Requests的详解及其基本使用方法什么是requests库 Requests库是用Python编写的,基于urllib,采用Apache2 Licensed开源协议的HTTP库,相比u ...

随机推荐

x25, PF_X25 - ITU-T X.25 / ISO-8208 协议接口。
总览 #include <sys/socket.h> #include <linux/x25.h> x25_socket = socket(PF_X25, SOCK_SEQPA ...
TCP/IP协议,，OSI的七层参考模型，HTTP请求响应机制
一.TCP/IP协议 TCP/IP是Transmission Control Protocol/Internet Protocol的简写,中译名为传输控制协议/因特网互联协议,又名网络通讯协议,是In ...
ubuntu 权限不够，解决办法,无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用)
终端执行 sudo passwd root输入root 新密码执行命令 nano /usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf末行添加 gr ...
react添加多个域名proxy代理，跨域
在package.json中加入如下: { "name": "demo", "version": "0.1.0", &q ...
CF930E Coins Exhibition
题意:平面上一共有k个硬币(k<=1e9),给你n个区间这些区间中至少有一个硬币反面朝上,m个区间中至少有一个硬币正面朝上.问有多少种硬币放置方案?n,m<=100005. 标程: #in ...
java多线程-AbstractQueuedSynchronizer
大纲: AbstractQueuedSynchronizer简介 aqs基本结构 aqs应用-ReentrantLock.lock aqs应用-ReentrantLock.unlock aqs应用-S ...
计算几何——线段和直线判交点poj3304
#include<iostream> #include<cstring> #include<cstdio> #include<algorithm> #i ...
暑假集训test-8-14~8-15
我不想写博客辣. 拖了三天的一起写,结果就是写不下去了...果然应该改一道写一道么.. 题面题解代码也懒得往博客上放了,屯U盘里了... 因为太菜还有两道没有改. 题解外的一些参考: lyc大佬的进程 ...
查看linux的登录日志
查看linux的登录日志 1. lastlog 列出所有用户最近登录的信息 lastlog引用的是/var/log/lastlog文件中的信息,包括login-name.port.last logi ...
VS2010-MFC（常用控件：标签控件Tab Control 上）
转自:http://www.jizhuomi.com/software/205.html 前面两节讲了树形控件Tree Control,本节开始讲解标签控件Tab Control,也可以称为选项卡控件 ...

Python爬虫笔记【一】模拟用户访问之设置请求头 （1）

1.修改请求头

Python爬虫笔记【一】模拟用户访问之设置请求头 （1）的更多相关文章

随机推荐

热门专题

Python爬虫笔记【一】模拟用户访问之设置请求头（1）

　　1.修改请求头

Python爬虫笔记【一】模拟用户访问之设置请求头（1）的更多相关文章