python爬虫User Agent用户代理
UserAgent简介
UserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑访问是不一样的,这些是谷歌根据访问者的UA来判断的。UA可以进行伪装。
浏览器的UA字串的标准格式:浏览器标识(操作系统标识;加密等级标识;浏览器语言)渲染引擎标识版本信息。但各个浏览器有所不同。
我们在做爬虫的时候,不是通过浏览器正常访问,所以会被很多网站禁止访问,这个时候我们就需要手动在headers里加上UA属性,来伪装成浏览器进行访问。
常见的UserAgent值
1.
PC端:
safari5.
1
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;U;IntelMacOSX10_6_8;en
-
us)AppleWebKit
/
534.50
(KHTML,likeGecko)Version
/
5.1Safari
/
534.50
safari5.
1
–Windows
User
-
Agent:Mozilla
/
5.0
(Windows;U;WindowsNT6.
1
;en
-
us)AppleWebKit
/
534.50
(KHTML,likeGecko)Version
/
5.1Safari
/
534.50
IE9.
0
User
-
Agent:Mozilla
/
5.0
(compatible;MSIE9.
0
;WindowsNT6.
1
;Trident
/
5.0
;
IE8.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE8.
0
;WindowsNT6.
0
;Trident
/
4.0
)
IE7.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT6.
0
)
IE6.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE6.
0
;WindowsNT5.
1
)
Firefox4.
0.1
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;IntelMacOSX10.
6
;rv:
2.0
.
1
)Gecko
/
20100101Firefox
/
4.0
.
1
Firefox4.
0.1
–Windows
User
-
Agent:Mozilla
/
5.0
(WindowsNT6.
1
;rv:
2.0
.
1
)Gecko
/
20100101Firefox
/
4.0
.
1
Opera11.
11
–MAC
User
-
Agent:Opera
/
9.80
(Macintosh;IntelMacOSX10.
6.8
;U;en)Presto
/
2.8
.
131Version
/
11.11
Opera11.
11
–Windows
User
-
Agent:Opera
/
9.80
(WindowsNT6.
1
;U;en)Presto
/
2.8
.
131Version
/
11.11
Chrome17.
0
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;IntelMacOSX10_7_0)AppleWebKit
/
535.11
(KHTML,likeGecko)Chrome
/
17.0
.
963.56Safari
/
535.11
傲游(Maxthon)
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;Maxthon2.
0
)
腾讯TT
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;TencentTraveler4.
0
)
世界之窗(TheWorld)
2.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
)
世界之窗(TheWorld)
3.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;TheWorld)
搜狗浏览器
1.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;Trident
/
4.0
;SE2.XMetaSr1.
0
;SE2.XMetaSr1.
0
;.NETCLR2.
0.50727
;SE2.XMetaSr1.
0
)
360
浏览器
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;
360SE
)
Avant
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;AvantBrowser)
GreenBrowser
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
)
2
、移动设备端:
safariiOS4.
33
–iPhone
User
-
Agent:Mozilla
/
5.0
(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
safariiOS4.
33
–iPodTouch
User
-
Agent:Mozilla
/
5.0
(iPod;U;CPUiPhoneOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
safariiOS4.
33
–iPad
User
-
Agent:Mozilla
/
5.0
(iPad;U;CPUOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
AndroidN1
User
-
Agent:Mozilla
/
5.0
(Linux;U;Android2.
3.7
;en
-
us;NexusOneBuild
/
FRF91)AppleWebKit
/
533.1
(KHTML,likeGecko)Version
/
4.0MobileSafari
/
533.1
AndroidQQ浏览器Forandroid
User
-
Agent:MQQBrowser
/
26Mozilla
/
5.0
(Linux;U;Android2.
3.7
;zh
-
cn;MB200Build
/
GRJ22;CyanogenMod
-
7
)AppleWebKit
/
533.1
(KHTML,likeGecko)Version
/
4.0MobileSafari
/
533.1
AndroidOperaMobile
User
-
Agent:Opera
/
9.80
(Android2.
3.4
;Linux;OperaMobi
/
build
-
1107180945
;U;en
-
GB)Presto
/
2.8
.
149Version
/
11.10
AndroidPadMotoXoom
User
-
Agent:Mozilla
/
5.0
(Linux;U;Android3.
0
;en
-
us;XoomBuild
/
HRI39)AppleWebKit
/
534.13
(KHTML,likeGecko)Version
/
4.0Safari
/
534.13
BlackBerry
User
-
Agent:Mozilla
/
5.0
(BlackBerry;U;BlackBerry9800;en)AppleWebKit
/
534.1
+
(KHTML,likeGecko)Version
/
6.0
.
0.337MobileSafari
/
534.1
+
WebOSHPTouchpad
User
-
Agent:Mozilla
/
5.0
(hp
-
tablet;Linux;hpwOS
/
3.0
.
0
;U;en
-
US)AppleWebKit
/
534.6
(KHTML,likeGecko)wOSBrowser
/
233.70Safari
/
534.6TouchPad
/
1.0
NokiaN97
User
-
Agent:Mozilla
/
5.0
(SymbianOS
/
9.4
;Series60
/
5.0NokiaN97
-
1
/
20.0
.
019
;Profile
/
MIDP
-
2.1Configuration
/
CLDC
-
1.1
)AppleWebKit
/
525
(KHTML,likeGecko)BrowserNG
/
7.1
.
18124
WindowsPhoneMango
User
-
Agent:Mozilla
/
5.0
(compatible;MSIE9.
0
;WindowsPhoneOS7.
5
;Trident
/
5.0
;IEMobile
/
9.0
;HTC;Titan)
UC无
User
-
Agent:UCWEB7.
0.2
.
37
/
28
/
999
UC标准
User
-
Agent:NOKIA5700
/
UCWEB7.
0.2
.
37
/
28
/
999
UCOpenwave
User
-
Agent:Openwave
/
UCWEB7.
0.2
.
37
/
28
/
999
UCOpera
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE6.
0
;)Opera
/
UCWEB7.
0.2
.
37
/
28
/
999
我们用的时候直接复制即可,放到headers里的对应User-Agent参数
UserAgent的两种添加方法
1 直接定义一个headers字典,然后传递给Request类来实例化一个对象,然后在传给urlopen,格式如下:
1
2
3
4
5
6
7
8
9
10
|
from urllib import request url = 'http://baidu.com' headers = { 'User-Agent' : 'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5' } req = request.Request(url,headers = headers) response = request.urlopen(req) print (response.read().decode()) |
2.使用add_header()方法
1
2
3
4
5
6
7
8
9
|
from urllib import request url = 'http://baidu.com' req = request.Request(url) req.add_header( 'User-Agent' , 'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5' ) response = request.urlopen(req) print (response.read().decode()) |
python爬虫User Agent用户代理的更多相关文章
- python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
- Python 爬虫的工具列表 附Github代码下载链接
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
- Python 爬虫的工具列表大全
Python 爬虫的工具列表大全 这个列表包含与网页抓取和数据处理的Python库.网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pyc ...
- Python 爬虫入门实战
1. 前言 首先自我介绍一下,我是一个做 Java 的开发人员,从今年下半年开始,一直在各大技术博客网站发表自己的一些技术文章,差不多有几个月了,之前在 cnblog 博客园加了网站统计代码,看到每天 ...
- Python 爬虫的工具列表
Python 爬虫的工具列表 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycur ...
- Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口 相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
- 23个Python爬虫开源项目代码,让你一次学个够
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
- Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
- Python爬虫开源项目代码,爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等 代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
随机推荐
- vuex相关
作用:对项目里多个组件的共享状态进行集中式管理(读/写) .
- CEF 3.2623使用flash插件的方法
PPAPI Flash插件是Chrome浏览器内置的Flash插件,是Google和Adobe合作的产物,于Chrome21(Win)或者Chrome20(Linux)加入,具有沙箱.GPU加速.多进 ...
- Gartner:2019 年 iPaaS 魔力象限
http://www.199it.com/archives/869090.html 企业iPaaS产品支持越来越更广泛的使用场合,正迅速被企业采用以实现混合集成平台策略.这份魔力象限评估了17家供应商 ...
- zzulioj - 2599: 对称的数字
题目链接: http://acm.zzuli.edu.cn/problem.php?id=2599 题目描述 小D同学发现了一些数字与其反转数字相加求和得出新数字,新数字再不断重复这个过程,最终可能得 ...
- (转)简单的Malloc实现
现在,一般来说,我们可以实现malloc使得对malloc的调用将会被映射到系统调用sbrk上,sbrk(n)将会移动程序中断的位置-也就是程序的data段的最后.-偏移n个字节,这意味着,n个字节的 ...
- 【贪心】【P5521】[yLOI2019] 梅深不见冬
B [yLOI2019] 梅深不见冬 Background 风,吹起梅岭的深冬:霜,如惊涛一样汹涌:雪,飘落后把所有烧成空, 像这场,捕捉不到的梦. 醒来时已是多年之久,宫门铜环才长了铁锈, 也开始生 ...
- 2019年底前的web前端面试题初级-web标准应付HR大多面试问题
作者 | Jeskson来源 | 达达前端小酒馆 问:你知道在css中,html的标签元素分多少中不同的类型吗? 答:大体可分三种:1,块状元素,2,内联元素,3,内联块状元素 块级元素:就是每个块级 ...
- vue bootstrap中modal对话框不显示遮挡打不开
使用Vue bootstrap时,点击modal却不能弹出来,被隐藏遮挡无法显示,参考下面的这个博客的说明解决了这个问题: Heap Stack Blog(pingbook.top)Vue boots ...
- 第10组 Beta冲刺(1/4)
队名:凹凸曼 组长博客 作业博客 组员实践情况 童景霖 过去两天完成了哪些任务 文字/口头描述 继续学习Android studio和Java 制作剩余界面前端 展示GitHub当日代码/文档签入记录 ...
- 牛逼哄哄的 Lambda 表达式,简洁优雅就是生产力!
阅读本文大概需要 4 分钟. 作者:Sevenvidia https://www.zhihu.com/question/20125256/answer/324121308 什么是Lambda? 我们知 ...