python爬虫User Agent用户代理
UserAgent简介
UserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑访问是不一样的,这些是谷歌根据访问者的UA来判断的。UA可以进行伪装。
浏览器的UA字串的标准格式:浏览器标识(操作系统标识;加密等级标识;浏览器语言)渲染引擎标识版本信息。但各个浏览器有所不同。
我们在做爬虫的时候,不是通过浏览器正常访问,所以会被很多网站禁止访问,这个时候我们就需要手动在headers里加上UA属性,来伪装成浏览器进行访问。
常见的UserAgent值
1.
PC端:
safari5.
1
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;U;IntelMacOSX10_6_8;en
-
us)AppleWebKit
/
534.50
(KHTML,likeGecko)Version
/
5.1Safari
/
534.50
safari5.
1
–Windows
User
-
Agent:Mozilla
/
5.0
(Windows;U;WindowsNT6.
1
;en
-
us)AppleWebKit
/
534.50
(KHTML,likeGecko)Version
/
5.1Safari
/
534.50
IE9.
0
User
-
Agent:Mozilla
/
5.0
(compatible;MSIE9.
0
;WindowsNT6.
1
;Trident
/
5.0
;
IE8.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE8.
0
;WindowsNT6.
0
;Trident
/
4.0
)
IE7.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT6.
0
)
IE6.
0
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE6.
0
;WindowsNT5.
1
)
Firefox4.
0.1
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;IntelMacOSX10.
6
;rv:
2.0
.
1
)Gecko
/
20100101Firefox
/
4.0
.
1
Firefox4.
0.1
–Windows
User
-
Agent:Mozilla
/
5.0
(WindowsNT6.
1
;rv:
2.0
.
1
)Gecko
/
20100101Firefox
/
4.0
.
1
Opera11.
11
–MAC
User
-
Agent:Opera
/
9.80
(Macintosh;IntelMacOSX10.
6.8
;U;en)Presto
/
2.8
.
131Version
/
11.11
Opera11.
11
–Windows
User
-
Agent:Opera
/
9.80
(WindowsNT6.
1
;U;en)Presto
/
2.8
.
131Version
/
11.11
Chrome17.
0
–MAC
User
-
Agent:Mozilla
/
5.0
(Macintosh;IntelMacOSX10_7_0)AppleWebKit
/
535.11
(KHTML,likeGecko)Chrome
/
17.0
.
963.56Safari
/
535.11
傲游(Maxthon)
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;Maxthon2.
0
)
腾讯TT
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;TencentTraveler4.
0
)
世界之窗(TheWorld)
2.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
)
世界之窗(TheWorld)
3.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;TheWorld)
搜狗浏览器
1.x
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;Trident
/
4.0
;SE2.XMetaSr1.
0
;SE2.XMetaSr1.
0
;.NETCLR2.
0.50727
;SE2.XMetaSr1.
0
)
360
浏览器
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;
360SE
)
Avant
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
;AvantBrowser)
GreenBrowser
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE7.
0
;WindowsNT5.
1
)
2
、移动设备端:
safariiOS4.
33
–iPhone
User
-
Agent:Mozilla
/
5.0
(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
safariiOS4.
33
–iPodTouch
User
-
Agent:Mozilla
/
5.0
(iPod;U;CPUiPhoneOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
safariiOS4.
33
–iPad
User
-
Agent:Mozilla
/
5.0
(iPad;U;CPUOS4_3_3likeMacOSX;en
-
us)AppleWebKit
/
533.17
.
9
(KHTML,likeGecko)Version
/
5.0
.
2Mobile
/
8J2Safari
/
6533.18
.
5
AndroidN1
User
-
Agent:Mozilla
/
5.0
(Linux;U;Android2.
3.7
;en
-
us;NexusOneBuild
/
FRF91)AppleWebKit
/
533.1
(KHTML,likeGecko)Version
/
4.0MobileSafari
/
533.1
AndroidQQ浏览器Forandroid
User
-
Agent:MQQBrowser
/
26Mozilla
/
5.0
(Linux;U;Android2.
3.7
;zh
-
cn;MB200Build
/
GRJ22;CyanogenMod
-
7
)AppleWebKit
/
533.1
(KHTML,likeGecko)Version
/
4.0MobileSafari
/
533.1
AndroidOperaMobile
User
-
Agent:Opera
/
9.80
(Android2.
3.4
;Linux;OperaMobi
/
build
-
1107180945
;U;en
-
GB)Presto
/
2.8
.
149Version
/
11.10
AndroidPadMotoXoom
User
-
Agent:Mozilla
/
5.0
(Linux;U;Android3.
0
;en
-
us;XoomBuild
/
HRI39)AppleWebKit
/
534.13
(KHTML,likeGecko)Version
/
4.0Safari
/
534.13
BlackBerry
User
-
Agent:Mozilla
/
5.0
(BlackBerry;U;BlackBerry9800;en)AppleWebKit
/
534.1
+
(KHTML,likeGecko)Version
/
6.0
.
0.337MobileSafari
/
534.1
+
WebOSHPTouchpad
User
-
Agent:Mozilla
/
5.0
(hp
-
tablet;Linux;hpwOS
/
3.0
.
0
;U;en
-
US)AppleWebKit
/
534.6
(KHTML,likeGecko)wOSBrowser
/
233.70Safari
/
534.6TouchPad
/
1.0
NokiaN97
User
-
Agent:Mozilla
/
5.0
(SymbianOS
/
9.4
;Series60
/
5.0NokiaN97
-
1
/
20.0
.
019
;Profile
/
MIDP
-
2.1Configuration
/
CLDC
-
1.1
)AppleWebKit
/
525
(KHTML,likeGecko)BrowserNG
/
7.1
.
18124
WindowsPhoneMango
User
-
Agent:Mozilla
/
5.0
(compatible;MSIE9.
0
;WindowsPhoneOS7.
5
;Trident
/
5.0
;IEMobile
/
9.0
;HTC;Titan)
UC无
User
-
Agent:UCWEB7.
0.2
.
37
/
28
/
999
UC标准
User
-
Agent:NOKIA5700
/
UCWEB7.
0.2
.
37
/
28
/
999
UCOpenwave
User
-
Agent:Openwave
/
UCWEB7.
0.2
.
37
/
28
/
999
UCOpera
User
-
Agent:Mozilla
/
4.0
(compatible;MSIE6.
0
;)Opera
/
UCWEB7.
0.2
.
37
/
28
/
999
我们用的时候直接复制即可,放到headers里的对应User-Agent参数
UserAgent的两种添加方法
1 直接定义一个headers字典,然后传递给Request类来实例化一个对象,然后在传给urlopen,格式如下:
1
2
3
4
5
6
7
8
9
10
|
from urllib import request url = 'http://baidu.com' headers = { 'User-Agent' : 'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5' } req = request.Request(url,headers = headers) response = request.urlopen(req) print (response.read().decode()) |
2.使用add_header()方法
1
2
3
4
5
6
7
8
9
|
from urllib import request url = 'http://baidu.com' req = request.Request(url) req.add_header( 'User-Agent' , 'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5' ) response = request.urlopen(req) print (response.read().decode()) |
python爬虫User Agent用户代理的更多相关文章
- python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
- Python 爬虫的工具列表 附Github代码下载链接
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
- Python 爬虫的工具列表大全
Python 爬虫的工具列表大全 这个列表包含与网页抓取和数据处理的Python库.网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pyc ...
- Python 爬虫入门实战
1. 前言 首先自我介绍一下,我是一个做 Java 的开发人员,从今年下半年开始,一直在各大技术博客网站发表自己的一些技术文章,差不多有几个月了,之前在 cnblog 博客园加了网站统计代码,看到每天 ...
- Python 爬虫的工具列表
Python 爬虫的工具列表 这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycur ...
- Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口 相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
- 23个Python爬虫开源项目代码,让你一次学个够
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...
- Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
- Python爬虫开源项目代码,爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等 代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
随机推荐
- django+sqlite进行web开发(二)
模板 前面的例子中,我们是直接将HTML写在了Python代码中,这种写法并不可取.我们需要使用模板技术将页面设计和Python代码分离. 模板通常用于产生HTML,但是Django的模板也能产生任何 ...
- django 基础进 COOKIE
1 cookie session auth cookie概念:针对每一个服务器,保存在客户端浏览器的一个key-value结构数据,可以理解成一个字典结构 cookie语法: ...
- Java多线程编程核心技术-第4章-Lock的使用-读书笔记
第 4 章 Lock 的使用 本章主要内容 ReentrantLocal 类的使用. ReentrantReadWriteLock 类的使用. 4.1 使用 ReentrantLock 类 在 Jav ...
- Educational Codeforces Round 78 (Rated for Div. 2) C. Berry Jam
链接: https://codeforces.com/contest/1278/problem/C 题意: Karlsson has recently discovered a huge stock ...
- 37 树莓派识别opencv-dnn
https://heartbeat.fritz.ai/real-time-object-detection-on-raspberry-pi-using-opencv-dnn-98827255fa60 ...
- Echarts在同一网页按顺序展示多图
Echarts Page:同一网页按顺序展示多图 from pyecharts import Page page = Page("") page.add(pie).add(frie ...
- md5-js加密
JS-MD5加密/html页面使用 大家都知道,传输明文信息很不安全,尤其像密码.卡号等这些敏感私密的信息,更不能暴露出去.在这里给大家介绍一种在前端JS中的MD5加密算法(因为要匹配的后台数据是MD ...
- 洛谷 P1801 黑匣子_NOI导刊2010提高(06) 题解
昨晚恶补了一下二叉堆的内容 然后就找了几个二叉堆的题来做awa 然后发现用二叉堆做这题复杂度是O(nlogn) 但是有O(n)的解法 (某大佬这么说) 思路大概就是: 利用一个大根堆一个小根堆来维护第 ...
- nodejs内存溢出 FATAL ERROR: CALL_AND_RETRY_0 Allocation failed – process out of memory
spa项目整体迁移转为ssr后,改动之后部署一切还好,就是突然有一天访问人数太多,node进程很容易就挂了自动重启. 最后经过压力测试,考虑到是堆内存溢出的问题,就报错误:FATAL ERROR: C ...
- Windows下ActiveMq安装与使用
一.activeMq安装与启动 Apache Active MQ的官网 :http://activemq.apache.org/ 下载地址: http://activemq.apache.org/ac ...