Python3网络爬虫（3）：使用User Agent和代理IP隐藏身份

Python版本：　python3

IDE:　　　　　 pycharm2017.3.3

一、为何要设置User Agent

　　有一些网站不喜欢被爬虫访问，所以会检测对象，如果是爬虫程序，他就会不让你访问，通过设置User Agent来达到隐藏身份的目的，User Agent的中文名为用户代理，简称UA

　　User Agent存放于Headers中，服务器就是通过查看Headers中的User Agent来判断是谁在访问。在python中如果不设置User Agent，程序将会私用默认的参数，那么这个User Agent就会有Python字样，防爬网站就会不让你访问

　　Python允许我们修改这个User Agent来模拟浏览器访问

二、常见的User Agent

1.Android

Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19
Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30
Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

2.Firefox

Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0
Mozilla/5.0 (Android; Mobile; rv:14.0) Gecko/14.0 Firefox/14.0

3.Google Chrome

Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36
Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19

4.iOS

Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3
Mozilla/5.0 (iPod; U; CPU like Mac OS X; en) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/3A101a Safari/419.3

这些User Agent，直接copy就能用

三、设置User Agent的方法

　　方法一：

　　　　使用上面Android的第一个User Agent，创建request对象的时候传入headers参数，代码如下

 from urllib import request

 url = "http://www.csdn.net/"

 head = {}

 #写入User Agent信息

 head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19'

 #创建Request对象

 req = request.Request(url, headers=head)

 #传入创建好的Request对象

 response = request.urlopen(req)

 #读取响应信息并解码

 html = response.read().decode('utf-8')

 #打印信息

 print(html)

结果如下

方法二：

　　使用上面Android的第一个User Agent，在创建Request对象时不传入headers参数，创建之后使用add_header()方法，添加headers，代码如下

from urllib import request

url = 'http://www.csdn.net/'

#创建request对象

req = request.Request(url)

#传入headers

req.add_header('User-Agent', 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19')

#传入创建好的Request对象

response = request.urlopen(req)

#读取响应信息并解码

html = response.read().decode('utf-8')

print(html)

运行结果与上一个相同

四、IP代理的使用（实测并不好使）

　　1.为何使用IP代理

　　　　程序的运行速度是很快的，如果我们利用一个爬虫程序在网站爬取东西，一个固定IP的访问频率就会很高，这不符合人为操作的标准，因为人操作不可能在几毫秒内，进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值，如果一个IP访问超过这个阈值，说明这个不是人在访问，而是一个爬虫程序

　　2.步骤

　　　　（1）调用urllib.request.ProxyHandler(),proxies参数为一个字典

　　　　（2）创建Opener（类似于urlopen，这个代开方式使我们自己定制的）

　　　　（3）安装Opener

　　3.代理IP选取

　　　　西刺代理IP从中选取一个　　111.155.116.249

　　4.代码如下

 from urllib import request

 if __name__ == "__main__":

     #访问网址

     url = 'http://www.whatismyip.com.tw/'

     #这是代理IP

     proxy = {'http': '60.184.175.145'}

     #创建ProxyHandler

     proxy_support = request.ProxyHandler(proxy)

     #创建Opener

     opener = request.build_opener(proxy_support)

     #添加User Angent

     opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19')]

     #安装OPener

     request.install_opener(opener)

     #使用自己安装好的Opener

     response = request.urlopen(url)

     #读取相应信息并解码

     html = response.read().decode("utf-8")

     #打印信息

     print(html)

Python3网络爬虫（3）：使用User Agent和代理IP隐藏身份的更多相关文章

Python3网络爬虫(四)：使用User Agent和代理IP隐藏身份《转》
https://blog.csdn.net/c406495762/article/details/60137956 运行平台:Windows Python版本:Python3.x IDE:Sublim ...
使用User Agent和代理IP隐藏身份
一.为何要设置User Agent 有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的 ...
元类理解与元类编程《Python3网络爬虫开发》中第九章代理的使用代码Crawler中代码的理解
__new__与__init__的理解 __new__()方法是在创建实例之前被调用的,它的作用是创建一个实例,然后返回该实例对象,它是一个静态方法. __init__() 当实例被创建完成之后被调用 ...
Python3 网络爬虫（请求库的安装）
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...
崔庆才Python3网络爬虫开发实战电子版书籍分享
资料下载地址: 链接:https://pan.baidu.com/s/1WV-_XHZvYIedsC1GJ1hOtw 提取码:4o94 <崔庆才Python3网络爬虫开发实战>高清中文版P ...
《Python3 网络爬虫开发实战》开发环境配置过程中踩过的坑
<Python3 网络爬虫开发实战>学习资料:https://www.cnblogs.com/waiwai14/p/11698175.html 如何从墙内下载Android Studio: ...
《Python3 网络爬虫开发实战》学习资料
<Python3 网络爬虫开发实战> 学习资料百度网盘:https://pan.baidu.com/s/1PisddjC9e60TXlCFMgVjrQ
Python3网络爬虫开发实战PDF高清完整版免费下载|百度云盘
百度云盘:Python3网络爬虫开发实战高清完整版免费下载提取码:d03u 内容简介本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.req ...
转：【Python3网络爬虫开发实战】 requests基本用法
1. 准备工作在开始之前,请确保已经正确安装好了requests库.如果没有安装,可以参考1.2.1节安装. 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页,而 ...

随机推荐

浅谈传感器常用Delta-SigmaADC
过采样ADC,或噪声整形ADC,也叫Delta-Sigma ADC.名字很多,基本上都由求差电路,积分求和电路组成调制器,后续由数字滤波器获得Nbit数字输出.不管怎样,数学上的除法能够让你理解这类A ...
Artificial Intelligence Computing Conference（2018.09.12）
时间:2018.09.12地点:北京国际饭店会议中心
odoo订餐系统之订单设计
订餐系统的主要功能便是用户下单部分,这里我们分为表头mylunch_order和表体mylunch_order_line两张主要的数据表,表头主要记录订单的一些通用信息,比如下单的操作人员下单日期 ...
Luogu P3327 [SDOI2015]约数个数和
又是恶心的莫比乌斯反演,蒟蒻我又是一脸懵逼的被CXR dalao狂虐. 题目要求\(ans=\sum_{i=1}^n \sum_{j=1}^m d(ij)\),其中\(d(ij)\)表示数\(x\)的 ...
[Spark][Python]spark 从 avro 文件获取 Dataframe 的例子
[Spark][Python]spark 从 avro 文件获取 Dataframe 的例子从如下地址获取文件: https://github.com/databricks/spark-avro/r ...
【nodejs】让nodejs像后端mvc框架（asp.net mvc）一样处理请求--参数自动映射篇（6/8）
文章目录前情概要路由.action的扫描.发现.注册搞定之后,后来我发现在我们的action里面获取参数往往都是通过request对象来一个一个获取.同样的一行代码我们不厌其烦的重复写了无数次.遂 ...
手动编写的几个简单的puppet管理配置
puppet在自动化配置管理方面有很强大的优势,这里就不做过多介绍了,下面记录下几个简单的puppet管理配置: 一.首先在服务端和客户端安装puppet和facter 1)服务端安装Puppet ...
linux-RPM安装
vh可写可不写
Pair Work：电梯调度算法的实现和测试 by 12061171 and 12061168
结队成员简介: 成员:牛强,学号12061171:刘文乔,学号120611683 我们之所以结对编程以完成所给课设要求,是因为我们互相了解彼此,能够更好更快地完成.下图是我们合作编程时的留影: 牛强是 ...
读《移山之道——VSTS软件开发指南》
读<移山之道>这本书差不多用了一个星期的时间,感觉还是收获了一些知识的,以前只是会简单地编个小程序(虽然现在也是这样),但看过这本书之后我对软件开发这个概念的认识度有了从一片模糊到了解大体 ...

Python3网络爬虫（3）：使用User Agent和代理IP隐藏身份

Python3网络爬虫（3）：使用User Agent和代理IP隐藏身份的更多相关文章

随机推荐

热门专题