urllib的使用和进阶—

　　urllib是python中常用的一个基本库，以后的许多库包括一些框架如Scrapy都是建立在这个库的基础上的。在urllib中，为用户提供了一系列用于操作URL的功能，其提供的功能主要就是利用程序去执行各种HTTP请求。这当中，最常使用的就是urllib.request模块中的urlopen。

　　如果要模拟浏览器完成特定功能，需要把请求伪装成浏览器。伪装的方法是先监控浏览器发出的请求，再根据浏览器的请求头来伪装，User-Agent头就是用来标识浏览器的。

　　官方给出的方法原型是这样的：

def urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,

            *, cafile=None, capath=None, cadefault=False, context=None):

　　一般常用的为以下三个部分：

　　url: 需要打开的网址

　　data：Post提交的数据

　　timeout：设置网站的访问超时时间

　　但是urlopen也有很大的缺陷，就是他没有办法进行对爬虫进行伪装，也就是无法设置请求头，这就需要urllib中的另外一个库——request，request库提供了对于请求头的使用，用来进行对爬虫的伪装，一般来说，我们会设置几个不同的Headers来进行伪装，用来改变为不同的用户（在自我学习阶段，这样可以使要求不严格的spider减少对ip的改变）。下面的代码基本实现了这种方式的基本操作，并且对于urlopen和request的常用的方法进行了罗列（以www.bing.com为例）。

 1 '''

 2 @Description: urllib 的使用和进阶

 3 @Version: 1.0

 4 @Autor: Montoin Yan

 5 @Date: 2020-02-01 17:55:43

 6 @LastEditors  : Montoin Yan

 7 @LastEditTime : 2020-02-01 19:46:27

 8 '''

 9

10 #导入urllib中的resqust模块，引用urlopen

11 #urlopen方法用于发送请求，并将请求到的结果储存在文件中。缺点是不能使用header的引用

12 #因此引用Request库进行请求头的引用，方便伪装来逃避反扒措施

13 from urllib.request import urlopen,Request

14 import random

15 #当查询到response中的type时，可以按照以下格式进行具体方法的查询

16 from http.client  import HTTPResponse

17

18 url = "http://www.bing.com"

19 #设置多个请求头，防止被反扒措施进行拦截

20 ua_list = [

21     "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0",

22     "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.29 Safari/537.36",

23     "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362",

24     "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400"

25 ]

26 #随机pick one

27 ua = random.choice(ua_list)

28 request = Request(url,headers={

29     'User-agent':ua

30 })

31 # response  = urlopen(url,timeout=3) #GET

32 response =  urlopen(request,timeout=3)

33

34 print(response.closed) #可以使用closed，说明是类文件对象，

35

36 with response:

37     print(type(response)) #检查response的对应的方法类型

38     print(response.status) #检查response的状态

39     print(response.reason) #检查返回结果是否成功

40     print(response._method) #检查当前所对应的传输方法 即GET或者POST

41     # print(response.info()) #获取Headers

42     # print(response.read()) #读取并打印获取到的文件的内容

43     print(response.geturl()) #返回网页执行真正的url，即当遇到301  302的时候，页面会从当前页面自动跳转到location页面，具体location地址可以在浏览器的开发者模式中进行查看urllib是支持自动跳转的

44

45 print(request.get_method()) #获取request中传输的方法，即GET或者POST

46 print(request.get_header("User-agent")) #获取当前使用的请求头

47 print(response.closed) #关闭成功，说明response支持上下文管理协议

　　结果如下所示，可进行参考：

urllib的使用和进阶——urllib.request的更多相关文章

爬虫新手学习2-爬虫进阶(urllib和urllib2 的区别、url转码、爬虫GET提交实例、批量爬取贴吧数据、fidder软件安装、有道翻译POST实例、豆瓣ajax数据获取)
1.urllib和urllib2区别实例 urllib和urllib2都是接受URL请求相关模块,但是提供了不同的功能,两个最显著的不同如下: urllib可以接受URL,不能创建设置headers的 ...
Jmeter性能测试之进阶Java request的使用
在IDE中引用Jmeter的安装目录lib/ext中两个文件ApacheJMeter_core.jar和ApacheJMeter_java.jar Java request的类需要继承Abstract ...
python中urllib, urllib2,urllib3, httplib,httplib2, request的区别
permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别若只使用python3.X, 下面可以不看了, 记住有个ur ...
Python Spider - urllib.request
import urllib.request import urllib.parse import json proxy_support = urllib.request.ProxyHandler({' ...
Python urllib Request 用法
转载自:https://blog.csdn.net/ywy0ywy/article/details/52733839 python2.7 httplib, urllib, urllib2, reque ...
爬虫之urllib.request基础使用（一）
urllib模块 urllib模块简介: urllib提供了一系列用于操作URL的功能.包含urllib.request,urllib.error,urllib.parse,urllib.robotp ...
Python 3.X 要使用urllib.request 来抓取网络资源。转
Python 3.X 要使用urllib.request 来抓取网络资源. 最简单的方式: #coding=utf-8 import urllib.request response = urllib. ...
urllib基本使用 urlopen(),Request
urllib包含的常用模块:import urllib.request # 打开和读取url请求import urllib.error # 异常处理模块import urllib.parse # ur ...
爬虫入门【1】urllib.request库用法简介
urlopen方法打开指定的URL urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, ca ...

随机推荐

摄像头 ISP 调试的入门之谈（经验总结）
在讲述本文之前,我尽量以一个什么也不清楚的初学到入门的用词来阐述什么是 ISP 调试,以及为什么需要调试. 如果你从来都没有接触过什么是摄像头 ISP 调试,我想这个文章可以给你一些启发和关键词. 因 ...
华为计算平台MDC810发布量产
华为计算平台MDC810发布量产塞力斯的发布会刚刚结束,会上塞力斯SF5自由远征版也确实让人眼前一亮. 全球首款4S级加速能力.1000+km续航新能源作为这款车的卖点. 续航1000+km成了最近 ...
CPU，GPU，GPGPU
CPU,GPU,GPGPU 1．基本概念 1.1 GPU 图形处理器(bai英语:Graphics Processing Unit,缩写:GPU),又称显示核心.视觉du处理器.zhi显示芯片,是一 ...
CVPR2020：三维点云无监督表示学习的全局局部双向推理
CVPR2020:三维点云无监督表示学习的全局局部双向推理 Global-Local Bidirectional Reasoning for Unsupervised Representation L ...
HTTP客户端连接，选择HttpClient还是OkHttp？
为什么会写这篇文章,起因于和朋友的聊天这又触及到我的知识盲区了,首先来一波面向百度学习,直接根据关键字httpclient和okhttp的区别.性能比较进行搜索,没有找到想要的答案,于是就去over ...
详解apollo的设计与使用
简介 apollo 是一款由携程团队开发的配置中心,可以实现配置的集中管理.分环境管理.即时生效等等.在这篇博客中,我们可以了解到: 为什么使用配置中心如何设计一个配置中心 apollo 是如何设计 ...
解决SpringMVC重复提交的问题
方法一:通过重定向采取请求转发的方式完成表单内容的添加会造成内容的重复插入.当向Servlet发送一条增加记录的请求后,servlet首先向数据库增加一条记录,然后又从数据库中查询出所有数据,接着转发 ...
复习Spring第一课--Spring的基本知识及使用
关于Spring: spring容器是Spring的核心,该容器负责管理spring中的java组件, ApplicationContext ctx = new ClassPathXmlApplic ...
ES7扩展
前一段时间小编一直在更新javascript es6版本的部分新语法和新特性,鉴于现在js一直在更新,接下来小编将和大家一起进步,一块探究js的新特性.今天小编就和大家一起来看看es7更新的语法和新特 ...
C++中指针与引用详解
在计算机存储数据时必须要知道三个基本要素:信息存储在何处?存储的值为多少?存储的值是什么类型?因此指针是表示信息在内存中存储地址的一类特殊变量,指针和其所指向的变量就像是一个硬币的两面.指针一直都是学 ...

urllib的使用和进阶——urllib.request

urllib的使用和进阶——urllib.request的更多相关文章

随机推荐

热门专题