爬虫基础之urllib库（代码演示）

# 自定义opener

from urllib.request import ProxyHandler,build_opener

from urllib.error import URLError

#设置代理

Proxy_Handler = ProxyHandler({

'http': 'http://127.o.o .1:9743',

'https': 'https://127.0 .0.1:9743'

})

opener = build_opener(Proxy_Handler)

try:

response = opener.open('http://www.baidu.com')

print(response.read().decode('utf-8'))

except URLError as e:

print(e.reason)

#获取cookie

import http.cookiejar,urllib.request

cookie = http.cookiejar.CookieJar()

handler = urllib.request.HTTPCookieProcessor(cookie)

opener = urllib.request.build_opener(handler)

response = opener.open('http://www.baidu.com')

for item in cookie:

print(item.name +'='+item.value)

#处理异常

URLError

from urllib import request,error

#打开一个不存在的网页

try:

respense = request.urlopen( 'https://cuiqingcai.com/index.htm')

except error.URLError as e:

print(e.reason)

#reason ：同父类一样，用于返回错误的原因

因为 URLError 是 HTTP Error 的父类，所以可以先选择捕获子类的错误，再去捕获父类的错误，所
以上述代码更好的写法如下：
from urllib import request, error
try:
response = request.urlopen(’ https://cuiqingcai.com/index.htm’)
except error.HTTPError as e:
print(e.reason, e.code, e.headers, sep=’\n’)
except error.URLError as e:
print(e . reason)
else:
print(’ Request Successfully')
这样就可以做到先捕获 HTTP Error ，获取它的错误状态码、原因、 headers 等信息。如果不是
HTTP Error 异常，就会捕获 URLError 异常，输出错误原因。最后，用 else 来处理正常的逻辑。这是一
个较好的异常处理写法。
有时候， reason 属性返回的不一定是字符串，也可能是一个对象。再看下面的实例：
import socket
import urllib.request
import urllib .error
try:
response = urllib.request.urlopen(’ https://WvM.baidu.com’, tim
except l」rllib . err口r.URLError as e:
print(type(e.reason))
if isinstance(e .reason, socket .tir陀out):
print(' TIME OUT')
这里我们直接设置超时时间来强制抛出 timeout 异常。
运行结果如下：
<class ’ socket .timeout ’>
TIME OUT
可以发现， reason 属性的结果是 socket.timeout 类。所以，这里我们可以用 is instance （）方法来
判断它的类型，作出更详细的异常判断。

#urlparse（）该函数实现url识别与分段

from urllib.parse import urlparse

res = urlparse('https://i.cnblogs.com/EditPosts.aspx?postid=9531564')

print(type(res), res)

结果：

<class 'urllib.parse.ParseResult'> ParseResult(scheme='https', netloc='i.cnblogs.com', path='/EditPosts.aspx', params='', query='postid=9531564', fragment='')

from urllib import parse

params = {

'name':'123',

'age':22

}

url = 'http://www.baidu.com?'

n_url = url + parse.urlencode(params)

print(n_url)

结果http://www.baidu.com?name=123&age=22

这个方法非常常用。有时为了更加方便地构造参数，我们会事先用字典来表示。要转化为 URL
的参数时，只需要调用该方法即可。

# quote()
该方法可以将内容转化为 URL 编码的格式。 URL 中带有中文参数时，有时可能会导致乱码的问
题，此时用这个方法可以将巾文字符转化为 URL 编码，示例如下：
from urllib.parse import quote
keyword ＝’壁纸’
url =’ https://www.baidu.com/s?wd=’+ quote(keyword)
print(url)
这里我们声明了一个中文的搜索文字，然后用 quote （）方法对其进行 URL 编码，最后得到的结果
如下：
https://www.baidu.com/s?wd＝%81%E7%BA%B8

#有了 quote （）方法，当然还有 unquote （）方法，它可以进行 URL 解码，示例如下：

from urllib.parse import unquote

url = 'http://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B'

print(unquote(url))

爬虫基础之urllib库（代码演示）的更多相关文章

爬虫基础(1):urllib库
urllib库 urllib库是python中的一个基本网络请求库.用于模拟浏览器的行为,向指定服务器发送请求,并接收返回的数据. 在python3中所有的网络请求相关函数都集中在urllib.req ...
爬虫基础之urllib库
urllib库的基本使用 urlopen() # 导入urllib库 import urllib # 往指定url发送请求,返回一个响应对象 response = urllib.request.url ...
第三百三十六节，web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块 ...
第三百二十七节，web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求
第三百二十七节,web爬虫讲解2—urllib库爬虫利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode(& ...
python 3.x 爬虫基础---常用第三方库（requests，BeautifulSoup4，selenium，lxml ）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
第三百二十九节，web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
第三百二十九节,web爬虫讲解2—urllib库爬虫—ip代理使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener ...
第三百二十八节，web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理
第三百二十八节,web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术.设置用户代理如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执 ...
爬虫入门之urllib库详解(二)
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...

随机推荐

linux常用命令 print格式输出
格式化输出命令 printf '输出类型输出格式' 输出内容输出类型: %ns 输出字符串,n是数字指代输出的几个字符 %ni 输出整数,n是数字指代输出几个数字 %m.nf 输出浮点数.m和n是 ...
Mysql基本操作命令【转载】
原文链接:http://www.cnblogs.com/rookie-c/p/6425039.html 创建数据库 CREATE DATABASE name; 显示所有数据库 SHOW DATABAS ...
python之路-----前端之html协议一
一.概述 1.1 什么是html语句? 超文本标记语言(Hypertext Markup Language,HTML)通过标签语言来标记要显示的网页中的各个部分.一套规则,浏览器认识的规则浏览器按顺 ...
页面中直接显示FTP中的图片
页面中直接显示FTP中的图片 FTP根目录下有一张图片,如下第一步: 通过如下格式,在浏览器上输入路径,确定可看到图片 ftp://root:root@127.0.0.1/111.png ftp:/ ...
BUG调试: Jump to the invalid address stated on the next line at 0x0: ???
gdb或者vlagrind报告: ==14569== Jump to the invalid address stated on the next line ==14569== at 0x0: ??? ...
vue 路由(1)
路由的使用 (5步) 1.首先安装路由 npm install vue-router2.引入 vue-router import VueRouter from 'vue-router' 3.使用 ...
介绍一下Spring Cloud简介
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智能路由,微代理,控制总线).分布式系统的协调导致了样板模式, 使用Spring Clo ...
HTML中data-* 属性
使用 data-* 属性来嵌入自定义数据: <ul><li data-animal-type="bird">Owl</li><li dat ...
使用kermit通过串口升级uboot
在开发板的启动选项中看到如下两行: 7: Load Boot Loader code then write to Flash via Serial. 9: Load Boot Loader code ...
初读"Thinking in Java"读书笔记之第八章 --- 多态
再论向上转型在某些方法中,仅接收基类作为参数,而不是特殊的导出类,会使得程序更容易扩展. 转机方法调用绑定前期绑定(编译期绑定):在编译期将一个方法调用和方法主体关联起来. 后期绑定(动态绑定或 ...

爬虫基础之urllib库（代码演示）

爬虫基础之urllib库（代码演示）的更多相关文章

随机推荐

热门专题