urllib库

urllib库是python中的一个基本网络请求库。用于模拟浏览器的行为，向指定服务器发送请求，并接收返回的数据。

在python3中所有的网络请求相关函数都集中在urllib.request模块下面

urlopen函数

向服务器发起请求

urlopen函数的参数

url 目标地址
data 如果有这个参数，将变为post请求
返回值 http.client.HTTPResponse对象，其中含有下面几个方法：
- read(size) size为空则读取所有
- readline() 读取一行
- readlines() 读取多行
- getcode() 读取状态值
  
  基本的使用：

from urllib import request

res = request.urlopen("http://www.baidu.com")

print(res.read())

urlretrieve函数

这个函数可以方便的将网页的一个文件保存到本地。

urlretrieve函数的参数

url 目标地址
下载路径

基本使用

from urllib import request

request.urlretrieve("http://www.baidu.com","index.html") #下载百度首页到index.html

urlencode函数

用于完成url中中文以及特殊字符的编码和解码

基本使用：

from urllib import parse

params = {

    "name": "张三",

    "age": 14,

    "地址": "上海市海河大道1544弄3号楼302"

}

res = parse.urlencode(params)

print(res)

执行结果：

age=14&name=%E5%BC%A0%E4%B8%89&%E5%9C%B0%E5%9D%80=%E4%B8%8A%E6%B5%B7%E5%B8%82%E6%B5%B7%E6%B2%B3%E5%A4%A7%E9%81%931544%E5%BC%843%E5%8F%B7%E6%A5%BC302

在百度上搜索刘德华

from urllib import request

from urllib import parse

# request.urlopen("http://www.baidu.com/s/?wd=刘德华") #直接这样请求会报错

url = "http://www.baidu.com/s/?"

# 定义参数字典

params = {

    "wd": "刘德华"

}

# 参数转码

qs = parse.urlencode(params)

# url拼接

url += qs

# 发送请求

res = request.urlopen(url)

print(res.read())

parse_qs函数

将已经编码的url进行解码

基本使用

from urllib import parse

qs = "age=14&name=%E5%BC%A0%E4%B8%89&%E5%9C%B0%E5%9D%80=%E4%B8%8A%E6%B5%B7%E5%B8%82%E6%B5%B7%E6%B2%B3%E5%A4%A7%E9%81%931544%E5%BC%843%E5%8F%B7%E6%A5%BC302"

res = parse.parse_qs(qs)

print(res)

执行结果

{'name': ['张三'], 'age': ['14'], '地址': ['上海市海河大道1544弄3号楼302']}

urlparse 和 urlsplit函数

用于将url各个部分进行分割

基本使用

from urllib import parse

url = "http://www.baidu.com/s/?wd=python"

res = parse.urlsplit(url)

print(res)

res = parse.urlparse(url)

print(res)

执行结果：

SplitResult(scheme='http', netloc='www.baidu.com', path='/s/', query='wd=python', fragment='')

ParseResult(scheme='http', netloc='www.baidu.com', path='/s/', params='', query='wd=python', fragment='')

可以发现两个结果基本相同，唯一不同的是urlsplit()函数返回结果没有params属性

request.Request类

如果需要在请求中添加header信息，则必须用request.Request类实现

基本使用：

# 通过构造请求头 获取拉勾网的招聘信息

from urllib import request

from urllib import parse

url = "https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"

headers = {

    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',

    'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',

    "Cookie": "_ga=GA1.2.620765502.1560083999; _gid=GA1.2.758158058.1560083999; user_trace_token=20190609203959-b18d608c-8ab3-11e9-a228-5254005c3644; LGUID=20190609203959-b18d64d3-8ab3-11e9-a228-5254005c3644; index_location_city=%E5%85%A8%E5%9B%BD; JSESSIONID=ABAAABAAAIAACBI2C1935D6770E19BC5BE4390354414026; X_HTTP_TOKEN=b6c2ab256a325419948821065120ec66a55a5e4b49; _gat=1; LGSID=20190610090729-1e5547bf-8b1c-11e9-a22c-5254005c3644; PRE_UTM=; PRE_HOST=; PRE_SITE=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; LGRID=20190610090729-1e5549e6-8b1c-11e9-a22c-5254005c3644; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1560084000,1560090525,1560128850; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1560128850; TG-TRACK-CODE=index_search; SEARCH_ID=60cd24c737344a6f98c48dd4fc94c39c"

}

data = {

    "first": "true",

    "pn": 1,

    "kd": "python"

}

req = request.Request(url, headers=headers, data=(

    parse.urlencode(data)).encode("utf-8"), method="POST")

resp = request.urlopen(req)

print(resp.read().decode("utf-8"))

ProxyHandler代理

因为爬虫爬取信息频率过高，容易被服务器的检测机制通过ip地址判定为恶意访问，通过更换代理ip是预防这种情况的有效手段。

基本使用：

from urllib import request

# 不使用代理

req = request.Request("http://httpbin.org/ip")

resp = request.urlopen(req)

print(resp.read())

# 使用代理

# 1.构建handler

handler = request.ProxyHandler({"http": "175.23.43.193:8080"})

# 2.使用handler构建opener

opener = request.build_opener(handler)

# 3. 使用opener发送请求

resp = opener.open("http://httpbin.org/ip")

print(resp.read())

执行结果

b'{\n  "origin": "101.88.45.142, 101.88.45.142"\n}\n'

b'{\n  "origin": "175.23.43.193, 175.23.43.193"\n}\n'

小练习使用urllib登录人人网并访问个人主页

代码：

from urllib import request

from http.cookiejar import CookieJar

from urllib import parse

# 1.人人网登录

# 创建cookiejar对象

cookiejar = CookieJar()

# 创建httpcookieprocess对象

handler = request.HTTPCookieProcessor(cookiejar=cookiejar)

# 创建opener

opener = request.build_opener(handler)

# 使用opener发送登录请求，需要传递用户名和密码

headers = {

    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"

}

data = {

    "email": "970138074@qq.com",

    "password": "pythonspider"

}

data = parse.urlencode(data)

url = "http://www.renren.com/PLogin.do"

req = request.Request(url, data=data.encode("utf-8"), headers=headers)

opener.open(req)

# 2.访问个人主页

dapeng_url = "http://www.renren.com/880151247/profile"

resp = opener.open(dapeng_url)

res = resp.read().decode("utf-8")

with open("renren.html", "w") as f:

    f.write(res)

通过opener携带cookie

cookiejar.save() 保存cookie 到本地以及从本地加载cookie

# 保存cookie到本地

cookiejar = MozillaCookieJar('cookie.txt')

handler = request.HTTPCookieProcessor(cookiejar)

opener = request.build_opener(handler)

resp = opener.open("http://httpbin.org/cookies/set?corse=python")

cookiejar.save(ignore_discard=True)  # 该参数设置保存即将过期的cookie

# 加载本地的cookie

cookiejar = MozillaCookieJar('cookie.txt')

cookiejar.load(ignore_discard=True)

handler = request.HTTPCookieProcessor(cookiejar)

opener = request.build_opener(handler)

resp = opener.open("http://httpbin.org/cookies")

cookiejar.save(ignore_discard=True)  # 该参数设置保存即将过期的cookie

for cookie in cookiejar:

    print(cookie)

爬虫基础(1):urllib库的更多相关文章

爬虫基础之urllib库（代码演示）
# 自定义opener from urllib.request import ProxyHandler,build_opener from urllib.error import URLError ...
爬虫基础之urllib库
urllib库的基本使用 urlopen() # 导入urllib库 import urllib # 往指定url发送请求,返回一个响应对象 response = urllib.request.url ...
第三百三十六节，web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块 ...
第三百二十七节，web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求
第三百二十七节,web爬虫讲解2—urllib库爬虫利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode(& ...
python 3.x 爬虫基础---常用第三方库（requests，BeautifulSoup4，selenium，lxml ）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
第三百二十九节，web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
第三百二十九节,web爬虫讲解2—urllib库爬虫—ip代理使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener ...
第三百二十八节，web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理
第三百二十八节,web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术.设置用户代理如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执 ...
爬虫入门之urllib库详解(二)
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...

随机推荐

iOS 开发实践之 Auto Layout
原:http://xuexuefeng.com/autolayout/?utm_source=tuicool 本文是博主 iOS 开发实践系列中的一篇,主要讲述 iOS 中 Auto Layout(自 ...
LightOJ - 1151 Snakes and Ladders —— 期望、高斯消元法
题目链接:https://vjudge.net/problem/LightOJ-1151 1151 - Snakes and Ladders PDF (English) Statistics F ...
html(HyperText Markup Language)--超文本标记语言
1.html的简介? * 什么是html? ** HyperText Markup Language:超文本标记语言,网页语言 ** 超文本:超出文本的范畴,使用html可以轻松实现这样操作: ** ...
vsftpd虚拟用户【公司系统部分享】
一,安装相关工具包 #yum -y install pam vsftpd db4 db4-utils -- pam 是用来提供身份验证的 -- vsftpd 是ftp服务的主程序 -- db4支持文件 ...
破解 Navicat Premium 12
一.下载若文件百度云链接失效,请发邮件给博主:1766211120@qq.com 1.安装文件下载 v12.0.11(x64)版本下载地址如下链接:https://pan.baidu.com/s/ ...
Workerman安装流程
第一步检测安装环境 curl -Ss http://www.workerman.net/check.php | php 操作结果显示报错了需要找到php.ini文件解决办法如下: 打开 php ...
linux ssh 命令使用解析
前一阵远程维护Linux服务器,使用的是SSH,传说中的secure shell. 登陆:ssh [hostname] -u user 输入密码:***** 登陆以后就可以像控制自己的机器一样控制它 ...
《HTTP2基础教程》笔记
<HTTP2基础教程>笔记 HTTP/1问题队头阻塞低效TCP 慢启动拥塞避免阶段臃肿头部受限的优先级高优先级无法插队第三方资源 h2也无法很好解决 web性能优化 DNS查 ...
微信小程序再次升级：卖货小店小程序不用开发也能进行交易
卖货小店小程序,不用开发一行代码也能帮商家实现交易功能,这个真是几家欢喜几家愁啊,对于开发小程序商城的公司来说,这个无疑是一个雷霆之际,第一反应就是,这下完了,小程序自身就支持交易,那还要我们这些第三 ...
【转】Pro Android学习笔记（二）：开发环境：基础概念、连接真实设备、生命周期
在Android学习笔记(二):安装环境中已经有相应的内容.看看何为新.这是在source网站上的Android架构图,和标准图没有区别,只是这张图颜色好看多了,录之.本笔记主要讲述Android开发 ...

爬虫基础(1):urllib库

urllib库

urlopen函数

urlretrieve函数

urlencode函数

parse_qs函数

urlparse 和 urlsplit函数

request.Request类

ProxyHandler代理

小练习 使用urllib登录人人网并访问个人主页

cookiejar.save() 保存cookie 到本地以及从本地加载cookie

爬虫基础(1):urllib库的更多相关文章

随机推荐

热门专题

小练习使用urllib登录人人网并访问个人主页