python爬虫---urllib库的基本用法

urllib是python自带的请求库，各种功能相比较之下也是比较完备的，urllib库包含了一下四个模块：

urllib.request 请求模块

urllib.error 异常处理模块

urllib.parse url解析模块

urllib.robotparse robots.txt解析模块

下面是一些urllib库的使用方法。

使用urllib.request

import urllib.request

response = urllib.request.urlopen('http://www.bnaidu.com')
print(response.read().decode('utf-8'))

使用read()方法打印网页的HTML，read出来的是字节流,需要decode一下

import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')

print(response.status) #打印状态码信息  其方法和response.getcode() 一样  都是打印当前response的状态码

print(response.getheaders()) #打印出响应的头部信息，内容有服务器类型，时间、文本内容、连接状态等等

print(response.getheader('Server'))  #这种拿到响应头的方式需要加上参数，指定你想要获取的头部中那一条数据

print(response.geturl())  #获取响应的url

print(response.read())#使用read()方法得到响应体内容，这时是一个字节流bytes，看到明文还需要decode为charset格式

为一个请求添加请求头，伪装为浏览器

1.在请求时就加上请求头参数

import urllib.request

import urllib.parse

url = 'http://httpbin.org/post'

header = {}

header['User-Agent'] = 'Mozilla/5.0 ' \

                          '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 ' \

                          '(KHTML, like Gecko) Version/5.1 Safari/534.50'

req = urllib.request.Request(url=url, headers=header)
res = urllib.request.urlopen(req)

Request是一个请求类，在构造时将headers以参数形式加入到请求中

2.使用动态追加headers的方法

若要使用动态追加的方法，必须实例化Request这个类

import urllib.request

import urllib.parse

url = 'http://httpbin.org/post'

req = urllib.request.Request(url=url)

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0')
res = urllib.request.urlopen(req)

使用代理：

ProxyHandler是urllib.request下的一个类，借助这个类可以构造代理请求

参数为一个dict形式的，key对应着类型，IP，端口

import urllib.request

proxy_handler = urllib.request.ProxyHandler({

    'http':'112.35.29.53:8088',

    'https':'165.227.169.12:80'

})

opener = urllib.request.build_opener(proxy_handler)

response = opener.open('http://www.baidu.com')
print(response.read())

urllib.parse的用法

import urllib.request

import urllib.parse

url = 'http://httpbin.org/post'

header = {}

header['User-Agent'] = 'Mozilla/5.0 ' \

                          '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 ' \

                          '(KHTML, like Gecko) Version/5.1 Safari/534.50'

data = {}

data['name'] = 'us'

data = urllib.parse.urlencode(data).encode('utf-8')

req = urllib.request.Request(url=url, data=data, headers=header, method='POST')

response = urllib.request.urlopen(req)

print(response.read().decode('utf-8'))

print(type(data))

urllib这个库很坑，建议直接弃用，上个月我用urllib写好的代码，现在运行起来各种问题

所以使用requests库吧，超简洁的语法方法。

python爬虫---urllib库的基本用法的更多相关文章

Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python爬虫 Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
对于python爬虫urllib库的一些理解（抽空更新）
urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urllib库中,所有和网 ...
python爬虫 urllib库基本使用
以下内容均为python3.6.*代码学习爬虫,首先有学会使用urllib库,这个库可以方便的使我们解析网页的内容,本篇讲一下它的基本用法解析网页 #导入urllib from urllib im ...
Python爬虫--Urllib库
Urllib库 Urllib是python内置的HTTP请求库,包括以下模块:urllib.request (请求模块).urllib.error( 异常处理模块).urllib.parse (url ...
Python爬虫urllib库的使用
urllib 在Python2中,有urllib和urllib2两个库实现请求发送,在Python3中,统一为urllib,是Python内置的HTTP请求库 request:最基本的HTTP请求模块 ...
python爬虫urllib库使用
urllib包括以下四个模块: 1.request:基本的HTTP请求模块,可以用来模拟发送请求.就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程. ...

随机推荐

【NOI 2016】优秀的拆分
Problem Description 如果一个字符串可以被拆分为 \(AABB\) 的形式,其中 \(A\) 和 \(B\) 是任意非空字符串,则我们称该字符串的这种拆分是优秀的. 例如,对于字符串 ...
Vim-编辑器之神
几点声明: 作者只是一位小小的 \(OIer\) ,并不会什么过于神仙的东西,我这篇文章只是帮助人入门的而已. 若有人在 OI-Wiki上见过了原文章,原作者是我 \(......\) ,真不是抄 \ ...
网络通信 & 初识socket
本节主要内容: 1.客户短\服务端架构 2.网络通信的流程 3.初识socket 一.客户端\服务端架构客户端\服务端架构: 即Client/Server (C/S) 结构,是大家熟知的软件系统体系 ...
转 class和struct最本质的区别
class和struct最本质的区别是class是引用类型,而struct是值类型,它们在内存中的分配情况有所区别. 什么是class? class(类)是面向对象编程的基本概念,是一种自定义数据结构 ...
python类与类的关系
类与类之间的关系(依赖关系,大象与冰箱是依赖关系) class DaXiang: def open(self, bx): # 这里是依赖关系. 想执行这个动作. 必须传递一个bx print(&quo ...
linux学习笔记--程序与进程管理
.工作管理 1.前台程序放后台程序命令后加 & 2.任务执行时将前台任务任务放到后台中并[暂停] ctr + z 3.jobs 观察后台工作状态及多少任务在执行,可以通过 help ...
力扣（LeetCode）7.整数反转
给出一个 32 位的有符号整数,你需要将这个整数中每位上的数字进行反转. 示例 1: 输入: 123 输出: 321 示例 2: 输入: -123 输出: -321 示例 3: 输入: 120 输出: ...
学习笔记6—pandas中ix,loc,iloc有什么区别？
直接看例子: >>> data = pd.Series(np.arange(10), index=[49,48,47,46,45, 1, 2, 3, 4, 5]) >>& ...
python 多进程和多线程
在计算大量数据时,可以使用多进程多线程机制来加速计算多进程 import multiprocessing import os def run_proc(name): print('Child pr ...
（转）c# 断言类
Assert 类使用 true/false 命题验证单元测试中的条件. 继承层次结构 System.Object Microsoft.VisualStudio.TestTools.UnitTesti ...

python爬虫---urllib库的基本用法

python爬虫---urllib库的基本用法的更多相关文章

随机推荐

热门专题