urllib 和urllib2 模块使用简例

一、最简单的使用

import urllib,urllib2

response = urllib2.urlopen("https://www.baidu.com")

print response.read()

二、构造Request对象

request = urllib2.Request("https://www.baidu.com")

response = urllib2.urlopen(request)

print response.read()

三、通过POST 、GET 方式请求

　　POST

values = {'username':'test','passwrod':''}

data = urllib.urlencode(values)

print data    # username=test&passwrod=123

request = urllib2.Request("https://www.baidu.com",data=data)

response = urllib2.urlopen(request)

print response.read()

　　GET

value = {}

value['username']='test'

value['password']=''

data = urllib.urlencode(value)

url = "https://www.baidu.com"+"?"+data

print url    #   https://www.baidu.com?username=test&password=123

request = urllib2.Request(url=url)

response = urllib2.urlopen(request)

print response.read()

四、quote，进行编码

a = '哈哈'

A = urllib.quote(a)

print A

B = urllib.unquote(A)

print B

　　urlencode在三中的 GET 部分已有样例

五、设置请求头 header

url = "https://www.baidu.com"

value = {"username":"test","password":""}

data = urllib.urlencode(value)

header = {

        "User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:50.0) Gecko/20100101 Firefox/50.0",

        "Referer":"http://tieba.baidu.com/f?kw=%E4%BF%9D%E5%AE%9A&ie=utf-8&pn=50"

    }

request = urllib2.Request(url=url,data=data,headers=header)

response = urllib2.urlopen(request)

print response.read()

urlopen是urllib2.OpenerDirector的一个实例，一个opener ,一个特殊的默认的opener.因此，这个opener并不能总是满足我们的需求，
这个时候，就需要我们自己构造自己的opener了。

源码摘录

_opener = None

def install_opener(opener):

    global _opener

    _opener = opener

# ————————————————————————————————————————————————

def urllopen():

    """..."""

    return opener.open(url, data, timeout)

六、设置代理

enable_proxy = True

proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})

null_proxy = urllib2.ProxyHandler({})

if enable_proxy:

    opener = urllib2.build_opener(proxy_handler) #创建一个opener对象

else:

    opener = urllib2.build_opener(null_proxy)

#

urllib2.install_opener(opener)  #全局应用该opener

request = urllib2.Request("https://www.baidu.com")

response = opener.open(request)

response = urllib2.urlopen(request)

#

print response.read()

七、操作cookie

import cookielib

#创建一个CookieJar实例来保存cookie

cookie = cookielib.CookieJar()

# 创建 Cookie 处理器

handler = urllib2.HTTPCookieProcessor(cookie)

#创建一个 opener

opener = urllib2.build_opener(handler)

# 用带有cookie 处理器的opener 来请求url

response = opener.open("https://www.baidu.com")

#

for item in cookie:

    print item     #<Cookie BIDUPSID=25441729620BF793C1BE08CA0B43C8D4 for .baidu.com/>

    print 'Name = '+item.name    #Name = BIDUPSID

    print 'Value = '+item.value    #Value = 25441729620BF793C1BE08CA0B43C8D4

八、保存cookie到文件

import cookielib

filename = "/home/an/savecookie.test"

#创建一个 MozillaCookieJar 对象来保存cookie ，稍后写入对象

cookie = cookielib.MozillaCookieJar(filename)

# 创建 cookie 处理器

handle = urllib2.HTTPCookieProcessor(cookie)

#构建 handler

opener = urllib2.build_opener(handle)

response  = opener.open("http://www.baidu.com")

#保存cookie到文件

cookie.save(ignore_discard=True,ignore_expires=True)

# ignore_discard 即使cookie被丢弃也保存下来。

# ignore_expires 如果该文件中的cookie已存在，那么就覆盖

九、从文件中取出cookie并使用

import cookielib

cookie = cookielib.MozillaCookieJar()

cookie.load("/home/an/savecookie.test",ignore_expires=True,ignore_discard=True)

handler = urllib2.HTTPCookieProcessor(cookie)

opener = urllib2.build_opener(handler)

request = urllib2.Request("http://www.baidu.com")

response = opener.open(request)

print response.read()

urllib 和urllib2 模块使用简例的更多相关文章

Python的urllib和urllib2模块
Python的urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能.他们两个最显着的差异如下: urllib2可以接受一个Request对象,并以此可以来设置一个URL的h ...
Python urllib和urllib2模块学习(二)
一.urllib其它函数前面介绍了 urllib 模块,以及它常用的 urlopen() 和 urlretrieve()函数的使用介绍.当然 urllib 还有一些其它很有用的辅助方法,比如对 ur ...
Python urllib和urllib2模块学习(一）
(参考资料:现代魔法学院 http://www.nowamagic.net/academy/detail/1302803) Python标准库中有许多实用的工具类,但是在具体使用时,标准库文档上对使用 ...
Python urllib和urllib2模块学习(三)
build_opener()详解: 1.urllib2.urlopen()函数不支持验证.cookie或者其它HTTP高级功能,要支持这些功能,必须使用build_opener()函数创建自定这句话的 ...
深入理解urllib、urllib2及requests
urllib and urllib2 区别 –博主提示:下面的是python2中的用法,python3需要做出相应修改. urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功 ...
理解urllib、urllib2及requests区别及运用
urllib and urllib2 区别 –博主提示:下面的是python2中的用法,python3需要做出相应修改. urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功 ...
urllib与urllib2的学习总结
先啰嗦一句,我使用的版本是python2.7,没有使用3.X的原因是我觉得2.7的扩展比较多,且较之前的版本变化不大,使用顺手.3.X简直就是革命性的变化,用的蹩手.3.x的版本urllib与urll ...
洗礼灵魂，修炼python（54）--爬虫篇—urllib2模块
urllib2 1.简介 urllib2模块定义的函数和类用来获取URL(主要是HTTP的),他提供一些复杂的接口用于处理: 基本认证,重定向,Cookies等.urllib2和urllib差不多,不 ...
关于urllib、urllib2爬虫伪装的总结
站在网站管理的角度,如果在同一时间段,大家全部利用爬虫程序对自己的网站进行爬取操作,那么这网站服务器能不能承受这种负荷?肯定不能啊,如果严重超负荷则会时服务器宕机(死机)的,对于一些商业型的网站,宕机 ...

随机推荐

VS2010编译和运行项目错误
打开工程提示如下: The 'Microsoft.Data.Entity.Design.BootstrapPackage.BootstrapPackage, Microsoft.Data.Entity ...
Dynamics CRM 2011 报表无法显示的问题总结
一.一般打开报表会出现:该报表无法显示.(reProcessingAborted)和由于运行Microsoft SQL Server Reporting Services 的服务器上没有安装 Micr ...
转-使用 CefSharp 在 C# App 中嵌入 Chrome 浏览器
使用 CefSharp 在 C# App 中嵌入 Chrome 浏览器 2016-09-23 分类:.NET开发.编程开发.首页精华0人评论分享到:更多3 本文由码农网 – 小峰原创翻译,转载 ...
Python 中的变量
Python采用基于值得内存管理模式,赋值语句的执行过程是:首先把等号右侧标识的表达式计算出来,然后在内存中找一个位置把值存放进去,最后创建变量并指向这个内存地址.Python中的变量并不直接存储值, ...
Mycat 数据库分库分表中间件
http://www.mycat.io/ Mycat 国内最活跃的.性能最好的开源数据库中间件! 我们致力于开发高性能的开源中间件而努力! 实体书Mycat权威指南 »开源投票支持Mycat下载 »s ...
laravel获取参数
测试url如下 http://127.0.0.1:8888/testApp/public/testInput?aaa=1&bbb=2 测试代码 Route::get('/testInput', ...
bzoj4693: 雪中送温暖
Description 每年的1月10日是温暖节,在这一天,化身出题人的C_SUNSHINE将会给OIer们送温暖.OIer们只要在门口放上一个仙人掌,就能在早上的某个时刻听到门外传来一声:“开门, ...
bzoj2048 书堆
Description Input 第一行正整数 N M Output 一行(有换行符),L,表示水平延伸最远的整数距离 (不大于答案的最大整数) 贪心地把最高的书尽量向右放可以得到最优解,因而最高的 ...
为什么 JVM 不用 JIT 全程编译
从知乎扣出来的内容 https://www.zhihu.com/question/37389356 作者:RednaxelaFX链接:https://www.zhihu.com/question/37 ...
Linux rpc 编程最简单实例
通过rpcgen的man手册看到此工具的作用是把RPC源程序编译成C语言源程序,从而轻松实现远程过程调用.1.下面的例子程序的作用是客户端程序(fedora Linux下)取中心服务器也是Linux上 ...

urllib 和urllib2 模块使用简例

urllib 和urllib2 模块使用简例的更多相关文章

随机推荐

热门专题