urllib2的基本使用

urlopen

  1 import urllib2

  2

  3 # 向指定的url发送请求，并返回服务器响应的类文件对象

  4 response = urllib2.urlopen("http://www.baidu.com/")

  5

  6 # 类文件对象支持文件的操作方法，如read()方法返回为字符串

  7 html = response.read()

  8

  9 print htm

上面代码就是打开百度主页的“查看源代码”的内容，还是比较简单的。

Request

在上个例子里，urlopen()的参数就是一个url地址；

但是如果需要执行更复杂的操作，比如增加HTTP报头，必须创建一个 Request 实例来作为urlopen()的参数；而需要访问的url地址则作为 Request 实例的参数。

  1 # -*- coding:utf-8 -*-

  2 import urllib2

  3

  4 url = "http://www.baidu.com/"

  5

  6 # url 作为Request()方法的一个参数，并构造一个Request对象

  7 request = urllib2.Request(url)

  8

  9 # Request对象作为urlopen()方法的参数，发给服务器响应

 10 response = urllib2.urlopen(request)

 11

 12 html = response.read()

 13

 14 print html

与上面的运行时一样的

新建Request实例，除了必须要有 url 参数之外，还可以设置另外两个参数：

data（默认空）：是伴随 url 提交的数据（比如要post的数据），同时 HTTP 请求将从 "GET"方式改为 "POST"方式。
headers（默认空）：是一个字典，包含了需要发送的HTTP报头的键值对。

User-Agent

爬虫需要伪装自己，伪装成公认的浏览器

  1 # -*- coding:utf-8 -*-

  2 import urllib2

  3

  4 url = "http://www.baidu.com/"

  5 headers = {"User-Agent" : "Mozilla/5.0(compatible;MSIE9.0;Windows NT6.1;Trident/5.0)"}

  6

  7

  8 # url和headers一起 作为Request()方法的参数，并构造一个Request对象

  9 request = urllib2.Request(url, headers=headers)

 10

 11 # Request对象作为urlopen()方法的参数，发给服务器响应

 12 response = urllib2.urlopen(request)

 13

 14 html = response.read()

 15

 16 print html

添加更多的Header信息

特定的header

  1 # -*- coding:utf-8 -*-

  2 import urllib2

  3

  4 url = "http://www.baidu.com/"

  5 headers = {"User-Agent" : "Mozilla/5.0(compatible;MSIE9.0;Windows NT6.1;Trident/5.0)"}

  6

  7

  8 # url和headers一起 作为Request()方法的参数，并构造一个Request对象

  9 request = urllib2.Request(url, headers=headers)

 10 # 调用Request.add_header(),添加或者修改特定的header

 11 request = add_header("Connectin", "keep-alive")

 12

 13 # Request对象作为urlopen()方法的参数，发给服务器响应

 14 response = urllib2.urlopen(request)

 15

 16 html = response.read()

 17

 18 print html

随机添加/修改User-Agent

 import urllib2

 import random

 url = "http://www.itcast.cn"

 ua_list = [

     "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",

     "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",

     "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",

     "Mozilla/5.0 (Macintosh; Intel Mac OS... "

 ]

 user_agent = random.choice(ua_list)

 request = urllib2.Request(url)

 #也可以通过调用Request.add_header() 添加/修改一个特定的header

 request.add_header("User-Agent", user_agent)

 # 第一个字母大写，后面的全部小写

 request.get_header("User-agent")

 response = urllib2.urlopen(request)

 html = response.read()

 print html

urllib2的基本使用的更多相关文章

【Python网络爬虫二】使用urllib2抓去网页内容
在Python中通过导入urllib2组件,来完成网页的抓取工作.在python3.x中被改为urllib.request. 爬取具体的过程类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求 ...
Python urllib2 调试
#!/usr/bin/env python # coding=utf-8 __author__ = 'zhaoyingnan' import urllib import urllib2 import ...
使用urllib2打开网页的三种方法
#coding:utf-8 import urllib2 import cookielib url="http://www.baidu.com" print '方法 1' resp ...
No module named 'urllib2'
import urllib2 response = urllib2.urlopen('http://www.baidu.com/') html = response.read() print html ...
Python自动化测试（九）urllib2 发送HTTP Request
urllib2 是Python自带的标准模块, 用来发送HTTP Request的. 类似于 .NET中的, HttpWebRequest类 urllib2 的优点 Python urllib2 ...
urllib2抓取HTML存入Excel
通过urllib2抓取HTML网页,然后过滤出包含特定字符的行,并写入Excel文件: # -*- coding: utf-8 -*- import sys #import urllib import ...
[Python] urllib2.HTTPError: HTTP Error 403: Forbidden
搬运自http://www.2cto.com/kf/201309/242273.html,感谢原作. 之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个UR ...
python urllib2 发起http请求post
使用urllib2发起post请求 def GetCsspToken(): data = json.dumps({"userName":"wenbin", &q ...
cookielib和urllib2模块相结合模拟网站登录
1.cookielib模块 cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.例如可以利用本模块的CookieJar类的对 ...
使用python标准库urllib2访问网页
#访问不需要登录的网页import urllib2target_page_url='http://10.224.110.118/myweb/view.jsp' f = urllib2.urlopen( ...

随机推荐

项目实战2.2—nginx 反向代理负载均衡、动静分离和缓存的实现
实验一:实现反向代理负载均衡且动静分离 1.环境准备: 机器名称 IP配置服务角色备注 nginx VIP:172.17.11.11 反向代理服务器开启代理功能设置监控,调度 rs01 RIP ...
Python-psutil模块
psutil 1.简单介绍 psutil是一个跨平台库(http://code.google.com/p/psutil/),能够轻松实现获取系统运行的进程和系统利用率(包括CPU.内存.磁盘.网络等) ...
Mac上配置不同版本的JDK
Mac上JDK的版本为1.8,编译AOSP时发现需要JDK 1.7.想找一种比较容易切换JDK版本的方式,经过一番Google发现Jenv比较合适. 安装Jenv至少有三种方式: - $ git cl ...
《天书夜读：从汇编语言到windows内核编程》三练习反汇编C语言程序
1) Debug版本算法反汇编,现有如下3×3矩阵相乘的程序: #define SIZE 3 int MyFunction(int a[SIZE][SIZE],int b[SIZE][SIZE],in ...
C语言实现快速排序法（分治法）
title: 快速排序法(quick sort) tags: 分治法(divide and conquer method) grammar_cjkRuby: true --- 算法原理分治法的基本思 ...
MySQL运维相关工具汇总（待补充）
1.orztop查看show full processlist http://hidba.org/?p=841 2.orzdba查看系统状态信息 http://code.taobao.org/p/or ...
platform 收集linux/windows操作系统信息
调用python的platform模块 #!/usr/bin/evn python #_*_ coding:utf-8 -*- import platform print "######## ...
安装VisualSVN Server时候，端口号冲突
今天在本机安装VisualSVN Server 时,发现https默认端口号:443被占用了, 于是到cmd下面执行 netstat -ano命令发现是pid:4276的进程在试用, 打开任务管理里一 ...
开源项目 easydownload
一个用于下载的 android library库, 源码支持多线程断点下载, 支持消息通知. 支持优先级下载. 支持暂停,继续,删除下载列表支持多服务器下载. 使用方式 compile 'co ...
Bitmap.Config 说明 ALPHA_8 ARGB_4444 ARGB_8888 RGB_565
这篇文章的目的是了解Bitmap.Config 你可以在使用这个方法的时候会遇到 Bitmap android.graphics.Bitmap.createBitmap(int width, int ...