URL解析器urllib2

corolcorona 2024-09-25 00:00:07 原文

urllib2是Python的一个库（不用下载，安装，只需要使用时导入import urllib2）它提供了一系列用于操作URL的功能。

urlopen

urllib2.urlopen可以接受Request对象,urllib不能，本文采用urllib2

urllib2.urlopen(url, *data, *timeout)

urlopen方法是urllib2模块最常用的方法，用于访问发送某一请求。

可选参数timeout用于设置超时时间，以秒为单位。

在data为None时默认用GET方法:

response = urllib2.urlopen('http://www.baidu.com/')

html = response.read()

这样就获取了该网页的html

在data不为None时使用POST方法:

parmas = urllib2.urlencode({'spam':1,'eggs':2,'bacon':0})

parmas = urllib2.urlencode(values)

response=urllib2.urlopen("http://python.org/query",parmas)

html = response.read()

urlopen返回对象提供方法：

- read() , readline() ,readlines() , fileno() , close() ：这些方法的使用方式与文件对象完全一样

- info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的头信息

- getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到

- geturl()：返回请求的url

urlretrieve

urlretrieve方法将url定位到的html文件下载到你本地的硬盘中。如果不指定filename，则会存为临时文件。

urllib.urlretrieve(link,path)

urllib.urlcleanup()清除由于urllib.urlretrieve()所产生的缓存

URL解析器urllib2的更多相关文章

「Python 编程」编码实现网络请求库中的 URL 解析器
摘要:怎么写出更短的代码并不是这次要讨论的话题.今天我们来研究一下:运行代码的计算机是如何找到目标服务器的? 相信各位 Python 开发者都用过 Requests 库,有些朋友还用过 WebSock ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
rest-framework解析器,url控制，分页,响应器,渲染器,版本控制
解析器 1.json解析器发一个json格式的post请求.后台打印: request_data---> {'title': '北京折叠'} request.POST---> <Q ...
jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据.
Django框架深入了解_04(DRF之url控制、解析器、响应器、版本控制、分页)
一.url控制基本路由写法:最常用 from django.conf.urls import url from django.contrib import admin from app01 impo ...
DRF url控制解析器响应器版本控制分页（常规分页，偏移分页，cursor游标分页）
url控制第二种写法(只要继承了ViewSetMixin) url(r'^pub/$',views.Pub.as_view({'get':'list','post':'create'})), #获取 ...
5 解析器、url路由控制、分页、渲染器和版本
1 数据解析器 1 什么是解析器相当于request 中content-type 对方传什么类型的数据,我接受什么样的数据:怎样解析无论前面传的是什么数据,都可以解开例如:django不能解析j ...
restframework 解析器、渲染器、url控制组件
一.解析器解析器的作用就是服务端接收客户端传过来的数据,把数据解析成自己可以处理的数据.本质就是对请求体中的数据进行解析. 1.分类 from rest_framework.parsers impo ...
Python爬虫开发【第1篇】【beautifulSoup4解析器】
CSS 选择器:BeautifulSoup4 Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据. pip 安装:pip instal ...

随机推荐

前端资讯周报 2.27 - 3.5: 如何设计一个优秀的HTML接口，深入理解line-height
从本周起,每周一我都会分享上一周我订阅的技术站点中,和解决问题的过程中阅读到的值得分享的文章,或者视频教程,又或者图书. 个人认为国外的技术文章质量较高,而且发布的技术资讯也走在行业前沿,所以比较关注 ...
hadoop2.7.2完全分布式环境搭建
1.先使用groupadd hadoop 建立hadoop用户组 2.新建用户,useradd -d /usr/hadoop -g hadoop -m hadoop (新建用户hadoop指定用户 ...
Java面试05|MySQL及InnoDB引擎
1.InnoDB引擎索引 InnoDB支持的索引有以下几种: (1)哈希索引 (2)全文索引 (1)B+树索引又可以分为聚集索引与辅助索引索引的创建可以在CREATE TABLE语句中进行,也可以 ...
MacOS无法登录App Store修复
MacOS无法登录App Store修复 2017-03-10 21:13:39 by:SemiconductorKING 先上图: 惨红色的提示信息,把你拒之App Store门外,但是对之放弃. ...
深究WeixinJSBridge未定义之因
对于一个没有使用微信JS-SDK的网站来说,我们竟然收到了WeixinJSBridge is not defined 的报错: 去网上一搜,发现很多开发者都遇到类似的问题: 我的微信项目,没有用到微信 ...
2818: Gcd
2818: Gcd Time Limit: 10 Sec Memory Limit: 256 MBSubmit: 2170 Solved: 979[Submit][Status][Discuss] ...
本地化 NSLocal
本地化封装了关于语言,文化以及技术约定和规范的信息.用于提供于用户所处地域相关的定制化信息和首选项信息的设置.通过获取用户的本地化信息设置,我们可以为用户提供更加友好人性化的界面设置,包括更改更改应用 ...
PHP数据访问基础知识（20161028）
数据访问动态页面的特征:能够读取数据库,网页的内容都是从数据库读出来的,而不是写死的所有的程序归根结底都是对数据的增删改查如何用服务器的PHP来操作服务器的MySQL,Apache则是用来管理, ...
IDEA使用心得-----懒得截图了，但是大家应该看得懂
1.界面设置,有白色和黑色风格两种,我个人喜欢黑色风格,护眼最重要的是看着帅. 设置方法:FILE--Settings--Editor--Colors&Fonts--Scheme name ...
Boost库安装（实测vs2012）
1.下载boost库,我这边下载的是目前最新的:boost_1_63_0.7z 2.解压到本地目录:我这边是:D:\Program Files 3.cmd窗口,以管理员权限打开,执行D:\Progra ...