【Python】Python的urllib模、urllib2模块的网络下载文件
因为需要从一些下载一个页PDF文件。但是需要下载PDF有数百个文件,这是不可能用人工点击下载。只是Python有相关模块,所以写一个程序PDF文件下载,顺便熟悉Python的urllib模块和ulrllib2模块。
1、问题描写叙述
须要从http://www.cvpapers.com/cvpr2014.html上下载几百个论文的PDF文件,该网页例如以下图所看到的:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2d1YWloYWk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">
2、问题解决
通过结合Python的urllib模块和urllib2模块来实现自己主动下载。
代码例如以下:
test.py
#!/usr/bin/python
# -*- coding:utf-8 -*- import urllib #导入urllib模块
import urllib2 #导入urllib2模块
import re #导入正則表達式模块:re模块 def getPDFFromNet(inputURL):
req = urllib2.Request(inputURL)
f = urllib2.urlopen(req) #打开网页
localDir = 'E:\downloadPDF\\' #下载PDF文件须要存储在本地的文件夹
urlList = [] #用来存储提取的PDF下载的url的列表
for eachLine in f: #遍历网页的每一行
line = eachLine.strip() #去除行首位的空格。习惯性写法
if re.match('.*PDF.*', line): #去匹配含有“PDF”字符串的行。仅仅有这些行才有PDF下载地址
wordList = line.split('\"') #以"为分界。将该行分开,这样就将url地址单独分开了
for word in wordList: #遍历每一个字符串
if re.match('.*\.pdf$', word): #去匹配含有“.pdf”的字符串,仅仅有url中才有
urlList.append(word) #将提取的url存入列表
for everyURL in urlList: #遍历列表的每一项,即每一个PDF的url
wordItems = everyURL.split('/') #将url以/为界进行划分。为了提取该PDF文件名称
for item in wordItems: #遍历每一个字符串
if re.match('.*\.pdf$', item): #查找PDF的文件名称
PDFName = item #查找到PDF文件名称
localPDF = localDir + PDFName #将本地存储文件夹和须要提取的PDF文件名称进行连接
try:
urllib.urlretrieve(everyURL, localPDF) #依照url进行下载。并以其文件名称存储到本地文件夹
except Exception,e:
continue getPDFFromNet('http://www.cvpapers.com/cvpr2014.html')
注意:
(1)第1、6、8、23行分别多谢了一个“\”来进行转义。
(2)第27行的urlretrieve函数有3个參数:第一个參数就是目标url;第二个參数是保存的文件绝对路径(含文件名称),该函数的返回值是一个tuple(filename,header),当中的filename就是第二个參数filename。
假设urlretrieve仅提供1个參数,返回值的filename就是产生的暂时文件名称,函数运行完成后该暂时文件会被删除參数。第3个參数是一个回调函数,当连接上server、以及对应的数据块传输完成的时候会触发该回调。当中回调函数名称可随意,可是參数必须为三个。一般直接使用reporthook(block_read,block_size,total_size)定义回调函数。block_size是每次读取的数据块的大小。block_read是每次读取的数据块个数,taotal_size是一一共读取的数据量,单位是byte。
能够使用reporthook函数来显示读取进度。
假设想显示读取进度。则能够讲第三个參数加上。将上述程序第27行改为例如以下:
urllib.urlretrieve(everyURL, localPDF, reporthook=reporthook)
而reporthook回调函数的代码例如以下:
def reporthook(block_read,block_size,total_size):
if not block_read:
print "connection opened";
return
if total_size<0:
#unknown size
print "read %d blocks (%dbytes)" %(block_read,block_read*block_size);
else:
amount_read=block_read*block_size;
print 'Read %d blocks,or %d/%d' %(block_read,block_read*block_size,total_size);
综上所述。这就是一个简单的从网页抓取数据、下载文件的小程序。希望对正在学习Python的同学有帮助。谢谢!
【Python】Python的urllib模、urllib2模块的网络下载文件的更多相关文章
- Python的urllib和urllib2模块
Python的urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能.他们两个最显着的差异如下: urllib2可以接受一个Request对象,并以此可以来设置一个URL的h ...
- 用 requests 模块从 Web 下载文件
用 requests 模块从 Web 下载文件 requests 模块让你很容易从 Web 下载文件,不必担心一些复杂的问题,诸如网络错误.连接问题和数据压缩.requests 模块不是 Python ...
- Python urllib和urllib2模块学习(一)
(参考资料:现代魔法学院 http://www.nowamagic.net/academy/detail/1302803) Python标准库中有许多实用的工具类,但是在具体使用时,标准库文档上对使用 ...
- Python urllib和urllib2模块学习(二)
一.urllib其它函数 前面介绍了 urllib 模块,以及它常用的 urlopen() 和 urlretrieve()函数的使用介绍.当然 urllib 还有一些其它很有用的辅助方法,比如对 ur ...
- ┱Python中关于urllib和urllib2的问题
python3对urllib和urllib2进行了重构主要拆分成了:1.urllib.request 1.urllib.request.Request(url, data=None, headers= ...
- python之(urllib、urllib2、lxml、Selenium+PhantomJS)爬虫
一.最近在学习网络爬虫的东西,说实话,没有怎么写过爬虫,Java里面使用的爬虫也没有怎么用过.这里主要是学习Python的时候,了解到Python爬虫的强大,和代码的简介,这里会简单的从入门看是说起, ...
- python学习之----urllib与urllib2的区分
urllib 还是urllib2 ? 如果你用过Python 2.x 里的urllib2 库,可能会发现urllib2 与urllib 有些不同. 在Python 3.x 里,urllib2 改名为u ...
- Python urllib和urllib2模块学习(三)
build_opener()详解: 1.urllib2.urlopen()函数不支持验证.cookie或者其它HTTP高级功能,要支持这些功能,必须使用build_opener()函数创建自定这句话的 ...
- python mysql 简单总结(MySQLdb模块 需另外下载)
python 通过DB-API规范了它所支持的不同的数据库,使得不同的数据库可以使用统一的接口来访问和操作. 满足DB-API规范的的模块必须提供以下属性: 属性名 描述 apilevel DB-AP ...
随机推荐
- firefox os 2.0版模拟器QQ初体验
供firefox os 爱侣.firefox os 手机迟迟没有感到些许遗憾在中国上市会,但是,我们必须相信firefox os 登陆中国是迟早的事,腾讯QQ已经登陆firefox os 应用市场,今 ...
- HTML5 Storage API
原文:HTML5 Storage API Web Storage是HTML5引入的一个非常重要的功能,可以在客户端本地存储数据,类似HTML4的cookie,但可实现功能要比cookie强大的多. 在 ...
- C# The process cannot access the file because it is being used by another process
C# The process cannot access the file because it is being used by another process The process cann ...
- 【原创】ZOJ_1649 Rescue 解题报告
Rescue Time Limit: 2 Seconds Memory Limit: 65536 KB Angel was caught by the MOLIGPY! He was put ...
- MVC过滤器的详细讲解和示范样本
MVC共有4个过滤器:ActionFilter(方法过滤器),ResultFilter(结果过滤器.感觉是不是很好,所以称它为),AuthorizationFilter(授权过滤器).Exceptio ...
- CSDN-markdown编者LaTex数学公式
LaTex什么? LaTeX(LATEX.音译"拉太和")它是基于ΤΕΧ排版系统,莱斯利由美国计算机科学家·兰伯特(Leslie Lamport)于20纪80年代初期开发,利用这样 ...
- Nutch 二次开发parse纸
大约nutch基础知识可以参考lemo柱 nutch支持二次开发,为了满足搜索的准确性的问题,内容提取出来作为索引的内容,相应的是parse_text的数据.我使用的事nutch1.4 版本号,在cy ...
- 【OpenCV新手教程之十八】OpenCV仿射变换 & SURF特征点描写叙述合辑
本系列文章由@浅墨_毛星云 出品,转载请注明出处. 文章链接:http://blog.csdn.net/poem_qianmo/article/details/33320997 作者:毛星云(浅墨) ...
- 【转】C# string和StringBuilder的区别
主要的区别在于 stringbuilder相对于string,效率要高些,string会在每次改变的时候进行内存重新组合,而stringbuilder则不会从新组合,另外stringbuilder有a ...
- IE按F12,开发者工具已经在最低点,那么国家就不会出错
ie浏览器.按F12,开发工具将问世. 没有,试试下面的方法就可以解决: 开开发者工具图标,它会出来缩略图,于缩略图右键点-你可以最大限度地提高.然后选择IE8兼容模式可 版权声明:本文博主原创文章. ...