python多媒体文件抽取

多文件抽取有：只获取url，或直接下载，下面是怎么将数据下载下来，并显示进度。

本节主要介绍urllib模块提供的urlretrieve()函数。urlretrieve()方法直接将远程数据下载到本地，函数模型：

urlretrieve(url, filename-None, reporthook=None, data=None)
- 参数filename指定了存储的本地路径
- 参数reporthook是一个回调函数。当连接上服务器以及相应的数据块传输完毕时会触发该回调函数，我们可以利用这个回调函数来显示当前进度。
- 参数data指的是post到服务器的数据，该方法返回一个包含两个元素的（filename，headers）元组，filename表示保存本地的路径，header表示服务器响应头

下面举例代码

#coding:utf-8

import urllib

from lxml import etree

import requests

def Schedule(blocknum,blocksize,totalsize):

    '''''

    blocknum:已经下载的数据块

    blocksize:数据块的大小

    totalsize:远程文件的大小

    '''

    per = 100.0 * blocknum * blocksize / totalsize

    if per > 100 :

        per = 100

    print '当前下载进度：%d'%per

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

headers={'User-Agent':user_agent}

r = requests.get('http://www.ivsky.com/tupian/ziranfengguang/',headers=headers)

#使用lxml解析网页

html = etree.HTML(r.text)

img_urls = html.xpath('.//img/@src')#先找到所有的img

i=0

for img_url in img_urls:

    urllib.urlretrieve(img_url,'img'+str(i)+'.jpg',Schedule)

    i+=1

Schedule函数包含3个参数： blocknum:已经下载的数据块， blocksize:数据块的大小， totalsize:远程文件的大小

python多媒体文件抽取的更多相关文章

python网络爬虫（8）多媒体文件抽取
目的批量下载网页图片导入库 urllib中的request中的urlretrieve方法,可以下载图片 lxml用于解析网页 requests用于获取网站信息 import urllib from ...
Python虚拟机之for循环控制流（二）
Python虚拟机中的for循环控制流在Python虚拟机之if控制流(一)这一章中,我们了解if控制流的字节码实现,在if控制结构中,虽然Python虚拟机会在不同的分支摇摆,但大体还是向前执行, ...
《python解释器源码剖析》第11章--python虚拟机中的控制流
11.0 序在上一章中,我们剖析了python虚拟机中的一般表达式的实现.在剖析一遍表达式是我们的流程都是从上往下顺序执行的,在执行的过程中没有任何变化.但是显然这是不够的,因为怎么能没有流程控制呢 ...
小白数据分析——Python职位全链路分析
最近在做Python职位分析的项目,做这件事的背景是因为接触Python这么久,还没有对Python职位有一个全貌的了解.所以想通过本次分析了解Python相关的职位有哪些.在不同城市的需求量有何差异 ...
Caffe 抽取CNN网络特征 Python
Caffe Python特征抽取转载请注明出处,楼燚(yì)航的blog,http://www.cnblogs.com/louyihang-loves-baiyan/ Caffe大家一般用到的深度学 ...
随手小代码——Python 从集合中随机抽取元素
=================================版权声明================================= 版权声明:原创文章谢绝转载请通过右侧公告中的“联系邮 ...
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext. ...
借助python工具从word文件中抽取相关表的定义，最后组装建表语句-非常好
借助python工具从word文件中抽取表的定义,最后组装建表语句-非常好 --如有转载请以超链接的方式注明原文章出处,谢谢大家.请尊重每一位乐于分享的原创者 1.python脚本 ## -*- co ...
Python with语句和__enter__、__exit__过程抽取思想
with语句的应用场景编程中有很多操作都是配套使用的,这种配套的流程可以称为计算过程,Python语言为这种计算过程专门设计了一种结构:with语句.比如文件处理就是这类计算过程的典型代表. 使 ...

随机推荐

unsigned char数组赋值
memset(send_buf, 0, SEND_BUFF_LEN); const char * pStr = "this is test txt"; strcpy((char*) ...
Echarts 饼状图字体重叠问题
原理:设置最小扇形的大小,把他撑起来在 series 里使用 minAngle: 38, //最小的扇区角度(0 ~ 360),用于防止某个值过小导致扇区太小影响交互角度自己调好就可以了个人笔 ...
ip 转发（调度器的路由转发）
临时开启 [root@proxy ~]# echo > /proc/sys/net/ipv4/ip_forward 永久开启 [root@proxy ~]# vim /etc/sysctl.co ...
TensorFlow2.0提示Cannot find reference 'keras' in __init__.py
使用TensorFlow2.0导入from tensorflow.keras import layers会出现Cannot find reference 'keras' in __init__.py提 ...
java-并发编程之fork/join框架
Fork/Join框架是Java 7提供的一个用于并行执行任务的框架,是一个把大任务分割成若干个小任务,最终汇总每个小任务结果后得到大任务结果的框架.Fork/Join框架要完成两件事情: 1.任务分 ...
博弈dp入门 POJ - 1678 HDU - 4597
本来博弈还没怎么搞懂,又和dp搞上了,哇,这真是冰火两重天,爽哉妙哉. 我自己的理解就是,博弈dp有点像对抗搜索的意思,但并不是对抗搜索,因为它是像博弈一样,大多数以当前的操作者来dp,光想是想不通的 ...
RabbitMQ TTL、死信队列
TTL概念 TTL是Time To Live的缩写,也就是生存时间. RabbitMQ支持消息的过期时间,在消息发送时可以进行指定. RabbitMQ支持队列的过期时间,从消息入队列开始计算,只要超过 ...
JavaWeb_(Struts2框架)参数传递之接收参数与传递参数
此系列博文基于同一个项目已上传至github 传送门 JavaWeb_(Struts2框架)Struts创建Action的三种方式传送门 JavaWeb_(Struts2框架)struts.xml核 ...
2016 ICPC 大连网络赛部分题解
先讲1007,有m个人,n种石头,将n种石头分给m个人,每两个人之间要么是朋友关系,要么是敌人关系,朋友的话他们必须有一种相同颜色的石头,敌人的话他们必须所有石头的颜色都不相同.另外,一个人可以不拥有 ...
[洛谷P3942]:将军令（贪心）
题目传送门题目背景历史/落在/赢家/之手至少/我们/拥有/传说谁说/败者/无法/不朽拳头/只能/让人/低头念头/却能/让人/抬头抬头/去看/去爱/去追你心中的梦题目描述又想起了四月.如果不是省 ...

python多媒体文件抽取

多文件抽取有：只获取url，或直接下载，下面是怎么将数据下载下来，并显示进度。

本节主要介绍urllib模块提供的urlretrieve()函数。urlretrieve()方法直接将远程数据下载到本地，函数模型：

下面举例代码

python多媒体文件抽取的更多相关文章

随机推荐

热门专题