python中urllib的整理

本不想使用这个玩意，奈何看到很多地方使用，随手整理下

urllib模块提供的urlretrieve()函数，urlretrieve()方法直接将远程数据下载到本地

urlretrieve(url, filename=None, reporthook=None, data=None)。

参数filename指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据。）
参数reporthook是一个回调函数，当连接上服务器、以及相应的数据块传输完毕时会触发该回调，我们可以利用这个回调函数来显示当前的下载进度
参数data指post导服务器的数据，该方法返回一个包含两个元素的(filename, headers) 元组，filename 表示保存到本地的路径，header表示服务器的响应头

urlopen一般常用的有三个参数：

urllib.requeset.urlopen(url,data,timeout)

url: 需要打开的网址

data：Post提交的数据

timeout：设置网站的访问超时时间

urlopen返回对象提供一些基本方法（快速请求)

read() ：返回文本数据

readline()：返回一行

info()：表示远程服务器返回的头信息。

getcode()：返回Http状态码，如果是http请求，200表示请求成功完成;404表示网址未找到。

geturl()：返回请求的url。

直接用urllib.request模块的urlopen（）获取页面，req的数据格式为bytes类型，需要decode（）解码，转换成str类型

import urllib.request
import re
url = 'http://tieba.baidu.com/p/2460150866'
req=urllib.request.urlopen(url).read().decode()
r=re.findall(r'src="(.*?\.jpg)" pic_ext',req)
x=0
for i in r:
    local='F://python/'
    urllib.request.urlretrieve(i,local+ '%s.jpg' % x)
    x=x+1

浏览器的模拟（需要添加headers头信息，urlopen不支持，需要使用Request）

import urllib.request

url='http://www.baidu.com'

header={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36'}

request=urllib.request.Request(url,headers=header)

response=urllib.request.urlopen(request).read()

f=open('file1','wb')

f.write(response)

f.close()

python中urllib的整理的更多相关文章

python中urllib, urllib2,urllib3, httplib,httplib2, request的区别
permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别若只使用python3.X, 下面可以不看了, 记住有个ur ...
[转]Python中urllib与urllib2的区别与联系
引用文章1:http://my.oschina.net/u/558071/blog/144792 引用文章2:http://zhuoqiang.me/python-urllib2-usage.html ...
Python中常用技巧整理
Python中os.path的妙用 http://xpleaf.blog.51cto.com/9315560/1736956
python中 urllib, urllib2, httplib, httplib2 几个库的区别
转载摘要: 只用 python3, 只用 urllib 若只使用python3.X, 下面可以不看了, 记住有个urllib的库就行了 python2.X 有这些库名可用: urllib, urll ...
三十一、python中urllib和requests包详解
A.urllibimport urllibimport urllib.requestimport json '''1.loads,dumpsjson.loads():将字符串转化成python的基础数 ...
Python中urllib.urlencode中文字符的一个问题
Django项目在访问Restful service时调用urllib.urlencode编码中文字符串时碰到下面这个错误. v = quote_plus(str(v)) UnicodeEncodeE ...
python中常用函数整理
1.map map是python内置的高阶函数,它接收一个函数和一个列表,函数依次作用在列表的每个元素上,返回一个可迭代map对象. class map(object): ""&q ...
关于python中urllib.urlencode的时候出错：UnicodeEncodeError: ‘ascii’的记录
原文我参见了:http://hi.baidu.com/setcookie/item/ddc6b694b1f13435336eeb3c 为毛我要费事的写下了,就是为了让自己记录一下,下面的也是直接摘录过 ...
python中urllib和urllib2的简单用法
import urllib #引入urllib模块,这里用urllib2也可以 fpage = urllib.urlopen( url ) #打开网页:例如url=‘http://www.xxx.co ...

随机推荐

Django--models--多表操作
一创建模型实例:我们来假定下面这些概念,字段和关系作者模型:一个作者有姓名和年龄. 作者详细模型:把作者的详情放到详情表,包含生日,手机号,家庭住址等信息.作者详情模型和作者模型之间是一对一的关 ...
mysql 开发进阶篇系列 26 数据库RPM安装演示
一.概述上一章讲到了RPM安装后的文件目录,这章还是介绍下安装步骤.也便以后做参考吧. 1. 移出centos 7系统自带的mysql库 yum remove mysql-libs 2. 将下载的m ...
修改Spring Boot默认的上下文
前言默认情况下,Spring Boot使用的服务上下文为"/",我们可以通过"http://localhost:PORT/" 直接诶访问应用: 但是在生产环境 ...
从零开始学 Web 之移动Web（二）JD移动端网页，移动触屏事件
大家好,这里是「从零开始学 Web 系列教程」,并在下列地址同步更新...... github:https://github.com/Daotin/Web 微信公众号:Web前端之巅博客园:ht ...
Percona 数据库
1. Percona介绍 Percona Server由领先的MySQL咨询公司Percona发布. Percona Server是一款独立的数据库产品,其可以完全与MySQL兼容,可以在不更改代码的 ...
Maven项目打包成可执行Jar文件
在使用Maven完成项目以后,如果需要打包成可执行的Jar文件,我们通过eclipse的导出很麻烦,还得指定入口文件的位置,还得说明依赖的jar包,既然都使用Maven了,很重要的一个目的就是让这些繁 ...
mysql主从复制总结
第一步:开启所有MYSQL服务器的BIN日志,每台服务器设置一个唯一的server-id的值(默认是1,一般取IP最后一段) 修改主服务器(master)的my.cnf [mysqld] log-bi ...
初学javaScript推荐工具
对于刚开始学习js的同学,强烈推荐直接使用chrome developer mode,超级方便. 随便打开一个网页,开启开发者模式即可写js代码,不用新建html和js文件即可看到自己写的js代码的结 ...
rsync算法原理和工作流程分析
本文通过示例详细分析rsync算法原理和rsync的工作流程,是对rsync官方技术报告和官方推荐文章的解释.本文不会介绍如何使用rsync命令(见rsync基本用法),而是详细解释它如何实现高效的增 ...
Redis服务搭建与基础功能示例
一.Redis简介 Redis是一个非关系型远程内存数据库,它也是一个Key-value模型的数据库.Redis支持5种数据类型(string.list.set.sorted set.hash),可以 ...

python中urllib的整理

python中urllib的整理的更多相关文章

随机推荐

热门专题