Python requests库如何下载一个图片资源
原文地址https://blog.csdn.net/u011541946/article/details/77700074
前面一篇文章介绍了response对象的一些常用API,也已经提到,我们的重点是对response对象的操作。主要的操作就是数据分析和提取,一般来说,数据有很多种,有字段,有图片,有视频,有音频,凡是html页面能支持的content-type都是数据。只是不同场景下,有不同目的。例如,加入你需要在一个图片网站,爬取一些你敢兴趣的图片。或者你需要在一些招聘网站爬取职位信息,或者,你需要从服务器端下载一个文件。这些事情requests都可以帮你做到。本文,就是简单介绍,如何从网页获取一个图片的过程。
1. 设置我们的场景
打开百度图片搜索,输入selenium,然后找到一个selenium的图片,我们需要把这个图片通过requests下载到本地,图片如下。
这里我们假如说要下载第一张图片。
2. 手动获取图片在服务器上的url
点击打开上面红圈这个图片,记录下这个图片在服务器上的路径。你可以右键这个图片-查看图片,获取到这个路径:https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1504662907&di=2bf9d214dfdc9b0243163fb0a20f1228&imgtype=jpg&er=1&src=http%3A%2F%2Fpic.baike.soso.com%2Fp%2F20140415%2Fbki-20140415104220-671149140.jpg
3. 利用requests.get()方法和response.content方法是否能够打印出图片
import requests def download_image(): url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1504068152047&di=8b53bf6b8e5deb64c8ac726e260091aa&imgtype=0&src=http%3A%2F%2Fpic.baike.soso.com%2Fp%2F20140415%2Fbki-20140415104220-671149140.jpg' response = requests.get(url)
print(response.status_code)
print(response.content) if __name__ == '__main__':
download_image()
运行一下,发现请求正确,但是用response.content打印出来是一堆乱码。
200 OK
b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01\x00H\x00H\x00\x00\xff\xd....后面跟着很多类似的乱码一样的数据
现在问题来了,我们怎么样才能把图片下载到本地,用response.content方法是行不通的。我们知道,图片也是文件格式,图片也是一些二进制代码组成。我们把图片当做普通的文件,然后通过字节流的方法,把图片保存到本地。
4.通过字节流方式保存图片
大概的原理是,一个图片是由字节流数据组成,我们可以把图片分层多个字节流数据,加载到内存,然后复制字节流到一个本地路径,最后组合成一张图片。
import requests def download_image(): url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1504068152047&di=8b53bf6b8e5deb64c8ac726e260091aa&imgtype=0&src=http%3A%2F%2Fpic.baike.soso.com%2Fp%2F20140415%2Fbki-20140415104220-671149140.jpg' response = requests.get(url, stream = True) # 这里打开一个空的png文件,相当于创建一个空的txt文件,wb表示写文件
with open('selenium.png', 'wb') as file:
# 每128个流遍历一次
for data in response.iter_content(128):
# 把流写入到文件,这个文件最后写入完成就是,selenium.png
file.write(data) # data相当于一块一块数据写入到我们的图片文件中 print(response.status_code) if __name__ == '__main__':
download_image()
运行之后,得到请求状态码是200,而且会在当前这个脚本文件同级目录下生成一个selenium.png的图片。如果你要指定图片保存路径,你可以在open('图片完整路径','wb'),通过这样方式,把图片保存到你想要保存的磁盘路径。上面虽然实现了我们的下载图片的目的,但是有一个问题就是,我们使用完了stream之后,没有立马去关闭,这样会造成内存资源紧张,如果是批量下载很多图片,这个方式是不可取的。
5.换一种方式,及时关闭stream
import requests
from contextlib import closing def download_image_improve(): url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1504068152047&di=8b53bf6b8e5deb64c8ac726e260091aa&imgtype=0&src=http%3A%2F%2Fpic.baike.soso.com%2Fp%2F20140415%2Fbki-20140415104220-671149140.jpg' response = requests.get(url, stream = True)
with closing(requests.get(url, stream = True)) as response:
# 这里打开一个空的png文件,相当于创建一个空的txt文件,wb表示写文件
with open('selenium1.png', 'wb') as file:
# 每128个流遍历一次
for data in response.iter_content(128):
# 把流写入到文件,这个文件最后写入完成就是,selenium.png
file.write(data) if __name__ == '__main__':
download_image_improve()
运行之后,也会在当前脚本文件所在目录生成一个selenium1.png文件。contextlib.closing()函数是实现在一个代码块之后自动关闭,这里的代码块,就是我们请求下载图片的过程。这篇,已经实现了限定的图片url下载,如果是爬虫,肯定是大量图片下载。上面图片下载可以提取出来,重构成一个方法,在实际爬虫中调用。当然,爬虫中,很多是变量,图片请求url是变量,图片名称和保存路径也是变量。这里不继续讨论,爬虫实现的过程了。
Python requests库如何下载一个图片资源的更多相关文章
- python requests库学习笔记(上)
尊重博客园原创精神,请勿转载! requests库官方使用手册地址:http://www.python-requests.org/en/master/:中文使用手册地址:http://cn.pytho ...
- Python requests库的使用(一)
requests库官方使用手册地址:http://www.python-requests.org/en/master/:中文使用手册地址:http://cn.python-requests.org/z ...
- Python——Requests库的开发者接口
本文介绍 Python Requests 库的开发者接口,主要内容包括: 目录 一.主要接口 1. requests.request() 2. requests.head().get().post() ...
- 使用python requests库写接口自动化测试--记录学习过程中遇到的坑(1)
一直听说python requests库对于接口自动化测试特别合适,但由于自身代码基础薄弱,一直没有实践: 这次赶上公司项目需要,同事小伙伴们一起学习写接口自动化脚本,听起来特别给力,赶紧实践一把: ...
- Python:requests库、BeautifulSoup4库的基本使用(实现简单的网络爬虫)
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
- 大概看了一天python request源码。写下python requests库发送 get,post请求大概过程。
python requests库发送请求时,比如get请求,大概过程. 一.发起get请求过程:调用requests.get(url,**kwargs)-->request('get', url ...
- Python Requests库:HTTP for Humans
Python标准库中用来处理HTTP的模块是urllib2,不过其中的API太零碎了,requests是更简单更人性化的第三方库. 用pip下载: pip install requests 或者git ...
- python requests库学习笔记(下)
1.请求异常处理 请求异常类型: 请求超时处理(timeout): 实现代码: import requestsfrom requests import exceptions #引入exc ...
- python+requests库,接口自动化
1.requests库的使用 requests是python的一个HTTP客户端库,跟urllib,urllib2类似,那为什么要用requests而不用urllib2呢?官方文档中是这样说明的: “ ...
随机推荐
- vscode打造最佳的markdown编辑器
参考:https://www.jianshu.com/p/18876655b452 在macos下也设置成功:
- uglifyjs 合并压缩 js, clean-css 合并压缩css
本文主要介绍如何通过CLI命令行(也就是终端或者cmd打开的那个shell窗口)实现 js和 css 的合并压缩. uglifyjs 合并压缩 js: 1.安装node 这一步就不多说了,下载node ...
- C# 在while循环中new的对象
一: 问:那每次循环都会new一个A?那内存不是会满吗?还是说要把这个初始化对象的动作放到循环外面的写法会比较好? while(true) { A a = new A(); ... sleep(100 ...
- Servlet、Tomcat访问(access)日志配置、记录Post请求参数
一.运行环境: Maven:3.5.2(点击下载) ,下载页 Tomcat:8.5.29(点击下载) ,下载页 JDK:jdk1.7.0_80(点击下载) ,下载页 MavenDependency: ...
- Spark SQL configuration
# export by: spark.sql("SET -v").show(n=200, truncate=False) key value meaning spark.sql.a ...
- modified: xxx(modified content, untracked content)
当运行git status的时候提示如下: modified: xxx(modified content, untracked content) 我们会很本能的直接执行 add .commit .pu ...
- Sqlalchemy model 文件自动生成
自动生成Sqlalchemy的models文件的包早用过了,有个字段类型做了改动,调了得10几分钟才搞定.记录下自动生成models文件的python包sqlacodegen sqlacodegen已 ...
- JS 浅谈函数柯里化,不明觉厉
在计算机科学中,柯里化(Currying)是把接受多个参数的函数变换成接受一个单一参数(最初函数的第一个参数)的函数,并且返回接受余下的参数且返回结果的新函数的技术.这个技术由 Christopher ...
- 联想R720面板右下部分按压后和上面按键串联了
如图所示的位置,一用力按压,就会触发键盘的按键. 前提: 本人刚刚加装了内存条,内存条是京东买的 十铨(Team) DDR4 2400 8GB 笔记本内存,安装完内存以后,发现电脑出了这样的问题. 解 ...
- maven 私服同步无法获取依赖的pom.xml的依赖
项目中引入了依赖: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hado ...