Python requests库如何下载一个图片资源

原文地址https://blog.csdn.net/u011541946/article/details/77700074

前面一篇文章介绍了response对象的一些常用API，也已经提到，我们的重点是对response对象的操作。主要的操作就是数据分析和提取，一般来说，数据有很多种，有字段，有图片，有视频，有音频，凡是html页面能支持的content-type都是数据。只是不同场景下，有不同目的。例如，加入你需要在一个图片网站，爬取一些你敢兴趣的图片。或者你需要在一些招聘网站爬取职位信息，或者，你需要从服务器端下载一个文件。这些事情requests都可以帮你做到。本文，就是简单介绍，如何从网页获取一个图片的过程。

1. 设置我们的场景

打开百度图片搜索，输入selenium，然后找到一个selenium的图片，我们需要把这个图片通过requests下载到本地，图片如下。

这里我们假如说要下载第一张图片。

2. 手动获取图片在服务器上的url

点击打开上面红圈这个图片，记录下这个图片在服务器上的路径。你可以右键这个图片-查看图片，获取到这个路径：https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1504662907&di=2bf9d214dfdc9b0243163fb0a20f1228&imgtype=jpg&er=1&src=http%3A%2F%2Fpic.baike.soso.com%2Fp%2F20140415%2Fbki-20140415104220-671149140.jpg

3. 利用requests.get()方法和response.content方法是否能够打印出图片

import requests

def download_image():

    url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1504068152047&di=8b53bf6b8e5deb64c8ac726e260091aa&imgtype=0&src=http%3A%2F%2Fpic.baike.soso.com%2Fp%2F20140415%2Fbki-20140415104220-671149140.jpg'

    response = requests.get(url)

    print(response.status_code)

    print(response.content)

if __name__ == '__main__':

    download_image()

运行一下，发现请求正确，但是用response.content打印出来是一堆乱码。
200 OK
b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01\x00H\x00H\x00\x00\xff\xd....后面跟着很多类似的乱码一样的数据

现在问题来了，我们怎么样才能把图片下载到本地，用response.content方法是行不通的。我们知道，图片也是文件格式，图片也是一些二进制代码组成。我们把图片当做普通的文件，然后通过字节流的方法，把图片保存到本地。

4.通过字节流方式保存图片

大概的原理是，一个图片是由字节流数据组成，我们可以把图片分层多个字节流数据，加载到内存，然后复制字节流到一个本地路径，最后组合成一张图片。

import requests

def download_image():

    url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1504068152047&di=8b53bf6b8e5deb64c8ac726e260091aa&imgtype=0&src=http%3A%2F%2Fpic.baike.soso.com%2Fp%2F20140415%2Fbki-20140415104220-671149140.jpg'

    response = requests.get(url, stream = True)

    # 这里打开一个空的png文件，相当于创建一个空的txt文件,wb表示写文件

    with open('selenium.png', 'wb') as file:

        # 每128个流遍历一次

        for data in response.iter_content(128):

            # 把流写入到文件，这个文件最后写入完成就是，selenium.png

            file.write(data) # data相当于一块一块数据写入到我们的图片文件中

    print(response.status_code)

if __name__ == '__main__':

    download_image()

运行之后，得到请求状态码是200，而且会在当前这个脚本文件同级目录下生成一个selenium.png的图片。如果你要指定图片保存路径，你可以在open('图片完整路径','wb')，通过这样方式，把图片保存到你想要保存的磁盘路径。上面虽然实现了我们的下载图片的目的，但是有一个问题就是，我们使用完了stream之后，没有立马去关闭，这样会造成内存资源紧张，如果是批量下载很多图片，这个方式是不可取的。

5.换一种方式，及时关闭stream

import requests

from contextlib import closing

def download_image_improve():

    url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1504068152047&di=8b53bf6b8e5deb64c8ac726e260091aa&imgtype=0&src=http%3A%2F%2Fpic.baike.soso.com%2Fp%2F20140415%2Fbki-20140415104220-671149140.jpg'

    response = requests.get(url, stream = True)

    with closing(requests.get(url, stream = True)) as response:

        # 这里打开一个空的png文件，相当于创建一个空的txt文件,wb表示写文件

        with open('selenium1.png', 'wb') as file:

            # 每128个流遍历一次

            for data in response.iter_content(128):

                # 把流写入到文件，这个文件最后写入完成就是，selenium.png

                file.write(data)

if __name__ == '__main__':

    download_image_improve()

运行之后，也会在当前脚本文件所在目录生成一个selenium1.png文件。contextlib.closing()函数是实现在一个代码块之后自动关闭，这里的代码块，就是我们请求下载图片的过程。这篇，已经实现了限定的图片url下载，如果是爬虫，肯定是大量图片下载。上面图片下载可以提取出来，重构成一个方法，在实际爬虫中调用。当然，爬虫中，很多是变量，图片请求url是变量，图片名称和保存路径也是变量。这里不继续讨论，爬虫实现的过程了。

Python requests库如何下载一个图片资源的更多相关文章

python requests库学习笔记（上）
尊重博客园原创精神,请勿转载! requests库官方使用手册地址:http://www.python-requests.org/en/master/:中文使用手册地址:http://cn.pytho ...
Python requests库的使用（一）
requests库官方使用手册地址:http://www.python-requests.org/en/master/:中文使用手册地址:http://cn.python-requests.org/z ...
Python——Requests库的开发者接口
本文介绍 Python Requests 库的开发者接口,主要内容包括: 目录一.主要接口 1. requests.request() 2. requests.head().get().post() ...
使用python requests库写接口自动化测试--记录学习过程中遇到的坑（1）
一直听说python requests库对于接口自动化测试特别合适,但由于自身代码基础薄弱,一直没有实践: 这次赶上公司项目需要,同事小伙伴们一起学习写接口自动化脚本,听起来特别给力,赶紧实践一把: ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
大概看了一天python request源码。写下python requests库发送 get,post请求大概过程。
python requests库发送请求时,比如get请求,大概过程. 一.发起get请求过程:调用requests.get(url,**kwargs)-->request('get', url ...
Python Requests库：HTTP for Humans
Python标准库中用来处理HTTP的模块是urllib2,不过其中的API太零碎了,requests是更简单更人性化的第三方库. 用pip下载: pip install requests 或者git ...
python requests库学习笔记（下）
1.请求异常处理请求异常类型: 请求超时处理(timeout): 实现代码: import requestsfrom requests import exceptions #引入exc ...
python+requests库，接口自动化
1.requests库的使用 requests是python的一个HTTP客户端库,跟urllib,urllib2类似,那为什么要用requests而不用urllib2呢?官方文档中是这样说明的: “ ...

随机推荐

[C++]Qt程式异常崩溃处理技巧(Win)
文章转载来自 http://www.cnblogs.com/lcchuguo/p/5177715.html 作者 lcchuguo https://blog.csdn.net/baid ...
C语言 · 超级玛丽
算法提高超级玛丽时间限制:1.0s 内存限制:256.0MB 问题描述大家都知道"超级玛丽"是一个很善于跳跃的探险家,他的拿手好戏是跳跃,但它一次只能向前跳 ...
Halcon 彩色图片通道分割处理
1.RGB通道:R红色,G绿色,B蓝色:R.G.B各占一个字节,取值范围在0—255:可代表的颜色数256*256*256==2^24 黑色区域是:R=G=B=0; 白色区域是:R=G=B=255 ...
c#判断是否有网络
//调用操作系统API [System.Runtime.InteropServices.DllImport("wininet")] private extern static bo ...
20模板方法模式TemplateMethod
一.什么是模板方法模式 Template Method模式也叫模板方法模式,是行为模式之一,它把具有特定步骤算法中的某些必要的处理委让给抽象方法,通过子类继承对抽象方法的不同实现改变整个算法的行 ...
JS中实现种子随机数
参数: 详谈JS中实现种子随机数及作用我在Egret里这么写... class NumberTool{ /**种子(任意默认值5)*/ public static seed:number = 5; ...
vue2.0 源码解读(一)
又看完一遍中文社区的教程接下来开始做vue2.0的源码解读了! 注:解读源码时一定要配合vue2.0的生命周期和API文档一起看 vue2.0的生命周期分为4主要个过程 create. 创建---实例 ...
php(数组方法
什么是数组? 数组就是一组数据的集合其表现形式就是内存中的一段连续的内存地址数组名称其实就是连续内存地址的首地址关于js中的数组特点数组定义时无需指定数据类型数组定义时可以无需指定数组长度 ...
C语言编程（多线程）
C语言中多线程编程包括的文件:#include<pthread.h>(linux环境下) pthread_t //线程函数返回类型 pthread_mutrex_t //互斥锁类型 int ...
装饰者模式在JDK和Mybatis中是怎么应用的？ java io包
https://mp.weixin.qq.com/s/-bj71dBylRHRqiPorOpVyg 原创: 李立敏 Java识堂 3月10日有一个卖煎饼的店铺找上了你,希望你能给她们的店铺开发一个收 ...

Python requests库如何下载一个图片资源

Python requests库如何下载一个图片资源的更多相关文章

随机推荐

热门专题