python图片爬虫 - 批量下载unsplash图片

前言

unslpash绝对是找图的绝佳场所, 但是进网站等待图片加载真的令人捉急, 仿佛是一场拼RP的战争然后就开始思考用爬虫帮我批量下载, 等下载完再挑选, 操作了一下不算很麻烦, 顺便也给大家提供一个粗糙的批量下载图片的思路.

分析

进入网站发现不存在翻页, 一直下滑就会一直就内容, 考虑是Ajar

右键, 进入检查->NetWork->XHR, 查看一下页面的规律 https://unsplash.com/napi/search/photos?query=输入的查询关键字&xp=&per_page=每页的图像个数&page=第几页
获取了页面URL之后再来看看每次下载的图片的地址的规律https://images.unsplash.com/photo-1514883212130-343c0e4bd349?ixlib=rb-1.2.1&q=85&fm=jpg&crop=entropy&cs=srgb&dl=anh-nguyen-FZZkQZDQCtw-unsplash.jpg看起来很复杂的亚子, 先不管, 去响应内容里面看看有没有什么能用的, 来构造出这个复杂的URL
分析响应内容

每一条都对应着该页的一个图片信息, 我们点开第一个看看

可以看到第三行中有一个名为id的键对应的值为FZZkQZDQCtw, 在下载的URL中出来了.

再往下翻, user中的name对应的值是不是和下载的URL中出现的anh-nguyen很像?只是分隔符不同.

距离拼出来下载URL已经成功了一半, 前面还有一大串东西没有找出来, 再去urls中找找

可以发现第一个full对应的url和下载url相似程度极高, 但是又多出来了一部分, 这个直接切片即可

至此构造下载URL需要的碎片已全部集齐, 马上就可以召唤神龙.

程序

import requests

from selenium import webdriver

import time

driver = webdriver.Chrome()

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',

}

# 以搜索关键字job为例

base_url = 'https://unsplash.com/napi/search/photos?query=job&xp=&per_page=20&page=2'

response = requests.get(base_url, headers=headers)

data = response.json()

# 获取响应内容

def get_data(base_url):

    response = requests.get(base_url, headers=headers)

    data = response.json()

    return data

# 从相应内容中构造下载图片的url

def download(d):

    datas = d.get('results')

    for data in datas:

        id = data.get('id')

        t_url = data.get('urls').get('full')

        t = t_url.index('ixid=')

        t_url = t_url[:t]

        name = data.get('user').get('name')

        name = name.replace(" ", '-')

        url = t_url + '&dl=' + name + '-' + id + '-unsplash.jpg'

        # 自动模拟浏览器下载

        driver.get(url)

data = get_data(base_url)

download(data)

# 可能最后的几张图片无法被下载就直接关闭浏览器了

time.sleep(30)

driver.quit()

测试

完美运行

拓展

既然已经发现了页面url的规律, 我们可以自己构造一个url, 一页可以多显示一些图片, 再进行下载.

def change_url(keyword, pre_page, page):

    base_url = 'https://unsplash.com/napi/search/photos?query=' + keyword + '&xp=&per_page=' + str(pre_page) + '&page=' + str(page)

    return base_url

python图片爬虫 - 批量下载unsplash图片的更多相关文章

python多线程爬虫+批量下载斗图啦图片项目（关注、持续更新）
python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片使用工具:requests ...
Python随笔--爬虫（下载妹子图片）
批量下载网站图片的Python实用小工具
定位本文适合于熟悉Python编程且对互联网高清图片饶有兴趣的筒鞋.读完本文后,将学会如何使用Python库批量并发地抓取网页和下载图片资源.只要懂得如何安装Python库以及运行Python程序, ...
批量下载网站图片的Python实用小工具（下）
引子在批量下载网站图片的Python实用小工具一文中,讲解了开发一个Python小工具来实现网站图片的并发批量拉取.不过那个工具仅限于特定网站的特定规则,本文将基于其代码实现,开发一个更加通用的 ...
python多线程批量下载远程图片
python多线程使用场景:多线程采集, 以及性能测试等 . 数据库驱动类-简单封装下 mysqlDriver.py #!/usr/bin/python3 #-*- coding: utf-8 -*- ...
C++ 根据图片url 批量下载图片
最近需要用到根据图片URL批量下载到本地的操作.查找了相关资料,记录在这儿. 1.首先在CSV文件中提取出url ifstream fin("C:\\Users\\lenovo\\Deskt ...
Python + Selenium +Chrome 批量下载网页代码修改【新手必学】
Python + Selenium +Chrome 批量下载网页代码修改主要修改以下代码可以调用本地的 user-agent.txt 和 cookie.txt来达到在登陆状态下批量打开并下载网页, ...
Python爬虫实战：批量下载网站图片
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: GitPython PS:如有需要Python学习资料的小伙伴可以 ...
[记录][python]python爬虫，下载某图片网站的所有图集
随笔仅用于学习交流,转载时请注明出处,http://www.cnblogs.com/CaDevil/p/5958770.html 该随笔是记录我的第一个python程序,一个爬去指定图片站点的所有图集 ...

随机推荐

002_Java语言基础
------------恢复内容开始------------ 存储的基本单元:byte: 1 byte = 8 bit(位) 1 KB = 1024 byte 1 MB = 1024 KB 1 GB ...
Javascript 垃圾回收方法
Javascript 垃圾回收方法标记清除(mark and sweep) 这是 JavaScript 最常见的垃圾回收方式,当变量进入执行环境的时候,比如函数中声明一个变量,垃圾回收器将其标记为& ...
【Eureka】服务发现调用
[Eureka]服务发现调用转载:https://www.cnblogs.com/yangchongxing/p/10779832.html 1.使用 Netfix Feign 客户端调用服务首先 ...
曹工说Spring Boot源码（3）-- 手动注册Bean Definition不比游戏好玩吗，我们来试一下
写在前面的话相关背景及资源: 曹工说Spring Boot源码系列开讲了(1)-- Bean Definition到底是什么,附spring思维导图分享工程代码地址思维导图地址工程结构图: 大 ...
Nginx安装（我觉得我这篇可能是全网最清晰的一篇安装步骤了）
原文内容来自于LZ(楼主)的印象笔记,如出现排版异常或图片丢失等问题,可查看当前链接:https://app.yinxiang.com/shard/s17/nl/19391737/46aadb8f-5 ...
iOS-关于一些取整方式
1. 直接转化 float k = 1.6; int a = (int)k; NSLog(@"a = %d",a); 输出结果是1,(int) 是强制类型转化,直接丢弃浮点数的小数 ...
java8新特性,你有用起来了吗？(精编)
2019年9月19日java13已正式发布,感叹java社区强大,经久不衰.由于国内偏保守,新东西总要放一放,让其他人踩踩坑,等稳定了才会去用.并且企业目的还是赚钱,更不会因为一个新特性去重构代码 ...
oopday02(面向对象-构造方法&静态static)
面向对象之封装 01_面向对象(构造方法Constructor概述和格式) * A:构造方法概述和作用 * 给对象的数据(属性)进行初始化 * B:构造方法格式特点 * a:方法名与类名相同(大小也要 ...
JsonPath基本用法
JsonPath基本用法本文主要介绍JsonPath的基本语法,并演示如何在Newtonsoft.Json中进行使用. JsonPath的来源看它的名字你就能知道,这家伙和JSON文档有关系,正如 ...
java之生产者和消费者问题
package testThread; public class Test3 { public static void main(String[] args) { Clerk c = new Cler ...

python图片爬虫 - 批量下载unsplash图片

前言

分析

程序

测试

拓展

python图片爬虫 - 批量下载unsplash图片的更多相关文章

随机推荐

热门专题