使用python批量爬取wallhaven.cc壁纸站壁纸

偶然发现https://wallhaven.cc/这个壁纸站的壁纸还不错，尤其是更新比较频繁，用python写个脚本爬取

点latest，按照更新先后排序，获得新地址，发现地址是分页展示的，每一页24张

本案例使用xpath爬虫爬取数据，先分析网页，使用浏览器查看元素工具，快速定位到图片元素所在位置，且存在规律性

首先爬取一级页面获取图片页面地址（点了上图箭头的地址会打开图片详细页，并非图片真实地址），xpath提取数据的代码如下

html = requests.get(url=url1, headers=headers, timeout=5.0).text

data = etree.HTML(html)

li_list = data.xpath('.//div[@id="thumbs"]//@href')

执行后爬取出一连串的地址信息

对里面包含“latest”的地址进行剔除，这个地址非图片地址，然后再循环请求图片地址，获取真实图片地址

        for li in li_list:

            if 'latest' in li:

                continue

            else:

                html_li = requests.get(url=li, headers=headers, timeout=5.0).text

                data = etree.HTML(html_li)

                li_add = data.xpath('//*[@id="wallpaper"]//@src')

                li_add = li_add[0]

                print(li_add)

执行后输出真实图片地址

把这些地址写到一个txt文本内，然后通过迅雷去下载，效率会高一些，当然也可以爬取后执行使用python下载，单线程下蛮久的。先上保存到txt内的全部代码

# -*- codeing = utf-8 -*-

import requests

from lxml import etree

import time

import random

import time

def getBZ():

    url='https://wallhaven.cc/latest?page={}'

    # 翻页10页

    for page in range(1, 10):

        headers = {

            # 'referer': 'https://wallhaven.cc/',

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',

        }

        print(time.strftime("%H:%M:%S"))

        print("第{}页".format(page))

        url1 = url.format(page)

        print(url1)

        # 一级页面请求

        html = requests.get(url=url1, headers=headers).text

        data = etree.HTML(html)

        li_list = data.xpath('.//div[@id="thumbs"]//@href')

        for li in li_list:

            if 'latest' in li or 'top'in li:

                continue

            else:

                print(li)

                html_li = requests.get(url=li, headers=headers)

                print(html_li.status_code)

                if html_li.status_code == 404 or html_li.status_code == 429:#判断，如果响应失败跳过这次数据抓取

                    continue

                else:

                    data = etree.HTML(html_li.text)

                    li_add = data.xpath('//*[@id="wallpaper"]//@src')

                    li_add = li_add[0]

                    with open('1538.txt', 'a',encoding='utf-8') as w:

                        w.write(li_add+'\n')

                        w.close()

                    b = random.randint(1,2)#随机从1到2内取一个整数值

                    print("等待"+str(b)+"秒")

                    time.sleep(b)#把随机取出的整数值传到等待函数中

getBZ()

使用python批量爬取wallhaven.cc壁纸站壁纸的更多相关文章

从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...
python 批量爬取四级成绩单
使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...
python批量爬取动漫免费看！！
实现效果运行环境 IDE VS2019 Python3.7 Chrome.ChromeDriver Chrome和ChromeDriver的版本需要相互对应先上代码,代码非常简短,包含空行也才50 ...
用Python批量爬取优质ip代理
前言有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助.今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理. 一.爬虫分析首先看看今天要爬取的网址 ...
python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一.环境配置 1.安装selenium 2.使用正确的谷歌浏览器驱动二.使用步骤 1.加载chromedriver.exe 2.设置是否开启可视化界面 3.输入关键词.下载图片数.图 ...
python批量爬取文档
最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接: 再读txt文档构造url_list列表,利用readlines返回以行为单 ...
python批量爬取猫咪图片
不多说直接上代码首先需要安装需要的库,安装命令如下 pip install BeautifulSoup pip install requests pip install urllib pip ins ...
使用Python批量爬取美女图片
运行截图实列代码: from bs4 import BeautifulSoup import requests,re,os headers = { 'User-Agent': 'Mozilla/5. ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

随机推荐

一键部署Palworld幻兽帕鲁服务器最佳实践
本文基于天翼云通用型云主机,为您介绍通过镜像一键部署Palworld幻兽帕鲁服务器的具体操作. Ubuntu系统 1.按需购买云主机.通过Palworld专属活动优惠页一键购买开通云主机. 根据需要选 ...
云数据库与Web网站：构建高效、可扩展的网络应用
本文分享自天翼云开发者社区<云数据库与Web网站:构建高效.可扩展的网络应用>,作者:3****m 一.云数据库与Web网站的关系云数据库与Web网站之间存在着密切的关系.Web网站需要 ...
操作系统发展历史与Linux
操作系统发展历史与Linux 随着计算机技术的迅猛发展,操作系统作为计算机系统的核心软件,经历了从单一到多样.从封闭到开放的演变过程.从最初的批处理系统,到分时操作系统的兴起,再到个人计算机操作系统的 ...
并发编程 - 线程同步（六）之锁lock
通过前面对Interlocked类的学习,相信大家对线程同步机制有了更深的理解,今天我们将继续需要另一种同步机制--锁lock. lock是C#语言中的关键字,是线程同步机制的一种简单的互斥锁实现方式 ...
Luogu P2540 NOIP2015提高组斗地主加强版题解 [ 紫 ] [ 深搜 ] [ 剪枝 ]
斗地主:一步一步推性质就能做出来的剪枝题. 这题思路和小木棒的剪枝思路极其相似,剪枝的角度都差不多. 其实大部分搜索剪枝题都是先观察性质,列出性质后选择几个比较关键且代码好写的性质进行剪枝,特别要注意 ...
JAVA基础环境配置指南（简洁版）
1.安装JDK 官网下载后直接安装配置环境变量: 添加 JAVA_HOME 变量名:JAVA_HOME 变量值:C:\Program Files (x86)\Java\jdk1.8.0_91 // ...
无分类无tag
1 2 3
最优化算法动量法Momentum
动量法的结论: 1.动量方法主要是为了解决Hessian矩阵病态条件问题(直观上讲就是梯度高度敏感于参数空间的某些方向)的. 2.加速学习 3.一般将参数设为0.5,0.9,或者0.99,分别表示最大 ...
小米10至尊纪念版—官方稳定版一键 TWRE刷入+面具ROOT
1.解锁BL http://www.miui.com/unlock/index.html 2.备份+关机(虽然不会清理数据,但是小心为上) 3.音量下+开机进入fastboot模式 4.解压压缩包,运 ...
Flume - [04] Hive Sink
一.概述 HIVE Sink 将包含分割文本或JSON数据的事件直接流到Hive表或分区中.事件是使用Hive事务编写的.一旦一组事件被提交到Hive,它们就会立即对hive查询可见.流到其中的分 ...

使用python批量爬取wallhaven.cc壁纸站壁纸

使用python批量爬取wallhaven.cc壁纸站壁纸的更多相关文章

随机推荐

热门专题